La inteligencia artificial genera un lenguaje ofensivo que las propias máquinas son incapaces de corregir, según un estudio
Una reciente investigación de DeepMind, una empresa inglesa de desarrollo de IA, revela fuertes disparidades entre el lenguaje tóxico detectado por humanos en textos producidos por máquinas y lo que estas son capaces de identificar como tal.
Al tratar de corregir su toxicidad, algunos sistemas identifican multitud de falsos positivos: erróneamente, marcan palabras como “gay” como necesariamente ofensivas sin considerar el contexto.
Se trata de un problema con difícil solución, pues, tal y como reconoce el propio informe, algunos modelos automáticos de mitigación de lenguaje tóxico en IA se limitan a suprimir todo lo relacionado con las minorías sociales.
Se esperan grandes cosas de la IA en los próximos años. La explosión de esta tecnología hace algo más de un lustro trajo consigo la promesa de que, en no mucho tiempo, los ordenadores no solo podrán llevar a cabo las tareas rutinarias que ya hacen, sino que, de algún modo, podrán pensar.
Esto abre para las empresas un abanico de posibilidades casi infinito. Entre estas destacó pronto la idea de que los ordenadores, que hasta ahora solo han servido de soporte para que los humanos escriban con ellos, también generen sus propios textos.
Departamentos enteros de atención al cliente gestionados por máquinas que no cobran, no necesitan trabajar en turnos de 8 horas y, sobre todo, pueden estar siempre disponibles ante cualquier incidencia.
Con esta imagen en la cabeza, empresas de todo el mundo se han lanzado ya a desarrollar lo que se conoce como procesamiento de lenguaje natural (PNL, por sus siglas en inglés), generadores artificiales de texto que, alimentados por escritos humanos, son capaces de reproducirlo.
Pero la llegada del invento, que en 2014 parecía más o menos inminente, se está complicando. El último gran problema lo ha detectado en una investigación DeepMind, una empresa inglesa de desarrollo de IA.
La IA se pasa de censora con sus propios textos
Según el informe que la empresa acaba de publicar en arxiv.org, un repositorio de artículos científicos que están aún a la espera de las pertinentes revisiones, los generadores de texto impulsados por IA no solo generan lenguaje ofensivo para minorías de todo tipo, algo que hace tiempo que ya se sabe, sino que además tienen notorias dificultades a la hora de detectarlo.
Este lenguaje ofensivo tiene un origen claro: los propios sesgos propios del habla humana. Dado que los textos con los que se enseña a la IA están escritos por personas y estos a su vez son reflejo de las dinámicas sociales, estas dejan su impronta en los algoritmos.
Curiosamente, el problema no es que los ordenadores no detecten lenguaje tóxico. Más bien al contrario, la principal dificultad que está teniendo la IA es que, en su intento por corregir los sesgos que provienen de los textos que tratan de imitar, van demasiado lejos en su identificación de lo que es lenguaje ofensivo.
Salvando las distancias, se trata de algo parecido a la ultracorrección, un fenómeno lingüístico que se produce cuando un hablante, en un intento por ajustarse con exactitud a la norma, acaba cometiendo errores de bulto como decir, en castellano, “bacalado” en vez de “bacalao”.
Como si se tratara del censor más implacable, la IA, dice el informe, al corregirse, tiende a marcar como tóxicas ciertas expresiones sin considerar el contexto en el que aparecen.
“Por ejemplo, observamos que el 30,2% de las generaciones de trainfilter [un generador de texto alimentado por IA] con una puntuación de toxicidad por encima de 0,5 mencionan la palabra gay”, especifica el estudio.
En la práctica, esto significa que el ordenador identifica como potencialmente ofensiva toda oración donde aparezca esta palabra, aunque la frase, por ejemplo, reivindique los derechos del colectivo LGTBI.
La solución de la IA, por ahora, se reduce a hacer desaparecer a todo tipo de colectivos
Los expertos hablan de que se trata de un problema de muy difícil solución. Lo es, sobre todo, porque, para corregirse, los intentos de los propios modelos de generación de textos automáticos se reducen muchas veces a suprimir estas expresiones. Esto trae dos consecuencias, a cada cual peor.
La primera es que el texto se desnaturaliza. Cuanto más filtros se aplican para evitar el lenguaje tóxico, dice el estudio, más artificiales resultan las producciones, que tienden a presentar extrañas torsiones lingüísticas para evitar ciertas palabras.
La segunda consecuencia es que, al hacerlo, la IA corta por lo sano: en sus textos no se habla de las minorías. En su afán por ser políticamente correctas, las máquinas termina siendo ofensivas con todos los colectivos sociales minoritarios al hacerlos desaparecer de su vocabulario.
“Aunque las estrategias básicas de intervención pueden optimizar eficazmente las métricas, esto se produce a costa de la reducción de la cobertura de los LM (modelos lingüísticos) tanto para los textos sobre grupos marginados como para los dialectos de los mismos”, afirma DeepMind.
“Además, descubrimos que los calificadores humanos a menudo no están de acuerdo con las puntuaciones automáticas de toxicidad altas después de fuertes intervenciones de reducción de la toxicidad”.