Un estudio realizado por la Universidad de Stanford reveló que las herramientas usadas para detectar textos generados por sistemas de inteligencia artificial generativa tienen un sesgo bastante claro en contra de personas cuyo idioma principal no es el inglés, informó el medio digital The Markup.
De acuerdo con el sitio web, un profesor de la Universidad Johns Hopkins recibió una alerta de Turnitin, un programa informático utilizado por más de 16 mil instituciones académicas de todo el mundo para detectar si hay plagio entre los textos entregados por sus estudiantes, y desde abril de este año, para identificar trabajos generados por inteligencia artificial.
La herramienta marcó más de 90% de un trabajo como generado con ayuda de IA, por lo que el profesor notificó el hallazgo al estudiante, quien mostró todas las pruebas de su investigación, notas y bibliografía usada en la creación del texto, por lo que se podía ver que el software había cometido un error.
En otra ocasión, el profesor trabajó directamente con un estudiante en el esquema y borradores de un trabajo, que luego Turnitin marcó la mayor parte del trabajo generada por IA. Este hecho se repitió algunas veces más durante el semestre, hasta que el profesor encontró el patrón: la herramienta de Turnitin era mucho más propensa a marcar los escritos de los estudiantes internacionales como generados por IA.
Fue ahí cuando un grupo de informáticos de Stanford diseñó un experimento para comprender mejor la fiabilidad de los detectores de IA en los escritos de hablantes no nativos de inglés. Aunque no realizaron el experimento con Turnitin, descubrieron que otros siete detectores de IA marcaban los escritos de hablantes no nativos como generados por IA el 61% de las veces, error que casi nunca cometían cuando evaluaban la escritura de hablantes del inglés como primera lengua.
El problema surge debido a que los detectores de IA tienden a estar programados para marcar los escritos como generados por inteligencia artificial cuando la elección de palabras es predecible y las frases son más sencillas, algo que los hablantes no nativos de inglés suelen hacer debido al vocabulario menos amplio y una menor comprensión de la gramática compleja que en su lengua materna.
Lo mismo ocurre con ChatGPT, ya que los sistemas de inteligencia artificial generativa imitan la escritura humana analizando todos los datos procesados y elaborando frases con las palabras y frases más comunes. Aunque los detectores de IA no están específicamente entrenados para detectar la escritura menos compleja, las herramientas aprenden a hacerlo viendo una y otra vez que la escritura generada por la IA sigue este patrón.
“El diseño de muchos detectores de GPT discrimina intrínsecamente a los autores no nativos, sobre todo a los que presentan una diversidad lingüística y una elección de palabras restringidas”, explica Weixin Liang, uno de los autores del estudio de Stanford.
Después del lanzamiento de ChatGPT en 2022, cuando la herramienta se volvió tremendamente popular, las instituciones académicas comenzaron a plantearse la posibilidad de que muchos estudiantes usaran el programa para hacer trampa en sus trabajos, por lo que empezaron a usar con mayor frecuencia programas que podían detectar esta actividad.
A lo largo de los años, se ha documentado que el uso de herramientas basadas en la llamada “inteligencia artificial” suele replicar sesgos, como softwares de reclutamiento que discriminan a personas con discapacidad o programas para pruebas académicas que tienen problemas para reconocer a personas no blancas.
Imagen: (CC-BY) Gibrán Aquino