Software para detectar textos generados por IA falla contra estudiantes cuyo primer idioma no es el inglés

Ago 21, 2023 | Privacidad

Un estudio realizado por la Universidad de Stanford reveló que las herramientas usadas para detectar textos generados por sistemas de inteligencia artificial generativa tienen un sesgo bastante claro en contra de personas cuyo idioma principal no es el inglés, informó el medio digital The Markup.

De acuerdo con el sitio web, un profesor de la Universidad Johns Hopkins recibió una alerta de Turnitin, un programa informático utilizado por más de 16 mil instituciones académicas de todo el mundo para detectar si hay plagio entre los textos entregados por sus estudiantes, y desde abril de este año, para identificar trabajos generados por inteligencia artificial. 

La herramienta marcó más de 90% de un trabajo como generado con ayuda de IA, por lo que el profesor notificó el hallazgo al estudiante, quien mostró todas las pruebas de su investigación, notas y bibliografía usada en la creación del texto, por lo que se podía ver que el software había cometido un error. 

En otra ocasión, el profesor trabajó directamente con un estudiante en el esquema y borradores de un trabajo, que luego Turnitin marcó la mayor parte del trabajo generada por IA. Este hecho se repitió algunas veces más durante el semestre, hasta que el profesor encontró el patrón: la herramienta de Turnitin era mucho más propensa a marcar los escritos de los estudiantes internacionales como generados por IA.

Fue ahí cuando un grupo de informáticos de Stanford diseñó un experimento para comprender mejor la fiabilidad de los detectores de IA en los escritos de hablantes no nativos de inglés. Aunque no realizaron el experimento con Turnitin, descubrieron que otros siete detectores de IA marcaban los escritos de hablantes no nativos como generados por IA el 61% de las veces, error que casi nunca cometían cuando evaluaban la escritura de hablantes del inglés como primera lengua.

El problema surge debido a que los detectores de IA tienden a estar programados para marcar los escritos como generados por inteligencia artificial cuando la elección de palabras es predecible y las frases son más sencillas, algo que los hablantes no nativos de inglés suelen hacer debido al vocabulario menos amplio y una menor comprensión de la gramática compleja que en su lengua materna. 

Lo mismo ocurre con ChatGPT, ya que los sistemas de inteligencia artificial generativa imitan la escritura humana analizando todos los datos procesados y elaborando frases con las palabras y frases más comunes. Aunque los detectores de IA no están específicamente entrenados para detectar la escritura menos compleja, las herramientas aprenden a hacerlo viendo una y otra vez que la escritura generada por la IA sigue este patrón. 

“El diseño de muchos detectores de GPT discrimina intrínsecamente a los autores no nativos, sobre todo a los que presentan una diversidad lingüística y una elección de palabras restringidas”, explica Weixin Liang, uno de los autores del estudio de Stanford. 

Después del lanzamiento de ChatGPT en 2022, cuando la herramienta se volvió tremendamente popular, las instituciones académicas comenzaron a plantearse la posibilidad de que muchos estudiantes usaran el programa para hacer trampa en sus trabajos, por lo que empezaron a usar con mayor frecuencia programas que podían detectar esta actividad.
A lo largo de los años, se ha documentado que el uso de herramientas basadas en la llamada “inteligencia artificial” suele replicar sesgos, como softwares de reclutamiento que discriminan a personas con discapacidad o programas para pruebas académicas que tienen problemas para reconocer a personas no blancas.

Software para detectar textos generados por IA falla contra estudiantes cuyo primer idioma no es el inglés.

Imagen: (CC-BY) Gibrán Aquino

Publicaciones relacionadas

La Unión Europea llega a un acuerdo para mejorar las condiciones laborales de trabajadores en plataformas digitales

La Unión Europea llega a un acuerdo para mejorar las condiciones laborales de trabajadores en plataformas digitales

El Parlamento Europeo y el Consejo de la Unión Europea han alcanzado un acuerdo provisional sobre una directiva para mejorar las condiciones laborales de las personas trabajadoras en plataformas digitales. La directiva representa un esfuerzo legislativo de la Unión Europea por reglamentar la gestión algorítmica y establecer condiciones laborales mínimas.

Continúa impune el uso de Pegasus, a un año de las nuevas denuncias

Continúa impune el uso de Pegasus, a un año de las nuevas denuncias

Se cumple un año de que se diera a conocer un nuevo ataque digital perpetrado en contra del Centro de Derechos Humanos Miguel Agustín Pro Juárez (Centro Prodh), mediante el uso del software espía Pegasus y, pese a que la denuncia fue debidamente presentada, al día de hoy no se han dado pasos relevantes para la investigación y sanción de estos actos.