Es posible identificar personas a partir de datos anonimizados, concluye estudio

Jul 25, 2019 | Privacidad

Anonimizar las bases de datos ya no es una garantía para proteger la privacidad de las personas, concluye un estudio realizado en la Universidad Católica de Louvain y la Escuela Imperial de Londres, publicado en la revista Nature Communications.

En la investigación, los autores citan diversos casos en los que individuos han sido reidentificados en bases de datos anonimizadas, como un caso en 2016 en el que unos periodistas identificaron políticos en una base de historiales de búsqueda anonimizada de tres millones de ciudadanos alemanes. También señalan que se han podido reidentificar individuos en bases sobre viajes en taxi en Nueva York, uso de bicicletas compartidas en Londres, así como datos de uso de celulares y tarjetas de crédito.

Sin embargo, quienes recaban y venden estos datos aseguran que, además de anonimizar los datos, las bases nunca se dan completas, por lo que aún cuando se encuentre una coincidencia entre una persona y la base de datos, no existe certeza estadística de que la correspondencia sea adecuada.

Por tanto, los investigadores proponen un modelo que estima con qué precisión el individuo ha sido reidentificado correctamente. “Nuestros resultados muestran que pocos atributos son muchas veces suficientes para reidentificar con gran confianza a individuos en conjuntos de datos altamente incompletos”, señalan. El estudio también mostró que aún cuando la población tiende a ser homogénea, muchos individuos seguían siendo identificables.

Por ejemplo, los autores revisaron la reidentificación de William Weld, exgobernador de Massachusetts, hecha en 1997 a partir de una base de datos médica. Los datos usados fueron su género (masculino), fecha de nacimiento (31 de julio de 1945) y lugar de residencia (Cambridge, 02138). 

Con esa información, se estimó que la identificación tenía 77% de probabilidades de ser correcta, pero si se añade el número de hijos (5), la cifra sube a 99.8 por ciento. De hecho, el estudio estima que con solo esos tres datos (género, fecha de nacimiento y número de hijos) es posible identificar con alta confianza al 79.4% de la población de Massachusetts; y con 15, al 99.98 por ciento.

Esto demuestra que, aún en bases de datos anonimizadas o incompletas, no se requieren demasiados datos para identificar individuos con alta confiabilidad. Los autores del estudio indican que la reidentificación es un problema porque la mayoría de las leyes de protección de datos personales no consideran los datos anonimizados como personales, por lo que pueden ser empleados, compartidos y comercializados libremente. 

Este es un gran problema en un mundo donde la recolección indiscriminada de datos por parte de empresas y gobiernos es una constante. La alta disposición de datos (aún anonimizados) incrementa la posibilidad de identificar a una persona correctamente, lo que, de acuerdo a los autores del estudio, debería cuestionar qué tan conveniente es el modelo actual de liberar y olvidarse.


Imagen de Bethany Khan (CC BY-ND 2.0)

Publicaciones relacionadas

España destituye a la jefa de inteligencia por escándalo Pegasus

España destituye a la jefa de inteligencia por escándalo Pegasus

Los escándalos por el espionaje con el malware Pegasus a decenas de personas vinculadas con el proceso independentista catalán y también al presidente del gobierno español, Pedro Sánchez, y la ministra de Defensa, Margarita Robles, provocaron la salida de la directora de los servicios secretos españoles, Paz Esteban, dio a conocer Deutsche Welle.

SCJN invalida delito de ciberacoso en Yucatán por ambigüedad

SCJN invalida delito de ciberacoso en Yucatán por ambigüedad

El Pleno de la Suprema Corte de Justicia de la Nación (SCJN) resolvió la acción de inconstitucionalidad 198/2020, promovida por la Comisión Nacional de los Derechos Humanos, para invalidar el artículo 243 bis 12 del Código Penal del Estado de Yucatán, relativo al delito de ciberacoso, por vulnerar el principio de taxatividad, que exige que los tipos penales sean claros, precisos y de exacta aplicación.

¿Qué tan flexible es realmente el derecho de autor en América Latina?

¿Qué tan flexible es realmente el derecho de autor en América Latina?

La organización Laboratorio de datos y sociedad de Uruguay (Datysoc) anunció que sumó nueve países de América Latina a su mapa interactivo de flexibilidades sobre el derecho de autor, un proyecto que busca mostrar una perspectiva regional y nacional sobre las excepciones y limitaciones a este derecho a través de un sencillo código de color y fuentes bajo licencias de uso libre.

Pleno de la SCJN declara inconstitucional al PANAUT

Pleno de la SCJN declara inconstitucional al PANAUT

El Pleno de la Suprema Corte de Justicia de la Nación aprobó, con nueve votos a favor, el proyecto de sentencia que declara la invalidez total del decreto que crea el Padrón Nacional de Usuarios de Telefonía Móvil (PANAUT), con lo que resolvió las acciones de inconstitucionalidad promovidas por el Instituto Nacional de Transparencia, Acceso a la Información y Protección de Datos Personales (INAI) y una minoría del Senado.

La decisión de extraditar a Julian Assange es un ataque contra la libertad de expresión, acceso a la información y derecho a la verdad

La decisión de extraditar a Julian Assange es un ataque contra la libertad de expresión, acceso a la información y derecho a la verdad

El pasado 20 de abril se emitió una orden judicial por el gobierno británico que permite la extradición de Julian Assange a Estados Unidos para ser juzgado por espionaje, con lo cual se transgrede gravemente la libertad de expresión pues criminaliza la actividad periodística y la alerta sobre crímenes de guerra y violaciones a Derechos Humanos.