Anonimizar las bases de datos ya no es una garantía para proteger la privacidad de las personas, concluye un estudio realizado en la Universidad Católica de Louvain y la Escuela Imperial de Londres, publicado en la revista Nature Communications.

En la investigación, los autores citan diversos casos en los que individuos han sido reidentificados en bases de datos anonimizadas, como un caso en 2016 en el que unos periodistas identificaron políticos en una base de historiales de búsqueda anonimizada de tres millones de ciudadanos alemanes. También señalan que se han podido reidentificar individuos en bases sobre viajes en taxi en Nueva York, uso de bicicletas compartidas en Londres, así como datos de uso de celulares y tarjetas de crédito.

Sin embargo, quienes recaban y venden estos datos aseguran que, además de anonimizar los datos, las bases nunca se dan completas, por lo que aún cuando se encuentre una coincidencia entre una persona y la base de datos, no existe certeza estadística de que la correspondencia sea adecuada.

Por tanto, los investigadores proponen un modelo que estima con qué precisión el individuo ha sido reidentificado correctamente. “Nuestros resultados muestran que pocos atributos son muchas veces suficientes para reidentificar con gran confianza a individuos en conjuntos de datos altamente incompletos”, señalan. El estudio también mostró que aún cuando la población tiende a ser homogénea, muchos individuos seguían siendo identificables.

Por ejemplo, los autores revisaron la reidentificación de William Weld, exgobernador de Massachusetts, hecha en 1997 a partir de una base de datos médica. Los datos usados fueron su género (masculino), fecha de nacimiento (31 de julio de 1945) y lugar de residencia (Cambridge, 02138). 

Con esa información, se estimó que la identificación tenía 77% de probabilidades de ser correcta, pero si se añade el número de hijos (5), la cifra sube a 99.8 por ciento. De hecho, el estudio estima que con solo esos tres datos (género, fecha de nacimiento y número de hijos) es posible identificar con alta confianza al 79.4% de la población de Massachusetts; y con 15, al 99.98 por ciento.

Esto demuestra que, aún en bases de datos anonimizadas o incompletas, no se requieren demasiados datos para identificar individuos con alta confiabilidad. Los autores del estudio indican que la reidentificación es un problema porque la mayoría de las leyes de protección de datos personales no consideran los datos anonimizados como personales, por lo que pueden ser empleados, compartidos y comercializados libremente. 

Este es un gran problema en un mundo donde la recolección indiscriminada de datos por parte de empresas y gobiernos es una constante. La alta disposición de datos (aún anonimizados) incrementa la posibilidad de identificar a una persona correctamente, lo que, de acuerdo a los autores del estudio, debería cuestionar qué tan conveniente es el modelo actual de liberar y olvidarse.


Imagen de Bethany Khan (CC BY-ND 2.0)