Anonimización vs pseudonimización: diferencias clave en protec...

La anonimización elimina de forma irreversible cualquier vínculo entre un dato y la persona que hay detrás; la pseudonimización solo lo disfraza. Esa diferencia, que parece de matiz, decide si el RGPD te aplica o no. Un dato verdaderamente anónimo queda fuera del reglamento europeo. Un dato pseudonimizado sigue siendo dato personal, con todas sus obligaciones. Mucha empresa cree que ha hecho lo primero cuando en realidad ha hecho lo segundo, y ahí empiezan los sustos. Entre las técnicas de anonimización hay desde lo sólido hasta el placebo de cambiar el nombre por un número. Si manejas datos de clientes y no tienes claro cuándo basta anonimizar según el RGPD y cuándo necesitas algo más, este artículo te ahorra una sanción y bastante café de madrugada.

Qué dice exactamente el RGPD sobre datos anónimos y pseudónimos

El Reglamento (UE) 2016/679 traza la línea en su Considerando 26. Los principios de protección de datos no se aplican a la información anónima, es decir, aquella que no guarda relación con una persona identificada o identificable.

La clave está en "identificable". Un dato es anónimo cuando nadie, ni tú ni un tercero, puede revertir el proceso con medios razonables. Coste, tiempo y tecnología disponible entran en ese cálculo.

La pseudonimización, en cambio, sí aparece definida en el artículo 4.5 del RGPD como un tratamiento que impide atribuir los datos a un interesado sin información adicional, siempre que esa información se guarde por separado. Traducción: sigues teniendo la llave guardada en un cajón. Y si tienes la llave, tienes dato personal.

Criterio	Anonimización	Pseudonimización
¿Reversible?	No	Sí, con la clave
¿Aplica el RGPD?	No	Sí
Base legal	Considerando 26	Art. 4.5, art. 25, art. 32
Riesgo de reidentificación	Idealmente nulo	Presente mientras exista la clave
Uso típico	Estadística, datasets abiertos, ML	Investigación, analítica interna, minimización

Técnicas de anonimización que de verdad funcionan

Borrar el nombre y dejar el resto no es anonimizar. Es el equivalente a ponerle gafas a Superman y esperar que nadie lo reconozca. Estas son las técnicas serias.

Generalización: sustituyes valores precisos por rangos. La edad "37" pasa a "30-40". El código postal completo pasa a provincia.
Supresión: eliminas directamente los campos o registros más identificativos.
k-anonimato: garantizas que cada registro es indistinguible de al menos otros k-1 individuos. Si k=5, ninguna fila es única.
l-diversidad y t-cercanía: refuerzos del k-anonimato para evitar que se infiera información sensible aunque no se identifique a la persona.
Privacidad diferencial: añade ruido estadístico calibrado. Apple, Google y la Oficina del Censo de EE. UU. la usan para publicar agregados sin exponer individuos.
Datos sintéticos: generas un dataset artificial que conserva las propiedades estadísticas del original sin contener registros reales.

El error clásico es confundir anonimizar según el RGPD con aplicar un hash al DNI. Un hash sin sal es reversible por fuerza bruta en segundos: el espacio de DNIs españoles es pequeño y predecible. Eso es pseudonimización débil, no anonimato. Si trabajas con identidades y contraseñas, te conviene además revisar cómo activar la verificación en dos pasos en todas tus cuentas, porque ninguna técnica de datos te salva de un acceso robado.

Casos reales: cuando la anonimización falló

La teoría es bonita hasta que alguien reidentifica a medio dataset. Ha pasado, y más de una vez.

En 2006, AOL publicó 20 millones de búsquedas "anonimizadas" sustituyendo el usuario por un número. Periodistas de The New York Times identificaron a una usuaria concreta cruzando sus consultas. Lección: el historial de búsqueda es una huella.

Ese mismo año, Netflix liberó un dataset para su Prize. Investigadores de la Universidad de Texas (Narayanan y Shmatikov) reidentificaron usuarios cruzándolo con reseñas públicas de IMDb. Resultado: demanda y retirada del segundo concurso.

La investigadora Latanya Sweeney demostró que el 87% aproximadamente de la población estadounidense era identificable con solo tres datos: código postal, fecha de nacimiento y sexo. Tres campos que cualquiera consideraría inofensivos.

La moraleja es incómoda. La reidentificación rara vez ataca el dato directo; cruza tu dataset "anónimo" con otra fuente. Por eso el cálculo de riesgo del Considerando 26 incluye "todos los medios razonablemente disponibles", también los de terceros. Las mismas técnicas de cruce alimentan campañas de phishing suplantando a Hacienda cuando los datos filtrados acaban en el mercado equivocado.

Cómo elegir entre una y otra en tu organización

No siempre quieres anonimizar. A veces necesitas poder revertir el proceso de forma controlada, y ahí la pseudonimización es la herramienta correcta, no un parche.

Define la finalidad. ¿Vas a publicar datos abiertos o a hacer analítica interna donde quizá necesites volver al individuo? Lo primero pide anonimato; lo segundo, pseudónimo.
Evalúa el riesgo de reidentificación. Cuenta cuántos cuasi-identificadores quedan y con qué fuentes externas se podrían cruzar.
Separa la clave. Si pseudonimizas, guarda la tabla de equivalencias cifrada, con control de acceso y en un sistema distinto. Es lo que exigen los artículos 25 y 32.
Documenta. La AEPD y el antiguo Grupo de Trabajo del Artículo 29 (Dictamen 05/2014 sobre técnicas de anonimización) esperan que justifiques tu elección.
Revisa periódicamente. Lo que era anónimo en 2020 puede dejar de serlo si aparecen nuevas fuentes de datos públicas.

La pseudonimización también es un argumento a tu favor: el RGPD la reconoce como medida de seguridad y de minimización. Reduce el impacto de una brecha, aunque no te exime de notificarla. Si gestionas una tienda online, conviene combinarla con buenas prácticas de seguridad para tu ecommerce y con un cifrado correcto en tránsito y en reposo. Para proyectos que arrancan de cero, planificar el tratamiento de datos desde el diseño es más barato que rehacerlo; en Piqture ayudamos a montar ese tipo de infraestructura de datos e IA para empresas sin dejar agujeros legales.

Errores frecuentes que invalidan tu anonimización

Confundir cifrado con anonimización. El cifrado es reversible con la clave: es pseudonimización, por definición.
Dejar cuasi-identificadores. Fecha exacta, código postal completo y profesión juntos delatan a casi cualquiera.
Olvidar los metadatos. Timestamps, geolocalización y logs de acceso reidentifican aunque borres el nombre.
No medir el riesgo de inferencia. Aunque no identifiques a alguien, si todo un grupo comparte un dato sensible, lo has expuesto.
Anonimizar una vez y olvidarse. El contexto cambia. Reevalúa.

Preguntas frecuentes

¿Los datos anonimizados están sujetos al RGPD?

No. El Considerando 26 del RGPD excluye expresamente la información anónima de su ámbito de aplicación. La condición es que la anonimización sea irreversible y que nadie pueda reidentificar a la persona con medios razonables. Si esa condición falla, el dato vuelve a ser personal y el reglamento aplica.

¿Cuál es la diferencia práctica entre anonimización y pseudonimización?

La anonimización es irreversible y saca el dato del RGPD. La pseudonimización solo separa la identidad mediante una clave que se guarda aparte, por lo que el dato sigue siendo personal. Resumido: si existe una llave para volver atrás, es pseudonimización.

¿Aplicar un hash al DNI cuenta como anonimizar?

No de forma fiable. Un hash sin sal del DNI es reversible por fuerza bruta porque el conjunto de DNIs posibles es pequeño y predecible. Eso es pseudonimización débil. Para anonimizar de verdad necesitas generalización, supresión, k-anonimato o privacidad diferencial.

¿Qué técnica de anonimización es la más segura?

La privacidad diferencial ofrece garantías matemáticas frente a la reidentificación, por eso la usan Apple, Google y censos oficiales. Para datasets tabulares, combinar k-anonimato con l-diversidad reduce mucho el riesgo. No existe una técnica perfecta universal: depende del tipo de dato y de su finalidad.

¿Una filtración de datos pseudonimizados hay que notificarla a la AEPD?

Sí. Como los datos pseudonimizados siguen siendo datos personales, una brecha que los afecte se notifica a la autoridad de control en un plazo de 72 horas, salvo que sea improbable que suponga un riesgo. La pseudonimización reduce el impacto, pero no elimina la obligación.

El siguiente paso

Coge uno de tus datasets "anónimos" y prueba a cruzar tres campos: código postal, fecha de nacimiento y sexo. Si con eso aíslas a una sola persona, no has anonimizado nada. Tienes deberes pendientes, y ahora ya sabes por dónde empezar.

Anonimización vs pseudonimización: diferencias clave en protección de datos