Des données anonymisées peuvent-elles être ré-identifiées ?
Oui, souvent : un masquage naïf laisse des quasi-identifiants (code postal, naissance, sexe) qui se recoupent et ré-identifient la personne. Voici pourquoi.
Oui — des données mal « anonymisées » se ré-identifient souvent. Effacer les identifiants directs (nom, adresse, numéro de sécurité sociale) ne suffit pas : il subsiste des quasi-identifiants comme le code postal, la date de naissance ou le sexe qui, recoupés avec d'autres jeux de données publics, permettent de retrouver l'individu. Des travaux universitaires l'ont démontré depuis les années 1990, et le RGPD en tire une conséquence nette : une donnée seulement masquée reste une donnée personnelle. Seule une anonymisation irréversible — ou le fait de ne jamais exposer la donnée — élimine le risque.
Pourquoi le masquage naïf échoue
Retirer le nom et l'adresse donne une fausse impression de sécurité. Le problème, ce sont les quasi-identifiants : des attributs qui, pris isolément, semblent anodins, mais qui deviennent uniques une fois combinés. Latanya Sweeney (Data Privacy Lab / Identifiability Project, Carnegie Mellon University) l'a chiffré sur les données du recensement américain de 1990 : environ 87 % de la population était vraisemblablement identifiable de façon unique à partir du seul triplet code postal à 5 chiffres + sexe + date de naissance complète. Avec un grain plus grossier — commune au lieu du code postal — environ 53 % restaient encore identifiables de manière unique. Le nom n'est jamais nécessaire : il suffit de recouper.
Une étude de 2019 publiée dans Nature Communications a poussé le constat plus loin : à l'aide d'un modèle génératif, ses auteurs estiment que 99,98 % des Américains seraient correctement ré-identifiés dans n'importe quel jeu de données « anonymisé » à partir de seulement 15 attributs démographiques (âge, sexe, situation matrimoniale, etc.). Leur conclusion est sans détour : même des jeux fortement échantillonnés ont peu de chances de satisfaire le standard d'anonymisation du RGPD. Le communiqué d'Imperial College London résumait la chose ainsi : anonymiser des données personnelles « ne suffit pas à protéger la vie privée ».
Trois démonstrations qui ont fait référence
L'histoire de la ré-identification s'écrit avec quelques cas devenus des classiques :
- 1Le dossier médical du gouverneur Weld (Massachusetts, 1997). Une commission d'assurance avait diffusé des dossiers d'hospitalisation d'employés de l'État présentés comme « anonymisés » (noms, adresses et numéros de sécurité sociale retirés). Latanya Sweeney a acheté pour environ 20 $ la liste électorale publique du Massachusetts — qui contient nom, adresse, code postal et date de naissance — et a recoupé les deux jeux : à Cambridge, très peu de personnes partageaient la date de naissance du gouverneur, encore moins son sexe, et une seule son code postal. Son dossier médical était retrouvé. La démonstration a directement influencé les règles de dé-identification de la HIPAA Privacy Rule (2003).
- 2Le Netflix Prize (Narayanan & Shmatikov, 2008 IEEE Symposium on Security and Privacy). Le jeu publié contenait les notes de films « anonymes » d'environ 500 000 abonnés. En utilisant l'Internet Movie Database (IMDb) comme connaissance auxiliaire publique, les chercheurs ont montré qu'un adversaire connaissant seulement quelques notes et dates d'un abonné pouvait facilement retrouver son enregistrement — et en déduire des informations sensibles, comme des préférences politiques.
- 3L'étude Nature Communications de 2019 (Rocher, Hendrickx, de Montjoye), citée plus haut, qui généralise le mécanisme : ce n'est pas un accident isolé, mais une propriété mathématique des données démographiques riches.
Anonymisation ≠ pseudonymisation : ce que dit le RGPD
Le droit européen tranche une confusion fréquente. Le considérant 26 du RGPD précise que les principes de protection des données ne s'appliquent pas aux informations anonymes — celles qui ne se rapportent pas (ou plus) à une personne identifiée ou identifiable. L'anonymisation véritable est irréversible : la donnée sort alors du champ du RGPD. La pseudonymisation, elle (article 4(5)), remplace les identifiants directs par des codes, mais la donnée peut être ré-attribuée à l'aide d'« informations supplémentaires » conservées séparément — une clé, une table de correspondance. Une donnée pseudonymisée reste donc une donnée personnelle soumise au RGPD. Le régulateur britannique (ICO) le dit clairement : la pseudonymisation est une mesure de sécurité, pas une méthode d'anonymisation. Nous détaillons ces définitions dans notre article « Anonymisation, pseudonymisation, tokenisation : quelles différences ? ».
Comment savoir si une « anonymisation » tient ? Le groupe de travail Article 29 (Opinion 05/2014 on Anonymisation Techniques) fixe trois tests qu'une anonymisation efficace doit faire échouer — et c'est précisément ce que les démonstrations ci-dessus mettent en défaut :
| Critère (Art. 29 WP) | Question à se poser | Signal d'alerte |
|---|---|---|
| Individualisation (singling out) | Peut-on isoler un enregistrement correspondant à une personne ? | Le triplet code postal + sexe + date de naissance suffit (cas Weld) |
| Corrélation (linkability) | Peut-on relier deux enregistrements de la même personne ? | Recoupement avec IMDb ou une liste électorale publique |
| Inférence | Peut-on déduire une information sur la personne ? | Préférences politiques déduites du Netflix Prize |
Le cas de la tokenisation client-side
La tokenisation d'ONYRI est réversible — c'est donc, au sens du RGPD, une pseudonymisation, pas une anonymisation. La différence décisive tient à un détail : la table de correspondance jeton ↔ valeur (les fameuses « informations supplémentaires » qui rendent la ré-attribution possible) ne quitte jamais votre navigateur. Le fournisseur d'IA (ChatGPT, Claude, Gemini…) ne reçoit que des jetons dépourvus des quasi-identifiants exploitables, et sans la clé permettant le recoupement. Il n'a donc rien à corréler : ni nom, ni triplet code postal/date/sexe, ni quoi que ce soit à relier à un jeu auxiliaire. La détokénisation, elle, s'effectue côté client une fois la réponse du modèle revenue. Les trois tests de l'Article 29 — individualisation, corrélation, inférence — échouent côté fournisseur, faute de matière à recouper. Pour situer cette approche parmi les techniques voisines, voyez « Anonymisation, pseudonymisation, tokenisation : quelles différences ? ».
- Le risque de ré-identification vient des quasi-identifiants laissés en clair, pas seulement du nom.
- Une donnée seulement masquée reste une donnée personnelle au sens du RGPD.
- Neutraliser le recoupement à la source — retirer la donnée du prompt — est la mesure la plus robuste.
C'est précisément le rôle d'ONYRI Sanitize : le moteur remplace les données sensibles par des jetons réversibles avant l'envoi, et seul un texte anonymisé atteint le modèle ; la détection comme la table jeton ↔ valeur restent dans votre navigateur. Le fournisseur ne reçoit aucun quasi-identifiant à recouper — il n'y a donc rien à ré-identifier de son côté, quel que soit le jeu de données auxiliaire dont disposerait un tiers.
Questions fréquentes
- Des données anonymisées peuvent-elles être ré-identifiées ?
- Oui, souvent, lorsque l'« anonymisation » se limite à effacer les identifiants directs. Il reste des quasi-identifiants (code postal, date de naissance, sexe…) qui, recoupés avec d'autres jeux de données, permettent de retrouver la personne. Latanya Sweeney a estimé qu'environ 87 % des Américains étaient identifiables par le seul triplet code postal + sexe + date de naissance. Seule une anonymisation irréversible sort la donnée du champ du RGPD.
- Quelle est la différence entre anonymisation et pseudonymisation ?
- L'anonymisation est irréversible : la donnée ne peut plus être rattachée à une personne, et le RGPD ne s'y applique plus (considérant 26). La pseudonymisation (article 4(5)) remplace les identifiants par des codes, mais une clé conservée séparément permet de ré-attribuer la donnée ; elle reste donc une donnée personnelle soumise au RGPD. Selon l'ICO, c'est une mesure de sécurité, pas une méthode d'anonymisation.
- La tokenisation protège-t-elle vraiment du risque de ré-identification ?
- La tokenisation est techniquement une pseudonymisation (réversible). Avec ONYRI, la table jeton ↔ valeur ne quitte jamais votre navigateur : le fournisseur d'IA ne reçoit que des jetons, sans quasi-identifiants ni clé de recoupement. Il n'a donc rien à corréler avec un jeu auxiliaire, ce qui neutralise les trois tests de ré-identification (individualisation, corrélation, inférence) côté fournisseur.
Sources et références
- Estimating the success of re-identifications in incomplete datasets using generative models (étude de 2019 : 99,98 % des Américains ré-identifiables avec 15 attributs) — Nature Communications
- Pseudonymisation guidance — distinction pseudonymisation vs anonymisation et statut de donnée personnelle sous le RGPD — Information Commissioner's Office (ICO, régulateur britannique)
- How To Break Anonymity of the Netflix Prize Dataset — dé-anonymisation par recoupement avec IMDb (Narayanan & Shmatikov) — arXiv (Cornell University)
Gardez vos données sensibles dans votre navigateur
ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.
Anonymiser mon prompt