Guide7 min de lecture

Comment anonymiser ses données avant d'utiliser l'IA (pas à pas)

Anonymisez vos données avant l'IA en 4 étapes : repérer le sensible, remplacer par des jetons réversibles, envoyer, détokéniser en local. La méthode qui tient.

Par Pierre de ONYRI

Pour anonymiser des données avant d'utiliser une IA, suivez quatre étapes : (1) repérez les catégories sensibles dans votre texte ou votre fichier — identités, coordonnées, identifiants, données financières, secrets et clés API, santé ; (2) remplacez chaque valeur par un jeton cohérent et réversible plutôt que par des XXXX, pour garder le contexte ; (3) envoyez à l'IA le texte déjà anonymisé ; (4) ré-injectez en local les valeurs d'origine dans la réponse (détokénisation). C'est la façon recommandée de protéger vos données avant de les coller dans ChatGPT, Claude ou Gemini : seul un texte neutralisé quitte votre poste, et la table de correspondance ne voyage jamais avec lui.

Étape 1 — Repérer les catégories sensibles

Avant de masquer quoi que ce soit, il faut savoir ce qu'on cherche. Le guide NIST SP 800-122, consacré à la protection de la confidentialité des données personnelles, recommande une approche contextuelle : on identifie les informations identifiantes et on calibre le niveau de protection selon l'impact d'une fuite, plutôt qu'avec une règle uniforme. En pratique, raisonnez par familles, car toutes n'ont pas la même gravité :

  • Identités : noms, prénoms, dates de naissance, adresses postales.
  • Coordonnées : e-mails, numéros de téléphone, identifiants de comptes.
  • Identifiants officiels : numéro de sécurité sociale, pièces d'identité, immatriculations.
  • Données financières : RIB, IBAN, montants de salaire, numéros fiscaux.
  • Secrets techniques : clés API, jetons d'accès, mots de passe, clés cloud.
  • Santé : diagnostics, traitements, toute donnée médicale.

Selon votre cas, certaines familles dominent : un tableur RH concentre identités et données financières (voir le guide dédié à l'anonymisation des données RH avant l'IA), un export de document mêle souvent identités et coordonnées (guide pour anonymiser un document avant l'IA), et un extrait de code cache surtout des secrets et clés API (guide pour coller du code dans l'IA sans fuiter de secrets). Le repérage exhaustif est précisément l'étape que l'humain rate le plus souvent — d'où l'intérêt de l'automatiser.

Étape 2 — Remplacer par des jetons réversibles (pas des XXXX)

Le réflexe courant — masquer en « XXXX » ou surligner en noir — détruit le sens. Remplacer « Marie Dupont » par [PERSONNE_1] de façon cohérente (toujours le même jeton pour la même valeur) permet au contraire à l'IA de raisonner sur les relations dans le texte : qui fait quoi, quel montant pour quel client. La réversibilité côté navigateur permet ensuite de retrouver une réponse exploitable après détokénisation, ce que ni le caviardage ni le simple effacement ne permettent.

Techniquement, remplacer une donnée par un jeton réversible est une pseudonymisation. Le RGPD (article 4(5)) la définit comme un traitement où les données ne peuvent plus être attribuées à une personne sans « informations supplémentaires » — ici, la table de correspondance jeton↔valeur — à condition que celles-ci soient conservées séparément et protégées. Les Lignes directrices 01/2025 de l'EDPB sur la pseudonymisation, adoptées le 16 janvier 2025, décrivent exactement ce mécanisme : remplacer les informations identifiantes par de nouveaux identifiants ne permettant l'attribution qu'avec des informations supplémentaires gardées à part. Conséquence pratique : la clé ne doit jamais voyager avec le texte envoyé à l'IA.

Étape 3 & 4 — Envoyer le texte anonymisé, puis détokéniser en local

Une fois le texte neutralisé, vous l'envoyez à l'IA comme n'importe quel prompt. Le modèle raisonne sur les jetons, produit sa réponse, puis vous ré-injectez les valeurs d'origine de votre côté — l'IA n'a jamais vu vos informations réelles. Le déroulé est toujours le même :

  1. 1Anonymisez : chaque valeur sensible devient un jeton cohérent et réversible.
  2. 2Vérifiez : relisez que plus aucune donnée en clair ne subsiste avant l'envoi.
  3. 3Envoyez à l'IA le texte tokenisé, et seulement lui.
  4. 4Détokénisez la réponse en local : les jetons redeviennent vos valeurs réelles.

Ce découpage règle un problème de fond : selon le compte, le statut des données collées varie. Par défaut, OpenAI peut utiliser le contenu des comptes ChatGPT grand public pour améliorer ses modèles, alors que les offres entreprise et l'API n'y servent pas sauf opt-in. Même entraînement désactivé, des données peuvent être conservées jusqu'à 30 jours pour la surveillance des abus. Anonymiser en amont rend ces variations sans conséquence pour le sensible : il ne quitte jamais votre poste.

Schéma en deux temps : en haut, un texte aux valeurs sensibles en clair (ambre) est envoyé tel quel à une IA externe qui les reçoit lisibles, avec un triangle d'alerte ; en bas, les mêmes valeurs sont remplacées par des jetons cohérents (cobalt), et l'IA ne reçoit que des jetons, validés par une coche.
D'après l'analyse des Lignes directrices 01/2025 de l'EDPB (McCann FitzGerald), Redactable et TechCrunch.

Pourquoi caviarder à la main échoue

Le caviardage manuel échoue pour trois raisons documentées, ce qui justifie une tokenisation automatisée. D'abord, les masques visuels — rectangles noirs, surlignage — laissent souvent les données récupérables sous la surface. Ensuite, l'oubli humain est fréquent. Enfin, ce n'est pas scalable sur un tableur de milliers de lignes (voir le guide pour anonymiser un tableur avant l'IA). Une étude de 2021 citée par Redactable mesure d'ailleurs une exactitude d'environ 91,37 % pour les méthodes manuelles, contre 97,10 % pour les outils automatisés.

Les incidents réels le confirment : masquer n'efface pas. Voici trois cas où le « masque » a cédé, et la fuite Samsung qui rappelle pourquoi il faut agir avant l'envoi.

DateIncidentCe qui a fuitéLa leçon
2014Document NSA publié par le New York TimesPassages censurés révélés par un simple copier-collerUn masque visuel ne supprime pas la donnée sous-jacente
2019PDF de la défense de Paul ManafortTexte « masqué » par rectangles noirs, toujours accessibleLe surlignage cache l'affichage, pas le contenu
déc. 2025Documents gouvernementaux (Epstein files)Passages caviardés restitués par des techniques basiquesLe caviardage diffusé tel quel reste réversible
avr.-mai 2023Fuite interne chez Samsung via ChatGPTCode source et transcription de réunion collés dans l'IAUne fois envoyée, la donnée n'est ni récupérable ni supprimable
Un vrai remplacement par jeton, lui, supprime la donnée plutôt que de la cacher.

Le cas Samsung est fondateur : en avril 2023, des employés ont fuité par accident des données internes sensibles en les collant dans ChatGPT — notamment du code source et la transcription d'une réunion. Le 1er mai 2023, l'entreprise a interdit les outils d'IA générative sur ses appareils, faute de pouvoir récupérer ou supprimer les données une fois envoyées sur des serveurs externes. C'est l'illustration concrète de pourquoi il faut anonymiser AVANT d'envoyer, et pas après.

Mettre la méthode en pratique sans la rater

La théorie est simple ; le piège est l'exhaustivité. Un seul nom oublié, un seul IBAN laissé en clair, et la protection tombe. C'est pourquoi un moteur de détection systématique bat le repérage à l'œil : il couvre toutes les familles d'un coup, garde des jetons cohérents, et passe à l'échelle sur un tableur entier.

C'est exactement le rôle d'ONYRI Sanitize : le moteur détecte les données sensibles et les remplace par des jetons réversibles, la détection et la table de correspondance restent dans votre navigateur, et seul un texte anonymisé atteint l'IA. La détokénisation se fait en local sur votre poste — l'outil voit des jetons, jamais vos informations réelles, conformément à la logique de pseudonymisation décrite par l'EDPB.

Questions fréquentes

Comment anonymiser ses données avant de les coller dans ChatGPT ?
En quatre étapes : repérez les catégories sensibles (identités, coordonnées, identifiants, financier, secrets, santé) ; remplacez chaque valeur par un jeton cohérent et réversible plutôt que par des XXXX ; envoyez à ChatGPT le texte déjà anonymisé ; puis détokénisez la réponse en local. Seul le texte neutralisé quitte votre poste, la table de correspondance ne part jamais avec lui.
Faut-il masquer en XXXX ou utiliser des jetons ?
Des jetons. Masquer en XXXX détruit le contexte et rend la réponse de l'IA inutile. Un jeton cohérent — toujours le même pour la même valeur — préserve les relations dans le texte et reste réversible côté navigateur, ce qui permet de retrouver une réponse exploitable après détokénisation.
Tokeniser, est-ce une vraie anonymisation au sens du RGPD ?
Non : c'est une pseudonymisation (RGPD article 4(5)), car elle est réversible avec la clé. Selon l'EDPB, tant que cette clé existe les données restent des données personnelles. La protection vient du fait de garder la clé hors de portée du fournisseur d'IA — idéalement uniquement en local, côté navigateur.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi