Tous les articles
Guide6 min de lecture

Anonymiser un document avant de l'envoyer à l'IA

Contrat, rapport, PDF : un document confié à l'IA contient des noms, adresses et montants. La méthode pour l'anonymiser avant ChatGPT, Claude ou Gemini.

Par Alexis de ONYRI

Pour faire résumer, traduire ou analyser un document par l'IA sans exposer son contenu, anonymisez-le d'abord : un moteur détecte les noms, adresses, montants et identifiants, les remplace par des jetons, n'envoie que le texte neutralisé, puis restaure la réponse côté navigateur. ChatGPT, Claude ou Gemini travaillent sur un document structurellement identique, mais vidé de toute donnée identifiante.

Pourquoi un document est plus risqué qu'un simple prompt

Quand on tape un prompt, on choisit ses mots. Quand on colle un document entier — contrat, rapport, courrier — on envoie aussi tout ce qu'on ne relit plus : signataires, adresses, références, montants. Un document est une superposition d'identifiants ; c'est précisément ce qu'on oublie en le copiant d'un bloc.

  • Identités et coordonnées : signataires, destinataires, tiers cités.
  • Références : numéros de contrat, de dossier, identifiants internes.
  • Montants et clauses chiffrées qui révèlent une relation ou une situation.
  • Données techniques d'un fichier : en-têtes, liens internes, métadonnées.
Schéma : un document dont le nom et le montant sont caviardés et remplacés par des jetons, passant par une porte d'anonymisation vers une version anonymisée prête pour l'IA.
Le document passe par une porte d'anonymisation : seuls des jetons en sortent, le mapping reste côté navigateur.

Copier-coller le texte ne suffit pas

Deux pièges classiques. D'abord, le caviardage manuel est partiel : on barre un nom, on en oublie trois, et la ré-identification revient par recoupement. Ensuite, masquer visuellement dans un PDF ne suffit pas — un rectangle noir posé par-dessus laisse souvent le texte sélectionnable en dessous. La détection automatique retire l'information elle-même, pas seulement son apparence.

La méthode : détecter, tokeniser, restaurer

  1. 1Détection : le moteur repère tous les identifiants du document, y compris ceux sans mot-clé évident.
  2. 2Tokenisation : chacun devient un jeton neutre et cohérent, gardé en mémoire locale.
  3. 3Envoi : seul le texte anonymisé part vers l'IA — le document identifiant ne transite pas.
  4. 4Restauration : la réponse (résumé, traduction, analyse) est détokenisée dans votre navigateur.

ONYRI Sanitize détecte les identifiants d'un document — identités, coordonnées, références, montants, secrets techniques — et restaure la réponse côté navigateur. Vous faites résumer, traduire ou analyser vos documents par l'IA sans jamais exposer leur contenu sensible.

Questions fréquentes

Comment anonymiser un document avant de le donner à ChatGPT ?
Faites détecter et remplacer ses identifiants (noms, adresses, références, montants) par des jetons avant l'envoi, puis restaurez la réponse côté navigateur. L'IA travaille sur un document neutralisé mais structurellement identique : le résumé ou l'analyse reste pertinent.
Suffit-il de noircir les passages sensibles dans le PDF ?
Non. Un rectangle noir posé sur un PDF laisse souvent le texte sélectionnable en dessous : l'information est masquée à l'œil, pas retirée. L'anonymisation remplace la valeur elle-même par un jeton, sans rien laisser d'exploitable.
Le document reste-t-il exploitable après anonymisation ?
Oui. Les jetons sont cohérents et la structure est préservée, donc l'IA raisonne normalement. Après restauration côté navigateur, vous récupérez un résultat complet rattaché aux vraies valeurs.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi