Fondamentaux10 min de lecture

Confidentialité et IA : le guide complet pour protéger vos données

Confidentialité et IA : vous ne maîtrisez pas ce qu'un fournisseur fait de vos données, mais ce que vous lui envoyez. Le guide complet, risque par risque.

Par Pierre de ONYRI

La confidentialité face aux IA génératives tient en une phrase : vous ne contrôlez pas ce qu'un fournisseur (OpenAI, Anthropic, Google, Meta) fait de vos données, mais vous contrôlez ce que vous lui envoyez. Par défaut, plusieurs services grand public entraînent leurs modèles sur vos conversations, les conservent longtemps et peuvent les faire relire par des humains ; les réglages d'opt-out aident mais ne couvrent jamais tout. La seule protection robuste, valable pour tous les outils, est donc de minimiser et d'anonymiser les informations sensibles avant de les coller dans un prompt. La CNIL le recommande explicitement : ne partagez pas d'informations confidentielles dans un service d'IA grand public. Ce guide fait le tour — ce qui est fait de vos données, les risques, les protections, et la marche à suivre par profil.

Ce que les IA font de vos données par défaut

Sur les comptes grand public, trois traitements coexistent souvent par défaut, sauf opt-out explicite. D'abord l'entraînement : vos conversations servent à améliorer les modèles. Le 28 août 2025, Anthropic a ainsi modifié ses conditions grand public (Claude Free, Pro, Max et Claude Code) pour utiliser les chats et sessions de code à l'entraînement, à moins que l'utilisateur ne refuse, avec un choix à faire avant le 28 septembre 2025. Ensuite la rétention : toujours selon ce changement, la conservation passe à cinq ans pour qui ne se désinscrit pas, alors que prompts et réponses étaient auparavant généralement supprimés sous 30 jours ; les offres entreprise (Claude for Work, for Education, Gov, API) ne sont pas concernées. Enfin la revue humaine : des conversations signalées (abus, contenus illégaux, risque de préjudice) peuvent être escaladées vers des relecteurs humains — OpenAI indique analyser les conversations pour détecter une menace de préjudice physique imminent, transmissible à des relecteurs puis, le cas échéant, aux forces de l'ordre. Nous détaillons chacun de ces points dans nos articles « Les IA s'entraînent-elles sur vos données ? » et « Quelles données personnelles ChatGPT collecte-t-il sur vous ? ».

Les vrais risques : fuite, indexation, justice, RGPD

Au-delà des réglages, quatre risques concrets sont documentés. Le partage de conversations peut créer une exposition publique : en 2025, des conversations ChatGPT partagées via une option « rendre découvrable » se sont retrouvées indexées par les moteurs comme Google ; certaines contenaient des noms, des CV et des détails permettant d'identifier la personne via LinkedIn. Après ces signalements, OpenAI a retiré la fonctionnalité, son porte-parole expliquant qu'elle « introduisait trop d'occasions de partager accidentellement des choses non voulues ». Les contenus saisis peuvent aussi devenir des pièces produisibles en justice : dans le litige New York Times c. OpenAI, une décision de mai 2025 a contraint OpenAI à conserver des logs de conversations ChatGPT — y compris ceux que des utilisateurs avaient supprimés — et en novembre 2025 le tribunal a ordonné la production de 20 millions de logs dé-identifiés (cf. la note d'OpenAI « response to NYT data demands »).

  • Fuite par les employés : en avril 2023, des ingénieurs de Samsung ont collé du code source propriétaire de semi-conducteurs et des notes de réunions internes dans ChatGPT à plusieurs reprises en moins de 20 jours ; Samsung a ensuite restreint l'usage des IA génératives par son personnel.
  • Indexation des chats partagés : un partage « découvrable » peut rendre une conversation visible dans un moteur de recherche, avec les données qu'elle contient.
  • Production en justice : une obligation légale peut geler des données censées avoir été supprimées et imposer leur production.
  • Non-conformité RGPD : envoyer des données personnelles dans un outil grand public peut violer vos obligations, surtout sans base légale ni encadrement des transferts hors UE.

Côté RGPD, le cadre s'applique souvent aux modèles et à leur usage. Dans son Opinion 28/2024 (adoptée le 17 décembre 2024), le Comité européen de la protection des données (EDPB) estime que le caractère anonyme d'un modèle entraîné sur des données personnelles s'apprécie au cas par cas — un tel modèle ne peut pas toujours être considéré comme anonyme — et précise les conditions du recours à l'intérêt légitime via une analyse en trois étapes. La CNIL souligne pour sa part que les données personnelles doivent être protégées dans les bases d'entraînement, dans les modèles qui ont pu les mémoriser, et dans les prompts. Nous développons ce volet dans « Conformité RGPD et IA générative ».

Les protections : réglages, offres entreprise, anonymisation

Les protections côté fournisseur existent, mais sont limitées. Les réglages de confidentialité et l'opt-out d'entraînement sont à activer manuellement (parfois pré-cochés sur « On »), les chats temporaires réduisent la persistance, et les offres entreprise s'accompagnent d'un contrat de sous-traitance (DPA). La CNIL recommande d'ailleurs aux organisations de désactiver la réutilisation des données d'usage par le fournisseur, de signer un DPA précisant les limites d'accès, de vérifier l'absence d'entraînement et la conformité des transferts hors UE, voire d'utiliser des solutions on-premise pour les données sensibles. Mais aucun de ces réglages ne défait ce qui a déjà nourri un modèle, ni n'empêche une production en justice. C'est pourquoi la mesure la plus robuste se situe en amont, sur le contenu : retirer les données sensibles avant l'envoi. Notre guide « Comment anonymiser vos données avant de les envoyer à une IA » détaille la méthode, et « Quel chatbot IA respecte le plus la vie privée ? » montre pourquoi le réglage compte plus que la marque.

ProtectionCe qu'elle couvreSa limite
Opt-out d'entraînementArrête l'usage futur de vos chats pour entraînerNe retire pas ce qui a déjà nourri un modèle (futur seulement)
Chats temporaires / suppressionRéduit la persistance de l'historiqueRétention résiduelle (surveillance des abus) et gel judiciaire possibles
Offre entreprise + DPAExclut l'entraînement par défaut, encadre l'accèsRéservé aux contrats négociés ; juridiction du fournisseur inchangée
Anonymisation avant l'envoiLe sensible ne quitte jamais votre poste — couvre tous les outilsDemande de détecter et masquer le sensible avant de coller le prompt
Les réglages réduisent l'exposition ; seule l'anonymisation en amont est indépendante de l'outil et de ses options.
Schéma en deux temps : en haut, un prompt contenant des données sensibles (ambre) part vers plusieurs IA qui le conservent, le relisent et peuvent l'exposer ; en bas, le même prompt anonymisé ne laisse passer que des jetons (cobalt) avec une coche, sans rien d'exploitable, quel que soit l'outil.
D'après les recommandations de la CNIL, le changement de conditions consommateur d'Anthropic (TechCrunch) et l'indexation des chats partagés ChatGPT (Fortune). EDPB Opinion 28/2024 et OpenAI (response to NYT data demands) cités par nom.

Que faire selon votre profil

Les besoins varient. Un particulier doit éviter d'entrer des données médicales, financières ou des pièces d'identité dans un outil grand public. Une équipe ou une entreprise doit empêcher la fuite de code, de contrats, de données clients et de notes de réunion — le cas Samsung montre que l'anonymisation en amont protège aussi le secret des affaires. Les secteurs sensibles (santé, finance, juridique) sont soumis à des obligations renforcées (RGPD, secret professionnel, secret des affaires) qui rendent l'anonymisation d'autant plus nécessaire ; la CNIL recommande des politiques internes définissant usages autorisés et interdits, des analyses d'impact (DPIA) et la désignation d'un DPO.

  1. 1Particulier : ne collez ni numéro de sécurité sociale, ni RIB, ni résultats médicaux ; faites l'opt-out d'entraînement ; pour le reste, anonymisez avant l'envoi.
  2. 2Équipe / entreprise : interdisez le copier-coller de code source, contrats et données clients en clair ; cadrez les usages ; anonymisez ce qui doit quand même être traité par une IA.
  3. 3Secteur sensible (santé / finance / juridique) : combinez offre entreprise + DPA, DPIA et DPO, et anonymisation systématique — c'est la seule mesure qui tient quel que soit l'outil.

C'est précisément le rôle d'ONYRI Sanitize : puisque vous ne maîtrisez pas ce que le fournisseur fait de vos données, le levier qui reste est de ne jamais lui confier le sensible. Le moteur détecte les données sensibles — du nom à la clé API — et les remplace par des jetons réversibles ; la détection et le mapping jeton↔valeur restent dans votre navigateur, et seul un texte anonymisé atteint l'outil. Que la conversation soit entraînée, conservée cinq ans, relue par un humain ou produite en justice, elle ne contient que des jetons — pas vos informations réelles.

Questions fréquentes

Comment protéger sa vie privée avec l'IA ?
En partant du principe que vous ne contrôlez pas ce qu'un fournisseur fait de vos données, mais que vous contrôlez ce que vous lui envoyez. Faites l'opt-out d'entraînement et utilisez les chats temporaires, mais surtout ne collez aucune donnée sensible en clair : minimisez et anonymisez les informations avant l'envoi. La CNIL recommande explicitement de ne pas partager d'informations confidentielles dans un service d'IA grand public.
Les IA comme ChatGPT, Claude ou Gemini sont-elles sûres pour des données confidentielles ?
Pas par défaut sur les comptes grand public : elles entraînent souvent sur vos chats sauf opt-out, les conservent longtemps (jusqu'à 5 ans chez Anthropic pour qui ne se désinscrit pas) et peuvent les faire relire par des humains. Les offres entreprise avec DPA améliorent les choses, mais pour de la donnée vraiment confidentielle, la mesure la plus sûre reste de l'anonymiser avant l'envoi.
Un opt-out d'entraînement suffit-il à protéger mes données ?
Non. L'opt-out arrête l'usage futur de vos conversations pour l'entraînement, mais il ne retire pas ce qui a déjà nourri un modèle, n'empêche ni la rétention liée à la surveillance des abus, ni une revue humaine ponctuelle, ni un gel judiciaire des données. Il réduit l'exposition ; seule l'anonymisation du contenu avant l'envoi est indépendante de l'outil et de ses réglages.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi