Fondamentaux9 min de lecture

Top 10 des données sensibles à ne jamais mettre dans une IA

Ne collez jamais mot de passe, données bancaires, de santé ou identifiant national dans une IA publique. Les dix types les plus risqués, classés, et la parade.

Par Pierre de ONYRI

Certaines données ne doivent jamais quitter votre organisation dans un prompt d'IA grand public. Voici les dix plus risquées, classées du pire au moins pire. En tête : les mots de passe et les clés d'accès. Ensuite l'argent, la santé, les identifiants officiels. La règle est simple. Si vous caviarderiez l'information dans un document public, ne la collez pas dans ChatGPT, Claude ou Gemini. La parade tient en une phrase : anonymisez le texte avant l'envoi.

Le Top 10 en un coup d'œil

Voici le classement, du risque le plus élevé au plus faible. Le rang un fait le plus de dégâts immédiats. Chaque ligne indique aussi la famille de détecteurs ONYRI qui la couvre.

  1. 1Mots de passe, clés API et identifiants de connexion. Une seule clé qui fuite ouvre un accès direct à vos systèmes. ONYRI les repère via les familles CREDENTIAL et TECHNICAL.
  2. 2Données financières : coordonnées bancaires, numéro de carte, IBAN. Elles mènent tout droit à la fraude. Famille FINANCIAL.
  3. 3Données de santé. Le RGPD les classe en catégorie particulière, très protégée. Famille PERSONAL.
  4. 4Identifiants nationaux : numéro de sécurité sociale, NINO britannique. Ils servent à l'usurpation d'identité. Famille PERSONAL.
  5. 5Données personnelles de tiers : clients, patients, collègues. Les exposer trahit leur confiance et la loi. Famille PERSONAL.
  6. 6Contrats, documents juridiques et secrets d'affaires. Un secret révélé perd sa valeur pour toujours. Familles CORPORATE et STRATEGIC.
  7. 7Code source et données internes de l'entreprise. Ils décrivent le cœur technique de votre activité. Familles TECHNICAL et STRATEGIC.
  8. 8Nom complet associé aux coordonnées. Pris ensemble, ces éléments identifient une personne précise. Famille PERSONAL.
  9. 9Données de connexion et de session : jetons, cookies, identifiants d'accès. Ils rejouent votre session sans mot de passe. Familles CREDENTIAL et TECHNICAL.
  10. 10Tout ce que vous caviarderiez dans un document public. En cas de doute, retirez-le. Les six familles ONYRI couvrent l'ensemble.
RangÉlémentPourquoi c'est risqué
1Mots de passe, clés API, identifiantsAccès direct à vos systèmes si la clé fuite
2Données financières (banque, carte, IBAN)Mènent tout droit à la fraude
3Données de santéCatégorie particulière très protégée (RGPD)
4Identifiants nationaux (n° sécu, NINO)Servent à l'usurpation d'identité
5Données personnelles de tiersTrahissent la confiance de clients et collègues
6Contrats, juridique, secrets d'affairesUn secret révélé perd sa valeur pour toujours
7Code source, données internesExposent le cœur technique de l'activité
8Nom complet + coordonnéesIdentifient une personne précise
9Données de connexion / sessionRejouent une session sans mot de passe
10Tout ce que vous caviarderiezEn cas de doute, retirez-le
Classement par risque décroissant. Santé et identifiants relèvent des catégories particulières de l'Article 9 du RGPD.

Le haut du classement : ce qui fait le plus mal

Le rang un, ce sont les secrets techniques. Un mot de passe, une clé API, un identifiant. Prenons un cas concret. Un développeur colle un bout de code pour le corriger, avec la clé cloud encore dedans. Cette seule clé peut suffire à ouvrir toute l'infrastructure. En avril 2023, des ingénieurs de Samsung ont divulgué des données confidentielles via ChatGPT. L'un des incidents portait sur du code lié à la fabrication de semi-conducteurs. Un autre sur la transcription d'une réunion interne, téléversée pour en faire un compte rendu. Résultat : Samsung a interdit les outils d'IA générative à ses employés.

Juste derrière viennent l'argent et la santé. Un IBAN, un numéro de carte, un relevé : de quoi nourrir une fraude. La santé va plus loin. Le RGPD, comme sa version britannique, range les données de santé dans les « catégories particulières » de l'Article 9. Cette liste inclut aussi l'origine, les opinions politiques, les convictions, la vie sexuelle et les données biométriques. Ces informations exigent une protection renforcée. Les coller dans un chatbot grand public va à l'encontre de cette exigence.

Les identifiants officiels suivent. Un numéro de sécurité sociale ou un NINO britannique ouvre la porte à l'usurpation. Enfin, méfiez-vous des données qui ne sont même pas les vôtres. Le nom d'un client, le dossier d'un patient, la fiche d'un collègue. Les exposer engage votre responsabilité, pas la leur.

Pourquoi une IA grand public aggrave le risque

Une requête envoyée à une IA publique comme ChatGPT est visible par le fournisseur. Le NCSC le rappelle. Ces requêtes sont stockées. Elles serviront presque à coup sûr à développer le service ou le modèle. Le fournisseur, ou ses partenaires, peut les lire. Ils peuvent aussi les intégrer à de futures versions du modèle.

Le stockage crée un second danger. Le NCSC avertit que des requêtes conservées en ligne peuvent être piratées, fuitées, ou rendues publiques par accident. Cela inclut des informations qui identifient l'utilisateur. Et l'opérateur pourrait être racheté par une société qui voit la vie privée autrement.

Par défaut, ChatGPT s'entraîne sur les conversations des comptes personnels Free, Plus et Pro. Vous pouvez le refuser dans Réglages, Contrôles des données. Mais ce refus ne vaut que pour l'avenir. Les données déjà utilisées dans un cycle d'entraînement terminé ne peuvent plus en être retirées. D'après l'OpenAI Help Center, les entrées business et API échappent à cet entraînement par défaut.

Le risque est aussi juridique. En décembre 2024, l'autorité italienne de protection des données, le Garante, a infligé une amende de 15 millions d'euros à OpenAI. Motif principal : un traitement de données personnelles sans base légale claire pour entraîner ChatGPT. Le tribunal de Rome a annulé cette amende le 18 mars 2026, mais sur une question de compétence entre régulateurs, pas sur le fond. Autre exemple. Dans l'affaire The New York Times contre OpenAI, une ordonnance fédérale de mai 2025 a forcé OpenAI à conserver ses logs de sortie. Y compris des conversations que des utilisateurs avaient supprimées. En novembre 2025, la U.S. District Court for the Southern District of New York a ordonné la production de 20 millions de logs dé-identifiés.

Schéma en deux temps : en haut, un podium de données sensibles en clair (jetons ambre) est envoyé à un panneau IA qui garde le contenu lisible ; en bas, le même podium anonymisé ne laisse voir que des jetons cobalt, et le panneau IA n'affiche qu'une coche — rien d'exploitable.
D'après le NCSC (risques des LLM publics), l'ICO (catégories particulières de l'Article 9) et Forbes (fuite de code confidentiel chez Samsung, 2023). Le classement reste, mais l'anonymisation neutralise l'exposition.

Comment s'en servir : la parade

La bonne nouvelle : la parade est simple et connue. Elle s'appelle la minimisation. Vous n'envoyez que le strict nécessaire. Et vous retirez les identifiants avant l'envoi. Pour cadrer ce qui compte comme sensible, notre guide « qu'est-ce qu'une donnée sensible » détaille les six familles. Et notre mode d'emploi « comment anonymiser vos données avant de les utiliser dans une IA » montre la marche à suivre, étape par étape.

  • N'envoyez jamais un mot de passe, une clé ou un jeton — même dans un extrait de code.
  • Retirez noms, e-mails et identifiants nationaux avant de coller le texte.
  • Ne partagez pas les données d'un tiers sans y être autorisé.
  • En cas de doute, appliquez le test du caviardage : le retireriez-vous d'un document public ?

C'est le rôle d'ONYRI Sanitize. Son moteur couvre toute cette liste : environ 38 détecteurs répartis sur les six familles de données sensibles. Il remplace chaque valeur par un jeton réversible avant l'envoi. La détection et le mapping jeton↔valeur restent dans votre navigateur. Seul un texte anonymisé atteint le modèle. ChatGPT, Claude ou Gemini n'y trouvent que des jetons — jamais vos informations réelles.

Questions fréquentes

Quelles données ne faut-il jamais mettre dans ChatGPT ?
Dix familles surtout : mots de passe et clés API, données bancaires, données de santé, identifiants nationaux, données personnelles de tiers, contrats et secrets d'affaires, code source, nom complet associé aux coordonnées, données de session, et tout ce que vous caviarderiez dans un document public. Le NCSC britannique recommande de ne rien envoyer qui poserait problème si la requête devenait publique.
Pourquoi est-ce risqué de coller des données sensibles dans une IA ?
Parce que la requête est visible par le fournisseur, stockée, et souvent utilisée pour améliorer le modèle. Par défaut, ChatGPT s'entraîne sur les comptes personnels sauf opt-out, et ce refus ne vaut que pour l'avenir. Les données stockées peuvent aussi être piratées, ou gelées par une décision de justice, comme dans l'affaire New York Times contre OpenAI.
Comment utiliser une IA sans exposer ces données ?
Appliquez la minimisation : n'envoyez que le nécessaire et retirez les identifiants avant l'envoi. Un moteur d'anonymisation remplace chaque donnée sensible par un jeton réversible côté navigateur. L'IA ne reçoit alors qu'un texte anonymisé, jamais les valeurs réelles.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi