Est-il prudent de téléverser des fichiers dans ChatGPT ?

Pas sans précaution. Un fichier porte souvent bien plus de données personnelles qu'un prompt tapé : un seul tableur peut aligner des dizaines de milliers de lignes. Sur les comptes grand public, votre contenu peut servir à l'entraînement sauf opt-out, et la donnée stockée peut être revue ou piratée. La règle sûre : anonymisez le fichier avant l'envoi, ou passez par une offre business avec contrat.

Quels fichiers ne faut-il jamais téléverser dans une IA ?

Huit surtout : les tableurs de données clients ou salariés, les contrats et documents juridiques, les relevés financiers et fiscaux, les dossiers médicaux, les fichiers RH, le code source avec secrets, les scans de pièces d'identité, et les documents stratégiques internes. Chacun expose soit la donnée personnelle de tiers, soit un secret dont la fuite est irréversible.

Comment utiliser une IA sur un fichier sensible sans l'exposer ?

Appliquez la minimisation : ne gardez que le nécessaire et masquez les identifiants avant l'envoi. Un moteur d'anonymisation remplace chaque donnée sensible par un jeton réversible côté navigateur, dans le texte comme dans les tableaux. L'IA ne reçoit alors qu'un contenu anonymisé, jamais les valeurs réelles du fichier.

Guide8 min de lecture

Voici les 8 fichiers sensibles à ne jamais téléverser dans une IA

Ne téléversez jamais un tableur clients, un contrat, un relevé financier ou un dossier médical dans une IA publique. Les 8 fichiers les plus risqués, classés.

Par Pierre de ONYRI4 juillet 2026

Certains fichiers ne doivent jamais être téléversés dans une IA publique. Un fichier n'est pas un prompt. Un seul tableur peut contenir des milliers de noms, d'e-mails et de numéros. Un envoi expose donc bien plus qu'une phrase tapée. Voici les huit fichiers les plus risqués, classés du pire au moins pire. La règle est simple. Si un fichier exigeait un caviardage avant partage, ne le téléversez pas — anonymisez-le d'abord.

Le classement en un coup d'œil

Voici le classement, du risque le plus élevé au plus faible. Le risque mêle ici deux choses. La quantité de données sensibles dans le fichier. Et la gravité d'une fuite. Chaque ligne indique aussi comment ONYRI couvre ce fichier avant l'envoi.

1Tableurs de données clients ou salariés. Un seul fichier peut contenir des dizaines de milliers de lignes de données personnelles. ONYRI analyse les tableaux cellule par cellule et masque chaque valeur.
2Contrats et documents juridiques. Ils portent secrets d'affaires, clauses et parties nommées. ONYRI masque noms, sociétés et identifiants avant l'envoi.
3Relevés financiers et documents fiscaux. Coordonnées bancaires et montants ouvrent la voie à la fraude. ONYRI masque numéros de compte, IBAN et sommes.
4Dossiers médicaux. La donnée de santé est parmi les plus protégées, et un chatbot public ne signe aucun contrat de santé. ONYRI repère les détails médicaux d'abord.
5Fichiers RH : paie et évaluations. Ils mêlent salaires, adresses et notes privées sur des personnes réelles. ONYRI masque noms, rémunérations et coordonnées.
6Code source et fichiers de config avec secrets. Une seule clé qui fuite peut ouvrir tout votre système — la fuite unique la plus grave de la liste. ONYRI repère clés API, jetons et identifiants.
7Scans de pièces d'identité : passeports et permis. Un numéro d'identité volé nourrit l'usurpation. ONYRI détecte les numéros de pièces et de documents.
8Documents stratégiques et internes : board, roadmaps. Ils livrent vos plans à quiconque les lit. ONYRI masque noms internes, projets et chiffres.

Rang	Élément	Pourquoi c'est risqué
1	Tableurs clients / salariés	Des dizaines de milliers de lignes de PII dans un fichier
2	Contrats, documents juridiques	Un secret révélé perd sa valeur pour toujours
3	Relevés financiers, fiscaux	Les coordonnées bancaires ouvrent la voie à la fraude
4	Dossiers médicaux	Donnée très protégée ; pas de contrat de santé signé
5	Fichiers RH (paie, évaluations)	Salaires et notes privées sur des personnes réelles
6	Code, config avec secrets	Une clé qui fuite peut ouvrir tout votre système
7	Scans de pièces d'identité	Un numéro volé nourrit l'usurpation d'identité
8	Documents stratégiques, internes	Livrent vos plans à quiconque les lit

Classé par risque combiné : la quantité de données sensibles du fichier et la gravité d'une fuite. D'après IBM, GitGuardian et la FTC américaine.

Le haut du classement : les fichiers les plus exposés

Le rang un, c'est le tableur clients. C'est là qu'un fichier dépasse de loin un prompt. Une seule feuille peut contenir des dizaines de milliers de lignes, sur de nombreuses colonnes. Chaque cellule est une donnée personnelle. Un envoi porte donc bien plus qu'une journée entière de saisie. Aucune relecture humaine ne tient à ce volume. Dans le rapport IBM 2024 sur le coût d'une violation, la donnée personnelle des clients est le type le plus souvent touché : 46 % des cas. Les entreprises qui la perdent subissent plus de contrôles et d'amendes. Le même rapport chiffre le coût moyen d'une violation à 4,88 millions de dollars, en hausse de 10 % sur un an. Notre guide pour anonymiser un tableur avant l'IA montre comment le nettoyer vite.

Viennent ensuite les contrats et les fichiers financiers. Un contrat porte secrets d'affaires, prix et parties nommées. Une fois un secret dévoilé, il peut perdre sa valeur pour toujours. Les fichiers financiers et fiscaux ajoutent un autre risque. Coordonnées bancaires et chiffres donnent aux fraudeurs une voie directe. Le rapport IBM 2024 chiffre l'enregistrement de propriété intellectuelle volé à 173 dollars, en hausse de près de 11 % sur un an. Avant de coller des clauses dans un chatbot, lisez notre note sur la sécurité de l'IA pour les contrats.

Les dossiers médicaux figurent haut, pour une raison. La donnée de santé est parmi les plus protégées par la loi. Les chatbots publics comme ChatGPT ne sont pas conformes à HIPAA. HIPAA est la loi américaine sur la vie privée en santé. Ces outils ne signent pas de Business Associate Agreement, le contrat qu'exige la donnée de santé. Saisir des informations médicales de patients peut donc valoir divulgation non autorisée — en pratique, une violation de données.

Le reste de la liste : RH, code et pièces d'identité

Les fichiers RH complètent les risques sur la donnée personnelle. Les feuilles de paie listent des salaires. Les évaluations gardent des notes franches sur des salariés nommés. Ce sont les données privées d'autres personnes, confiées à vous. Les téléverser expose une donnée qui n'est pas la vôtre à partager.

Le code source et les fichiers de config sont un cas à part. Ils cachent souvent un secret en pleine vue — une clé API, un jeton, un mot de passe. Une seule clé qui fuite peut ouvrir tout votre système. L'échelle est réelle. GitGuardian a scanné 1,1 milliard de commits GitHub publics pour 2023. Il y a trouvé 12,8 millions de nouveaux secrets fuités, en hausse de 28 % sur un an. Il a aussi vu une explosion des clés OpenAI fuitées : x1212. Et plus de 90 % des secrets exposés fonctionnaient encore cinq jours après la fuite. En 2023, des ingénieurs de Samsung ont collé du code de semi-conducteurs et des notes de réunion dans ChatGPT. Samsung a ensuite interdit l'IA générative sur ses appareils.

Viennent ensuite les scans de pièces d'identité. Un passeport ou un permis porte un numéro fait pour prouver qui vous êtes. La Federal Trade Commission américaine explique l'usage des données d'identité volées. Les voleurs ouvrent des comptes, remplissent des déclarations d'impôts, obtiennent des soins ou prennent des prêts à votre nom. La FTC oriente les victimes vers IdentityTheft.gov pour signaler.

Enfin, les documents stratégiques et internes. Board et roadmaps gardent vos plans et vos points faibles. Ils contiennent rarement votre propre donnée personnelle. Mais ils peuvent livrer votre prochain coup à un concurrent. La fuite Samsung incluait des notes de réunion internes, pas seulement du code.

Schéma en deux temps : en haut, une pile de fichiers en clair (ambre) est téléversée vers un panneau IA qui garde le contenu lisible ; en bas, la même pile anonymisée ne laisse voir que des jetons (cobalt), et le panneau IA n'affiche qu'une coche — rien d'exploitable. — D'après IBM (Cost of a Data Breach 2024), GitGuardian (State of Secrets Sprawl 2024) et la FTC américaine. Le fichier reste utile, mais l'anonymisation neutralise l'exposition.

Il existe une raison plus profonde à ce risque. Sur les offres grand public, votre contenu peut servir à entraîner le modèle, sauf refus de votre part. OpenAI indique que ses produits business — Business, Enterprise et l'API — ne sont pas entraînés par défaut. Le chat temporaire n'est ni conservé ni utilisé pour l'entraînement. Notre article sur la sécurité du téléversement de documents dans ChatGPT creuse ce point.

Comment s'en servir : la parade

La parade n'est pas d'éviter l'IA. C'est de nettoyer le fichier d'abord. On appelle cela la minimisation des données. Vous retirez ou masquez les identifiants avant que le fichier ne quitte votre poste. Moins vous envoyez de données personnelles, plus votre risque rétrécit. Notre guide pour anonymiser un document avant l'IA montre la marche à suivre.

La loi va dans ce sens. Sous le RGPD, une donnée pleinement anonymisée n'est plus une donnée personnelle. Mais une donnée pseudonymisée le reste — des identifiants remplacés par des jetons sont encore encadrés. Le masquage n'est donc pas une baguette magique. Le vrai gain est simple : envoyer moins, et garder chez vous le lien entre le jeton et la valeur.

Ne téléversez jamais un tableur clients ou RH brut — masquez d'abord les colonnes.
Retirez clés API et mots de passe de tout fichier de code ou de config.
Ôtez noms, identifiants et numéros de compte des contrats et fichiers financiers.
Pour un fichier de santé ou une pièce d'identité, ne le collez pas du tout dans un chatbot grand public.
En cas de doute, appliquez le test du caviardage : partageriez-vous ce fichier en public ?

C'est exactement le rôle d'ONYRI Sanitize. Il détecte les données sensibles dans le texte et les tableaux, puis remplace chaque valeur par un jeton réversible. La détection et le mapping jeton↔valeur restent dans votre navigateur. Seul un texte anonymisé atteint l'outil. Que vous utilisiez ChatGPT, Claude ou Gemini, il ne voit que des jetons — jamais vos vrais fichiers.

Questions fréquentes

Est-il prudent de téléverser des fichiers dans ChatGPT ?: Pas sans précaution. Un fichier porte souvent bien plus de données personnelles qu'un prompt tapé : un seul tableur peut aligner des dizaines de milliers de lignes. Sur les comptes grand public, votre contenu peut servir à l'entraînement sauf opt-out, et la donnée stockée peut être revue ou piratée. La règle sûre : anonymisez le fichier avant l'envoi, ou passez par une offre business avec contrat.
Quels fichiers ne faut-il jamais téléverser dans une IA ?: Huit surtout : les tableurs de données clients ou salariés, les contrats et documents juridiques, les relevés financiers et fiscaux, les dossiers médicaux, les fichiers RH, le code source avec secrets, les scans de pièces d'identité, et les documents stratégiques internes. Chacun expose soit la donnée personnelle de tiers, soit un secret dont la fuite est irréversible.
Comment utiliser une IA sur un fichier sensible sans l'exposer ?: Appliquez la minimisation : ne gardez que le nécessaire et masquez les identifiants avant l'envoi. Un moteur d'anonymisation remplace chaque donnée sensible par un jeton réversible côté navigateur, dans le texte comme dans les tableaux. L'IA ne reçoit alors qu'un contenu anonymisé, jamais les valeurs réelles du fichier.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt