Les plus grandes fuites de données liées à l'IA : la chronologie
Du bug ChatGPT de 2023 à la base DeepSeek exposée et aux chats Grok indexés par Google : les fuites de données IA les plus marquantes, datées et vérifiées.
Les plus grandes fuites de données liées à l'IA se répartissent en deux familles : des défaillances de plateforme, où des données déjà stockées côté serveur sont exposées (le bug Redis de ChatGPT en mars 2023, la base DeepSeek laissée ouverte en janvier 2025), et des fuites d'usage ou de partage, où l'utilisateur expose lui-même ses données (des ingénieurs Samsung collant du code propriétaire en 2023, des conversations Grok puis ChatGPT rendues publiques et indexées par Google en 2025). Dans tous les cas, la donnée à risque est celle qui a été saisie en clair dans l'outil. La leçon est invariable : ce qui n'est jamais entré en clair dans un service IA ne peut pas en fuiter.
Les défaillances de plateforme : ChatGPT (2023) et DeepSeek (2025)
Le 20 mars 2023, un bug dans la bibliothèque open-source redis-py a, pendant une fenêtre d'environ neuf heures, exposé à certains utilisateurs de ChatGPT des titres de conversations appartenant à d'autres comptes ; pour une partie des abonnés Plus actifs, des informations de paiement ont aussi pu être visibles (nom, e-mail, adresse de facturation, type de carte et quatre derniers chiffres de la carte). OpenAI a retiré ChatGPT en ligne, corrigé le bug le jour même et ajouté des contrôles redondants. Point clé : ce qui a fuité, ce sont des données déjà saisies et stockées par le service — pas des données absentes.
En janvier 2025, les chercheurs de Wiz ont découvert une base de données ClickHouse appartenant à DeepSeek, publiquement accessible sans authentification et autorisant des requêtes SQL arbitraires. Elle contenait plus d'un million de lignes de logs : historiques de conversation en clair, clés API, jetons d'accès secrets et détails d'infrastructure backend. Wiz a divulgué l'incident de façon responsable (rapport du 29 janvier 2025) et DeepSeek a sécurisé l'exposition rapidement. Une simple erreur de configuration a suffi à rendre accessibles des conversations et des secrets stockés côté serveur.
Les fuites d'usage : Samsung colle ses secrets (2023)
En avril 2023, selon la presse, des ingénieurs de la division semi-conducteurs de Samsung ont collé dans ChatGPT du code source propriétaire et des notes de réunion internes pour obtenir de l'aide — débogage, optimisation, comptes-rendus — au cours de trois incidents distincts en une vingtaine de jours. En réaction, Samsung a restreint puis interdit en interne l'usage des chatbots IA générative sur ses réseaux (mai 2023) et accéléré le développement d'outils internes. La leçon est centrale : une fuite peut venir non d'un piratage, mais simplement du fait de coller des secrets en clair dans un outil tiers.
- Défaillance de plateforme : la donnée fuit parce que le service est mal sécurisé (bug, base ouverte).
- Fuite d'usage : la donnée fuit parce qu'un utilisateur la saisit ou la partage sans mesurer le risque.
- Dans les deux cas, c'est la même donnée en clair qui est exposée — celle qu'on a confiée à l'outil.
Les fuites de partage : Grok et ChatGPT indexés par Google (2025)
En 2025, deux incidents ont montré qu'un bouton « partager » mal compris suffit à transformer une conversation privée en page web publique. La fonction de partage de Grok (xAI) générait des liens publics que les moteurs de recherche ont indexés : la presse a rapporté que des centaines de milliers de conversations partagées (de l'ordre de plus de 370 000) étaient devenues consultables, certaines contenant des informations sensibles comme des conseils médicaux ou des mots de passe. Côté OpenAI, une option « rendre cette conversation découvrable » a fait indexer environ 4 500 conversations partagées sur Google, parfois avec des détails personnels (noms, e-mails, CV). Le responsable de la sécurité d'OpenAI, Dane Stuckey, a annoncé le retrait de cette fonction, qualifiée d'expérience de courte durée.
La chronologie en un coup d'œil
Ces incidents marquants, replacés sur une frise, font apparaître le même fil conducteur — la donnée à risque est toujours celle entrée en clair :
| Date | Incident | Ce qui a fuité | La leçon |
|---|---|---|---|
| Mars 2023 | Bug Redis de ChatGPT (OpenAI) | Titres de conversations d'autres comptes ; infos de paiement de certains abonnés Plus | Seules les données déjà stockées peuvent fuiter |
| Avril 2023 | Samsung colle du code dans ChatGPT | Code source propriétaire et notes de réunion internes | Coller un secret en clair suffit à le perdre |
| Janv. 2025 | Base DeepSeek exposée (découverte par Wiz) | +1 M de logs : chats en clair, clés API, jetons secrets | Une erreur de configuration ouvre tout |
| 2025 | Conversations ChatGPT partagées indexées | ~4 500 chats partagés sur Google (noms, e-mails, CV) | Une option « découvrable » expose au public |
| Août 2025 | Conversations Grok indexées (xAI) | Des centaines de milliers de chats partagés, parfois sensibles | Un lien « partager » devient une page publique |
Ce que ces incidents nous apprennent
Au-delà de l'incident technique, les conséquences peuvent durer. Après le bug de mars 2023, le Garante per la protezione dei dati personali (l'autorité italienne de protection des données) a ordonné le 30 mars une suspension temporaire du traitement des données des utilisateurs italiens, faisant de l'Italie le premier pays à bloquer temporairement ChatGPT ; l'accès a été rétabli fin avril après mesures correctives. En décembre 2024, le Garante a infligé à OpenAI une amende de 15 millions d'euros, reprochant notamment un défaut de notification de la violation de mars 2023.
- 1Vérifiez avant de partager : un lien « partager » ou une option « découvrable » peut rendre une conversation indexable par Google.
- 2Ne collez jamais de secret en clair (code, clés, mots de passe) dans un chatbot tiers — c'est la fuite la plus facile à éviter.
- 3Ne comptez pas seulement sur la sécurité du fournisseur : un bug ou une base mal configurée échappe à votre contrôle.
- 4Anonymisez la donnée sensible avant l'envoi : ce qui n'entre jamais en clair ne peut figurer dans aucune fuite.
C'est précisément la logique d'ONYRI Sanitize : le moteur remplace les données sensibles par des jetons réversibles avant l'envoi ; la détection et le mapping jeton↔valeur restent dans votre navigateur, et seul un texte anonymisé atteint le modèle. Qu'un bug expose une base, qu'un relecteur regarde ou qu'un lien soit indexé, on n'y trouve que des jetons — pas vos informations réelles.
Questions fréquentes
- Quelles sont les plus grandes fuites de données liées à l'IA ?
- Parmi les plus marquantes : le bug Redis de ChatGPT (mars 2023, titres de conversations et infos de paiement de certains abonnés Plus exposés), le cas Samsung (code propriétaire collé dans ChatGPT, 2023), la base DeepSeek laissée ouverte et découverte par Wiz (janvier 2025, plus d'un million de logs dont des chats en clair et des clés API), et les conversations Grok puis ChatGPT partagées et indexées par Google (2025).
- Y a-t-il eu un vrai incident de fuite de données ChatGPT ?
- Oui. Le 20 mars 2023, un bug dans la bibliothèque open-source redis-py a exposé pendant environ neuf heures des titres de conversations d'autres comptes et, pour une partie des abonnés Plus actifs, des informations de paiement. OpenAI a corrigé le bug le jour même. En 2025, environ 4 500 conversations volontairement partagées via un lien se sont aussi retrouvées indexées sur Google.
- Comment éviter d'être touché par une fuite de données IA ?
- La parade la plus fiable est d'agir sur le contenu : ne jamais coller de secret en clair, vérifier avant de partager une conversation, et anonymiser les données sensibles avant l'envoi. Ce qui n'est jamais entré en clair dans un service IA ne peut figurer dans aucune fuite, qu'elle vienne d'un bug, d'une base mal configurée ou d'un lien partagé.
Sources et références
- OpenAI attribue l'exposition de données ChatGPT de mars 2023 à un bug de la bibliothèque Redis (titres de conversations et infos de paiement Plus exposés) — The Hacker News
- Wiz Research : base de données DeepSeek exposée publiquement, plus d'un million de logs avec historiques de chat en clair, clés API et jetons secrets (janvier 2025) — Wiz
- Des centaines de milliers de conversations Grok rendues publiques et indexées par Google via la fonction de partage (août 2025) — Fortune
Gardez vos données sensibles dans votre navigateur
ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.
Anonymiser mon prompt