Quelles sont les plus grandes fuites de données liées à l'IA ?

Parmi les plus marquantes : le bug Redis de ChatGPT (mars 2023, titres de conversations et infos de paiement de certains abonnés Plus exposés), le cas Samsung (code propriétaire collé dans ChatGPT, 2023), la base DeepSeek laissée ouverte et découverte par Wiz (janvier 2025, plus d'un million de logs dont des chats en clair et des clés API), et les conversations Grok puis ChatGPT partagées et indexées par Google (2025).

Comment éviter d'être touché par une fuite de données IA ?

La parade la plus fiable est d'agir sur le contenu : ne jamais coller de secret en clair, vérifier avant de partager une conversation, et anonymiser les données sensibles avant l'envoi. Ce qui n'est jamais entré en clair dans un service IA ne peut figurer dans aucune fuite, qu'elle vienne d'un bug, d'une base mal configurée ou d'un lien partagé.

Actualité & incidents7 min de lecture

Les plus grandes fuites de données liées à l'IA : la chronologie

Du bug ChatGPT de 2023 à la base DeepSeek exposée et aux chats Grok indexés par Google : les fuites de données IA les plus marquantes, datées et vérifiées.

Par Pierre de ONYRI20 juin 2026

Les plus grandes fuites de données liées à l'IA se répartissent en deux familles : des défaillances de plateforme, où des données déjà stockées côté serveur sont exposées (le bug Redis de ChatGPT en mars 2023, la base DeepSeek laissée ouverte en janvier 2025), et des fuites d'usage ou de partage, où l'utilisateur expose lui-même ses données (des ingénieurs Samsung collant du code propriétaire en 2023, des conversations Grok puis ChatGPT rendues publiques et indexées par Google en 2025). Dans tous les cas, la donnée à risque est celle qui a été saisie en clair dans l'outil. La leçon est invariable : ce qui n'est jamais entré en clair dans un service IA ne peut pas en fuiter.

Les défaillances de plateforme : ChatGPT (2023) et DeepSeek (2025)

Le 20 mars 2023, un bug dans la bibliothèque open-source redis-py a, pendant une fenêtre d'environ neuf heures, exposé à certains utilisateurs de ChatGPT des titres de conversations appartenant à d'autres comptes ; pour une partie des abonnés Plus actifs, des informations de paiement ont aussi pu être visibles (nom, e-mail, adresse de facturation, type de carte et quatre derniers chiffres de la carte). OpenAI a retiré ChatGPT en ligne, corrigé le bug le jour même et ajouté des contrôles redondants. Point clé : ce qui a fuité, ce sont des données déjà saisies et stockées par le service — pas des données absentes.

En janvier 2025, les chercheurs de Wiz ont découvert une base de données ClickHouse appartenant à DeepSeek, publiquement accessible sans authentification et autorisant des requêtes SQL arbitraires. Elle contenait plus d'un million de lignes de logs : historiques de conversation en clair, clés API, jetons d'accès secrets et détails d'infrastructure backend. Wiz a divulgué l'incident de façon responsable (rapport du 29 janvier 2025) et DeepSeek a sécurisé l'exposition rapidement. Une simple erreur de configuration a suffi à rendre accessibles des conversations et des secrets stockés côté serveur.

Les fuites d'usage : Samsung colle ses secrets (2023)

En avril 2023, selon la presse, des ingénieurs de la division semi-conducteurs de Samsung ont collé dans ChatGPT du code source propriétaire et des notes de réunion internes pour obtenir de l'aide — débogage, optimisation, comptes-rendus — au cours de trois incidents distincts en une vingtaine de jours. En réaction, Samsung a restreint puis interdit en interne l'usage des chatbots IA générative sur ses réseaux (mai 2023) et accéléré le développement d'outils internes. La leçon est centrale : une fuite peut venir non d'un piratage, mais simplement du fait de coller des secrets en clair dans un outil tiers.

Défaillance de plateforme : la donnée fuit parce que le service est mal sécurisé (bug, base ouverte).
Fuite d'usage : la donnée fuit parce qu'un utilisateur la saisit ou la partage sans mesurer le risque.
Dans les deux cas, c'est la même donnée en clair qui est exposée — celle qu'on a confiée à l'outil.

Les fuites de partage : Grok et ChatGPT indexés par Google (2025)

En 2025, deux incidents ont montré qu'un bouton « partager » mal compris suffit à transformer une conversation privée en page web publique. La fonction de partage de Grok (xAI) générait des liens publics que les moteurs de recherche ont indexés : la presse a rapporté que des centaines de milliers de conversations partagées (de l'ordre de plus de 370 000) étaient devenues consultables, certaines contenant des informations sensibles comme des conseils médicaux ou des mots de passe. Côté OpenAI, une option « rendre cette conversation découvrable » a fait indexer environ 4 500 conversations partagées sur Google, parfois avec des détails personnels (noms, e-mails, CV). Le responsable de la sécurité d'OpenAI, Dane Stuckey, a annoncé le retrait de cette fonction, qualifiée d'expérience de courte durée.

La chronologie en un coup d'œil

Ces incidents marquants, replacés sur une frise, font apparaître le même fil conducteur — la donnée à risque est toujours celle entrée en clair :

Date	Incident	Ce qui a fuité	La leçon
Mars 2023	Bug Redis de ChatGPT (OpenAI)	Titres de conversations d'autres comptes ; infos de paiement de certains abonnés Plus	Seules les données déjà stockées peuvent fuiter
Avril 2023	Samsung colle du code dans ChatGPT	Code source propriétaire et notes de réunion internes	Coller un secret en clair suffit à le perdre
Janv. 2025	Base DeepSeek exposée (découverte par Wiz)	+1 M de logs : chats en clair, clés API, jetons secrets	Une erreur de configuration ouvre tout
2025	Conversations ChatGPT partagées indexées	~4 500 chats partagés sur Google (noms, e-mails, CV)	Une option « découvrable » expose au public
Août 2025	Conversations Grok indexées (xAI)	Des centaines de milliers de chats partagés, parfois sensibles	Un lien « partager » devient une page publique

Timeline des fuites IA marquantes. D'après The Hacker News, Wiz et Fortune.

Schéma : en haut, une conversation IA contenant des données sensibles en clair (ambre) qui fuit hors d'un coffre — bug, base ouverte ou lien partagé ; en bas, une conversation anonymisée ne laisse que des jetons (cobalt) et une coche, sans rien d'exploitable à exposer. — D'après The Hacker News (bug Redis de ChatGPT), Wiz (base DeepSeek exposée) et Fortune (conversations Grok indexées).

Ce que ces incidents nous apprennent

Au-delà de l'incident technique, les conséquences peuvent durer. Après le bug de mars 2023, le Garante per la protezione dei dati personali (l'autorité italienne de protection des données) a ordonné le 30 mars une suspension temporaire du traitement des données des utilisateurs italiens, faisant de l'Italie le premier pays à bloquer temporairement ChatGPT ; l'accès a été rétabli fin avril après mesures correctives. En décembre 2024, le Garante a infligé à OpenAI une amende de 15 millions d'euros, reprochant notamment un défaut de notification de la violation de mars 2023.

1Vérifiez avant de partager : un lien « partager » ou une option « découvrable » peut rendre une conversation indexable par Google.
2Ne collez jamais de secret en clair (code, clés, mots de passe) dans un chatbot tiers — c'est la fuite la plus facile à éviter.
3Ne comptez pas seulement sur la sécurité du fournisseur : un bug ou une base mal configurée échappe à votre contrôle.
4Anonymisez la donnée sensible avant l'envoi : ce qui n'entre jamais en clair ne peut figurer dans aucune fuite.

C'est précisément la logique d'ONYRI Sanitize : le moteur remplace les données sensibles par des jetons réversibles avant l'envoi ; la détection et le mapping jeton↔valeur restent dans votre navigateur, et seul un texte anonymisé atteint le modèle. Qu'un bug expose une base, qu'un relecteur regarde ou qu'un lien soit indexé, on n'y trouve que des jetons — pas vos informations réelles.

Questions fréquentes

Quelles sont les plus grandes fuites de données liées à l'IA ?: Parmi les plus marquantes : le bug Redis de ChatGPT (mars 2023, titres de conversations et infos de paiement de certains abonnés Plus exposés), le cas Samsung (code propriétaire collé dans ChatGPT, 2023), la base DeepSeek laissée ouverte et découverte par Wiz (janvier 2025, plus d'un million de logs dont des chats en clair et des clés API), et les conversations Grok puis ChatGPT partagées et indexées par Google (2025).
Y a-t-il eu un vrai incident de fuite de données ChatGPT ?: Oui. Le 20 mars 2023, un bug dans la bibliothèque open-source redis-py a exposé pendant environ neuf heures des titres de conversations d'autres comptes et, pour une partie des abonnés Plus actifs, des informations de paiement. OpenAI a corrigé le bug le jour même. En 2025, environ 4 500 conversations volontairement partagées via un lien se sont aussi retrouvées indexées sur Google.
Comment éviter d'être touché par une fuite de données IA ?: La parade la plus fiable est d'agir sur le contenu : ne jamais coller de secret en clair, vérifier avant de partager une conversation, et anonymiser les données sensibles avant l'envoi. Ce qui n'est jamais entré en clair dans un service IA ne peut figurer dans aucune fuite, qu'elle vienne d'un bug, d'une base mal configurée ou d'un lien partagé.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt