Tous les articles
Fondamentaux6 min de lecture

Une IA peut-elle répéter ce que vous avez tapé ?

Oui, c'est documenté : les grands modèles mémorisent une partie de leurs données et peuvent en ressortir des fragments mot pour mot — PII comprises. Ce que dit la recherche.

Par Pierre de ONYRI

Oui, c'est possible — et la recherche le documente. Les grands modèles de langage « mémorisent » une partie de leurs données d'entraînement et peuvent, dans certaines conditions, en restituer des fragments mot pour mot, y compris des informations personnelles. Le phénomène a d'abord été mesuré sur GPT-2, puis confirmé sur des modèles de production comme ChatGPT. La conséquence pratique est simple : ce que vous collez dans une IA ne « se noie » pas forcément dans la masse — la meilleure protection reste de ne pas l'y envoyer en clair.

Ce que veut dire « mémoriser »

Un modèle est entraîné à prédire la suite d'un texte. Pour certaines séquences — surtout celles vues plusieurs fois — il ne se contente pas d'apprendre un style : il retient le passage exact. En 2021, une équipe menée par Nicholas Carlini a montré qu'on pouvait interroger GPT-2 pour lui faire restituer des centaines de séquences mot pour mot issues de son entraînement, dont des noms, des adresses e-mail, des numéros de téléphone et des identifiants. Ces données n'avaient pas été « mises à disposition » : elles ressortaient parce que le modèle les avait mémorisées.

La mémorisation augmente avec la taille du modèle

Une étude de suivi (Carlini et al., ICLR 2023) a quantifié le phénomène et dégagé trois relations nettes : la mémorisation croît avec la taille du modèle, avec le nombre de fois où un exemple est dupliqué dans les données, et avec la longueur du contexte fourni en amorce. Conclusion des auteurs : la mémorisation est plus répandue qu'on ne le pensait, et elle tend à s'aggraver à mesure que les modèles grandissent — sauf mesures d'atténuation actives.

Schéma : une donnée tapée par un utilisateur entre dans un modèle (sombre) ; plus tard, une requête d'un inconnu en fait ressortir le même fragment mot pour mot (ambre). En bas, trois barres cobalt croissantes : la mémorisation augmente avec la taille du modèle, la duplication et le contexte.
D'après Carlini et al. (2021, 2023) et Nasr et al. (2023) — un fragment mémorisé peut ressortir mot pour mot.

Et sur ChatGPT, pas seulement les vieux modèles ?

Oui. Fin 2023, une équipe incluant les mêmes chercheurs a décrit une « attaque par divergence » qui pousse un modèle de production — ChatGPT inclus — à s'écarter de son comportement de chatbot et à émettre des données d'entraînement, à un rythme environ 150 fois supérieur à la normale. Le but de cette recherche n'est pas d'aider à attaquer un modèle, mais de prouver un fait gênant : l'alignement et le format « assistant » ne suppriment pas la mémorisation, ils la masquent.

Parmi les types de contenus que ces travaux ont vus ressortir d'un modèle :

  • des informations personnelles (noms, e-mails, numéros de téléphone) ;
  • des extraits de code et des identifiants techniques ;
  • des passages de texte entiers, copiés mot pour mot depuis l'entraînement.
ÉtudeModèle testéCe qu'elle montre
Carlini et al., 2021GPT-2Extraction mot pour mot de séquences d'entraînement, dont noms, e-mails et numéros de téléphone
Carlini et al., 2023 (ICLR)Familles GPT-Neo, etc.La mémorisation croît avec la taille du modèle, la duplication et la longueur du contexte
Nasr et al., 2023ChatGPT (production)Une « attaque par divergence » fait ressortir des données d'entraînement ~150× plus souvent
Trois travaux à comité de lecture, du modèle ouvert au modèle de production.

Ce que ça change pour vous

Vos prompts d'aujourd'hui ne sont pas l'entraînement d'hier — mais le principe vaut pour tout ce qui peut être conservé puis réutilisé pour améliorer un modèle. Si une donnée sensible entre dans un système, il faut partir du principe qu'elle peut, un jour, en ressortir d'une manière que vous ne contrôlez pas. D'où une règle de bon sens :

  1. 1Considérez tout prompt comme potentiellement conservé, pas comme éphémère.
  2. 2Ne collez jamais en clair ce que vous ne voudriez pas voir ressortir : identités, identifiants, clés, secrets.
  3. 3Retirez la donnée sensible avant l'envoi — au lieu d'espérer qu'elle se « dilue ».

C'est exactement le rôle d'ONYRI Sanitize : détecter les données sensibles dans votre texte et les remplacer par des jetons réversibles avant l'envoi, puis restaurer la réponse dans votre navigateur. Le modèle ne voit jamais l'information réelle — il ne peut donc ni la mémoriser, ni la ressortir. La détection et le mapping jeton↔valeur restent côté navigateur.

Questions fréquentes

Une IA peut-elle vraiment ressortir mes données mot pour mot ?
Des travaux à comité de lecture l'ont démontré sur GPT-2 puis sur des modèles de production comme ChatGPT : un modèle peut restituer des fragments mémorisés mot pour mot, y compris des informations personnelles. Le risque augmente avec la taille du modèle et la duplication des données.
Mes prompts servent-ils à entraîner le modèle ?
Cela dépend du fournisseur et de vos réglages, et peut changer. Le plus sûr est de ne pas en dépendre : traitez chaque prompt comme potentiellement conservé et n'y mettez pas de données sensibles en clair.
Comment éviter qu'une donnée sensible soit mémorisée ?
En ne l'envoyant pas. Un moteur d'anonymisation détecte la donnée sensible et la remplace par un jeton réversible avant l'envoi ; le modèle ne reçoit qu'un texte neutralisé, qu'il ne peut pas mémoriser à votre place.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi