Guide8 min de lecture

Comment savoir si un outil d'IA est sûr (checklist confidentialité)

Pour juger si un outil d'IA est sûr, vérifiez dans sa politique : entraînement par défaut, opt-out, rétention, revue humaine, juridiction, DPA, certifications.

Par Pierre de ONYRI

Juger si un outil d'IA est sûr avant d'y coller des données, ce n'est pas une question de réputation de marque : c'est une grille d'évaluation. Concrètement, vous vérifiez dans sa politique de confidentialité et ses CGU une série de critères — entraîne-t-il sur vos entrées par défaut ? existe-t-il un opt-out, et vaut-il pour le passé ? quelle durée de rétention ? y a-t-il une revue humaine ? où sont hébergées les données ? sont-elles chiffrées ? propose-t-il un DPA (et un BAA pour la santé) ? que disent les CGU sur le partage avec des tiers et la fonction « Partager » ? détient-il des certifications comme SOC 2 Type II ou ISO 27001 ? Cet article en fait une checklist — avec, pour chaque critère, où chercher l'info et le signal d'alerte qui doit vous arrêter.

Le premier réflexe : lire, pas faire confiance

La sûreté d'un outil d'IA ne se devine pas au logo. Une étude de Stanford HAI (autrice principale Jennifer King), publiée le 15 octobre 2025 et appuyée sur l'analyse de 28 documents de politique des six principaux acteurs américains du chatbot — Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) et OpenAI (ChatGPT) — conclut que les six utilisent par défaut les conversations des utilisateurs pour entraîner leurs modèles. Autrement dit, pour les chatbots grand public, la réponse à « entraîne-t-il sur mes entrées ? » est très souvent oui. Le seul moyen de le savoir pour un outil donné est de lire sa documentation — pas de présumer.

Toujours selon cette étude (reprise par le Stanford Report), l'opt-out d'entraînement n'est pas universel : certains éditeurs proposent un choix de désinscription, d'autres non. Certains conservent les données indéfiniment, certains autorisent des humains à relire des transcriptions à des fins d'entraînement, et seuls certains déclarent dé-identifier les données avant usage — ce qui laisse subsister un risque de ré-identification. Trois questions en découlent : l'opt-out existe-t-il, vaut-il pour le passé, et la dé-identification est-elle garantie ?

La checklist : 9 critères, où chercher, le signal d'alerte

Voici la grille à passer avant de coller des données dans un outil d'IA. Pour chaque ligne : la question à se poser, et le signal d'alerte qui doit vous faire reculer.

CritèreQuestion à se poserSignal d'alerte
Entraînement par défautMes entrées servent-elles à entraîner les modèles sans action de ma part ?Entraînement activé par défaut, surtout sur un palier grand public
Opt-outPuis-je le refuser, et le refus vaut-il aussi pour le passé ?Pas d'opt-out, ou opt-out limité au futur sans suppression du passé
RétentionCombien de temps les conversations sont-elles conservées, même « supprimées » ?Politique vague sur le sort des chats supprimés ; conservation indéfinie
Revue humaineDes personnes peuvent-elles relire mes échanges ?Relecture humaine non bornée, hors champ de l'opt-out
JuridictionOù sont hébergées les données, sous quel droit, quels transferts hors UE ?Hébergement opaque ou hors UE sans garanties de transfert
ChiffrementLes données sont-elles chiffrées en transit et au repos ?Aucune mention de chiffrement en transit/au repos
DPA / BAAUn Data Processing Agreement (et un BAA santé) est-il proposé ?Pas de DPA pour un usage pro touchant des données personnelles
Partage / fonction « Partager »Que disent les CGU sur la licence du contenu, les tiers et l'indexation ?Liens de partage publics/indexables, licence large sur le contenu
CertificationsSOC 2 Type II et/ou ISO 27001, avec périmètre précisé ?« SOC 2 » revendiqué sans Type II ni périmètre
Checklist d'évaluation avant de coller des données. D'après l'étude Stanford HAI (Jennifer King), l'article 28 du RGPD et le suivi des fonctions de partage par Search Engine Land.

Trois critères qui trompent souvent

Certaines lignes de la checklist méritent un mot, parce qu'elles sont régulièrement mal comprises — et que c'est là que se cachent les fuites.

  • Rétention vs opt-out : ce sont deux choses différentes. Même après désinscription d'entraînement, beaucoup de fournisseurs conservent les données (souvent ~30 jours pour la surveillance des abus), avec accès humain possible, ces processus étant fréquemment exclus de l'opt-out. Seul un régime de rétention zéro (Zero Data Retention) supprime ce stockage. Le palier compte : ChatGPT grand public (Free, Plus, Pro) entraîne par défaut — opt-out via Réglages → Data Controls → « Improve the model for everyone » — tandis qu'OpenAI déclare ne pas entraîner par défaut sur ChatGPT Business/Enterprise ni l'API (cf. l'OpenAI Help Center, Data Controls FAQ).
  • Certifications : SOC 2 et ISO 27001 ne prouvent pas la même chose. ISO 27001 est une certification délivrée par un organisme accrédité, attestant d'un système de management de la sécurité de l'information (ISMS). SOC 2 est un rapport d'attestation d'un auditeur sur des contrôles évalués selon les Trust Services Criteria de l'AICPA. Surtout, un SOC 2 Type II évalue l'efficacité des contrôles sur une période (plusieurs mois) là où le Type I ne juge que leur conception à un instant T — exigez donc le Type II et son périmètre.
  • Fonction « Partager » et CGU : un réglage mal compris peut tout exposer. En 2025, des conversations ChatGPT rendues publiques via le bouton « Share » (option « Make this chat discoverable ») se sont retrouvées indexées par Google, donc consultables par n'importe qui — quelques milliers de pages, certaines révélant noms, fonctions et détails personnels. OpenAI a retiré la découvrabilité après la polémique (Search Engine Land, 31 juillet 2025). Lisez ce que les CGU et réglages autorisent en matière de partage, de licence sur le contenu et d'indexation.
Schéma : en haut, une donnée sensible (ambre) passée au crible d'une checklist dont les cases restent décochées (croix ambre) reste exposée ; en bas, une donnée anonymisée ne laisse passer que des jetons (cobalt), toutes les cases cochées et un sceau de validation.
D'après l'étude Stanford HAI (Jennifer King), l'article 28 du RGPD et le suivi des fonctions de partage par Search Engine Land. Les recommandations de la CNIL sur les chatbots (article 9, données sensibles) et l'analyse d'A&O Shearman vont dans le même sens.

Même un outil « sûr » ne rend pas le collage sûr

Vous pouvez cocher toutes les cases et avoir affaire à un outil sérieux : cela ne rend pas pour autant le collage de données sensibles intrinsèquement sûr. Les politiques et réglages peuvent changer ; un opt-out ne couvre pas toujours le passé ; la surveillance des abus implique un accès humain ; une fonction de partage mal comprise peut tout exposer ; et une obligation légale peut geler des données censées disparaître. La CNIL recommande d'ailleurs, pour les chatbots, d'afficher des avertissements dissuadant la saisie de données sensibles et de purger régulièrement les conversations non pertinentes ; les données « sensibles » au sens de l'article 9 du RGPD (santé, biométrie, opinions, orientation…) relèvent de conditions strictes.

  1. 1Passez la checklist : c'est une bonne hygiène, et elle élimine les outils manifestement risqués.
  2. 2Choisissez le bon palier (entreprise plutôt que grand public si vous traitez du sensible à grande échelle) et faites l'opt-out d'entraînement.
  3. 3Mais pour la donnée vraiment sensible, retirez-la avant qu'elle ne quitte l'appareil — c'est la seule garantie qui ne dépend pas de la confiance accordée au fournisseur.

Cette dernière étape rejoint nos deux guides voisins : « Quel chatbot IA respecte le plus la vie privée ? », qui montre que la confidentialité tient au palier et aux réglages plus qu'à la marque, et « Comment anonymiser ses données avant d'utiliser l'IA », qui détaille le geste lui-même. La checklist filtre les outils ; l'anonymisation, elle, protège le contenu quel que soit l'outil retenu.

C'est précisément le rôle d'ONYRI Sanitize : le moteur remplace les données sensibles par des jetons réversibles avant l'envoi ; la détection et le mapping jeton↔valeur restent dans votre navigateur, et seul un texte anonymisé atteint l'outil. Que l'outil soit « sûr » ou non, qu'il entraîne, conserve ou fasse relire, il n'y trouve que des jetons — pas vos informations réelles.

Questions fréquentes

Comment savoir si un outil d'IA est sûr ?
En lisant sa politique de confidentialité et ses CGU plutôt qu'en vous fiant à la marque. Vérifiez neuf critères : entraîne-t-il sur vos entrées par défaut, existe-t-il un opt-out (vaut-il pour le passé ?), quelle rétention, y a-t-il une revue humaine, où sont hébergées les données, sont-elles chiffrées, propose-t-il un DPA, que disent les CGU sur le partage et les tiers, et détient-il des certifications comme SOC 2 Type II ou ISO 27001. Une étude de Stanford HAI montre que les grands chatbots grand public entraînent par défaut sur les conversations.
SOC 2 ou ISO 27001 suffisent-ils à dire qu'un outil d'IA est sûr ?
Non, à eux seuls. Ce sont des signaux utiles mais partiels : ISO 27001 atteste d'un système de management de la sécurité, SOC 2 est un rapport d'auditeur sur des contrôles. Exigez le détail — un SOC 2 Type II (efficacité des contrôles sur une période) est plus probant qu'un Type I, et le périmètre doit être précisé. Une certification ne dit rien de l'entraînement par défaut, de la rétention ou du partage : il faut quand même passer la checklist complète.
Un opt-out d'entraînement rend-il un outil d'IA sûr pour des données sensibles ?
Il réduit l'exposition, mais ne suffit pas. L'opt-out ne vaut souvent que pour le futur (il ne retire pas le passé déjà entraîné), n'arrête généralement ni la rétention liée à la surveillance des abus, ni la revue humaine associée. Pour une donnée vraiment sensible, la seule garantie indépendante du fournisseur est de l'anonymiser avant l'envoi.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi