Comment savoir si un outil d'IA est sûr (checklist confidentialité)
Pour juger si un outil d'IA est sûr, vérifiez dans sa politique : entraînement par défaut, opt-out, rétention, revue humaine, juridiction, DPA, certifications.
Juger si un outil d'IA est sûr avant d'y coller des données, ce n'est pas une question de réputation de marque : c'est une grille d'évaluation. Concrètement, vous vérifiez dans sa politique de confidentialité et ses CGU une série de critères — entraîne-t-il sur vos entrées par défaut ? existe-t-il un opt-out, et vaut-il pour le passé ? quelle durée de rétention ? y a-t-il une revue humaine ? où sont hébergées les données ? sont-elles chiffrées ? propose-t-il un DPA (et un BAA pour la santé) ? que disent les CGU sur le partage avec des tiers et la fonction « Partager » ? détient-il des certifications comme SOC 2 Type II ou ISO 27001 ? Cet article en fait une checklist — avec, pour chaque critère, où chercher l'info et le signal d'alerte qui doit vous arrêter.
Le premier réflexe : lire, pas faire confiance
La sûreté d'un outil d'IA ne se devine pas au logo. Une étude de Stanford HAI (autrice principale Jennifer King), publiée le 15 octobre 2025 et appuyée sur l'analyse de 28 documents de politique des six principaux acteurs américains du chatbot — Amazon (Nova), Anthropic (Claude), Google (Gemini), Meta (Meta AI), Microsoft (Copilot) et OpenAI (ChatGPT) — conclut que les six utilisent par défaut les conversations des utilisateurs pour entraîner leurs modèles. Autrement dit, pour les chatbots grand public, la réponse à « entraîne-t-il sur mes entrées ? » est très souvent oui. Le seul moyen de le savoir pour un outil donné est de lire sa documentation — pas de présumer.
Toujours selon cette étude (reprise par le Stanford Report), l'opt-out d'entraînement n'est pas universel : certains éditeurs proposent un choix de désinscription, d'autres non. Certains conservent les données indéfiniment, certains autorisent des humains à relire des transcriptions à des fins d'entraînement, et seuls certains déclarent dé-identifier les données avant usage — ce qui laisse subsister un risque de ré-identification. Trois questions en découlent : l'opt-out existe-t-il, vaut-il pour le passé, et la dé-identification est-elle garantie ?
La checklist : 9 critères, où chercher, le signal d'alerte
Voici la grille à passer avant de coller des données dans un outil d'IA. Pour chaque ligne : la question à se poser, et le signal d'alerte qui doit vous faire reculer.
| Critère | Question à se poser | Signal d'alerte |
|---|---|---|
| Entraînement par défaut | Mes entrées servent-elles à entraîner les modèles sans action de ma part ? | Entraînement activé par défaut, surtout sur un palier grand public |
| Opt-out | Puis-je le refuser, et le refus vaut-il aussi pour le passé ? | Pas d'opt-out, ou opt-out limité au futur sans suppression du passé |
| Rétention | Combien de temps les conversations sont-elles conservées, même « supprimées » ? | Politique vague sur le sort des chats supprimés ; conservation indéfinie |
| Revue humaine | Des personnes peuvent-elles relire mes échanges ? | Relecture humaine non bornée, hors champ de l'opt-out |
| Juridiction | Où sont hébergées les données, sous quel droit, quels transferts hors UE ? | Hébergement opaque ou hors UE sans garanties de transfert |
| Chiffrement | Les données sont-elles chiffrées en transit et au repos ? | Aucune mention de chiffrement en transit/au repos |
| DPA / BAA | Un Data Processing Agreement (et un BAA santé) est-il proposé ? | Pas de DPA pour un usage pro touchant des données personnelles |
| Partage / fonction « Partager » | Que disent les CGU sur la licence du contenu, les tiers et l'indexation ? | Liens de partage publics/indexables, licence large sur le contenu |
| Certifications | SOC 2 Type II et/ou ISO 27001, avec périmètre précisé ? | « SOC 2 » revendiqué sans Type II ni périmètre |
Trois critères qui trompent souvent
Certaines lignes de la checklist méritent un mot, parce qu'elles sont régulièrement mal comprises — et que c'est là que se cachent les fuites.
- Rétention vs opt-out : ce sont deux choses différentes. Même après désinscription d'entraînement, beaucoup de fournisseurs conservent les données (souvent ~30 jours pour la surveillance des abus), avec accès humain possible, ces processus étant fréquemment exclus de l'opt-out. Seul un régime de rétention zéro (Zero Data Retention) supprime ce stockage. Le palier compte : ChatGPT grand public (Free, Plus, Pro) entraîne par défaut — opt-out via Réglages → Data Controls → « Improve the model for everyone » — tandis qu'OpenAI déclare ne pas entraîner par défaut sur ChatGPT Business/Enterprise ni l'API (cf. l'OpenAI Help Center, Data Controls FAQ).
- Certifications : SOC 2 et ISO 27001 ne prouvent pas la même chose. ISO 27001 est une certification délivrée par un organisme accrédité, attestant d'un système de management de la sécurité de l'information (ISMS). SOC 2 est un rapport d'attestation d'un auditeur sur des contrôles évalués selon les Trust Services Criteria de l'AICPA. Surtout, un SOC 2 Type II évalue l'efficacité des contrôles sur une période (plusieurs mois) là où le Type I ne juge que leur conception à un instant T — exigez donc le Type II et son périmètre.
- Fonction « Partager » et CGU : un réglage mal compris peut tout exposer. En 2025, des conversations ChatGPT rendues publiques via le bouton « Share » (option « Make this chat discoverable ») se sont retrouvées indexées par Google, donc consultables par n'importe qui — quelques milliers de pages, certaines révélant noms, fonctions et détails personnels. OpenAI a retiré la découvrabilité après la polémique (Search Engine Land, 31 juillet 2025). Lisez ce que les CGU et réglages autorisent en matière de partage, de licence sur le contenu et d'indexation.
Même un outil « sûr » ne rend pas le collage sûr
Vous pouvez cocher toutes les cases et avoir affaire à un outil sérieux : cela ne rend pas pour autant le collage de données sensibles intrinsèquement sûr. Les politiques et réglages peuvent changer ; un opt-out ne couvre pas toujours le passé ; la surveillance des abus implique un accès humain ; une fonction de partage mal comprise peut tout exposer ; et une obligation légale peut geler des données censées disparaître. La CNIL recommande d'ailleurs, pour les chatbots, d'afficher des avertissements dissuadant la saisie de données sensibles et de purger régulièrement les conversations non pertinentes ; les données « sensibles » au sens de l'article 9 du RGPD (santé, biométrie, opinions, orientation…) relèvent de conditions strictes.
- 1Passez la checklist : c'est une bonne hygiène, et elle élimine les outils manifestement risqués.
- 2Choisissez le bon palier (entreprise plutôt que grand public si vous traitez du sensible à grande échelle) et faites l'opt-out d'entraînement.
- 3Mais pour la donnée vraiment sensible, retirez-la avant qu'elle ne quitte l'appareil — c'est la seule garantie qui ne dépend pas de la confiance accordée au fournisseur.
Cette dernière étape rejoint nos deux guides voisins : « Quel chatbot IA respecte le plus la vie privée ? », qui montre que la confidentialité tient au palier et aux réglages plus qu'à la marque, et « Comment anonymiser ses données avant d'utiliser l'IA », qui détaille le geste lui-même. La checklist filtre les outils ; l'anonymisation, elle, protège le contenu quel que soit l'outil retenu.
C'est précisément le rôle d'ONYRI Sanitize : le moteur remplace les données sensibles par des jetons réversibles avant l'envoi ; la détection et le mapping jeton↔valeur restent dans votre navigateur, et seul un texte anonymisé atteint l'outil. Que l'outil soit « sûr » ou non, qu'il entraîne, conserve ou fasse relire, il n'y trouve que des jetons — pas vos informations réelles.
Questions fréquentes
- Comment savoir si un outil d'IA est sûr ?
- En lisant sa politique de confidentialité et ses CGU plutôt qu'en vous fiant à la marque. Vérifiez neuf critères : entraîne-t-il sur vos entrées par défaut, existe-t-il un opt-out (vaut-il pour le passé ?), quelle rétention, y a-t-il une revue humaine, où sont hébergées les données, sont-elles chiffrées, propose-t-il un DPA, que disent les CGU sur le partage et les tiers, et détient-il des certifications comme SOC 2 Type II ou ISO 27001. Une étude de Stanford HAI montre que les grands chatbots grand public entraînent par défaut sur les conversations.
- SOC 2 ou ISO 27001 suffisent-ils à dire qu'un outil d'IA est sûr ?
- Non, à eux seuls. Ce sont des signaux utiles mais partiels : ISO 27001 atteste d'un système de management de la sécurité, SOC 2 est un rapport d'auditeur sur des contrôles. Exigez le détail — un SOC 2 Type II (efficacité des contrôles sur une période) est plus probant qu'un Type I, et le périmètre doit être précisé. Une certification ne dit rien de l'entraînement par défaut, de la rétention ou du partage : il faut quand même passer la checklist complète.
- Un opt-out d'entraînement rend-il un outil d'IA sûr pour des données sensibles ?
- Il réduit l'exposition, mais ne suffit pas. L'opt-out ne vaut souvent que pour le futur (il ne retire pas le passé déjà entraîné), n'arrête généralement ni la rétention liée à la surveillance des abus, ni la revue humaine associée. Pour une donnée vraiment sensible, la seule garantie indépendante du fournisseur est de l'anonymiser avant l'envoi.
Sources et références
- Étude Stanford HAI : les six grands chatbots américains entraînent par défaut sur les conversations, opt-out inégal, rétention parfois indéfinie et revue humaine — Stanford Institute for Human-Centered AI (HAI)
- Article 28 du RGPD : obligation d'un contrat écrit (DPA) entre responsable de traitement et sous-traitant, clauses obligatoires et encadrement des sous-traitants — GDPR-Info.eu (texte consolidé du RGPD)
- Des conversations ChatGPT partagées via la fonction « Share » indexées par Google en 2025, puis retrait de la découvrabilité par OpenAI — Search Engine Land
Gardez vos données sensibles dans votre navigateur
ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.
Anonymiser mon prompt