Outils & IA7 min de lecture

Les outils de traduction par IA sont-ils sûrs pour vos documents confidentiels ?

Oui — des documents confidentiels collés dans un traducteur IA gratuit ont déjà fini publiquement sur Google. Pourquoi, et la parade qui couvre le contenu.

Par Pierre de ONYRI

Pas par défaut : coller un document confidentiel dans un traducteur IA grand public gratuit n'est pas sûr. En 2017, des employés de l'entreprise pétrolière norvégienne Statoil ont découvert que des textes traduits via le service gratuit Translate.com étaient indexés par Google et accessibles à quiconque faisait une recherche — contrats, courriers de licenciement, e-mails. La cause : beaucoup d'outils gratuits stockent et réutilisent le texte soumis, et leurs conditions d'utilisation accordent une large licence dessus. Les offres professionnelles (API, abonnements payants) sont en général à zéro rétention, mais la seule garantie reste d'anonymiser le document avant de le traduire.

Le jour où des contrats traduits sont apparus dans Google

Le 3 septembre 2017, le radiodiffuseur public norvégien NRK a révélé que des textes passés par le service en ligne Translate.com ressortaient publiquement dans les résultats de recherche Google. Des employés de Statoil ont retrouvé là des documents sensibles qu'ils avaient cru confidentiels. Le mécanisme : Translate.com s'appuyait sur un stockage cloud des textes soumis pour que des traducteurs humains volontaires puissent les relire et améliorer la qualité — ces textes ont ensuite été indexés par les moteurs de recherche. En réaction, la Bourse d'Oslo a bloqué l'accès de ses employés au service. C'est la réponse nette à la question : oui, des données confidentielles collées dans un traducteur gratuit ont déjà fini publiquement indexées.

DateIncidentCe qui a fuitéLa leçon
3 sept. 2017NRK révèle l'affaire Translate.comTextes traduits indexés et accessibles via GoogleUn traducteur gratuit n'est pas un coffre privé
Sept. 2017 (Statoil)Des employés retrouvent leurs documents en ligneContrats, lettres de licenciement, e-mails médecin/laboLe contenu collé sort de votre périmètre de contrôle
RéactionLa Bourse d'Oslo bloque l'accès au serviceDes organisations traitent ces outils comme un risque de sécurité
Rétrospective de l'incident Translate.com, d'après l'enquête de Slator (NRK, affaire Statoil).

Pourquoi les outils gratuits gardent (et réutilisent) votre texte

Un traducteur grand public gratuit envoie votre texte vers une infrastructure cloud que vous ne contrôlez pas, et ses conditions d'utilisation lui en donnent souvent un large usage. Les conditions générales de Google — qui s'appliquent à la version publique gratuite de Google Translate — accordent à Google une licence mondiale pour héberger, stocker, reproduire, modifier et créer des œuvres dérivées du contenu soumis afin de faire fonctionner et améliorer ses services. DeepL distingue de même ses deux paliers : la version Free se réserve le droit de traiter, pour une durée limitée, les textes soumis afin d'entraîner et améliorer ses réseaux de neurones (cf. les conditions d'utilisation et la page DeepL Pro Data Security). Coller un document confidentiel dans ces outils, c'est donc le transférer hors de votre contrôle.

  • Stockage : le texte est envoyé et conservé sur des serveurs tiers, parfois pour être relu par des humains.
  • Réutilisation : selon les CGU, il peut servir à entraîner ou améliorer les modèles de traduction.
  • Indexation : un stockage cloud mal protégé peut, comme en 2017, finir exposé aux moteurs de recherche.
  • Sécurité variable : la Commission européenne note que beaucoup d'outils gratuits n'offrent ni chiffrement, ni protection des données solides.

Grand public ou offre pro : la différence est réelle

Tous les traducteurs ne se valent pas. Pour l'API Cloud Translation (offre payante), Google déclare officiellement ne pas utiliser le contenu envoyé pour entraîner ou améliorer ses fonctionnalités de traduction, ne pas le conserver de manière persistante (le texte est gardé brièvement, le temps de produire la traduction), ne revendiquer aucune propriété dessus, et ne pas le partager ni le rendre public — une politique qui concerne l'API, pas le widget grand public. De son côté, la version Pro de DeepL ne conserve pas durablement les textes, supprime textes et traductions après exécution du service, et ne les utilise pas pour améliorer la qualité (cf. DeepL Help Center, infrastructure et protection des données). Bonne hygiène : privilégier une plateforme à politique de zéro rétention, idéalement chiffrée et certifiée (ISO 27001, SOC 2).

Schéma en deux temps : en haut, un document confidentiel (ambre) collé dans un traducteur en ligne ressort, exposé, dans des résultats de recherche ; en bas, le même document anonymisé en jetons (cobalt) atteint le traducteur sans rien d'exploitable, validé par une coche.
D'après l'enquête de Slator (affaire Statoil), la documentation Google Cloud (Cloud Translation) et la Commission européenne ; offres pro citées par nom (Google Cloud Translation API, DeepL Pro).

La parade : anonymiser le document avant de traduire

Puisque les CGU et la rétention d'un traducteur ne sont pas sous votre contrôle, la seule garantie porte sur le contenu : si le document ne contient aucune donnée sensible en clair, ni un stockage cloud, ni une indexation accidentelle, ni un relecteur humain n'exposent quoi que ce soit d'exploitable. La marche à suivre est simple :

  1. 1Repérez les éléments sensibles : noms, identifiants, montants, coordonnées, références internes.
  2. 2Remplacez-les par des jetons réversibles avant d'envoyer le texte au traducteur.
  3. 3Traduisez le texte neutralisé — l'outil ne voit que des jetons, jamais l'information réelle.
  4. 4Restituez les valeurs d'origine dans la traduction, côté navigateur.

C'est exactement le rôle d'ONYRI Sanitize : le moteur remplace noms, identifiants, montants et coordonnées par des jetons réversibles, et seul ce texte anonymisé atteint le traducteur. La détection et le mapping jeton↔valeur restent dans votre navigateur — ils ne transitent jamais. Quelles que soient les CGU du traducteur, qu'il stocke, réutilise ou indexe le texte, il n'y trouve que des jetons, pas vos informations réelles.

Questions fréquentes

Google Translate ou un traducteur IA gratuit sont-ils sûrs pour des documents confidentiels ?
Pas par défaut. La version gratuite grand public envoie votre texte vers un cloud tiers et ses conditions d'utilisation accordent une large licence dessus ; en 2017, des documents passés par un traducteur gratuit ont même été indexés par Google. Pour des documents confidentiels, anonymisez le contenu avant de le traduire, ou utilisez une offre pro à zéro rétention.
Quelle est la différence entre la version gratuite et l'offre pro d'un traducteur ?
L'offre pro est généralement à zéro rétention : pour l'API Cloud Translation de Google, le texte n'est ni conservé durablement, ni utilisé pour l'entraînement, ni partagé ; la version Pro de DeepL supprime textes et traductions après exécution. La version gratuite grand public, elle, peut conserver et réutiliser le texte pour améliorer ses modèles.
Comment traduire un document confidentiel sans l'exposer ?
Anonymisez-le avant de le soumettre : remplacez noms, identifiants, montants et coordonnées par des jetons réversibles, traduisez le texte neutralisé, puis restituez les valeurs d'origine côté navigateur. Le traducteur ne voit jamais l'information réelle, quelles que soient ses conditions d'utilisation.

Sources et références

Gardez vos données sensibles dans votre navigateur

ONYRI Sanitize détecte et masque vos données sensibles avant l'envoi à l'IA, puis restaure la réponse — du nom à la clé API.

Anonymiser mon prompt

À lire aussi