J’aime bien certains concours de circonstances. Alors que je m’apprêtais à publier mon article sur les assistants vocaux, voilà que Bloomberg publie un article révélant que des humains écoutent ce que vous avez demandé à Alexa.

Il n’en faut pas plus pour que la presse généraliste en mal de scandales y aille de ses titres sensationnalistes. Est-ce une réelle surprise ? Non. Inquiétant ? Non plus. Tout est une question d’avoir bien conscience de ce que vous avez dans votre salon et de comment cela fonctionne. Libre alors à chacun d’accepter ou non ces outils chez soi.

Google et Amazon sont au coude à coude pour s’imposer dans les foyers avec leurs assistants vocaux. Amazon est commercialement agressif avec ses offres Echo souvent en promotion. Mais l’intrusion dans la vie privée est en question, alors faisons un petit point.

Rappel sur le fonctionnement des assistants vocaux

Un assistant vocal, comme Alexa, Ok Google ou Siri, écoute votre demande, l’envoi sur le Cloud où elle est analysée puis renvoient une réponse. Ça, c’est la version courte.

Un assistant vocal n’écoute pas que votre demande. Lorsque vous formulez votre demande, il écoute… tout ce qui se passe autour. Autrement dit, tant que vous exprimez votre requête, l’assistant enregistre tout votre environnement sonore. C’est cet enregistrement qui est envoyé sur le Cloud.

Ah oui, ce fameux nuage… Évidemment, ce Cloud, c’est les serveurs du fournisseur du service (Amazon, Google ou Apple, sachant qu’Apple utilise les infrastructures d’Amazon et Microsoft). Sur ces serveurs, le son enregistré est analysé pour identifier la demande qui est extraite puis analysée.

Des assistants à l’écoute

Ces assistants vous proposent une activation à la voix. Un mot clef suffit (« Dis Siri », « Ok Google » ou « Alexa »). Ces assistants sont donc en permanence à l’écoute de ces mots clefs. Est-ce pour autant que ces outils nous espionnent ? Pas vraiment, être à l’écoute ne signifie pas enregistrer en permanence. En fait, ils sont dans un mode qualifié « écoute passive ». Ils sont alors en attente de ces mots clef de réveil. Une fois ces mots clef détectés, ils commencent à réellement enregistrer le son alentour pour l’envoyer sur le Cloud.

Ces assistants n’envoient donc pas en permanence ce qu’ils enregistrent. Il s’agit évidemment d’une question de confiance que vous pouvez mettre en doute. C’est légitime. Mais ce doute peut être levé en écoutant vos connexions réseau. Vous pouvez le faire vous même ou demander à un copain geek.

Qu’est ce qui est réellement enregistré ?

J’avais demandé la traduction de « Game of Thrones » et Alexa a compris « Game of Love »…

Et évidemment envoyé au fournisseur de service ? Dans le cas d’Amazon, vous avez accès à toutes vos requêtes. Il suffit via l’app Alexa d’aller dans le menu Activité. Là, vous avez la liste des actions réalisées ainsi que l’enregistrement de votre requête et ce qu’Alexa a compris.

Comme vous pouvez le voir ci-contre, des fois, c’est assez amusant.

Cela permet également de se faire une idée réelle de ce qui est enregistré et envoyé à Amazon.

Cette vue vous permet de signaler à Amazon si la requête a été bien comprise ou non. Vous vous doutez que si ce n’est pas le cas, Amazon peut s’intéresser à cette formulation pour comprendre ce qui n’allait pas. Et c’est là qu’on arrive à la question de l’analyse des requêtes.

Comprendre les humains

Si aujourd’hui on arrive (à peu près) à synthétiser une voix à partir d’un texte, l’inverse n’est pas encore au point. Alors on va dire qu’avec l’Intelligence Artificielle (IA) on y arrive. Mais ces IA doivent apprendre. Il existe deux modèles d’apprentissage : l’apprentissage supervisé ou non. Pour le premier, on fournit à l’IA une donnée en lui expliquant ce que c’est. Pour le second, non, elle déduit seule la donnée.

Aidez l’IA de Google à apprendre à reconnaître une orange !

Vous connaissez déjà le principe de l’apprentissage supervisé, vous y participez même activement pour que Google reconnaisse les objets dans une image. Mais si, à chaque fois que vous tombez sur une validation de votre nature d’humain vous demandant de sélectionner les images avec une voiture ou autre… Et bien vous ne faite que participer à l’amélioration de l’IA de Google.

L’apprentissage supervisé est indispensable pour l’analyse du langage. Il est indispensable de travailler sur de vrai échantillons sonores et évidemment, plus il y en a, plus la reconnaissance sera efficace. Il est donc évident que certains enregistrements soient retranscrits par des humains. Les conditions du service ne l’indiquent pas ouvertement, mais les formulations le laissent entendre.

Nous arrivons donc à la fameuse question de la vie privée.

Et la vie privée dans tout ça ?

Il y a donc bien des humains qui écoute potentiellement un enregistrement d’une de mes demandes dans un contexte personnel. Si Amazon (ou Google ou Apple) fait bien les choses, cet humain n’a aucune information sur moi. Il saura ce que j’ai demandé, le son de ma voix, peut-être ce qui se passe autour, un instantané de maximum 10 secondes de ma vie mais rien d’autre. L’enregistrement et la transcription sont censé être brutes, sans aucune autre information. Dans ce contexte, on peut difficilement parler de violation de la vie privée selon sa définition. Il faut bien comprendre que cette analyse est décorrellée de l’action réelle. Même si il est question d’une routine (une phrase qui déclenche une série d’actions), l’auditeur ne saura pas ce que cela entraine réellement.

Bon, évidemment, si vous avez une routine ou une ambiance « soirée jeu de rôle » ou « Peep Show », vous allez en amuser certains. Et les laisser s’imaginer ce qu’ils veulent.

Et en cas d’enquête criminelle ?

Ok, là on sort de l’écoute systématique relevée par Bloomberg pour aller vers la question spécifique et récurrente d’une autorité qui exigerai les informations stockées chez le fournisseur de service. Oui c’est possible et c’est à priori arrivé aux Etats Unis. Il ne s’agit cependant que de localisation de personnes confirmant la présence ou l’absence d’une personne dans un lieu donné.

Et les déclenchements accidentels ?

Voilà la réelle inquiétude. Est-ce que ces outils peuvent déclencher une écoute qui enregistrerai quelque chose de réellement embarrassant ? Oui, c’est possible. Un cas personnel : durant mes formations, je travaille sur la notion de séries. Il n’est pas rare que lorsque je prononce « des séries »… Siri se sente concernée…

Donc oui, un déclenchement accidentel peut arriver. Les appareils Echo signalent tout de même leur écoute de manière visuelle (un bandeau lumineux s’allume) et sonore (Alexa signale même qu’elle n’a pas compris).

Les déclenchements accidentels devraient être minimes. Malgré mon anecdote avec Siri, Alexa ne s’est jamais déclenchée de manière non souhaitée. Si cela se produit, l’utilisateur est averti de l’écoute. Mais il n’est pas obligé de faire attention à ces assistants.

Une fois chez nous, ces assistants sont-ils donc des mouchards permanents ?

Une déconnexion physique

Bien entendu, vous pouvez vous dire que vous allez débrancher ces assistants lorsque vous n’en n’aurez pas besoin. À mon avis, faites le si vous savez que vous allez avoir un échange hautement confidentiel. Mais le délais de redémarrage (boot, connexion au WiFi, identification sur le réseau) va être tel qu’il annulera tout l’intérêt de ces outils.

Un Echo Dot avec le micro coupé comme en témoigne la couronne rouge.

Dans le cas des enceintes Echo d’Amazon, il y a la possibilité de couper le micro. Le bouton est facilement accessible sur le dessus de l’enceinte. L’anneau lumineux brille alors d’un assez joli rouge. Mais ce voyant n’est pas juste informatif. D’après le Forum sur la protection de la vie privée, il y a une sécurité physique : il n’est pas possible d’alimenter en même temps ce voyant rouge et le micro. Ceci doit vous garantir une réelle efficacité du dispositif de confidentialité.

Vous vous doutez que les devices n’ont aucun intérêt si l’écoute est coupée en permanence. Il n’y a aucun intérêt à aller à eux pour activer l’écoute, leur demander vocalement d’allumer la lumière ou le bulletin météo puis de désactiver l’écoute. Mais de temps en temps, c’est pratique.

Au final…

Au final, Bloomberg n’a confirmé que l’évidence. Est-ce que cela pose un problème ? Pas vraiment, à moins de se donner plus d’importance que l’on en a réellement. Ce que l’on doit retenir, c’est de comment ces outils fonctionnent, les possibilités qu’ils offrent, les contraintes qu’ils impose ou que nous nous imposons.

Je vous inviterai à consulter mon billet dédié à leur usage pour avoir une idée de leur utilité aujourd’hui.

À propos de... Darko Stankovski

iT guy, photographe et papa 3.0, je vous fais partager mon expérience et découvertes dans ces domaines. Vous pouvez me suivre sur les liens ci-dessous.