Journal de la Voix
Accueil » Business & Voix » Intelligence Artificielle & Assistants Vocaux : de la connaissance à l’action

Intelligence Artificielle & Assistants Vocaux : de la connaissance à l’action

Cet article est une chronique de Franck Lefevre, dirigeant de Digital Airways, dont il participe au développement stratégique et technique depuis 1998.

L’acronyme à la mode en 2018 aura bien été IA. Intelligence Artificielle. Le pouvoir médiatique de cet oxymore sorti de sa dernière hibernation [1] au milieu des années 2000 entraîne une cohorte de fantasmes et d’idées fausses à ce jour. Il convient pourtant de prendre l’ensemble au sérieux. Et pour cela d’en comprendre quelques réalités.

Dans notre quotidien, nous côtoyons principalement deux branches de l’IA.

L’apprentissage profond (deep learning)

La première est l’apprentissage profond (de l’anglais deep learning, ou machine learning). Il permet à un ordinateur de produire une information non plus « à la papa », à partir d’une séquence d’instructions qu’on lui a programmée, mais par une « prise d’habitudes ». Imaginons qu’on introduise dans un tel système, quotidiennement et pendant de nombreux jours, un ensemble de données comme [l’ensoleillement qu’il a fait hier, l’humidité qu’il a fait hier, le vent qu’il a fait hier, la température qu’il a fait hier] et [le temps qu’il fait aujourd’hui]. Après qu’un grand nombre d’exemples ait été ainsi fourni au système (c’est ce qu’on nomme une « phase d’apprentissage »), il va arriver un moment où en ne lui fournissant que les données du jour, il va estimer la météo du lendemain avec une fiabilité acceptable. On n’aura pas programmé ici un rapport de cause à effet (pas de logique causale) entre les données d’un jour et le temps du lendemain. On a plutôt laissé la machine « se faire une idée » des rapports (c’est-à-dire des corrélations) entre les deux. Cette approche par classification est extrêmement efficace pour reconnaître des chats sur des photos, anticiper une panne mécanique sur une voiture ou savoir si un produit en bout de chaîne de fabrication est conforme ou pas. On peut raisonnablement penser qu’elle sera très vite très efficace aussi pour anticiper des maladies. Bien plus rapidement et plus précisément que Jean-Loup, mon médecin auquel j’accorde pourtant toute ma confiance. Et elle offre d’autres avantages qu’on ne détaillera pas ici, comme permettre d’utiliser moins d’informaticiens, une matière rare, chère et complexe à gérer.

Croissance du nombre d’applications utilisant du deep-learning chez Google

Le principe du deep learning, c’est donc d’utiliser les « habitudes », le passé pour anticiper l’avenir. Un tel système est donc par nature conformiste. Et totalement incapable de prévoir un évènement qui n’est pas dans la continuité de ceux qui se sont déjà passés. En tout cas pas plus que votre voyante préférée.

Le traitement du langage naturel

La seconde branche principale de l’IA concerne l’interaction entre l’homme et la machine, et en particulier le traitement du langage naturel.

Par abus de langage, une machine avec laquelle un humain peut parler est d’ailleurs souvent appelée une « intelligence artificielle ». Et, pour une machine, pouvoir répondre à une question posée par un homme demande trois étapes : entendre ce que l’utilisateur a dit, comprendre le sens de sa demande et répondre à son attente. Si je demande à un assistant vocal « jeveuzunebaguaîttdepin » la première étape va convertir le son de ma voix en « je veux une baguette de pain », le deuxième va donner à cette demande une valeur de requête comme [volonté d’acquérir un objet de type « baguette »] et la troisième va convertir cette requête en une suite d’actions comme [aller chez le boulanger, lui demander « une baguette de pain », payer l’objet demandé, apporter l’objet demandé à l’émetteur de la demande].

Nous comprenons bien ici que ces trois étapes sont de natures très différentes.

Grâce à la croissance de leurs capacités de calcul, les ordinateurs ont fait ces dernières années des progrès phénoménaux pour réaliser la première étape. Et ce en utilisant du deep-learning. Les géants de l’internet ( Google, Facebook, Microsoft, IBM, Apple, Amazon,…) ont entraîné leurs algorithmes avec les demandes que nous formulons tous à leurs systèmes. Ces demandes, en quantités gigantesques, conférent à ces systèmes une efficacité comparable à celle des humains [2]. Notez que si vous utilisez dans une requête un terme dont le système n’a jamais été nourri, il ne sera pas en mesure de le reconnaître. Si je prononce « Demain je vais chez Crabozilbidou », le système reconnaîtra quelque chose comme « Demain je vais chez crabe aux îles bidou ».

Et ensuite… Le système va-t-il être en mesure de « donner du sens » à ce que dit l’utilisateur ? Là les choses se gâtent : les systèmes actuels sont très peu en mesure de comprendre ce qu’on leur dit. Beaucoup moins que poussent à croire les exemples donnés par ceux qui commercialisent les assistants vocaux actuels comme le Echo d’Amazon ou le Google Home.

Parce que là non plus, comparaison n’est pas raison [3].

Parfois la demande peut être traitée dans une logique de classification, comme c’est le cas dans « Quel est l’âge d’Emmanuel Macron ?» ( dans la réalité, ma question est d’ailleurs plutôt « kélélajdémanuelmacron?»). Le système va être ici capable de travailler comme un moteur de recherche et de me fournir une réponse de type « Emmanuel MACRON est un homme politique né en 1977 »  . Mon cerveau d’humain va entendre cette réponse et, lui-même, en extraire l’information recherchée. J’aurai l’impression que la machine a « compris » ma demande et y a répondu. Alors qu’il n’en n’est rien. Et si je lui demande « Apporte moi une baguette de pain », elle va être incapable de « deviner » une réponse satisfaisant ma demande, parce qu’incapable d’effectuer une action qu’on ne lui a pas apprise. Dans le meilleur des cas, elle va me donner la liste des boulangers les plus proches de chez moi.

Cette limitation est due au fait que cette dernière demande ne peut pas être simplement associée à une information. Elle doit induire l’exécution d’une suite d’actions (la troisième étape). Quand vous demandez à Siri « Je veux envoyer un SMS à Laurence », il ne vous répond pas « Le SMS est un système de communication par texte disponible dans les téléphones mobiles », il vous répond « D’accord, quel message voulez-vous envoyer à Laurence ? ». Et cela parce qu’un humain a associé à une telle demande une des fonctions que le téléphone peut réaliser. Et ces fonctions là ne sont pas, à ce jour, inventées par les machines mais programmées « à la main », par ces hommes rares, chers et difficiles à gérer.

Ne nous leurrons donc pas : « Dans l’état actuel de la technologie, la très grande majorité des actions réalisées par les assistants vocaux ne sont pas inventées par les machines mais programmées spécifiquement par des informaticiens ». Il n’y a pas (encore) de génie dans la lampe, et c’est bien Mickey qui agite lui-même le balai de l’apprenti sorcier. Prétendre que les machines sont en mesure, grâce à l’IA, d’apprendre toutes seules à faire des choses est à ce jour  une supercherie. Comme l’est prétendre que les machines peuvent anticiper une situation qui n’a jamais été rencontrée. Convenons que la loi des grands nombres et la numérisation de l’ensemble des activités humaines permet de faire de la classification avec une grande efficacité. Convenons que cela va impacter fortement notre quotidien encore modelé par 200 000 années d’accès réduit à l’information. Convenons que l’écart entre classer de l’information et la comprendre est (encore) de taille. Et convenons que de la façon dont nous gérerons la réduction de cet écart dépendra la Société vers laquelle nous nous dirigeons.

Franck LEFEVRE, Décembre 2018
Franck Lefevre dirige Digital Airways, dont il participe au développement stratégique et technique depuis 1998.

 

[1] https://fr.wikipedia.org/wiki/Histoire_de_l%27intelligence_artificielle#Une_seconde_hibernation
[2] https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/
[3] VoltaireL’Enfant prodigue, 1877, Œuvres complètes par Garnier, tome 3, p. 461

Ces articles peuvent vous intéresser :

Alexa Developer Rewards arrive en France

Antoine

Alexa pourra bientôt détecter quand vous êtes malade

Alexis

Assistants vocaux : un avenir pour les personnes âgées ?

Antoine

Vivoka lance la première marketplace mondiale des technologies de la voix.

Antoine

Facebook devrait lui aussi lancer une enceinte connectée appelée Portal

Alexis

Storyflow lève 500 000$ auprès de Ripple Ventures

Alexis

Laisser un commentaire