Journal de la Voix
Accueil » Actualité Alexa » Alexa a quatre ans… et devient de plus en plus intelligente

Alexa a quatre ans… et devient de plus en plus intelligente

Alexa est née il y a quatre ans jour pour jour aux États-Unis. Comme chaque enfant en bas âge, elle s’est vite développée, a appris de nouvelles langues (dont le français qu’elle maîtrise depuis Juin 2018) et n’en finit pas de nous épater.

Un entretien avec Rohit Prasad, Vice-Président et Head Scientist en charge de l’Intelligence Artificielle d’Alexa nous permet de revenir sur les derniers développements d’Alexa et de nous éclairer sur son avenir. Préparez-vous à une plongée profonde dans le monde de l’intelligence artificielle. Nous vous aurions prévenu.

De gros efforts de recherche et développement

La recherche et le développement d’Alexa se divise en cinq grandes catégories, a expliqué M. Prasad. La première est la compétence : l’acquisition de nouvelles aptitudes et l’amélioration des performances par rapport à celles qui existent déjà.

La deuxième est la prise de conscience du contexte, en utilisant des informations sur l’état du monde et sur les interactions passées des clients avec Alexa pour décider de la meilleure façon de traiter une demande particulière. La troisième est d’élargir les connaissances d’Alexa sur les faits et les événements, et la quatrième est de permettre une interaction plus naturelle avec le service vocal Alexa.

« Fidèles à la promesse que nous avons faite à notre client qu’Alexa s’améliore de jour en jour, la cinquième catégorie est l’auto-apprentissage, c’est-à-dire l’automatisation du processus par lequel Alexa apprend de son expérience ». Comme un enfant donc.

« La plupart des recherches de l’intelligence artificielle d’Alexa reposent sur des techniques de machine learning qui tirent parti de la puissance de calcul à grande échelle de AWS – le cloud d’Amazon – et d’ensembles de données riches et hétérogènes », explique M. Prasad. Et voici comment les chercheurs d’Alexa appliquent ces techniques à ces cinq domaines de recherche.

Rohit Prasad Amazon Alexa
Rohit Prasad – Responsable Amazon Alexa

Les Skills

« Alexa dispose de plus de 50 000 Skills développées par des développeurs tiers », a déclaré M. Prasad. « Nous aidons à démocratiser l’IA grâce à notre kit de développement de Skills » (le ASK ou Alexa Skill Kit – ndlr). En même temps, dit M. Prasad, au cours des 12 derniers mois, l’équipe Alexa a réduit le taux d’erreur d’Alexa.

« Parce que nous avons connu cette croissance massive de Skills, a dit M. Prasad, le simple fait de maintenir l’exactitude serait formidable. Mais l’équipe est allée plus loin et a même réduit le taux d’erreur dans chaque endroit et dans chaque langue dans laquelle Alexa s’est lancée. »

L’une des techniques qui a permis cette amélioration, a expliqué M. Prasad, est l’apprentissage actif, dans lequel les systèmes automatisés trient les données de formation pour extraire les exemples qui sont susceptibles d’apporter les améliorations les plus significatives en termes de précision.

Les chercheurs d’Alexa ont découvert que l’apprentissage actif peut réduire la quantité de données nécessaires à la formation d’un système d’apprentissage automatique jusqu’à 97 pour cent, a dit M. Prasad, permettant une amélioration beaucoup plus rapide des systèmes de compréhension de la langue naturelle d’Alexa.

Les chercheurs d’Alexa ont également réalisé ce que Prasad a décrit comme une « percée » dans le développement rapide de nouveaux réseaux de deep-learning, des systèmes de machine-learning qui se composent de milliers, voire de millions, d’unités de traitement interconnectées.

Cette percée combine l’apprentissage approfondi (deep-learning) de la compréhension du langage naturel et l’apprentissage par transfert. Dans le cadre de ce dernier, un réseau est formé pour effectuer une tâche pour laquelle est disponible un large éventail de données. Ce réseau est ensuite retenu pour une effectuer une tâche connexe, avec peu de données disponibles.

« Cela permettra d’améliorer de 15 % la précision relative des Skills sans que le développeur tiers n’ait à fournir de travail supplémentaire », a déclaré M. Prasad. « Nous allons l’étendre à toutes les Skills dans les mois à venir. »

La sensibilisation au contexte

Alexa prend déjà en compte le contexte en personnalisant ses décisions en fonction de l’appareil avec lequel un client interagit, a expliqué M. Prasad. La commande vocale « jouer à Hunger Games », par exemple, est plus susceptible de lancer un film sur un appareil doté d’un écran, comme l’Echo Show, que sur un appareil à voix seule, qui jouerait plutôt le livre audio.

Mais deux des nouveautés annoncées en septembre – la technologie de détection sonore qui permet à Alexa Guard de reconnaître les détecteurs de fumée ou de monoxyde de carbone et les détecteurs de bris de verre comme le chuchotement permettent à Alexa d’élargir sa connaissance du contexte sonore du client au-delà de la simple reconnaissance et compréhension des mots.

« Les deux systèmes utilisent un réseau de machine-learning connu sous le nom de long short-term memory (mémoire court terme à long terme) », explique M. Prasad. Les signaux audio entrants sont divisés en bribes ultra-courtes, et le réseau de long short-term memory les traite dans l’ordre. Son jugement sur un extrait donné – est-ce un chuchotement ? Est-ce une alarme ? – tient compte dans ses jugements des extraits précédents, ce qui lui permet d’apprendre les relations systématiques entre les différents segments d’un signal audio séparés dans le temps.

Ces réseaux apprennent automatiquement les caractéristiques des signaux audio utiles pour détecter les événements sonores ou les chuchotements. Par exemple, ils apprennent automatiquement les caractéristiques de fréquence de la parole chuchotée, plutôt que de se fier à des fonctions conçues manuellement pour la détection des chuchotements.

Comment Alexa détermine la meilleure Skill pour répondre à une demande
Comment Alexa détermine la meilleure Skill pour répondre à une demande

Les connaissances

« Au cours des 12 derniers mois, l’équipe de connaissances d’Amazon a ajouté des milliards de data points au graphique de connaissances d’Alexa, une représentation des entités nommées et de leurs attributs et relations. » explique Prasad.

Il a également souligné qu’en l’absence d’une source de connaissances unique faisant autorité sur tous les sujets, les chercheurs d’Alexa combinent des sources de connaissances hétérogènes pour fournir les meilleures réponses aux questions des clients.

L’interaction naturelle

« L’une des technologies qui rendent l’interaction vocale avec Alexa plus naturelle est la continuité de contexte, c’est-à-dire le suivi des références au cours de plusieurs cycles de conversation », explique M. Prasad. Par exemple, un client peut demander : « Alexa, est-ce qu’il va pleuvoir aujourd’hui ? », puis suivre en disant : « Et demain ? » Alexa peut dès aujourd’hui gérer ce type de demande ambiguë.

« Pour ce faire, nous appliquons encore une fois des réseaux de long short-term memory à travers différents chemins pour ensuite fusionner les hypothèses des chemins précédents afin d’obtenir la meilleure réponse », a expliqué M. Prasad.

Alexa s’oriente également vers ce que Prasad a décrit comme une « interaction naturelle des Skills ». Dans le passé, les clients qui interagissaient avec Alexa devaient préciser les noms des Skills qu’ils souhaitaient invoquer. Désormais, un système d’apprentissage automatique sélectionnera automatiquement la Skill qui répond le mieux à une demande spécifique du client.

Ce système comporte deux volets : le premier produit une liste restreinte de Skills en fonction de la demande du client ; le second utilise des informations plus détaillées pour choisir parmi les Skills de la liste restreinte. « L’interaction naturelle avec les Skills est disponible pour plusieurs milliers de compétences aux États-Unis »,  a dit M. Prasad, « et des déploiements à l’échelle mondiale suivront ».

L’auto apprentissage

« Pour en revenir à la promesse que nous avons faite à nos clients, nous voulons qu’Alexa apprenne à un rythme toujours plus rapide. »

M. Prasad – Responsable de l’intelligence artificielle Alexa

Pour augmenter la vitesse d’apprentissage d’Alexa via ses interactions, l’équipe Alexa développe des techniques d’auto-apprentissage, au lieu de s’appuyer sur une formation « supervisée » qui nécessite des données laborieusement annotées à la main.

L’une de ces techniques, qu’Alexa commencera à utiliser dans les mois à venir, est l’apprentissage automatique des classes d’équivalence, qui utilise le fait que les clients expérimentés d’Alexa reformulent souvent des demandes qui échouent initialement.

Si un client d’Alexa dans la région de Seattle, par exemple, demande à la station de radio satellite Sirius XM Chill, et que cette demande échoue, elle pourrait la reformuler comme canal 53 de Sirius. Un système automatisé peut reconnaître que ces demandes partagent un mot (« Sirius »), que la deuxième demande a été acceptée et que les deux noms devraient être traités comme se rapportant à la même entité.

Que nous réserve Alexa à l’avenir?

« Nous continuerons à rendre Alexa plus utile et plus agréable en déplaçant le fardeau cognitif de nos clients vers Alexa pour les tâches plus complexes », a déclaré M. Prasad. « J’ai bon espoir que nos investissements dans toutes les couches de notre intelligence artificielle vont continuer à rendre Alexa plus intelligente à un rythme des plus effrénés. »

Et dire qu’Alexa n’a que 4 ans…

Ces articles peuvent vous intéresser :

Il est maintenant possible de construire des Playlists Amazon Music par commande vocale

Alexis

Alexa disponible en France le 14 avril 2018

Maxime

Alexa est maintenant disponible sur le Casque Bose QuietComfort C35 II

Alexis

Avec « Answer Udpates », Alexa vous répond plus tard quand elle ne sait pas

Antoine

Alexa équipera les nouvelles enceintes Marshall

Alexis

Echo Plus arrive en France !

Maxime

Laisser un commentaire