Comment fonctionne la technologie des assistants vocaux ?


Comment fonctionne la technologie liée à la reconnaissance vocale ?

Comment fonctionne la technologie liée à la reconnaissance vocale ? Quelle est la place de l’humain dans ces nouvelles technologies ? François Hernandez, chercheur en Natural Langage Processing (NLP) chez Ubiqus, répond à ces questions et partage son approche technophile de la reconnaissance vocale.

Pouvez-vous nous expliquer comment un appareil peut comprendre une voix humaine ? ubiqus

 

Un appareil ne comprend pas une voix humaine, il transforme des éléments en texte. On part d’un signal audio (la voix), puis on le transforme en séquences de nombres qui seront ensuite interprétées comme des mots. Mais en effet, les opérations sont si bien optimisées que cela ressemble à de la compréhension

 

 

Techniquement, comment la machine parvient à formuler des phrases ?

 

Une des premières approches dans la discipline du traitement du langage a été de mettre en place des règles, le rule based. Pour la traduction comme pour la reconnaissance vocale, on a tenté de mettre en place des règles basées sur des notions humaines de sémantique et de grammaire.

 

Sur les dernières technologies découvertes et mises en application, c’est la machine qui fait ses propres règles. C’est un algorithme qui va apprendre tout seul à faire des règles à partir d’exemples qu’il aura vus.

 

 

Comment la machine va apprendre à faire ses règles ?

 

Il s’agit d’un apprentissage par l’exemple. Comme à un enfant auquel on apprendrait des mots en lui montrant des images, on va transmettre des exemples à la machine. Ici, les exemples sont des segments de paroles, auxquels on associe le texte correspondant.

 

La machine va essayer de transcrire les différents exemples qu’on lui fournit. Elle compare ensuite ses propositions au texte « référence » et corrige ses paramètres en fonction des erreurs commises.

 

Au fur et à mesure, elle va apprendre à faire la liaison entre les phrases prononcées et les textes écrits.

 

 

Comment fonctionne la technologie ASR ?

 

Nous participons à un projet open source qui s’appelle Kaldi, le plus répandu dans cette discipline de reconnaissance vocale et qui est à l’initiative de l’université Johns Hopkins aux États-Unis.

Kaldi propose une base de travail et chaque entité peut ensuite se construire ses process, son workflow.

 

Concrètement, la technologie ASR fonctionne de la manière suivante :

La première étape appelée « Voice activity detection » permet de détecter les moments où il y a quelqu’un qui parle.

La deuxième étape nommée « Diarisation » détermine qui parle et à quel moment.

La troisième étape intitulée « Decoding » est nécessaire pour transformer les paroles en texte.

La quatrième étape appelée « Rescoring » est une phase où la machine se relit et propose la meilleure solution parmi les différentes possibilités.

 

 

Au départ, quelles étaient les demandes les plus fréquentes ?

 

ubiqus-illustrationLa technologie ASR est intéressante pour la transcription de verbatim. Initialement, elle permettait d’optimiser le process de transcription.

 

Concrètement, nous recevons des enregistrements (réunions, conférences, …) qui sont passés dans la technologie ASR avant de ressortir un transcript brut, avec time code.

 

Cette dernière étape a permis de créer un nouveau métier, celui de la post-édition qui consiste à corriger le transcript brut.

 

 

Quelle est la place de l’humain dans toutes ces nouvelles technologies ?

 

L’humain a un rôle très important dans nos métiers. Les technologies ne pourraient pas fonctionner indépendamment de l’humain.

 

Dans la phase de développement d’un projet, plusieurs métiers sont indispensables à son bon déroulement : ceux qui sont à l’origine préparent les données et sont au cœur de la technologie ASR ; le Data engineer qui gère la masse des données afin qu’elles soient exploitables ; le Data scientist qui utilise des données et construit le modèle le plus approprié et les développeurs qui fournissent une interface entre le modèle et les utilisateurs.

 

Lors de la phase de production, la machine ne peut pas percevoir l’humour, la subtilité. Elle n’est pas capable de faire une mise en perspective, c’est pour cela que la post-édition est nécessaire.

 

 

Racontez-nous un projet concret ayant vu le jour.

 

Ubiqus a remporté l’appel d’offres du Service d’Information du Gouvernement relatif à la mise à disposition de notre plateforme de transcription automatique pour réaliser de la veille média.

On travaille également avec beaucoup d’universités car elles possèdent une masse d’informations et de données. Elles ont peu de budget pour centraliser les informations, notamment dans le cadre de leurs projets de recherches.

 

L’offre Ubiqus est accessible financièrement puisqu’à partir de notre site internet e-commerce, il est possible d’obtenir une heure de transcription sans révision à partir de 50 euros HT.

 

 

Quels sont les secteurs qui devraient grandement évoluer ces prochaines années grâce à la reconnaissance vocale ?

 

On le voit déjà aujourd’hui mais les assistants personnels tels que Siri et Amazon Echo se développent rapidement.

 

Les assistants professionnels devraient aussi fortement se déployer dans les prochaines années. Microsoft a récemment fait une démonstration d’un assistant professionnel qui permettrait de faire des comptes rendus de réunions en direct.

 

La reconnaissance vocale rend les nouvelles technologies accessibles pour les handicapés. C’est une solution idéale pour développer des interactions entre les ordinateurs et les personnes en situation de handicap.

 

 

Quelles sont les limites de la reconnaissance vocale ?

 

La machine ne comprend pas l’aspect sémantique d’un contenu.

La machine fait une « géographie des mots » pour rassembler dans une même zone des mots qui ont des contextes proches. Ce word embedding, appelé de façon simplifiée « géographie des mots », est limité.

Si cette technique permet de regrouper des mots comportant des caractéristiques communes, la machine n'aura pas de compréhension de ces caractéristiques en tant que telles (nom propre, verbe, etc.).

 

Par exemple, "Macron", "Merkel", "Trump" auront très probablement des paramètres en commun et seront "dans la même zone" sans pour autant savoir que ce sont des noms propres.


L'idée est simplement d’apprendre à situer un mot selon son contexte, donc si on voit souvent des noms propres dans les mêmes contextes ("Bonjour Monsieur Le Bideau", "Bonjour Monsieur Nguyen", etc). on saura que "Le Bideau" ou "Nguyen" auront plus de chance d'apparaître après "Bonjour Monsieur", qu’un autre nom.

 

Les systèmes actuels reposent sur un vocabulaire certes très large, mais fixe. C'est à dire que la machine ne saura pas transcrire des mots qu'elle n'aura pas préalablement appris.

 

Ce sont des technologies qui ont besoin de puissance de calcul pour créer et exploiter les moteurs. Cela demande du temps machine, de la consommation d’énergie et le coût financier se chiffre en plusieurs milliers d’euros. Par ailleurs, ce n’est pas très écologique…

 

L’aspect juridique peut également constituer un frein. Les technologies pour la voiture autonome existent et sont testées depuis plusieurs mois. Si un nouveau cadre juridique autour de l’intelligence artificielle est mise en place demain, cela pourra freiner les nombreux projets de cette industrie. 

 

 

françois-hernandez

 

À propos de François Hernandez... Diplomé de CentraleSupélec et de l'ESCP Europe, François intervient au niveau du pôle Innovation d'Ubiqus où il travaille sur les différents secteurs du NLP (Natural Language Processing) : la reconnaissance vocale et la traduction automatique. François a participé à la création du corpus TED-LIUM3 (corpus de transcriptions des conférences TED) en collaboration avec la communauté scientifique de l’Université du Mans (LIUM). Ce projet de recherche dont fait également partie Vincent Nguyen, Président du groupe Ubiqus, est désormais une référence en matière de données permettant d’entraîner des systèmes ASR tels que sur le toolkit Kaldi.

 

 

À propos d'Ubiqus : Ubiqus, dont le siège social est basé à Paris est un leader mondial dans le domaine des services linguistiques*. Fort d’une douzaine de filiales dans sept pays, le Groupe Ubiqus emploie près de 500 personnes et génère un chiffre d’affaires d’environ 70 millions d’euros. Le Groupe Ubiqus s’illustre tant en traduction de documents qu’en transcription de fichiers audio aussi bien dans la langue du pays que dans des langues étrangères. Ubiqus vient de lancer sa plateforme de e-commerce ubiqus.IO en début d'année pour proposer ses services de traduction et de transcription en ligne.