Une nouvelle approche pour récupérer les retranscriptions de conversation dynamisée par la R&D

En collaboration avec une compagnie privée, les chercheurs de l’Idiap ont présenté une nouvelle méthode pour retrouver des informations dans les retranscriptions de conversations. Leur méthode s’appuie sur les technologies liées tant à la reconnaissance automatique de la parole qu’à la compréhension du langage naturel.

Récupérer des informations de la retranscription d’une réunion peut constituer un réel défi. Une tâche d’autant plus ardue si la retranscription a été réalisée automatiquement par un ordinateur. Pourquoi ? Parce que ces systèmes de retranscription automatisés font souvent beaucoup d’erreur en raison notamment de l’environnement bruyant, des multiples sens d’un même mot ou de l’accent du locuteur. Trop d’erreurs et le sens de la retranscription peut s’éloigner significativement de la conversation originale. Rechercher des informations dans un document incorrect peut rapidement devenir impossible. Durant la dernière conférence ACM SIGIR sur consacrée à la récupération d’informations, les chercheurs du groupe Speech & audio processing ont présenté une nouvelle approche adaptée à ces retranscriptions de mauvaise qualité.

Une nouvelle approche

Habituellement, lorsqu’il s’agît de récupérer des informations dans une retranscription, les scientifiques cherchent à améliorer la qualité de cette dernière. Lorsqu’elle est plus précise, la transcription générée automatiquement facilite la recherche d’information. Les meilleurs systèmes actuels obtiennent un taux d’erreur de mots faux d’environ 10%. Cette performance a toutefois un coût élevé dans la mesure où ces systèmes de reconnaissance automatique de la parole sont généralement entraînés pour un domaine spécifique : une langue donnée, un certain sujet ou une situation standardisée préétablie, à l’instar du téléjournal. « Cette approche est non seulement coûteuse en temps et en argent, mais aussi non transposable à d’autres domaines », explique Esaú Villatoro, chercheur associé du groupe Speech & Audio processing de l’Idiap et premier auteur de l’article. D’autre part, les systèmes plus généralistes peuvent avoir un taux d’erreur de plus de 40% pouvant complètement altérer le sens de la retranscription qui en résulte.

Pour produire ces retranscriptions, les chercheurs créent des algorithmes qui choisissent la meilleure hypothèse de retranscription dans un set de variations possibles. Lorsque le taux d’erreur potentielles est élevé, rechercher des informations dans le contenu de cette meilleure hypothèse peut s’avérer particulièrement difficile. Dans ce cas, les termes recherchés peuvent même être absent de cette meilleure hypothèse et seulement apparaître ailleurs dans le set de variations. C’est pourquoi les scientifiques ont opté pour une autre approche travaillant sur l’ensemble du set d’hypothèses. « Pour y parvenir, nous avons dû créer un algorithme de reclassement se focalisant sur la sémantique plutôt que sur la meilleure retranscription. Nous avons pu appliquer cette méthode inhabituelle grâce à l’utilisation de technologies liées à la compréhension du langage naturel. C’est une nouvelle tendance dans le domaine de la reconnaissance automatique de la parole », explique Esaù Villatoro.

Dynamisé grâce à un partenariat privé

Recherche une information précise dans une conversation est un défi. « Lorsque les gens discutent, ils sautent souvent d’un sujet à un autre. En général, les discussions informelles sont moins structurées, ce qui complique plus la tâche des systèmes de reconnaissance automatique de la parole pour analyser ce genre de données de façon précise. C’est pourquoi notre approche représente une solution intéressante dans la mesure où elle est spécifiquement conçue pour répondre à ces défis », souligne Esaù Villatoro. Ce travail a débuté en tant que projet de recherche collaboratif avec l’Institut des sciences de l’information de l’Université de Californie du sud. (https://www.isi.edu). Plus tard, grâce à la collaboration avec une société privée partageant les mêmes intérêts, la recherche a pu être accélérée. Dans la perspective d’en faire un produit, l’entreprise a validé les algorithmes proposés par l’idiap en les testant sur ses propres données permettant de progresser plus rapidement et d’obtenir un système plus robuste.

La stratégie de l’institut étant de renforcer ce type d’échanges avec l’industrie, cet exemple illustre parfaitement comment de tels partenariats bénéficient tant à la recherche qu’à l’économie. Une tendance particulièrement vraie dans le domaine de la récupération d’information, où les compagnies privées sont particulièrement désireuses de participer dans des conférences de haut niveau et d’être associées à des publications scientifiques.


Plus d’informations

- Groupe de recherche Speech & audio processing
- “Expanded Lattice Embeddings for Spoken Document Retrieval on Informal Meetings” by Esau Villatoro-Tello, Srikanth Madikeri, Petr Motlicek, Aravind Ganapathiraju and Alexei V. Ivanov
- Conférence ACM SIGIR