Un système d’analyse de la parole inspiré par le cerveau humain
Sans vous en rendre compte, vous avez probablement déjà utilisé des technologie d’analyse de la parole. Elles sont au cœur des appareils à commande vocale. Même largement répandues, ces technologies sont continuellement améliorées pour améliorer leurs performances. Récemment, une des méthodes avec le plus de succès utilise des systèmes informatique appelés réseaux de neurones artificiels. Ces systèmes fonctionnent habituellement avec des nombres réels, qui peuvent avoir un nombre de décimales arbitrairement grand. Ces nombres réels permettent un haut degré de précision pour analyser la parole efficacement. Cette façon de faire comporte un inconvénient : les coûts de calculs informatiques augmentent au fur et à mesure que la précision augmente. Pour contourner ce problème, les chercheurs de l’Idiap ont imité le fonctionnement du cerveau humain pour développer une autre approche de l’analyse de la parole.
Neurones artificiels vs. humains
Le cerveau humain est particulièrement brillant pour analyser la parole. Malgré des milliards de neurones, les capacités de calcul du cerveau sont limitées. Pourtant, en tant qu’humains, nous sommes capables d’écouter quelqu’un tout en accomplissant une autre tâche. Pour réaliser de telles performances, le cerveau fonctionne avec des signaux dits discrets, plutôt que des nombres réels gourmands en énergie. Lorsqu’un neurone atteint un seuil de stimulation, il envoie un signal électrique pour transmettre une information binaire.
Pour analyser un discours constitué de multiples sons consécutifs, les neurones humains doivent analyser une série de signaux électriques individuels. Transposer cette approche aux réseaux de neurones artificiels est un défi étant donné qu’une part importante de l’information n’est pas seulement codée dans le signal lui-même, mais aussi dans le temps sous forme de séquence. « Nous voulions recréer une méthode similaire et la comparer aux réseaux de neurones classiques en terme de performance et de fiabilité », explique Alexandre Bittar, premier auteur de l’article et assistant de recherche à l’Idiap.
Dans un réseau artificiel classique, le fonctionnement d’un neurone artificiel peut être vu comme une approximation du rythme des signaux électriques d’un neurone biologique. Pour mieux prendre en compte les variations de ce rythme, qui contiennent de l’information, les chercheurs utilisent un autre type de neurones artificiels appelés neurones à impulsions. Le principal défaut de ces neurones à impulsions vient de leur moindre performance. « En sélectionnant méticuleusement les bonnes techniques, nous avons établi une méthode qui, en plus d’être compatible avec les standards actuels de l’apprentissage profond, est capable de rivaliser avec les réseaux de neurones artificiels classiques lorsqu'appliquée aux mêmes tâches d’analyse de la parole, tout en gardant son avantage d’efficience énergétique », explique Phil Garner, chercheur senior dans le groupe Speech & Audio Processing.
Un outil pour modéliser le cerveau
En complément à leur article, les scientifiques ont également publié le logiciel qu’ils ont utilisé pour tester leurs méthodes. Leur but est de fournir un outil libre d’accès pour que d’autres puissent améliorer cette approche et pour offrir les bases en vue d’applications multidisciplinaires.
Au-delà du domaine de l’analyse de la parole, cette approche pourrait s’avérer intéressante pour explorer comment le cerveau fonctionne. « Notre démarche n’a pas pour ambition de dire quoi que ce soit au sujet des mécanismes biologiques. Toutefois, elle montre que la capacité des neurones biologiques à représenter un stimulus sensoriel peut servir à résoudre les mêmes problèmes que les neurones artificiels, connus pour dépasser les aptitudes humaines dans de nombreux domaines. Cela présuppose une hypothèse forte pour la compréhension future des mécanismes biologiques du cerveau », conclut Phil Garner.
Plus d’informations
- Groupe de recherche Speech & Audio Processing
- “A surrogate gradient spiking baseline for speech command recognition”, Alexandre Bittar and Philip N. Garner in Front. Neurosci., 22 August 2022 Sec. Neural Technology
- Logiciel publié