L'importance du contexte dans la traduction automatique

La compréhension parfaite d’un texte ne peut pas se faire sans prendre en compte le contexte qui l’entoure. Il en va de même pour une machine qui ne peut pas effectuer une bonne traduction en dehors de son environnement. À l’Idiap, Lesly Miculicich a travaillé à rendre cela possible grâce à sa thèse qu’elle a défendue avec succès en février.

Avez-vous déjà vu des erreurs grossières lorsque vous avez fait traduire un texte automatiquement sur Internet? En effet, jusqu’à maintenant la traduction automatique ne travaillait qu’à travers un modèle où chaque phrase était traduite de manière individuelle. Mais cette méthode n’est pas idéale pour traduire un document de manière véritablement cohérente. En effet, il existe des connexions linguistiques qui lient les phrases entre elles, et qui sont nécessaires pour comprendre le sens d’un texte. Ces connexions ne sont pas présentes avec un tel modèle qui amène une traduction incohérente avec beaucoup d’erreurs.

Dans le cadre de sa thèse à l’Idiap, Lesly Miculicich s’est concentrée sur ce phénomène afin de changer cette approche et de sensiblement améliorer la traduction automatique d’un texte, en incluant notamment l’importance du contexte et la notion de coréférence. Lesly a cherché à inclure ces notions dans la traduction automatique. « Un langage peut être considéré comme une séquence de mots, mais en interne il existe également une structure avec des connexions entre ces mots qui ne sont pas dans la même séquence. C’est ce qu’est définit généralement par la syntaxe et la sémantique d’un texte, » explique la spécialiste.

La méthode de la chercheuse consiste à se concentrer sur les mentions de ce qu’on appelle les entités, c’est-à-dire les noms et les pronoms. Ensuite d’évaluer à quel point il est efficace d’inclure une notion de coréférence entre ces mentions. Par la suite, elle propose d’inférer des connexions à long terme en incorporant un mécanisme dit “d’auto-attention” qui se focaliserait sur la déduction des liens entre le contenu d’une phrase et le reste du texte. De même, Miculicich prend en compte des représentations hiérarchiques où les mots, les phrases et les phrases n'ont pas la même valeur et aident à indiquer le véritable sens du texte.  Ce nouveau modèle basé sur des informations contextuelles, et relatives au lien entre les phrases, permet à la traduction automatique de ne plus séparer un texte en une suite de phrases mais en le prenant comme un ensemble où toutes les informations présentes sont importantes et peuvent être liées les unes aux autres.

Les travaux de Lesly Miculicich peuvent permettre à une machine de comprendre le contexte d’un document par sa syntaxe. L’appareil pourrait même apprendre des concepts naturellement acquis pour un être humain comme la sémantique et le sens commun que nous utilisons quotidiennement et de manière inconsciente dans notre langage. « À l’avenir nous pourrions même imaginer que cette méthode permette de traduire automatiquement et parfaitement le contenu d’un livre entier, » conclut la chercheuse.


Plus d’informations

-    Thèse de Lesly Miculicich - Discourse Phenomena in Machine Translation
-    Site internet de Lesly Miculicich
-    Groupe Natural Language Understanding