Comprendre les réseaux de neurones pour mieux collaborer avec l’IA
Les usages des outils d’intelligence artificielle sont très variés, allant de la génération d’image au résumé de livre. Malgré ces succès, notre compréhension des capacités de généralisation des technologies telles que les réseaux de neurones est toujours incomplète. Parfois décrits comme une boîte noire, les modèles mathématiques derrière les réseaux de neurones sont des éléments clés pour comprendre la validité des résultats produits par l’IA. Grâce à Damien Teney et ses collègues, la compréhension du fonctionnement des réseaux de neurones pourrait faire un pas en avant. En effet, leur article propose une nouvelle perspective expliquant pourquoi ces réseaux sont si efficaces à de nombreuses tâches.
Remettre en cause les hypothèses communément admises
Parmi les multiples technologies d’apprentissage profond, les réseaux de neurones sont les plus performant dans plusieurs tâches. S’ils peuvent être adaptés à des besoins spécifiques, comme la reconnaissance d’images, même des réseaux de neurones relativement simples et généralistes peuvent être remarquablement efficaces pour ces tâches spécialisées. Cette capacité d’adaptation apparente est surprenante compte tenu du fait que ces algorithmes "apprennent" à partir d’un nombre fini d’exemples. La communauté scientifique a principalement cherché l’explication de ces capacités de généralisation dans la façon dont les réseaux de neurones sont entraînés et construits dès le départ.
« Pour étudier cette aptitude à généraliser, nous avons comparés différents modèles et leurs performances lorsque nous ajustions différents paramètres. Le but était de voir comment ces propriétés initiales étaient corrélées avec les performances de ces réseaux entraînés », explique Damien Teney, responsable du groupe de recherche de Machine learning. Parmi ces propriétés, les paramètres appelés poids et biais sont fondamentaux. Ils permettent d’ajuster les fonctions mathématiques pour traiter l’information plus efficacement. L’entrainement des réseaux de neurones permet d’affiner ces poids et ces biais.
Contrairement à ce qui était communément admis par la communauté scientifique, les résultats obtenus par Teney et ses collègues suggèrent que les réseaux de neurones ne sont pas systématiquement biaisés en faveur de fonctions mathématiques plus simples. En outre, ils suggèrent que les réseaux de neurones héritent des propriétés de leurs éléments constitutifs.
Vers une meilleure collaboration entre humains et IA
En jouant avec les paramètres des réseaux de neurones et en modulant leur architecture, les chercheurs espèrent mieux comprendre comment ces réseaux produisent leurs résultats. Expliquer leur comportement pourrait améliorer leurs capacités de généralisation et, de surcroît, renforcer notre confiance en ces systèmes. « Si un réseau de neurones identifie un cancer dans une image médicale, la plupart des gens s’attendent à ce que les médecins sachent pourquoi il a été identifié en tant que tel. Donc, pour être perçu comme fiable, on s’attend à ce que le processus puisse être expliqué, surtout dans les domaines sensibles. Nous espérons que ce travail contribuera à augmenter la confiance dans les systèmes d’IA », conclut Damien Teney.
Plus d’informations
- Groupe de recherche Machine Learning
- "Neural Redshift: Random Networks are not Random Functions", Damien Teney, Armand Nicolicioiu, Valentin Hartmann, Ehsan Abbasnejad, IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2024
- Programme de recherche Partenariat humain-IA