L'IA générative pour la protection des données biométriques
Les modèles de reconnaissance faciale, généralement alimentés par des réseaux de neurones profonds, nécessitent d'apprendre à partir de vastes ensembles de données d'images en ligne. L'utilisation de ces ensembles de données pose des défis éthiques, car ils contiennent des informations personnelles sans consentement explicite. Pour atténuer ces problèmes, Hatef Otroshi Shareza et Sébastien Marcel ont créé un ensemble de données basé sur des visages artificiels extrêmement réalistes, générés par l'intelligence artificielle (IA). Cette approche évite les préoccupations éthiques et de confidentialité liées aux identités de personnes réelles. La méthode est conçue pour être flexible, offrant une large gamme de variations faciales, tant entre les individus qu'au sein d'une même personne.
Pour construire l'ensemble de données, ils ont d'abord généré des images synthétiques de visage qui étaient visiblement des individus distincts, en utilisant une technique d’optimisation. Ensuite, ils ont employé un modèle de fondation comme générateur de visages pour ajouter des modifications aléatoires telles que différents angles, éclairages ou expression faciales pour produire plusieurs variations d’images par individu synthetic.
Grâce à l'emploi de visages synthétiques, cet ensemble de données prévient toute divulgation des identités de personnes réelles. Au-delà de cette garantie de confidentialité, il a permis d'obtenir des performances remarquables lors de l'entraînement de modèles de reconnaissance faciale. Les modèles entraînés avec ces visages ont non seulement égalé, mais parfois dépassé les niveaux de précision les plus élevés atteints par d'autres ensembles de données similaires. Ces résultats mettent en évidence la capacité de cet ensemble de données à produire des données d'entraînement à la fois réalistes et d'une qualité supérieure.
De plus, la méthode, appelée HyperFace, est facilement adaptable, permettant aux chercheurs d'ajuster des paramètres tels que le nombre d'identités et d'images par identité. Cela facilite la création d'ensembles de données correspondant aux besoins spécifiques de la recherche. Enfin, une vérification rigoureuse confirme que la méthode employée est construite exclusivement à partir d'images artificielles, garantissant qu'aucun visage humain réel, potentiellement provenant d'autres ensembles de données d'entraînement, n'est présent.
La méthode HyperFace et son ensemble de données associé apportent une solution solide aux problèmes de confidentialité liés à l'entraînement des systèmes de reconnaissance faciale. Ils permettent un entraînement efficace des modèles sans recourir à des photos de personnes réelles, favorisant ainsi le progrès technologique et le respect des normes éthiques, tout en préservant les identités des risques de fuites de données.
Cette étude sera présentée lors de la 13ème Conférence Internationale sur les Représentations d'Apprentissage (ICLR) à la fin du mois d’Avril.
Source :
Shahreza, H. O., & Marcel, S. (2025). HyperFace: Generating synthetic face recognition datasets by exploring face embedding hypersphere. 13th International Conference on Learning Representations (ICLR).