Lorsque le système de filtrage d’appels téléphoniques de Katia a un doute sur un nouveau numéro d’appelant, ce numéro est composé de manière automatique. La réponse fournie est enregistrée durant 30 secondes pour collecter des caractéristiques liées à l’appelant. Cette réponse, non contrôlée, peut prendre plusieurs formes. Par exemple: une personne qui pose des questions pour comprendre qui appelle, un arrière-fond sonore d’un call center, ou une voix synthétique.
Le but de ce projet est d’étudier et de développer de nouveaux filtres capables de caractériser ces différents types de réponse. La classification entre de l’audio comprenant de la parole ou de la musique, une voix humaine ou une voix synthétique peuvent être envisagées à l’aide d’apprentissage statistique. Nous allons apprendre ces modèles et ces classificateurs à partir des données enregistrées et annotées par Katia. La création d’une empreinte audio sera également étudiée dans le but de retrouver des segments audio identiques déjà enregistrés.