2018 – Projet n°102 – Utilisation des « Deep Bottleneck Features » (DBF) pour la reconnaissance du locuteur

Ce projet est réalisé par BIN MUSTAFFA Muhammad Faza et MERAL Muhammet-Ali.

La reconnaissance automatique du locuteur, ou speaker recognition permet à un système d’identifier un
locuteur à partir de la voix. On peut reconnaître un individu suivant deux formats : Soit faire lire un texte ou
une phrase (la reconnaissance est alors dite texte- dépendant), soit lui faire dire ce qu’il veut (dans ce cas,
texte-indépendant). C’est une discipline bien différente du speech recognition, qui lui a seulement pour but
d’identifier les mots énoncés par un individu.
Les caractéristiques vocales produites par les mots énoncés sont enregistrées dans une base de données selon
diverses modalités. Comme il a été dit précédemment, on procède à la reconnaissance du locuteur de deux
façons :
• La vérification du locuteur, ou speaker verification, permet à un locuteur de s’enregistrer sur un compte ou
une session grâce à la confirmation d’identité vocale, et non via mot de passe. En somme, il s’agit de
savoir si la personne qui parle est l’individu A ou non.
• L’autre alternative est l’identification du locuteur, ou speaker identification. Dans ce cas, le système doit
être en mesure de reconnaître l’identité de la personne, avec comme information seule la voix de
celle-ci. Mais ce procédé est plus délicat, dans la mesure où il faut disposer d’une grande quantité
d’enregistrements, toutes dans des conditions acoustiques similaires (bruit ambiant, durée des
enregistrements, format de locution, etc.), et ce avec la meilleure qualité possible. Ici, il s’agit de
déterminer quel est l’individu X qui parle.
Cette reconnaissance repose sur l’utilisation de réseaux de neurones profonds, grâce à leur robustesse. On
pense de manière intuitive à modéliser un réseau qui a pour but direct la reconnaissance du locuteur : C’est la
méthode directe. Ces méthodes classiques de speaker recognition ont su prouver leur efficacité et seront
étudiés par la suite.
Cependant, beaucoup d’articles de recherche semblent confirmer qu’il est possible d’utiliser des réseaux de
neurones non prévus initialement pour la reconnaissance du locuteur. Les informations extraites sur une
couche à dimension réduite (appelé Bottleneck Layer ou BL) du système initial, peuvent servir de donnée pour
un autre classifieur dédié au speech recognition, et seraient plus discriminants pour obtenir des résultats plus
raffinés en sortie : c’est la méthode indirecte.

Annonce