Elaboration et comparaison de systèmes adaptatifs multi-flux de reconnaissance robuste de la parole : incorporation des indices de voisement et de localisation
Institution:
Grenoble INPGDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Les performances des systemes classiques de reconnaissance automatique de la parole (rap) sont mauvaises en milieu bruite. Pour les ameliorer, la rap multi-flux utilise la redondance spectrale du signal de parole. Nous developpons cette technique et montrons comment la renforcer par analyse de scene auditive computationnelle modelisant la capacite de l'homme a structurer l'environnement sonore. Nous calculons la probabilite a posteriori de chaque phoneme par la somme des probabilites a posteriori de chaque flux possibles, ponderees par leur fiabilite (modele full combination fc). La fiabilite des paves temps frequence de 100 ms est associee au maximum, dans le domaine du fondamental, de l'autocorrelogramme normalise du signal demodule, ou a la position du maximum sur l'intercorrelogramme d'un signal stereophonique de sources fixes. Nous comparons aux techniques classiques (soustraction spectrale, separation aveugle) les gains relatifs (gr) de reconnaissance de mot alors acquis par les modeles fc ou de rehaussement ou de fusion audiovisuelle. Les tests sur des bases de parole continue multilocuteur montrent dans le cas de chiffres telephones (numbers 93 / 95) jusqu'a 47% gr sur du bruit colore non-stationnaire. Dans le cas de deux sources simultanees fixes (base stereophonique stnumbers95), le gr de double reconnaissance est de 32%. Sur la base viavoice grand vocabulaire (15000 mots) augmentee de la modalite visuelle, le gr par fusion audiovisuelle est de 57% compare a l'audio seul sur un bruit de parole et nous montrons comment l'ameliorer en gerant la fusion avec notre indice de voisement. Les matrices de confusion des experts a rapports signal sur bruit donnes predisent les biais des posteriors. Cette information est fusionnee dans un nouveau modele pour renforcer le gr. Enfin nous proposons un reconnaisseur proactif permettant d'apporter une information de haut niveau complementaire aux indices primitifs.