New techniques of scalable speech/audio coding for conversational applications : model-based bitplane coding and stereo extension of ITU-T G. 722
Institution:
Rennes 1Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette thèse développe de nouvelles techniques de codage de parole et audio scalables. Tout d’abord, une première méthode de codage par transformée des signaux de parole et audio scalable est présentée. Cette méthode est construite sur le principe de codage par plan de bits, qui est une technique efficace pour atteindre un codage progressif scalable. Cette technique décompose une séquence entière à coder en une succession de plans de bits, des bits les plus significatifs (MSB) aux bits les moins significatifs (LSB). Ces plans de bits dans le train binaire généré peuvent être arbitrairement tronqués lorsque certaines contraintes sont appliquées. Chaque plan de bits est ensuite converti en une séquence quinaire (+, -, 0, 1, EoP), où le symbole “EoP” (End of Plane) indique la fin du plan courant. Un codage arithmétique contextuel est finalement appliqué sur cette séquence quinaire. Pour exploiter la corrélation entre les plans de bits successifs, les plans ne sont pas codés de façon séquentielle (du premier bit au dernier bit), mais en deux passes, en fonction des plans précédemment codés. En plus des techniques scalables dans le codage mono, les techniques scalables dans le codage audio multicanal ont été également développées. Cette thèse propose deux techniques de downmix stéréo en mono dans le domaine fréquentiel. Ces deux techniques de downmix ont plusieurs avantages: conserver l’énergie des composantes spectrales et éviter de mettre le canal left (L) ou right (R) comme référence de phase. En particulier, la deuxième technique de downmix permet de plus d’éviter la dégradation de qualité du signal mono dans le cas où les deux canaux stéréo sont en quasi opposition de phase (voire même en opposition de phase dans le cas extrême). Construits sur ces deux techniques de downmix, deux modèles d’analyse-synthèse stéréo paramétriques sont décrits. Dans ces modèles, les paramètres stéréo par sous-bande se composent soit de différence intercanale d’intensité, soit de différence intercanale de temps, soit de différence intercanale de phase entre le signal mono et un des deux signaux stéréo (L ou R). Ces deux modèles de codage stéréo paramétrique sont appliqués à l’extension stéréo de l’UIT-T G. 722 à deux modes: 56+8 et 64+16 kbit/s avec une longueur de trame de 5 ms