Codage imbriqué pour la parole à 8-32 KBIT/S combinant techniques CELP, ondelettes et extension de bande
Institution:
Télécom BretagneDisciplines:
Directors:
Abstract EN:
Les contraintes de qualité de service liées aux applications de voix sur IP ont rendu nécessaire le développement d'une nouvelle classe de codecs, qualifiés d'imbriqués, ou scalables, qui sont capables de décoder tout ou partie du train binaire. Le codec de parole en bande élargie développé au cours de cette thèse produit un train binaire qui peut être décodé à des débits variant de 8 à 32 kbit/s. Dans ce but, la structure du codeur comprend trois couches. Tout d'abord, un premier banc de filtre isole la composante bande étroite de la composante bande élargie du signal d'entrée. Puis, la première couche, appelée couche coeur, encode la composante bande étroite du signal d'entrée. Cette couche utilise le codeur G. 729 de l'UIT-T. Ensuite, la deuxième couche, encore appelée première couche d'amélioration, emploie des techniques d'extension de bandes qui reposent sur l'utilisation d'un banc de filtre en ondelettes pour reproduire artificiellement la composante bande élargie, avec un débit additionnel de 2 kbit/s. Enfin, la seconde et dernière couche d'amélioration, encode de manière progressive les coefficients d'ondelettes de la différence entre le signal original et la sortie du G. 729 dans la partie bande étroite, et encode les coefficients d'ondelettes du signal original dans la partie bande élargie. Par conséquent, le décodeur assure un signal reconstruit à bande étroite à un débit de 8 kbit/s, produit un signal bande élargie à 10 kbit/s, et améliore la qualité jusqu'à un débit de 32 kbit/s. Des tests d'écoute ont montré que la qualité du codec s'améliore avec une augmentation du débit. Pour des signaux de parole, le codec à 24 et 32 kbit/s est équivalent au codeur G. 722 de l'UIT-T à 56 et 64 kbit/s. De plus, le codec à 32 kbit/s est équivalent au codeur imbriqué G. 729. 1 au même débit, récemment standardisé à l'UIT-T.
Abstract FR:
The constraints of quality of service related to Voice over IP applications have made necessary the development of a new class of codecs, called embedded, or scalable, codecs, able to decode a part of the generated bitstream. The wideband speech codec developed during this thesis provides an embedded bitstream that can be decoded at bitrates ranging from 8 to 32 kbit/s. To do so, the codec structure comprises three layers. First, a split band structure separates the narrowband component and wideband component of the input signal. Then, the first layer, called core layer, encodes the narrow band component of the input signal. This layer makes use of the ITU-T G. 729 coder. Afterwards, the second layer, called first enhancement layer, utilizes bandwidth extensio techniques relying on a wavelet filter bank to reproduce artificially the wideband component, with an additional bitrate of 2 kbit/s. Finally, the second and last enhancement layer, progressively encodes the wavelet coefficients of the difference between the original signal and the G. 729 output in the narrowband part, and encodes the wavelet coefficients of the original signal in the wideband part. Hence, the decoder ensures a narrowband signal at 8 kbit/s, enables wideband rendering at 10 kbit/s and improves the quality up to 32 kbit/s. Listening tests have shown that the quality of the codec improves gracefully as the bitrate increases. For speech signals the codec at 24 kbit/s and 32 kbit/s is shown to be equivalent to the ITU-T G. 722 codec at 56 and 64 kbit/s, respectively. Moreover, the codec at 32 kbit/s is assessed to be equivalent to the recently standardized embedded codec ITU-T G. 729. 1 at the same bitrate. .