Signaux audiophoniques : modélisation hydride et schéma de codage
Institution:
Aix-Marseille 1Disciplines:
Directors:
Abstract EN:
In this document, we develop a model for audio signals compression (music, speech, etc. ). The main idea is to model very accurately each natural component of the signal, supposed to be highly different and independent. We use a hybrid recursive approach based on the following additive model: signal = tonals + transients + residual. In the context of transform coding, coefficients coming from decompositions over orthonormal bases (cosine for tonals, wavelets for transients) are modelled as gaussian mixtures random variables. Then, the significative coefficients of these expansions are estimated, quantized and encoded. We use two-states hidden Markov chains to model and estimate the tonal structures. Hence we are able to fit the time-persistence property of the significant coefficients, and to develop efficient estimation algorithms. Using orthonormal wavelet decomposition of the ``non tonal'' signal, we define the transients components as connex dyadic trees of coefficients connected to their root. Hidden Markov models evolving onto such dyadic trees are providing various theoretical estimations and algorithms. In this framework, rate, energy and distorsion results are also computed. Finally, we introduce the so-called ``tonality'' and ``transientness'' indices, and we propose a general codec scheme for audio signals at low bitrate.
Abstract FR:
L'objet de nos travaux est le développement d'un modèle dédié à la compression des signaux audiophoniques (musique, parole, etc). Une approche hybride récursive est mise en place, basée sur le modèle additif de la forme: signal = tonales + transitoires + résidu. Dans un contexte de codage par transformation, on modélise les coefficients issus d'une décomposition sur une base orthonormale (de cosinus pour les tonales, et d'ondelettes pour les transitoires) comme des variables aléatoires suivant un mélange de lois normales. Les coefficients significatifs de ces développements sont ensuite estimés puis quantifiés et codés en binaire. L'introduction de modèles de Markov cachés évoluant en temps (chaînes) permet de capturer les "lignes de fréquence" qui forment les structures tonales. Cette approche permet d'exploiter la propriété de persistance temporelle des coefficients significatifs, et de développer des algorithmes performants d'estimation. De la même façon, les structures transitoires sont définies comme des arbres connexes de coefficients issus de la décomposition en ondelettes du signal privé de sa partie tonale. La persistance inter-échelles des coefficients significatifs est prise en compte par un modèle de Markov caché à deux états évoluant sur une structure d'arbre dyadique. Des algorithmes d'estimation sont aussi développés dans ce cadre. Des estimations théoriques de débit, d'énergie et de distorsion sont présentées. Finalement, nous posons les bases d'un codec pour les signaux audiophoniques à l'aide de l'introduction des indices de "tonalité" et de "transitoirité" d'un signal.