Codage distribué pour la compression vidéo
Institution:
Télécom BretagneDisciplines:
Directors:
Abstract EN:
Traditional Video coding systems such as H-26x or MPEG-X uses a motion-compensated predictive coding at the encoder to exploit temporal dependencies between successive frames of a video sequence. In these systems, the complexity of the encoder is 5 to 10 times greater than that of the decoder. This scheme of asymmetrical model is suitable for the transmission of video from a server to mobile devices, but not suitable for sending video via mobile devices to a base station. For this type of application, it is better to search an encoding scheme of the previous dual encoder with a relatively low complexity and decoder with a higher processing power. Distributed video coding, also called Wyner-Ziv coding is a new video coding paradigm which combines low complexity and robustness of frame coding in Intra mode with compression efficiency of Inter-mode coding frame. With the advent of turbo codes in the 90s, this technique has experienced a resurgence of interest. In the first part, we studied the principle of distributed video coding in the pixel domain. To improve the performance of the reference model, we introduced at the reception the BCJR source decoder which exploits the correlation of the source video. Indeed, a video stream has, indeed, a large amount of temporal correlation between successive frames of the sequence and space within a frame between its pixels. The aim of our study is to propose a new architecture that allows the exploitation, in addition to temporal correlation, the spatial correlation of Wyner-Ziv frames. The source is considered as Markovian source, this feature means that this source has a residual redundant information providing additional information to the receiver which can be used to correct some errors introduced by the virtual channel, through a scheme of joint source-channel decoding. The second part of the thesis was devoted to the implementation of a new video coding scheme with low complexity encoder suitable for applications that have limited computational power at the transmitter. The study is performed at pixel and transform domain. The proposed schemes can exploit both temporal and spatial correlation of the video sequence, introducing an arithmetic coder to be used alternately with the turbo code. In the pixel domain, we considered a size larger than the GOP, keyframes (as in the distributed video coding) is encoded and decoded using a codec intra. For the remaining frames of the GOP, we exploit the temporal correlation using an entropy encoder (arithmetic encoder) only for the two most significant bitplanes. The other bitplanes are encoded using a turbo code. In the transform domain, the temporal correlation has been exploited by using the arithmetic encoder for only the DC coefficients. Other DCT coefficients are encoded using turbo code.
Abstract FR:
Dans les systèmes de codage vidéo classique, la complexité de l'encodeur est 5 à 10 fois supérieure à celle du décodeur. Ce schéma de conception asymétrique est adapté à la transmission de vidéo à partir d'un serveur vers des terminaux mobiles mais ne convient pas à l'envoi de vidéo par des terminaux mobiles vers une station de base. Pour ce genre d'application, il est plus judicieux de rechercher un schéma de codage dual du précédent avec un encodeur de complexité relativement limité et un décodeur disposant d'une puissance de traitement plus importante. Le codage vidéo distribué, appelé aussi codage de Wyner-Ziv (en anglais Distributed video coding) est un nouveau paradigme en codage vidéo qui permet de combiner la faible complexité et la robustesse du codage des images en mode Intra avec l'efficacité de compression des images en mode Inter. En première partie, nous avons étudié le principe de codage vidéo distribué dans le domaine pixel. Pour améliorer les performances de ce schéma de référence, nous avons introduit à la réception le décodeur de source BCJR qui permet d'exploiter la corrélation de la source vidéo. En effet, un flux vidéo présente, naturellement, une grande quantité de corrélation temporelle entre les images successives de la séquence et spatiale au sein d'une image entre ses différents pixels. Le but de notre étude est de proposer une nouvelle architecture qui permet d'exploiter, outre la corrélation temporelle, la corrélation spatiale des images Wyner-Ziv. La source est considérée comme étant markovienne, cette caractéristique signifie que cette source a une information résiduelle redondante fournissant des informations supplémentaires pour le récepteur qui peut être exploitée pour corriger certaines erreurs introduites par le canal virtuel, à travers un schéma de décodage conjoint source-canal. La deuxième partie de la thèse a été consacrée à l'implémentation d'un nouveau schéma de codage vidéo à faible complexité à l'encodeur adapté aux applications qui disposent d'une puissance de calcul réduite à l'émetteur. Nous avons fait l'étude dans les domaines pixel et transformé. Les schémas proposés permettent d'exploiter à la fois les corrélations temporelle et spatiale de la séquence vidéo, en introduisant un codeur arithmétique qui sera utilisé alternativement avec le turbo code. Dans le domaine pixel, nous avons considéré une taille de GOP plus grande que l, les images clés (comme dans le codage vidéo distribué) sont codées et décodées à l'aide d'un codec intra. Pour les images restantes du GOP, nous exploitons la corrélation temporelle en utilisant un codeur entropique (codeur arithmétique) seulement pour les deux plans de bits les plus significatifs. Les autres plans de bits sont codés en utilisant un code turbo. Dans le domaine transformé, la corrélation temporelle a été exploitée en utilisant le codeur arithmétique pour seulement les coefficients DC. Les autres coefficients de la transformation DCT sont codés en utilisant le code turbo.