Modèles contextuels et alphabets infinis en théorie de l'information
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
This thesis explores some contemporary aspects of information theory, from source coding to issues of model selection. We first consider the problem of coding memoryless sources on a countable, infinite alphabet. As it is impossible to provide a solution which is both efficient and general, two approaches are considered: we first establish conditions under which the entropic rate can be reached, and we consider restricted classes for which tail probabilities are controlled. The second approach does not set any condition on the sources but provides a partial solution by coding only a part of the information - the pattern - which captures the repetitions in the message. In order to study more complex processes, we come back to the case of finite memory sources on a finite alphabet : it has given rise to many works and efficient algorithms like the Context Tree Weighting (CTW) Method. We show here that this method is also efficient on anon-parametric class of infinite memory sources: the renewal processes. We show then that the ideas on which CTW is based lead to a consistent estimator of the memory structure of a process, when this structure is finite. In fact, we complete the study of the BIC context tree estimator for Variable Length Markov Chains. In the last part, it is shown how similar ideas can be generalized for more complex sources on a (countable or not) infinite alphabet. We obtain consistent estimators for the order of hidden Markov models with Poisson and Gaussian emission.
Abstract FR:
Ce travail de thèse explore quelques aspects contemporains de la théorie de l'information allant de la théorie du codage à certains problèmes de choix de modèles. Nous y considérons d'abord le problème du codage de sources sans mémoire émettant dans un alphabet infini dénombrable. Comme il est impossible d' y apporter une solution générale, deux approches sont utilisées : nous établissons d'abord des conditions sous lesquelles le taux entropique peut être approché, et proposons alors un algorihme. Dans un second temps, il n'est posé aucune restriction sur la source, il est possible de fournir une solution partielle en codant seulement une partie de l'information (le motif) qui capture les répétitions contenues dans le message. Pour arriver à l'étude de processus plus complexes, nous revenons sur le cas de sources à mémoire finie sur un alphabet fini, qui a donné lieu a beaucoup de travaux, ainsi qu'à des algorithmes efficaces comme la Context Tree Weighting (CTW) Method. Nous prouvons ici que cet algorithme est également efficace sur une classe non paramétrique de sources à mémoire infinie : les sources de renouvellement. Nous montrons ensuite que les idées sous-jacentes à la méthode CTW permettent de construire un estimateur consistant de la structure de mémoire d'un processus quand celle-ci est finie : nous complètons l'étude de l'estimateur BIC pour les chaînes de Markov à longueur variable. Dans une dernière partie, il est montré qu'une telle approche est généralisable dans un cadre plus large de sources émettant dans un alphabet infini. On obtient ainsi des estimateurs consitants de l'ordre de chaînes de Markov cachées à émission poissonienne et gaussienne.