Modèles et techniques en inférence grammaticale probabiliste : de la gestion du bruit à l'extraction de connaissances
Institution:
Saint-EtienneDisciplines:
Directors:
Abstract EN:
Probabilistic grammatical inference is a subtopic of machine learning which aims at learning probabilistic finite automata. In this thesis we focus on two main problems of this research field : the processing of noisy and irrelevant data, and knowledge discovery from tree-structured data. In the context of dealing with corrupted data, we adopt a pragmatic standpoint by presenting some approaches directly applicable on real world problems. On the one hand, we focus on filter methods allowing to detect and process noisy and irrelevant data before the learning phase. On the other hand, we propose an embedded approach which aims at limiting the impact of noisy data during the inference of automata. Our methods can be applied on automata built from either sequences or trees. Our knowledge discovery approach is based on a generalization of stochastic tree automata. These " generalized " automata allow us to extract tree patterns from any stochastic tree automata. Our method can be applied not only on tree-structured data, but also on relational databases thanks to a technique generating trees from such structures. We show an application of our approach on a real medical relational database
Abstract FR:
L'inférence grammaticale probabiliste est un domaine de l'apprentissage automatique permettant d'apprendre des automates finis probabilistes. Les travaux présentés dans cette thèse se situent dans ce cadre et s'intéressent principalement à 2 problématiques : le traitement de données bruitées ou non pertinentes, et l'extraction de connaissances à partir de données arborescentes. Dans le cadre de la gestion de données bruitées, nous adoptons un point de vue assez pragmatique en proposant des techniques directement applicables à des problèmes réels. Nous nous intéressons dans un premier temps à des approches filter permettant de détecter des données corrompues ou inutiles avant la phase d'apprentissage. Dans un second temps, nous étudions une technique embedded permettant de limiter l'impact des données corrompues pendant l'inférence des automates. Nos travaux sont adaptés aussi bien aux automates de séquences qu'aux automates d'arbres. Pour extraire de la connaissance à partir de données, nous proposons une technique permettant de généraliser des automates d'arbres stochastiques. Ces automates ainsi généralisés nous permettent d'extraire de la connaissance sous forme de modèles d'arbres. Cette approche est directement utilisable sur des données arborescentes. Nous présentons également une méthode de transformation permettant de l'appliquer à des bases de données relationnelles, ce que nous illustrons par une application sur une base de données médicales