Contributions de l'inférence grammaticale à la fouille de données séquentielles
Institution:
Saint-EtienneDisciplines:
Directors:
Abstract EN:
Within the framework of this thesis, we established links between the models obtained by algorithms of grammatical inference and the knowledge inferred by techniques of sequential data mining. Based on the observation that the common point between these two different contexts of work is the manipulation of data structured in the form of sequences of symbols, we tried to exploit the properties of probabilistic automaton inferred from these sequences for the benefit of a more effective sequential data mining. In this context, we showed that the raw exploitation, not only of original sequences but also of a probabilistic automaton inferred from these, does not necessarily guarantee an extraction of relevant knowledge. We bring in this thesis several contributions, under the shape of minimal borders and statistical constraints, so allowing to insure a fruitful exploitation of sequences and probabilistic automaton. Furthermore, thanks to our model we bring an effective solution of certain applications putting in games problems of conservation of private life of the individuals
Abstract FR:
Dans le cadre de cette thèse, nous avons établi des liens entre les modèles obtenus par des algorithmes d'inférence grammaticale et la connaissance induite par des techniques de fouille de données séquentielles. Partant du constat que le point commun entre ces deux contextes différents de travail est la manipulation de données structurées sous forme de séquences de symboles, nous avons tenté d'exploiter les propriétés des automates probabilistes inférés à partir de ces séquences au profit d'une fouille de données séquentielles plus efficace. Dans ce contexte, nous avons montré que l'exploitation brute, non seulement des séquences d'origine mais aussi des automates probabilistes inférés à partir de celles-ci, ne garantit pas forcément une extraction de connaissance pertinente. Nous avons apporté dans cette thèse plusieurs contributions, sous la forme de bornes minimales et de contraintes statistiques, permettant ainsi d'assurer une exploitation fructueuse des séquences et des automates probabilistes. De plus, grâce à notre modèle nous apportons une solution efficace à certaines applications mettant en jeu des problèmes de préservation de vie privée des individus