Extraction et usages de motifs minimaux en fouille de données, contribution au domaine des hypergraphes
Institution:
CaenDisciplines:
Directors:
Abstract EN:
Pattern discovery is a significant field of Knowledge Discovery in Databases. This work deals with mining and using minimal generators (also called free or key patterns). First, we propose an efficient algorithm for mining delta-free patterns in large databases. This is a difficult task due to the huge search space. We present a new approach based on pattern extension and a new pruning criterion. Second, we provide a unified view of objective interestingness measures. We design a framework capturing the main features of interestingness measures and we prove that a large set of usual measures, called \sbms, behave in a similar way. We also give an algorithm to efficiently mine non-redundant rules simultaneously optimizing all the SBMs by using the free patterns. Finally, we deepen the relationships between data mining and hypergraphs. We show how to exploit the key ideas of our extension-based method for efficiently computing the minimal transversals of a hypergraph which is known as a very hard problem. Experiments prove that our methods are very efficient in practice and useful for various applications.
Abstract FR:
La découverte et l'interprétation de motifs et de règles sont deux tâches centrales en extraction de connaissances dans les bases de données. Ce mémoire traite de l'extraction et des usages de motifs minimaux à la fois en fouille de données et dans le domaine des hypergraphes. D'une part, nous proposons une méthode efficace pour la découverte de motifs delta-libres dans les données larges, malgré les difficultés algorithmiques inhérentes à ce type de données. Cette méthode repose sur l'utilisation de l'extension des motifs et d'un nouveau critère d'élagage. D'autre part, nous nous intéressons à la qualité des règles d'association et nous présentons un cadre générique qui permet de mieux comprendre les similarités et différences entre mesures. Il montre que de nombreuses mesures (appelées SBMs pour Simultaneously Bounded Measures) ont des comportements proches. Ce résultat permet de garantir des valeurs minimales pour toutes les SBMs et la production de règles de qualité par rapport à l'ensemble de ces mesures. Enfin, l'apport des méthodes de type << extraction de motifs >> pour d'autres domaines est mis en évidence. Nous montrons que notre approche de découverte de motifs dans les données larges est exploitable pour calculer efficacement les traverses minimales d'un hypergraphe, un problème réputé comme particulièrement difficile. Différentes applications, notamment en biologie, montrent l'intérêt pratique de nos méthodes.