Etude et mise en oeuvre des aspects itératifs de l'extraction de règles d'association dans une base de données
Institution:
ToursDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Avec l'augmentation de la capacité de stockage, nous avons assisté durant ces dernières années à une croissance importante des moyens de génération et de collection des données. C'est ainsi que l'on a commencé à parler de découverte de connaissances à partir de données (KDD) ou encore de Data Mining ou de Fouille de données. Les techniques de Data Mining permettent de découvrir des informations importantes (cachées) dans les données. Cependant la découverte de telles informations que l'on appelle aussi des motifs pose un certain nombre de problèmes. Le premier est le temps de calcul de ces motifs. En effet, les requêtes d'extraction de ces motifs sont des requêtes complexes et prennent ainsi du temps à s'exécuter. Le deuxième problème de la découverte d'informations intéressantes est la taille importante des réponses. Le nombre de motifs trouvés est généralement très important. C'est ainsi qu'est apparu l'idée de représentations condensées qui consiste à trouver un sous ensemble des motifs à partir duquel on pourra retrouver tous les autres. C'est ce sous-ensemble qui est appelé représentation condensée. La principale contribution de ce mémoire est de proposer une approche itérative de l'extraction des motifs intéressants. Celle-ci consiste à utiliser les résultats des extractions antérieures, plus précisément la représentation condensée de ces résultats pour optimiser le calcul des extractions futures. L'autre contribution est de proposer une représentation condensée non pas d'une réponse à une requête mais plutôt à un ensemble de réponses à des requêtes. En effet, étant donné que les ensembles de motifs trouvés ne sont pas indépendants, un problème crucial qui se pose est la redondance dans le stockage. Il apparaît alors nécessaire de ne pas stocker les représentations condensées indépendamment les unes des autres, mais de trouver une représentation condensée d'une ensemble de réponses à des requêtes. Le mémoire est ainsi divisé en deux parties. La première partie fait l'état de l'art sur la découverte de motifs intéressants, les représentations condensées, et l'extraction itérative de motifs. La seconde partie, qui est la contribution, présente, d'une part l'approche incrémentale d'extraction des motifs intéressants, d'abord par un formalisme logique, ensuite par un formalisme algébrique, et d'autre part la représentation condensée d'un ensemble de réponses à des requêtes.