Extraction de motifs séquentiels sous contraintes dans des données contenant des répétitions consécutives
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
This PhD Thesis concerns the particular data mining field that is the sequential pattern extractions from event sequence databases (e. G. Customer transaction sequences, web logs, DNA). Among existing algorithms, those based on the use of a representation in memory of the pattern locations (called occurrence lists), present a lost of efficiency when the sequences contain consecutive repetitions. This PhD Thesis proposes some efficient solutions to the sequential pattern extraction in such a context (constraints and repetitions) based on a condensation of informations contained in the occurrence lists, without lost for the extraction process. This new representation leads to new sequential pattern extraction algorithms (GoSpade and GoSpec) particularly well adapted to the presence of consecutive repetitions in the datasets. These algorithms have been proved to be sound and complete and experiments on both real and synthetic datasets enabled to show that the gain in term of memory space and execution time is important and that they increase with the number of consecutive repetitions contained in the datasets. Finally, a financial application has been performed in order to make a condensed representation of market trends by means of frequent sequential patterns.
Abstract FR:
Un axe de recherche typique du data mining, et qui nous concerne dans cette thèse, est la recherche de régularités dans des bases de séquences (e. G. , séquences d'achats, de navigation, d'ADN). De nombreux algorithmes ont été proposés pour traiter l'extraction de motifs séquentiels satisfaisant des contraintes variées. Parmi ceux existants, certains exploitent une représentation en mémoire des positions des motifs (listes d'occurences), ce qui permet de réduire les coûts liés aux accès disque lors de l'exécution d'un processus. Cependant, leurs performances peuvent être grandement améliorées lorsque ces données comportent des répétitions consécutives, c'est-à-dire, en quelque sorte, une redondance de certaines informations dans le temps. Par exemple, un client peut acheter plusieurs fois le même article lors d'achats successifs, la même erreur peut se reproduire plusieurs fois d'affilé sur un réseau informatique, ou encore, comme c'est le cas dans notre contexte d'application (traitement de données financières où l'évolution de produits boursiers est représentée par des séquences d'évènements), lorsque les séquences sont construites à partir de données quantitatives discrétisées. Dans cette thèse, nous tentons d'apporter des solutions efficaces au problème de l'extraction, contrainte ou non, de motifs séquentiels, dans le cas de données contenant des répétitions consécutives. Celles-ci s'appuient sur une généralisation des listes d'occurences et proposent de condenser les informations qu'elles contiennent, sans perte pour les extractions. Cette nouvelle représentation a donné lieu aux développements d'extracteurs de motifs séquentiels, GoSpade (traitement de la seule contrainte de fréquence minimum) et GoSpec (traitement de contraintes temporelles), particulièrement bien adaptés à la présence de répétitions consécutives dans les données. Les algorithmes correspondants ont respectivement fait l'objet d'une démonstration de justesse et de complétude afin d'assurer la correction des résultats qu'ils retournent. De plus, il a été montré, par des expérimentations sur des jeux de données réelles et synthétiques, que ces extracteurs présentaient une nette amélioration des performances en présence de répétitions consécutives. Les gains obtenus, en terme d'espace mémoire et de temps d'exécution, permettent de travailler sur des volumes de données plus importants et à des seuils de fréquence plus faibles, dans des temps raisonnables. Enfin, une application dans le domaine des marchés financiers, visant à construire une représentation synthétique de différentes tendances boursières sous forme de motifs séquentiels caractéristiques, a été effectuée. Nous avons pu montrer que des motifs fréquents constituant une tendance contiennent une information qui est bien spécifique de la tendance représentée.