thesis

"Nouvelles méthodes en Data-Mining et extraction de connaissances à partir de données :application au complexe mycobacterium tuberculosis"

Defense date:

Jan. 1, 2006

Edit

Institution:

Antilles-Guyane

Disciplines:

Directors:

Abstract EN:

The needs fo knowledge processing from increasing large databases has been the source for the development of techniques and methods related to Data-Mining (also called knowledge Discovery from Databases). This field is composed of various subfields, in particular techniques for dabatase management, learning and prediction. Data processing and analtsis are both expensive and lengthy in epidemiology. So, we are interested in models tailored to knowledge extraction from sequential data, in order to determine the most discriminating seqeunces of classes of data a priori defined by the experts of the field, and to automate with knowledge rules the treatment of DNA sequences. So, we try to implement systems for surpervised classification, in order to train and predict sequential data, i. E. Spoligotypes in our case. For this objective, we introduced methods adated to our application field(expert rules,Markov chains,Decision trees,. . . ), including classifiers systems, which present the interest of a constzant interaction with their environment and the exploitation of genetic algorithms for their evolution. We have measured their performances, taking their constraints into account. In addition, we have devised an index allowing us to take into account in a better way the sequential form of our data, and we have presented a method based on statistical inference , which allows us to define rules with the condensed representation of a DFA. Our experiments displays promising good results, althourgh it is too early tonperform a selection among the methods. Rather, the possibility of a cooperative approach among methods seems to be more promising. Anyway, the contribution of the sequence-mining methods for knowledge extraction remains a major asset for this application field.

Abstract FR:

Le besoin de tratement et d'extraction de connaissances à partir de larges bases de données en constante augmentation, a été à l'origine du développement de techniques et méthodes liées au data-Mining ou Knowledge discovery in databases. Cette discipline en pleine effervecence,regroupe différents domaines de compétences,intégrant notamment les techniques de gestion de base de données et les méthodes d'apprentissage et de prediction. Les procédures de traitement et d'analyse de données séquentielles. Ceci permet de déterminer les séquences les plus discriminantes de classes d'individus,définies à priori par les experts du domaine, et d'automatiser par des règles de connaissances,les procédures de traitement de séquences d'ADN. Nous avons donc cherché à mettre en oeuvre, des systèmes de spoligotypage. Nous avons mesuré l'impact de méthodes adaptées à notre domaine d'application en terme de performances, en tenant compte des contraintes qu'elles imposent. Par ailleurs, nous avons conçu un indice permettant de mieux prendre en compte l'aspect séquentiel de nos données, et presenté une méthode solidement basée sur l'inférence statistique,permettant de définir des règles de décisions concises, à partir d'une représentation condensée sous la forme d'un AEF. Bien qu'il soit encore prématuré de procéder à une sélection de méthodes, les expérimentations menées ont fourni de bons résultat. En fait, l'étude des possibilités d'approches coopératives entre méthodes semble être une voie pleine de promesses. Le champ d'étude reste encore vaste, pour un domaine d'application ou l'apport des méthodes d'extration automatique de connaissances demeure sans contexte un atout majeur.