Nouvelle approche de "Fouille de données" permettant le démembrement syndromique des troubles psychotiques
Institution:
Versailles-St Quentin en YvelinesDisciplines:
Directors:
Abstract EN:
Current approaches in the field of data analysis applied to Medicine use traditional statistical methods which showed limitations Data Mining consists in exploring and processing large volumes of data while the other methods are confirmatory and use structured data of often smaller sizes The main motivation of our thesis consist on the proposal of a new approach based on a hybrid Data Mining algorithm in order to extract knowledge applied to medical databases. The object of our study concerns a disease which affects about 1 % of the French population that is Schizophrenia. Conventional descriptions, codified by means of internationally recognized classifications, allowed the definition of nosographic categories of psychiatric disorders, which were however never validated by physiopathological data. It results in a considerable amount of data that needs to be optimizing both for operational and scientific purpose. It is thus necessary to use precise tools for phenotypic characterization and provide with an appreciation of the value of those variables to define possible sub-groups of the disease. We suggest setting up knowledge extraction architecture merging DataMining algorithms, the first part of this architecture will use the algorithm of association rules as the most relevant tool of feature selection of variables. Based on this sub-group of attributes, the second part will aim at supplying probabilistic profiles concerning phonotypical characteristics of patients suffering schizophrenia and to create a model of reliable classification by the use of the algorithms of Bayesians Networks and Neuronal Networks.
Abstract FR:
Les démarches classiques dans le domaine de l’analyse des données médicales utilisent des méthodes statistiques traditionnelles qui ont montré leurs limitations. La fouille de données est de nature exploratoire et traite de gros volumes de données sans a priori alors que les autres domaines sont confirmatoires et exploitent des données structurées et souvent de tailles plus faibles. L’objectif de notre thèse est de proposer une démarche basée sur un algorithme hybride de DataMining pour des fins d’extraction de connaissances appliqué à des bases de données médicales. L’objet de notre étude concerne une maladie qui touche près de 1% de la population française qu’est la Schizophrénie. Si les descriptions classiques, codifiées par les efforts de classifications internationalement reconnues ont permis de définir un découpage nosographique des troubles psychiatriques, ce découpage n’a jamais été validé par de résultats physiopathologiques. Il en découle une masse considérable de données, qu’il faut pouvoir optimiser, tant sur le plan opérationnel que scientifique. Il est indispensable d'utiliser des outils de caractérisation phénotypique précis et d’apporter une appréciation qualitative sur la valeur des variables, afin de choisir les meilleures pour définir d'éventuels sous groupes de la maladie. Nous proposons de mettre en place d’une architecture d’extraction de connaissances fusionnant des algorithmes de DataMining, la première partie de cette architecture utilisera l’algorithme de règles d’association comme outil de sélection de variables les plus pertinents pour décrire une sortie désirée. En se basant sur se sous groupe d’attributs, la deuxième partie aura pour but de fournir des profils probabilistes concernant des caractéristiques phénotypiques de patients soufrant de schizophrénie et de créer un modèle de classification fiable par l’utilisation des algorithmes de Réseaux Bayesiens et de Réseaux de neurones.