thesis

Classification et prévision des données hétérogènes : application aux trajectoires et séjours hospitaliers

Defense date:

Jan. 1, 2007

Edit

Institution:

Lyon 1

Disciplines:

Directors:

Abstract EN:

Recent years have seen the development of data mining techniques in various application areas, with the purpose of analyzing large and complex data. The medical field is one of these areas where available data are numerous and described using various attributes, classical (like patient age and sex) or symbolic (like medical treatments and diagnosis). Data mining generally includes either descriptive techniques (which provide an attractive mechanism to automatically find the hidden structure of large data sets), or predictive techniques (able to unearth hidden knowledge from datasets). In this work, the problem of clustering and prediction of heterogeneous data is tackled by a two‐stage proposal. The first one concerns a new clustering approach which is based on a graph coloring method, named b‐coloring. An extension of this approach which concerns incremental clustering has been added at the same time. It consists in updating clusters as new data are added to the dataset without having to perform complete re‐clustering. The second proposal concerns sequential data analysis and provides a new framework for clustering sequential data based on a hybrid model that uses the previous clustering approach and the Mixture Markov chain models. This method allows building a partition of the sequential dataset into cohesive and easily interpretable clusters, as well as it is able to predict the evolution of sequences from one cluster. Both proposals have then been applied to healthcare data given from the PMSI program (French hospital information system), in order to assist medical professionals in their decision process. In the first step, the b‐coloring clustering algorithm has been investigated to provide a new typology of hospital stays as an alternative to the DRGs classification (Diagnosis Related Groups). In a second step, we defined a typology of clinical pathways and are then able to predict possible features of future paths when a new patient arrives at the clinical center. The overall framework provides a decision‐aid system for assisting medical professionals in the planning and management of clinical process

Abstract FR:

Ces dernières années ont vu le développement des techniques de fouille de données dans de nombreux domaines d’applications dans le but d’analyser des données volumineuses et complexes. La santé est ainsi un secteur où les données disponibles sont nombreuses et de natures variées (variables classiques comme l’âge ou le sexe, variables symboliques comme l’ensemble des actes médicaux, les diagnostics, etc). D’une manière générale, la fouille de données regroupe l’ensemble des techniques soit descriptives (qui visent à mettre en évidence des informations présentes mais cachées par le volume des données), soit prédictives (cherchant à extrapoler de nouvelles connaissances à partir des informations présentes dans les données). Dans le cadre de cette thèse, nous nous intéressons au problème de classification et de prévision de données hétérogènes, que nous proposons d'étudier à travers deux approches principales. Dans la première, il s'agit de mettre en place une nouvelle approche de classification automatique basée sur une technique de la théorie des graphes baptisée b‐coloration. Nous avons également développé l’apprentissage incrémental associé à cette approche, ce qui permet à de nouvelles données d’être automatiquement intégrées dans la partition initialement générée sans avoir à relancer la classification globale. Le deuxième apport de notre travail concerne l’analyse de données séquentielles. Nous proposons de combiner la méthode de classification précédente avec les modèles de mélange markovien, afin d’obtenir une partition de séquences temporelles en groupes homogènes et significatifs. Le modèle obtenu assure une bonne interprétabilité des classes construites et permet d’autre part d’estimer l’évolution des séquences d’une classe donnée. Ces deux propositions ont ensuite été appliquées aux données issues du système d’information hospitalier français (PMSI), dans l’esprit d’une aide au pilotage stratégique des établissements de soins. Ce travail consiste à proposer dans un premier temps une typologie plus fine des séjours hospitaliers pour remédier aux problèmes associés à la classification existante en groupes homogènes de malades (GHM). Dans un deuxième temps, nous avons cherché à définir une typologie des trajectoires patient (succession de séjours hospitaliers d’un même patient) afin de prévoir de manière statistiques les caractéristiques du prochain séjour d’un patient arrivant dans un établissement de soins. La méthodologie globale offre ainsi un environnement d’aide à la décision pour le suivi et la maîtrise de l’organisation du système des soins.