Analyse de données symboliques : une méthode divisive de classification
Institution:
Paris 9Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Cette thèse est axée sur le problème de la classification en analyse des données symboliques. Un formalisme est d'abord proposé dans le but de décrire et de manipuler un tableau de données exprimant un niveau de connaissances plus élevé que de simples observations. On parle alors de données complexes. En effet, afin de tenir compte de l'imprécision, de l'incertitude ou de la variation souvent rencontrées dans les données, un individu pourra être décrit sur chaque variable non seulement par une valeur unique mais aussi par un ensemble de valeurs ou par une distribution sur les valeurs. A partir de ce formalisme a) on propose une méthodologie générale permettant de définir un indice de proximité entre deux vecteurs de descriptions complexes et b) les objets symboliques sont présentés en lien avec la théorie des ensembles flous. Dans ce cadre, nous proposons une méthode divisive de classification hiérarchique. Elle est définie pour tous types de variables (quantitatives, qualitatives), possédant éventuellement une description complexe. A chaque étape on optimise un critère mathématique qui est une extension du critère d'inertie intra-classe au cas de données complexes. L'aspect nomothétique de cette méthode permet de réduire fortement l'aspect combinatoire caractérisant les méthodes divisives. De plus, les classes de la hiérarchie sont munies d'une description simple (une conjonction de propriétés portant sur les variables de l'analyse) facilement interprétable par l'utilisateur. Ces descriptions donnent aussi des règles d'affectation d'un nouvel individu aux classes ainsi construites.