Méthodes descriptives en analyse de données symboliques
Institution:
Paris 9Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
L'analyse des données symboliques se propose d'étendre la problématique, les méthodes et les algorithmes de l'analyse des données au traitement de connaissances souvent complexes, représentées par les objets symboliques. Dans ce cadre, nous étendons des outils de description couramment utilisés en analyse des données, tels que des histogrammes et des indices de proximité, à la description d'une base de connaissances d'objets symboliques. A partir de l'étude du potentiel de description d'un objet symbolique, nous avons étendu la notion d'histogramme aux variables choisies pour décrire une base de connaissances d'objets symboliques. Nous avons constaté l'importance de certains types de dépendance logique entre les variables sur les résultats obtenus. Nous avons également étudié l'interprétation de ces histogrammes. Pour mesurer la proximité entre les objets symboliques nous avons pu, sous l'angle du potentiel de description, adapter à ces objets les indices de proximité conçus pour les variables binaires, ainsi que l'indice de Minkowski. Cette approche nous a permis d'utiliser la même mesure de proximité indépendamment du type de variable. Nous avons étudié quelques propriétés des indices proposés et nous avons pu établir l'équivalence entre quelques-uns de ces indices. Ces indices tiennent compte des dépendances logiques entre variables. Enfin, nous avons adapté l'algorithme général de classification ascendante hiérarchique pour obtenir une classification d'objets symboliques. Par rapport aux méthodes usuelles de l'analyse des données, nous obtenons une description immédiate de chaque palier par un objet symbolique, nous avons un indice d'agrégation qui est le même aussi bien pour les singletons que pour les paliers, et nous employons un indicage basé sur le potentiel de description de l'objet symbolique décrivant le palier. Nous fournissons aussi une aide à l'interprétation de l'arbre de classification basée sur la re-description des fils de chaque nœud de l'arbre par les variables qui les discriminent.