thesis

Catégorisation semi-supervisée dans les grandes bases d'images

Defense date:

Jan. 1, 2006

Edit

Institution:

Paris 11

Disciplines:

Authors:

Abstract EN:

It is generally accepted that conventional approaches to clustering have the drawback of not bringing domain knowledge to bear on the clustering process. In the context of image indexing and retrieval, we were interested in this thesis in generating image database summaries (overviews) by clustering. In many real life applications, fully automatic categorization of visual collections based on low-level image features does not fit well user (domain expert) expectations. A semi-supervised algorithm allows the user to express these expectations using some pairwise constraints, so as to reduce the gap between the feature space and the similarity space. The algorithm has to learn from few constraints. We introduced an original active learning method for minimizing the interaction with the user. It consists in asking the user to provide constraints between those images that best help the algorithm in defining the clusters. This image selection procedure is based on membership degree information given by our fuzzy clustering method. We also investigated and developed a method improving the scalability of our clustering algorithms. As a consequence, they now behave well in large dimensional image feature spaces and generate good overviews of real world image databases, with a time complexity that is nearly-linear in the number of images.

Abstract FR:

Les algorithmes de classification automatique ne sont pas conçus pour tenir compte des connaissances spécifiques que l'on peut avoir concernant les données. Dans le contexte de l'indexation et de la recherche d'images par le contenu, nous nous sommes intéressés dans cette thèse à la génération de résumés visuels de bases d'images au moyen d'un algorithme de regroupement (clustering). Cependant, nous avons constaté que dans bon nombre d'applications réelles, une catégorisation automatique des descripteurs de bas niveau des images ne satisfait pas entièrement les attentes de l'utilisateur (qui est un expert du domaine dans notre problématique). En revanche, une catégorisation semi-supervisée devrait permettre à l'utilisateur de guider le processus de regroupement moyennant de simples associations entre les images, de façon à réduire le décalage sémantique entre la catégorisation cible et celle issue d'une classification automatique. De plus, l'algorithme semi-supervisé doit se satisfaire d'un nombre limité de contraintes d'association entre images afin d'assurer' une intervention minimale de l'utilisateur expert (accroître l'ergonomie de l'approche globale). Nous avons dès lors introduit une nouvelle méthode d'apprentissage actif qui, à chaque itération de l'algorithme, identifie les contraintes potentielles les plus utiles à la classification et s'en sert ensuite pour interroger l'utilisateur. La sélection des images pour la définition des contraintes est basée sur les degrés d'appartenance fournis par notre méthode floue. Nous avons aussi étudié les problèmes de passage à l'échelle de certains algorithmes d'apprentissage basés sur le partitionnement des données et nous avons proposé une méthode permettant de s'affranchir de certains problèmes engendrés par la manipulation de grands espaces multidimensionnels. Les évaluations ont montré que les algorithmes proposés obtiennent de très bons résumés visuels sur des bases réelles.