thesis

Semi-supervised multi-view learning : an application to image annotation and multi-lingual document classification

Defense date:

Jan. 1, 2013

Edit

Institution:

Paris 6

Disciplines:

Directors:

Abstract EN:

Dans cette thèse , nous présentons deux méthodes d'apprentissage Multi-vues. Dans une première approche , nous décrivons une stratégie de multi-vues auto-apprentissage qui apprends différents classifieurs de vote sur les différents points de vue. Les distributions de marge sur les données d'apprentissage vierge, obtenus avec chaque classifieur spécifique à la vue sont ensuite utilisées pour estimer une borne supérieure de leur erreur de Bayes transductive. Minimiser cette borne supérieure nous donne une marge de seuil automatique qui est utilisé pour attribuer des pseudo-labels à des exemples non étiquetés. Étiquettes pour les classes finales sont ensuite affectés à ces exemples, par un vote à l'ensemble de la précédente pseudo -labels. Nouveaux classifieurs vue spécifiques sont ensuite apprises à l'aide des données d'apprentissage pseudo- étiquetés et les données étiquetées l'original. Nous considérons applications à l'image-texte et la classification de documents multilingues. Dans la deuxième approche , nous proposons un modèle du ranking bipartite semi-supervisé multivues qui nous permet de tirer parti de l'information contenue dans ensembles non-étiquetées d'images pour améliorer les performances de prédiction , en utilisant plusieurs descriptions ou des vues d'images. Pour chaque catégorie de sujet , notre approche apprend d'abord autant rankers spécifique à la vue qu'il ya de vues disponibles en utilisant les données étiquetées seulement. Ces rankers sont ensuite améliorées itérativement en ajoutant paires d'exemples pseudo- étiquetés sur lesquels tous les rankers spécifiques à la vue sont d'accord sur le classement des exemples au sein de ces couples.

Abstract FR:

In this thesis, we introduce two multiview learning approaches. In a first approach, we describe a self-training multiview strategy which trains different voting classifiers on different views. The margin distributions over the unlabeled training data, obtained with each view-specific classifier are then used to estimate an upper-bound on their transductive Bayes error. Minimizing this upper-bound provides an automatic margin-threshold which is used to assign pseudo-labels to unlabeled examples. Final class labels are then assigned to these examples, by taking a vote on the pool of the previous pseudo-labels. New view-specific classifiers are then trained using the original labeled and the pseudo-labeled training data. We consider applications to image-text and to multilingual document classification. In second approach, we propose a multiview semi-supervised bipartite ranking model which allows us to leverage the information contained in unlabeled sets of images to improve the prediction performance, using multiple descriptions, or views of images. For each topic class, our approach first learns as many view-specific rankers as there are available views using the labeled data only. These rankers are then improved iteratively by adding pseudo-labeled pairs of examples on which all view-specific rankers agree over the ranking of examples within these pairs.