Apprentissage automatique et catégorisation de textes multilingues
Institution:
Lyon 2Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Notre travail s'intéresse à l'application de méthodes issues de l'apprentissage automatique à la catégorisation de textes multilingues. Il comporte deux parties. Une première partie donne une présentation générale de la catégorisation de textes : Définitions, objectifs généraux et domaines d'application ; Adaptation des algorithmes d'apprentissage aux spécificités des textes ; La méthode de sélection de termes multivariée ; Le codage en n-grammes et les mots ; Les méthodes d'apprentissage et la mesure de leurs performances ; les texts réalisés pour comparer les algorithmes d'apprentissage sur les textes. La deuxième partie s'intéresse à l'apprentissage de textes multilingues en comparant deux chaînes possibles : Chaîne 1 : reconnaissance de la langue, puis utilisation de règles de classement construites pour chaque langue ; il faut alors avoir construit un modèle adapté à chacune des langues. Chaîne 2 : utilisation de la traduction automatique dans le processus de catégorisation ; cette solution permet d'utiliser un seul ensemble de règles de classement. Ici, il y a deux options : 1. Construire un modèle unique sur l'ensemble d'apprentissage d'une langue donnée ; ensuite, pour classer un nouveau texte, (I) reconnaissance de sa langue, (II) traduction de ce texte vers la langue d'apprentissage, (III) application du modèle de prédiction sur le texte traduit ; ici la phase de traduction n'intervient que dans la phase de classement. 2. Faire intervenir la traduction automatique dès la phase d'apprentissage : à partir d'un ensemble étiqueté de textes en différentes langues, traduction automatique dès la phase d'apprentissage : à partir d'un enemble étiqueté de textes en différentes langues, traduction automatique de tous ces textes vers une langue cible et apprentissage sur cet ensemble de textes traduits ; ensuite, pour classer un nouveau texte, la procédure est la même. Nous testons nos algorithmes sur des corpus multilingues.