Inférence grammaticale probabiliste pour l'apprentissage de la syntaxe en traitement de la langue naturelle
Institution:
Saint-EtienneDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
L'objectif de la thèse consiste à utiliser les langages formels pour modéliser la langue naturelle. Les techniques utilisées en reconnaissance de la langue naturelle estiment la probabilité d'un mot étant donnée son contexte. En raison de l'information structurelle qu'elle contiennent, les grammaires formelles semblent bien adaptées à cette tâche. Nous étudions les automates déterministes et probabilistes (PDFA). Une théorie formelle de ces objets est proposée. Nous montrons par ailleurs que les automates probabilistes peuvent être appris dans un cadre d'apprentissage dérivé de l'identification à la limite proposé par Gold. Nous proposons ensuite un nouvel algorithme (MDI) basé sur un calcul efficace de la divergence de Kullback-Leibler entre automates. L'algorithme MDI cherche à inférer un PDFA compromis entre la divergence par rapport aux données d'apprentissage et une petite taille. Une étude expérimentale montre que l'algorithme MDI améliore significativement le pouvoir de prédiction de l'algorithme de référence du domaine : ALERGIA. Ces expérimentations montrent par ailleurs l'importance du lissage lors de la modélisation de la langue naturelle