Inférence grammatical de langages hors-contextes
Institution:
Saint-EtienneDisciplines:
Directors:
Abstract EN:
The purpose of the grammatical inference is to study the learnability of the formal language classes. Until recently, the researches had been focused on the regular languages and this successfully. But things tend to be harder when the following class of complexity, namely context-free languages, is considered. Indeed, important theoretical barrier exist : the majority of the theoretical results are negative and show impossibility of learning the whole class. In this document, after having analyzed the inherent difficulties of this inference and having studied the solutions brought by previous works, we propose three approaches. The first one consists in modifying an algorithm of compression in order to structure the learning examples. We use then an existing algorithm able to learn the whole class from structured examples. The second approach relies on a change of representation : we use string rewriting systems to represent and handle context-free languages. We introduce hybrid and almost non-overlapping delimited string rewriting systems for which we show an identification in the limit theorem, in polynomial time, using positive and negative examples. A study of the learned class of languages and some experiments are also detailed. The third work presented here consists in a restriction to a subclass. We define the class of the substitutable languages and propose an algorithm able to identify it in the limit from positive examples only, with polynomial bounds on time and data
Abstract FR:
L’inférence grammaticale a pour but d’étudier l’apprentissage automatique des langages formels. Jusqu’à récemment, l’attention des chercheurs s’était focalisée sur les langages réguliers et ce avec succès. Mais il est plus difficile de s’attaquer à l’apprentissage des langages hors-contextes, la classe de complexité suivante. En effet, des barrières théoriques importantes existent : la plupart des résultats théoriques sont négatifs et montrent l’impossibilité d’apprendre l’intégralité de la classe. Dans cette thèse, après avoir analysé les difficultés inhérentes à cette inférence et étudié les solutions apportées par les travaux précédents, nous proposons trois approches. La première consiste à modifier un algorithme de compression afin de structurer les exemples d’apprentissage. Nous utilisons ensuite un algorithme d’apprentissage existant capable d’apprendre l’intégralité de la classe à partir d’exemples structurés. La seconde approche repose sur un changement de représentation : nous utilisons des systèmes de réécriture de mots pour représenter et manipuler des langages hors-contextes. Nous introduisons les systèmes délimités de réécriture de mots hybrides et presque non chevauchants pour lesquels nous démontrons un théorème d’identification à la limite en temps polynomial à partir d’exemples positifs et négatifs. Une étude de la classe de langages apprise ainsi que des expérimentations sont détaillées. Le troisième travail présenté ici consiste en une restriction à une sous-classe. Nous définissons la classe des langages substituables et proposons un algorithme capable de l’identifier à la limite en temps et en données polynomiaux, à partir d’exemples positifs seulement