Définitions et caractérisations de modèles à base d'analogies pour l'apprentissage automatique des langues naturelles
Institution:
Paris, ENSTDisciplines:
Directors:
Abstract EN:
In this work, we study analogy-based models for Machine Learning of Natural Language. The analogical approach offers an alternative to both deductive methods (in which specific knowledge is infered from general knowledge) and inductive methods (in which general knowledge is infered from specific knowledge). In this setting, the analysis of a new entity is performed by comparison with available data; inference is directly achieved from specific knowledge to specific knowledge. In this approach, abstraction, which is involved in both deductive and inductive models is no longer required. Moreover, this approach correctly account for the paradigmatic organization of linguistic data, which easily relates one linguistic entity with others through specific schemes; the linguistic knowledge is thus implicitly represented within the corpus. In particular, this paradigmatic organization suggests to consider analogical proportions. A learning model is presented, which relies on the exploitation of analogical proportions. We introduce the notion of analogical extension, which allows for the expression of its learning bias. We also propose a formal algebraic framework which gives a meaning to the notion of analogical proportion between structured objects.
Abstract FR:
Cette thèse a pour objet l'étude de modèles à base d'analogies dans un cadre d'Apprentissage Automatique pour le Traitement Automatique des Langues Naturelles. L'approche analogique apporte une alternative à la fois aux méthodes déductives (inférence de connaissances particulières à partir de connaissances générales) et aux méthodes inductives (inférence de connaissances générales à partir de connaissances particulières). Selon ce mode de raisonnement, l'analyse d'une nouvelle entité s'effectue par comparaison avec les données disponibles ; l'inférence s'effectue directement du particulier au particulier. Dans cette approche, l'abstraction que constitue la connaissance générale impliquée à la fois dans les approches déductives et inductives n'apparaît plus comme une composante nécessaire du modèle. Par ailleurs, cette approche s'accorde bien avec l'organisation paradigmatique des données linguistiques, qui permet de mettre aisément une entité linguistique en relation avec d'autres selon des schémas spécifiques ; la connaissance linguistique reste alors implicitement représentée dans le corpus accumulé et les relations systématiques qu'entretiennent les entités le composant. Cette organisation paradigmatique invite en particulier à considérer des proportions analogiques. Un modèle d'apprentissage est présenté, qui repose sur l'exploitation de proportions analogiques. Nous introduisons la notion d'extension analogique, qui permet d'exprimer la méthode et d'identifier clairement son biais d'apprentissage. Nous proposons également un cadre algébrique formel permettant de donner un sens à la notion de proportion analogique entre objets structurés.