Knowledge Tree

thesis

Extraction d'information et modélisation de connaissances à partir de notes de communication orale

Defense date:

Jan. 1, 2005

Edit

Institution:

Nantes

Disciplines:

Computer sciences

Authors:

Fabrice Even

Directors:

Chantal Enguehard

Noureddine Mouaddib

Abstract EN:

This work focuses on information extraction from non-standard texts. Non-standard texts are textual documents that do not respect usual formatting rules (syntactical or lexical rules). These texts have often a rich informational content. However, usual natural language or knowledge extraction techniques do not give satisfactory results on them, because the lack of interest from Natural Language researches for this type of texts. This reality leads our interest for the problem of extracting information from this type of texts. We present MeGET, an information extraction method based on a knowledge model constructed in function of the information to be extracted. The model (extraction ontology) is obtained by unification of a needs ontology describing information to extract with a terms ontology modelling corpus terms related to the information to extract. This model is formalized into a grammar with a formalism that can be easily used in a automatic process. Information extraction is proceeding by the SyGET system that puts tag from each ontology elements instances found in the texts. The information is then extracted by using the tags.

Abstract FR:

Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc. ) et possèdent souvent un contenu informatif très important (textes généralement issus d'entreprises). Néanmoins les systèmes traditionnels d'Extraction d'Information s'avèrent quasi-inopérants sur de tels textes. L'absence d'intérêt pour ces textes et la non prise en compte de leurs spécificités dans les recherches en TAL est à l'origine de l'inefficacité des systèmes actuels d'Extraction d'Information. Ces constats nous ont incités à nous pencher sur de tels documents du point de vue de l'extraction d'informations. Nous proposons la méthode MeGET (Méthode Générique d'Extraction d'informations à partir de Textes), une solution fondée sur une modélisation les connaissances contenues dans les textes et intéressantes du point de vue des informations à extraire. Le modèle (ontologie d'extraction) est construit en unifiant une ontologie des besoins décrivant les informations à extraire avec une ontologie des termes conceptualisant les termes du corpus en relation avec les informations recherchées. Le modèle est représenté par des règles de grammaire au formalisme simple et facilement exploitable par un système automatique. L'extraction des informations à partir du texte est réalisé via le système d'extraction SyGET (Système Générique d'Extraction d'informations à partir de Textes) qui procède à un étiquetage marquant dans les textes les instances des éléments de l'ontologie. Ces balises permettent de repérer les informations recherchées.