Knowledge Tree

thesis

Utilisation de la méthode d'exploration contextuelle pour une extraction d'informations sur le web dédiées à la veille : réalisation du système informatique JavaVeille

Defense date:

Jan. 1, 2005

Edit

Institution:

Paris 4

Disciplines:

Computer sciences

Authors:

Asma Bouhafs

Directors:

Jean-Pierre Desclès

Abstract EN:

In order to propose to the user an information extraction system for an objective of assistance to competitive intelligence, we developed a method based on general concepts, such as the <CoLocation>, <Confrontation>, the <Negotiation>, etc. Linguistic knowledge is used to emphasize textual extracts introducing Competitive Intelligence information which tries to describe a relation between agents: “who met who?”, “actors of a transaction or a negotiation, or a co-operation or a conflict?” The method, developed from a corpus of newspapers articles dealing with political, social and economical subjects, firstly identifies the named entities (people, companies, places, time, etc. ) by using an approach, which relies at the same time on the structure of the named entities, the dictionaries, and the context. Secondly, the annotation of the relations and concepts evoked in the documents are based on contextual exploration. The study of the corpus has enabled us to identify ten concepts. This method can be used on various fields, and is adapted for the analysis of documents dealing with new subjects. Our study led to the development of the JavaVeille system developed with the Java language and rests on more than 750 linguistic indicators and 85 rules of contextual exploration. JavaVeille makes it possible to facilitate the extraction of the relations and the required concepts by using XML technology. It also proposes a graph representative of the extracts located during the analysis of the document. The principal user of the JavaVeille system is the expert in competitive intelligence, who can consult the informative content of a database without formulating any request.

Abstract FR:

Afin de proposer à l'utilisateur un système d'extraction d'informations pour un objectif d'aide à la veille, nous avons développé une méthode basée sur des notions générales, telles que la <CoLocation>, la <Confrontation>, la <Négociation>, la <Coopération>. Les connaissances linguistiques, associées à ces notions, permettent la mise en valeur d'extraits textuels introduisant des informations de veille qui tentent de décrire une relation entre des actants : "qui a rencontré qui ? ", "Les acteurs d'une transaction ou d'une négociation ou d'une coopération ou encore d'un conflit? ". La méthode, mise au point à partir d'un corpus de références d'articles de journaux traitant des sujets politiques, sociaux et économiques, permet dans un premier temps d'identifier les entités nommées (personnes, compagnies, organisations, localisations, dates, etc. ) en utilisant une approche qui repose à la fois sur la structure interne des entités nommées, de dictionnaires, et l'étude du contexte. Dans un deuxième temps, l'annotation des relations et des notions évoquées dans les documents s'appuie sur l'exploration contextuelle. L'étude du corpus nous a amené à identifier dix notions. Cette méthode est utilisable sur différents domaines, et adaptée pour l'analyse de documents traitant de sujets nouveaux. Notre démarche a abouti à la réalisation du système JavaVeille développé avec le langage Java, qui s'appuie sur plus de 750 indicateurs linguistiques et 85 règles d'exploration contextuelle. JavaVeille permet de faciliter l'extraction des relations et des notions recherchées en utilisant la technologie XML. Il propose aussi un graphe représentatif des extraits repérés lors de l'analyse du document. L'utilisateur du système JavaVeille est le veilleur, qui peut consulter le contenu informatif d'une base sans avoir à formuler de requête.