thesis

Extraction d'information à partir de documents Web multilingues : une approche d'analyses structurelles

Defense date:

Jan. 1, 2006

Edit

Institution:

Caen

Disciplines:

Directors:

Abstract EN:

Multilingual Web Document (MWD) processing has become one of the major interests of research and development in the area of information retrieval. Therefore, we observed that the structure of the multilingual resources has not been enough explored in most of the research works in this area. We consider that links structure embed crucial information for both hyperdocument retrieving and mining process. Discarding the multilingual information structures could affect the processing performance and generate various problems : i)°Redundancy : if the site proposes simultaneously translations in several languages, ii)° Noisy information: by using labels to shift from language to another, iii)° Loosing information: if the process does not consider the structure specificity of each language. In this context, we wonder to remind that each Web site is considered as a hyper-document that contains a set of Web documents (pages, screen, messages) which can be explored through the links paths. Therefore, detecting the dominant languages, in a Web Site, could be done in a different ways. The framework of this experimental research thesis is structures analysis for information extraction from a great number of heterogeneous structured or semi-structured electronic documents (essentially the Web document). It covers the following aspects : Enumerating the dominants languages, Setting-up (virtual) frontiers between those languages, enabling further processing, Recognizing the dominants languages. To experiment and validate our aim we have developed Hyperling which is a formal, language independent, system dealing with Web Documents. Hyperling proposes a Multilingual Structural Analysis approach to cluster and retrieve Web Document. Hyperling’s fundamental hypothesis is based on the notion of relation-density : The Monolingual relation density: i. E. Links between Web Documents written in the same language, The Interlingual relation density: i. E. Links between Web Documents written in different languages. In a Web document representation we can encounter a high level of monolingual relation density and low level of inter-lingual relation density. Therefore, we can consider a MWD to be represented by a set of clusters. Regarding the density level of each cluster, it may represent a dominant language. This hypothesis has been the core of Hyperling and has been experimented and approved on a real multilingual web documents (IMF, UNDP, UNFPA, UNICEF, WTO).

Abstract FR:

Les ressources d'information multilingues sur le Web sont devenues de plus en plus des objets d'études importantes pour différents domaines intervenant au traitement de l'information. Néanmoins, nous constatons que la structure des ressources multilingues est très peu explorée par rapport à l'abondance des méthodes de traitement automatique des langues naturelles. L'ignorance des structures multilingues pourrait être à l’origine de divers problèmes de performance tels que : i) la redondance, si le site propose simultanément des traductions en plusieurs langues, ii) les parcours bruités lors d’un passage d’une langue à une autre via les vignettes (génération de graphes, conceptuellement, non signifiant), iii) la perte de l’information par la négligence de la spécificité structurelle (même implicite) de chaque langue. Le cadre de cette thèse s’insère dans le cadre des travaux de recherche sur l'extraction semi-automatique (interactive) d'information à partir d’un grand nombre de documents électroniques (essentiellement des documents web) hétérogènes structurées ou semi-structurées. Extraire une information dans ce contexte est défini comme un processus de repérage, formalisation et de traitements des structures de données pouvant comporter d’information pertinente. Dans notre approche nous observons que la structure d’un document Web incorpore des informations qui sont indispensables pour toute démarche d’optimisation de la recherche d’information ou des fouilles de sites web. Pour expérimenter et valider notre propos nous avons développé une méthode d’analyses structurelles concrétisée par le réalisation du système Hyperling. L’objectif direct de ce dernier étant de déterminer, sans aucune connaissance linguistique préalable et explicite, les langues dominantes sur un site Web multilingues. Dans cette thèse, nous abordons l’aspect multilinguisme dans un contexte de catégorisation des sites Web multilingues. Nous apportons quelques connaissances « expérimentales » - issues des travaux de développement et d’expérimentation - portant sur la représentation de documents multilingues, la modélisation des données en une structure homogène, la qualité de la recherche d’information dans un contexte multilingues et enfin sur les notions de frontière et de centre de gravité pour départager des langues dominantes sans puiser dans des connaissances linguistiques.