thesis

Segmentation d'articles mathématiques en vue d'une navigation et d'une meilleure exploitation du document mathématique

Defense date:

Jan. 1, 2005

Edit

Institution:

Lyon, INSA

Disciplines:

Abstract EN:

As in every scientific field, the editorial production of researchers in Mathematics is written through relatively rigid and standardized forms. Mathematical documents follow classical norms, some of which are common to various disciplines (presence of parts such as summary, conclusion, bibliography…), and others specific to mathematics (lemmas, theorems, demonstration…). Furthermore, this discipline uses a symbolical language made up of signs, which are used through the document in different ways: either within the text itself, or in the formulas. Through this thesis, our work intends to contribute to the analysis and the understanding of the mathematical document body. This work operates more precisely at the logical structure level of documents in order to improve the processing phase. To segment mathematical documents in autonomous units (only the texts of documents are concerned by segmentation, not their images), we propose two methods that aim at easing the search of information and browsing, through direct access to the most relevant parts of the document. We hence constitute a corpus of mathematical documents that we analyse through different perspectives. To segment these articles in autonomous units, we carefully study the specific language of mathematics. Finally, we propose different paths for browsing through this corpus so as to ease information retrieval.

Abstract FR:

Comme dans tous les domaines scientifiques, la production rédactionnelle des chercheurs en mathématiques s'exprime dans des formes relativement contraintes et normalisées. Les documents mathématiques ont des formes d'exposition classiques, dont certaines sont communes à différentes disciplines (présence de parties telles que résumé, conclusion, bibliographie. . . ) et d'autres plus spécifiques aux mathématiques (lemmes, théorèmes, démonstrations,. . . ). Cette discipline utilise de plus un langage symbolique composé de signes qui dans les documents, sont utilisés de différentes manières : soit dans le texte lui-même, soit dans les formules. Dans cette thèse, nous élaborons un travail qui permet de contribuer à l'analyse et la compréhension des contenus des documents mathématiques. Ce travail intervient notamment au niveau de la structure logique des documents pour améliorer leurs exploitations. Nous proposons deux méthodes pour segmenter ces documents mathématiques (la segmentation s'effectue sur des documents textuels et non sur leurs images) en unités autonomes en vue de la recherche d'information et de la navigation pour permettre un accès aux parties les plus pertinentes. Pour mener à bien ce travail, nous constituons un corpus d'articles mathématiques que nous analysons suivant des points de vue différents. Nous examinons plus particulièrement le langage spécifique des mathématiques pour segmenter ces articles en unités autonomes. Enfin, nous proposons différents parcours de navigation dans ce corpus afin de faciliter la recherche d'information.