Analyse et conversion de documents : du pixel au langage HTML
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
This work is part of the thematic "Document Analysis" in the Laboratory Reconnaissance de Forme et Vision(RFV). To achieve an analysis system ables to, interpret documents and to restore its structure, the Methodologies we have chosen lean on several approaches and particularly on the syntactic and structural approach of the Pattern Recognition. The aim in this work is to convert some paper documents into HTML documents because these documents are more used on the Internet. The application domain of such systems could be general; however, we concentrate us on a particular type of documents with a rich typography: the summaries. In this context, we have realized a system that exploits on one hand the information about content of the document such as its physical and logical structures, and on the other hand on two level grammars. It is composed with two grammars: a meta-grammar and a hyper-grammar. In our system, the role of the meta-grammar is to describe the physical and logical structures of the document. The hyper-grammar is constituted with a set of calculus rules and describes the treatments to do in order to convert the document in HTML. The summary analysis is done in two steps: analysis and identification of the document, and then translation into HTML. During of the first step, the system constructs a learning base by using the grammatical inference. This base contains several patterns of synopses to identify. An unknown document, submitted to the system is identified by matching with the patterns of the base by using all the attributes obtained in the analysis step. The layout of HTML document construction is based on the grammatical analysis of the hyper-grammar. The last is obtained by translation of the logical labels and some typographic parameters into HTML commands. The result of the grammatical analysis of the hyper-grammar produces the structured HTML document corresponding to the studied document. This last will be visualized by software of navigation.
Abstract FR:
Mon travail de thèse s'inscrit dans la thématique de recherche " Analyse des documents " du laboratoire Reconnaissance de Forme et Vision. Pour réaliser un système capable d'analyser des documents et d'en restituer la structure, les méthodologies s'appuient sur plusieurs approches et particulièrement sur l'approche syntaxique et structurelle de la Reconnaissance de Formes. Le but recherché dans ce travail est d'arriver à convertir des documents papier vers des documents électroniques tels que les documents HTML car ce sont les documents les plus utilisés sur l'Internet. Le domaine d'application d'un tel système peut être général, cependant, nous nous concentrons en premier sur un type particulier de documents à typographie riche : les sommaires. Dans ce contexte, nous avons mis en œuvre un système s'appuyant d'une part sur les structures physique et logique du document et d'autre part sur l'inférence de Grammaire à Deux Niveaux. Elle est composée de deux grammaires : une métagrammaire et une hypergarmmaire. Dans notre système, le rôle de la métagrammaire est de décrire les structures physique et logique du document. L'hypergrammaire décrit les traitements à effectuer pour convertir le document en html. L'analyse d'un sommaire s'effectue en deux étapes. Lors de la première étape, le système construit une base d'apprentissage en utilisant l'inférence grammaticale. Cette base contient plusieurs modèles de sommaires à identifier. Un document inconnu, soumis au système est identifié par appariement avec les modèles de la base, en utilisant toutes les informations issues de l'étage d'analyse. La mise en page du document dans le format HTML est basée sur l'analyse grammaticale de l'hypergrammaire. Cette dernière est obtenue par traduction des étiquettes logiques et des paramètres typographiques en commandes HTML. Le résultats de l'analyse de l'hypergrammaire produit le document HTML équivalent au document étudié. Il est visualisé par un logiciel de navigation.