Couplage documents et bases de données : étude et réalisation
Institution:
Lyon, INSADisciplines:
Directors:
Abstract EN:
Until recently, databases proved to be a robust and mature technology. They have served well the needs of applications for which they were designed. Today, in the age of XML and multimedia documents, a variety of document-based applications begin to be identified. Documents are in wide use because of being more flexible in capturing much greater variety of data types, including images, sound, video clips and specially paragraphs of free text. They are designed for human consumption and production. When documents are the norm in human activities, sophisticated techniques developed for databases no longer apply. Coupling documents and databases reveals an increasing awareness in the computer science community. How can we develop a generic approach that ensures flexible and well-adapted information capture based on XML documents and at the same time efficient information retrieval and manipulation based on databases? This dissertation presents the Coupling Approach to integrate XML documents of text in natural language and Object-Relational databases. The Coupling Approach starts with the database schema to produce XML DTDs of arbitrary complexity to cover user and application needs. At this point, users or third party applications generate XML documents containing relevant data and conforming to these DTDs. In the case of paragraphs in natural language, the Coupling Approach carries out information extraction and manipulation of relevant data whereas in the case of elementary the Coupling Approach applies only data manipulation. In both cases, the manipulation restructures the data in documents into a valid format easy to store in the database. An interesting characteristic of the Coupling Approach is the integration of Information Extraction System and the design of expressive extraction patterns. However, behind the scene we have provided algorithms and necessary formalisms to reduce human interventions and conceive an approach independent from any application domain. To test our ideas, we have developed a modular architecture and we have implemented a prototype. Finally, we have validated the prototype on small corpus of medical records.
Abstract FR:
Jusqu'à récemment, les bases de données se sont avérées être une technologie robuste et mûre. En effet, elles n'ont cessé et ne cessent de répondre aux besoins des applications pour lesquelles elles ont été conçues. Aujourd'hui, à l'ère de XML et des documents multimédias, un grand nombre d'applications basées sur les documents commence à être identifié. Les documents sont utilisés largement du fait de leur flexibilité et de leur capacité à supporter des données de types multiples et variés tels que les images, le son, les clips vidéo et particulièrement les paragraphes de texte libre. Les documents décrivent d'une façon naturelle les activités de consommation et de production humaine. Néanmoins, dès que les documents représentent la norme dans les tâches et les activités humaines, les techniques sophistiqués développées pour les bases de données ne s'appliquent plus. C'est pour cela que le fait de coupler documents et bases de données présente un intérêt croissant dans la communauté informatique. La question qui se pose alors est : comment pouvons-nous développer une approche générique qui allie flexibilité de saisie d'informations basée sur les documents XML avec l'efficacité de manipulation de données issues de bases de données ? Dans ce mémoire, nous présentons une Approche de Couplage (Coupling Approach), permettant l'intégration de documents XML issus de texte en langage naturel, avec des bases de données Relationnelles Orientées Objets. A partir d'un schéma d'une base de données, l'Approche de Couplage produit d'abord des DTD de complexité arbitraire pour répondre aux besoins des utilisateurs et des applications. Ensuite, les utilisateurs produisent des documents XML qui contiennent les informations pertinentes conformément aux DTDs. Dans le cas de paragraphes en langage naturel balisé, l'Approche de Couplage exploite les techniques d'extraction d'informations et de manipulation des données significatives, tandis que dans le cas des informations élémentaires l'Approche de Couplage applique seulement la manipulation des données. Dans les deux cas, la manipulation restructure les données dans les documents dans un format facile à entreposer dans la base de données. L'originalité de l'Approche de Couplage est l'intégration d'informations et la simplicité de la conception des règles d'extraction. De plus, nous avons fourni des algorithmes et des formalismes indispensables pour réduire les interventions humaines et concevoir une approche générique indépendante de tout domaine d'applications. Afin de vérifier la faisabilité et l'intérêt des techniques et des idées que nous proposons, nous avons développé une architecture modulaire et nous avons implémenté un prototype que nous avons validé par son application sur un corpus de dossiers médicaux.