Approche de traitement structuel pour la recherche d'information : une approche de fouille de documents juridiques semi-structurés
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
L'usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d'alimentation "semi-automatique" assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans la base de données qui exigent une intervention humaine réduite surtout au niveau de l'indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d'indexation et de gestion. Constat 2 : devant une telle masse de données "très souvent textuelles", il devient indispensable d'adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir-faire. Ceci nous mène vers des problématiques de recherche d'information et d'extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Nous proposons une méthode de représentation de documents semi-structurés permettant d'analyser précisément les connaissances et le savoir-faire incorporés dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles.
Abstract FR:
The use of legal documentary databases has become more and more open and frequent, leading to a fairly important "semi-automatic" feeding mode. Observation 1: we intend to make a "semi-automatic" process to deposit directly documents in databases, including indexing and classification with a limited human intervention. In fact, it is the documents templates (the logical and physical structures modeled by the markup language) that take an important place in the process of indexing and management. Observation 2 : in the presence of such a mass data (very often textual), it becomes essential to adopt an approach to manage the electronic legal documents as carriers of knowledge and expertise. This shifts the problem to domains of information retrieval and knowledge discovery. These two observations lead us to formulate an hypothesis for automatic classification that considers the knowledge and expertise incorporated in the structures of the legal electronic documents. That pilots us to an approach of clustering to discover decision-making clusters. We propose a representation method for semi-structured document who allows to analysis very precisely the knowledge and expertise incorporated in both contents and structures of document. The experiments upon a real legal corpus show that incorporation of content and structure produces a remarkable improvement of the quality of decision-making clusters.