thesis

Motifs arborescents pour données semi-structureés XML : compilation et applications

Defense date:

Jan. 1, 2006

Edit

Disciplines:

Directors:

Abstract EN:

Pas de résumé disponible.

Abstract FR:

La quantité de données disponibles au format XML, en tant que fichiers ou à travers les services web, pose le problème de sa manipulation. Exalead, société éditrice de logiciels de recherche, a choisi de développer pour ses propres besoins un langage de programmation "orienté-XML", le langage ExaScript. Ce langage unifie le modèle objet des langages de programmation impératifs et le modèle XML. En considérant les documents XML comme des objets, des manipulations de base viennent naturellement : construction d'un objet, accès et modification d'un champ. . . Toutefois, le paradigme de programmation impérative ne possède pas de primitive de manipulation avancée pour les objets complexes comme les arborescences XML. L'appariement de motif nous a paru le mécanisme le plus adapté pour exprimer des contraintes sur les objets XML et en sélectionner des sous-parties. La capacité de manipulation repose alors sur la simplicité de ces motifs et sur leur expressivité. Les contraintes imposées par ces motifs se doivent de capturer l'"essence" du XML en prenant en considération ses différents aspects : à la fois document textuel, arborescence étiquetée, chaîne de caractères. Cette thèse propose une algèbre de motifs arborescents adaptée au traitement des données semi-structurées XML. Cette algèbre a pour particularité d'unifier plusieurs aspects : lexical, grammatical, structurel et booléen. Nous établissons un schéma de compilation hiérarchique fondé sur des structures compilées simples : les évaluateurs booléens, les automates de caractères et une variante des automates classiques, les automates de classes d'identifiants. Nous présentons différentes applications réalisées à partir de notre algèbre de motifs et leurs implications sur les systèmes de recherche. Plusieurs applications de traitement du langage naturel, comme l'appariement de motifs linguistiques ou les outils de veille, peuvent être construites à partir d'un sous-ensemble de notre algèbre. Enfin, nous présentons l'intégration de cette algèbre dans le langage ExaScript, ainsi que son utilisation à des fins de détourage de pages interne