thesis

Intégration sémantique de données guidée par une ontologie

Defense date:

Jan. 1, 2007

Edit

Institution:

Paris 11

Disciplines:

Authors:

Abstract EN:

This thesis deals with semantic data integration guided by an ontology. Data integration aims at combining autonomous and heterogonous data sources. To this end, all the data should be represented according to the same schema and according to a unified semantics. This thesis is divided into two parts. In the first one, we present an automatic and flexible method for data reconciliation with an ontology. We consider the case where data are represented in tables. The reconciliation result is represented in the SML format which we have defined. Its originality stems from the fact that it allows representing all the established mappings but also information that is imperfectly identified. In the second part, we present two methods of reference reconciliation. This problem consists in deciding whether different data descriptions refer to the same real world entity. We have considered this problem when data is described according to the same schema. The first method, called L2R, is logical: it translates the schema and the data semantics into a set of logical rules which allow inferring correct decisions both of reconciliation and no reconciliation. The second method, called N2R, is numerical. It translates the schema semantics into an informed similarity measure used by a numerical computation of the similarity of the reference pairs. This computation is expressed in a non linear equation system solved by using an iterative method. Our experiments on real datasets demonstrated the robustness and the feasibility of our approaches. The solutions that we bring to the two problems of reconciliation are completely automatic and guided only by an ontology.

Abstract FR:

Dans cette thèse, nous traitons du problème d'intégration sémantique de données. L’objectif est de pouvoir combiner des sources de données autonomes et hétérogènes. Pour y parvenir, toutes les données doivent être représentées selon un même schéma et selon une sémantique unifiée. Cette thèse est articulée en deux parties relativement indépendantes. La première présente une méthode automatique et flexible de réconciliation de données avec une ontologie dans le cas où les données sont représentées dans des tableaux. Pour représenter le résultat de la réconciliation, nous avons défini le format SML dont l’originalité est de permettre de représenter tous les appariements trouvés mais également les informations imparfaitement identifiées. La seconde partie présente deux méthodes de réconciliation de références décrites relativement à un même schéma. Il s’agit de décider si des descriptions différentes se réfèrent à la même entité du monde réel. La première méthode, nommée L2R, est logique. La sémantique des données et du schéma y est traduite par un ensemble de règles de (non) réconciliation permettant d’inférer des décisions de (non) réconciliation certaines. La seconde, nommée N2R, est numérique. Dans cette méthode, la sémantique du schéma est traduite par une mesure de similarité informée utilisée pour calculer la similarité des paires de références. Ce calcul est exprimé dans un système d’équations non linéaire résolu par une méthode itérative. Ces méthodes obtiennent des résultats satisfaisants sur des données réelles, ce qui montre la faisabilité d’approches complètement automatiques et guidées uniquement par une ontologie pour ces deux problèmes de réconciliation.