thesis

Traitement à grand échelle des données symboliques

Defense date:

Jan. 1, 2011

Edit

Institution:

Paris 9

Disciplines:

Authors:

Abstract EN:

Symbolic Data Analysis (SDA) proposes a generalization of classical Data Analysis (AD) methods using complex data (intervals, sets, histograms). These methods define high level and complex operators for symbolic data manipulation. Furthermore, recent implementations of the SDA model are not able to process large data volumes. According to the classical design of massive data computation, we define a new data model to represent and process symbolic data using algebraic operators that are minimal and closed by composition. We give some query samples to emphasize the expressiveness of our model. We implement this algebraic model, called LS-SODAS, and we define the language XSDQL to express queries for symbolic data manipulation. Two cases of study are provided in order to show the potential of XSDQL langage expressiveness and the data processing scalability

Abstract FR:

Les méthodes de l’Analyse de Données (AD) classiques ont été généralisées dans l’Analyse de Données Symboliques (ADS) en prenant en charge les données complexes (intervalles, ensembles, histogrammes, etc. ). Ces méthodes expriment des operations de haut niveau et sont très complexes. Le modèle de l’ADS, qui est implanté dans le logiciel SODAS2, ne supporte pas le traitement de volumes importants de données symboliques. Conformément à la démarche classique en modélisation et traitement de masses de données, nous proposons un nouveau modèle de données pour représenter les données symboliques et les manipuler avec des opérateurs algébriques minimaux et clos par composition. Nous donnons aussi des exemples de requêtes pour montrer l’expressivité de ce modèle. Nous avons implanté ce modèle algébrique, nommé LS-SODAS, et définit un langage, nommé XSDQL, pour formuler des requêtes afin de manipuler les données symboliques. Nous réalisons deux études de cas qui illustrent d’une part l’expressivité de ce langage et la capacité à traiter des volumes de données importants