Fusion statistique de fichiers de données
Institution:
Paris, CNAMDisciplines:
Directors:
Abstract EN:
It is the objective of statistical data fusion to put together data emanating from distinct sources. When data are incomplete in files, fusion methodologies enable to transfer information, i. E. Variables of interest which are available in the so called donor files into a recipient file. This technique is based on the presence of common variables between the different files. We introduce new models for qualitative data which involve logistic and PLS regression. The latter is of special interest when dealing with highly correlated data set. These methods have been successfully tested on real data set and validated according to several criteria assessing the quality of statistical analysis. Finally, a decision making process has been operationally validated by using the lift indicator.
Abstract FR:
La fusion statistique de fichiers a pour but de rapprocher des données issues des sources différentes. Lorsque des données sont manquantes, les techniques de fusion permettent de transférer de l’information, c’est à dire les variables d’intérêt, contenues dans un certain nombre de fichiers (fichiers donneurs) à un autre fichier(fichier receveur). Cette méthode repose sur l’existence de variables communes, aux différents fichiers. Nous proposons de nouvelles approches de modélisation des variables d’intérêt qualitatives, qui font appel à la régression logistique et la régression PLS. Celle-ci est particulièrement intéressante dans le cas de données fortement corrélées. Ces méthodes ont été appliquées à des données réelles et validées selon plusieurs critères qui permettent de s’assurer de la qualité de l’analyse. Enfin, un système d’aide à la décision performant, fondé sur l’indicateur lift, a été validé opérationnellement.