Fouille de données spatio-temporelles, résumés de données et apprentissage automatique : application au système de recommandations touristique, données médicales et détection des transactions atypiques dans le domaine financier
Institution:
AntillesDisciplines:
Directors:
Abstract EN:
Data mining is one of the components of Customer Relationship Management (CRM), widely deployed in companies. It is the process of extracting interesting, non-trivial, implicit, unknown and potentially useful knowledge from data. This process relies on algorithms from various scientific disciplines (statistics, artificial intelligence, databases) to build models from data stored in data warehouses.The objective of determining models, established from clusters in the service of improving knowledge of the customer in the generic sense, the prediction of his behavior and the optimization of the proposed offer. Since these models are intended to be used by users who are specialists in the field of data, researchers in health economics and management sciences or professionals in the sector studied, this research work emphasizes the usability of data mining environments.This thesis is concerned with spatio-temporal data mining. It particularly highlights an original approach to data processing with the aim of enriching practical knowledge in the field.This work includes an application component in four chapters which corresponds to four systems developed:- A model for setting up a recommendation system based on the collection of GPS positioning data,- A data summary tool optimized for the speed of responses to requests for the medicalization of information systems program (PMSI),- A machine learning tool for the fight against money laundering in the financial system,- A model for the prediction of activity in VSEs which are weather-dependent (tourism, transport, leisure, commerce, etc.). The problem here is to identify classification algorithms and neural networks for data analysis aimed at adapting the company's strategy to economic changes.
Abstract FR:
La fouille de données est une des composantes Gestion de la Relation Client (CRM) largement déployée dans les entreprises. Ce processus s’appuie sur des algorithmes issus de disciplines scientifiques diverses (statistiques, intelligence artificielle, base de données) pour construire des modèles à partir des données.L’objectif de déterminer des modèles, établis à partir de clusters au service de l’amélioration de la connaissance du client au sens générique, de la prédiction de ses comportements et de l’optimisation de l’offre proposée. Ces modèles ayant vocation à être utilisés par des utilisateurs spécialistes du domaine de données, chercheurs en économie de la santé et sciences de gestion ou professionnels du secteur étudié, ces travaux de recherche mettent l’accent sur l’utilisabilité des environnements de fouille de données. Cette thèse s’intéresse à la fouille de données spatio-temporelle. Elle met particulièrement en évidence une approche originale pour le traitement des données avec un but d’enrichissement des connaissances pratiques du domaine. Ce travail comporte un volet applicatif en quatre chapitres qui correspond à quatre systèmes développés:- Un modèle pour la mise place d’un système de recommandation basé sur la collecte de données de positionnement GPS,- Un outil de résumé de données optimisé pour la rapidité des réponses aux requêtes au programme de médicalisation des systèmes d’information (PMSI),- Un outil d’apprentissage automatique pour la lutte contre le blanchiment dans le système financier,- Un modèle pour la prédiction d’activité dans les TPE qui sont météo-dépendantes (tourisme, transport, loisirs, commerce, etc.). Le problème est ici d’identifier les algorithmes de classification et de réseaux de neurones en vue d’une analyse de données dont le but est d’adapter la stratégie de l’entreprise aux mouvements conjoncturels.