Publishing set-valued dataset : strengthening the Disassociation approach to improve both privacy preservation and utility
Institution:
Bourgogne Franche-ComtéDisciplines:
Abstract EN:
This thesis addresses the problematic of anonymization for set-valued datasets, also known as transactional data. The work is based on an anonymization technique specific for set-valued data defined by Terrovitis as “Disassociation”. This technique works under the assumption that data values should not be altered, contrary to differential privacy, or suppressed, unlike k-anonymity. The duality character of disassociation is investigated. First, the position of disassociation facing data utility and knowledge extraction is evaluated and improved. Second, the truthfulness of disassociation towards protection of individuals’ private life under its own privacy model, is studied and adjusted. On a first observation on disassociation, the utility of the information in a disassociated dataset is investigated. By reason of probabilistic analysis, it is proven that various associations in a disassociated dataset suffer from information loss. Therefore, to increase the utility value of a predefined set of associations, specified as “utility rules” by the user, the clustering process of disassociation is optimized, using ant-based clustering for the utility rules in question. Disassociation suffers from a privacy breach for homogeneity attacks, defined as the “cover problem” in 2016. To address this problem, a solution is proposed by using partial suppression and noise addition. The correctness of the solution is investigated and proven, where every cover problem is resolved and no new cover problem is generated by the proposed solution. Finally, as disassociation isn’t a common data form, it is hard for machine Learning algorithms and data analyst to extract information and exploit the data in its current form. Re-expressing the data of the anonymized set-value datasets by disassociation in its original form, is a theoretical solution that can bring back data analysis techniques closer to anonymized data. A probabilistic re-association algorithm is thus proposed, sensitive to the probabilistic distribution of the associations in a cluster. This solution relies on an elaborated definition of neighbor datasets to prove its sensitivity and respect to the privacy constraints. The fidelity of the solution to data utility preservation is evaluated using the most exploited data analysis techniques over set-value data: mining frequent itemsets and association rules. In conclusion, this work digs deep in the field of anonymization for set-valued datasets. Starting from a defined anonymization technique known as disassociation, a privacy breach, the “cover problem”, is addressed for a solution and data utility is investigated within the disassociated dataset and for future uses. Results are impressive in terms of data utility and privacy preservation.
Abstract FR:
La protection de la vie privée des individus est un principe indispensable d’un point de vue éthique et légal. La publication, la fouille ou l’extraction des connaissances issues des données, doivent être contrôlées par des techniques d’anonymisation qui protègent les identités des individus participants aux données et le lien avec leurs informations personnelles qui peuvent être des données sensibles. Les techniques d’anonymisation servent à modifier les données originales en créant une ambiguïté nécessaire pour protéger la vie privée. Plusieurs défis se présentent en anonymisant les données notamment celui d’optimiser le niveau d’anonymisation par rapport aux pertes d’informations résultantes. Cette dualité de caractère est investiguée et renforcée dans ce travail portant sur la technique de d’anonymisation dite de « Dissociation ».Cette thèse adresse la problématique d’anonymisation des données transactionnelles (set-valued data). Le travail porte sur une technique d’anonymisation proposée par Terrovitis et nommée « Dissociation », qui tient pour acquis que le processus ne change pas les valeurs des données ni ne supprime les données, contrairement à la confidentialité différentielle et le k-anonymat. Premièrement, l’utilité des informations dans un ensemble dissocié est investiguée. L’analyse probabiliste prouve que diverses associations dans un ensemble dissocié souffrent de disparaître. Afin de lutter contre cette perte tout en suivant le processus de dissociation, un ensemble d’associations qui doit être préservées, nommé « règles d’utilités », est considéré pour optimiser le regroupement des enregistrements et guidé par une technique basée sur le regroupement naturel des fourmis. Deuxièmement, la dissociation est étudiée dans le cadre des attaques de désanonymisation. Le « Cover problem » est un type d’attaque d’homogénéité, affectant les ensembles dissociés et défini dans la littérature grise. Une suppression partielle et un ajout du bruit sont utilisés pour modifier les associations engendrant un cover problem, résolvant celui-ci. La correction de la solution est prouvée, afin de s’assurer que tous les cover problem sont supprimés et aucun nouveau problème n’est généré.Enfin, le format final des données dissociées n’est pas un format commun pour une exploitation aisée dans des analyses de données et des algorithmes de machine learning (apprentissage). Il faut alors réexprimer les données anonymisées par Dissociation dans le format orignal des données transactionnelles. Une solution se basant sur la réassociation probabiliste dans chaque groupe d’enregistrements dissociés est proposée, sensible à la distribution probabiliste résultant de la Dissociation. Cette solution se repose sur une définition élaborée de voisinage de données, afin de justifier sa sensibilité et son respect des contraintes de protection de la vie privée. La fidélité de la solution, en termes d’utilité des données, est évaluée à travers les techniques d’analyse de données transactionnelles les plus exploitées : extraction/exploitation des associations et des règles d’association les plus fréquentes. Les résultats sont impressionnants en termes d’utilité des données et de la préservation de la vie privée.