Fouille de données provenant des réseaux sociaux pour la détection et la recherche
Institution:
Aix-MarseilleDisciplines:
Directors:
Abstract EN:
Social networks have gained a significant interest for society during our decade. These platforms allow users to produce, share and exchange various content. Twitter is one of the most popular social networks that allow users to publish messages, called tweets. These tweets may contain offensive texts, such as harassment or bullying messages, or information related to abnormal topics. Many research studies have shown how such social content can have an impact on users and cause psychological harm. Developing a system for detecting such type of messages is necessary to protect the user and predict tragic events. The work presented in this thesis is brought into the context of data mining from Twitter to identify and detect such messages. We propose a suspicious tweets detection system based on probabilistic topic models and fuzzy logic. In order to identify harassment tweets, we introduce a classification model that exploits a set of features and uses supervised learning algorithms. People also use social networks to search for relevant posts that satisfy their information need where this need is usually formulated using a textual query. Twitter’s messages are short and access to information is sometimes difficult because of the variety of published content and huge amount of data generated. The second part of this work deals with the context of social information retrieval and aims to improve tweets retrieval quality. We propose a query expansion approach to overcome the shortness of user queries and tweets by extracting frequent closed patterns and using word embeddings
Abstract FR:
L'avènement des réseaux sociaux a suscité un intérêt considérable pour la société au cours de notre décennie. Ces plateformes permettent aux utilisateurs de produire, partager et échanger des contenus divers. Twitter est l'un des réseaux sociaux les plus populaires permettant à ses utilisateurs de publier des messages, appelés tweets. Ces derniers peuvent contenir des textes offensifs, tels que les messages de harcèlement, ou encore des informations liées à des sujets controversés. De nombreux travaux de recherche ont montré comment ces contenus sociaux peuvent avoir une influence sur les utilisateurs. Un système de détection de ce type de messages est nécessaire afin de protéger l'utilisateur et prédire l'apparition des évènements. Dans ce travail de thèse, nous proposons un système de détection de tweets suspects basé sur les modèles thématiques probabilistes et la logique floue. Afin d'identifier les tweets de harcèlement, nous introduisons un modèle de classification exploitant un ensemble de caractéristiques et utilisant des algorithmes d'apprentissage supervisé. Les utilisateurs effectuent également des recherches sur ces plateformes pour trouver des informations qui répondent à un besoin exprimé par une requête. Cependant, les tweets sont courts et l'accès à l'information est parfois difficile. Une partie de nos travaux se situe plus particulièrement dans le contexte de la recherche d'information sociale et vise à améliorer la recherche de tweets. Nous proposons une méthode d'expansion de requêtes, afin de pallier le problème de concision des messages ainsi que des requêtes, basée sur l’extraction des motifs fermés fréquents et utilisant des plongements lexicaux