Sur les traces de Bugzilla : vers une analyse automatisée des interactions pour l'étude des pratiques collectives distribuées
Institution:
Paris 11Disciplines:
Directors:
Abstract EN:
The aim of this thesis is to establish some of the theoretical, methodological and practical foundations of a “computer-supported sociology” of distributed collective practices (DCP). The development of new information and communication technologies lead to the emergence of organization forms which main characteristics are their large-scale distribution (spatial and temporal, but also socio-cognitive) and the central use of mediated communication channels, which leave persistent “traces” of collective activity. Our work focuses on exploiting these traces, especially traces of natural language interaction, as a mean of studying the underlying activity of the collective, in order to better study “what is going on” in the collective. The large amounts of data available lead us to attempt to elaborate methods relying on automated analyses and capable of handling the linguistic content of these traces. Our approach consisted in 1) designing a model capable of representing distributed collective interaction and the relations between such interactions and the collective's activity, 2) evaluating the usefulness of such model for the study of DCP through an experimental phase, and 3) studying the feasibility of automating the data processing needed by the model through use of machine learning and language processing technologies. Our study focused on data collected in the Bugzilla open-source collective.
Abstract FR:
L'objectif de cette thèse est d'établir certaines bases théoriques, méthodologiques et pratiques d'une " sociologie assistée par ordinateur " des pratiques collectives distribuées (PCD). Le développement des nouvelles technologies de l'information et de la communication a mené à l'émergence de formes d'organisation dont les principales caractéristiques sont la forte distribution (spatiale et temporelle, mais aussi socio-cognitive) et l'utilisation prépondérante de moyens de communication médiés, qui laissent des " traces " persistantes de l'activité collective. Nos travaux portent sur l'exploitation de ces traces, et en particulier des traces d'interactions en langue naturelle, en tant que moyen d'analyse de l'activité sous-jacente du collectif, afin de mieux caractériser " ce qui se passe " dans le collectif. Les très grandes quantités de données disponibles nous poussent à chercher à développer des méthodes d'analyse automatisées capables de traiter les contenus langagiers de telles traces. Notre approche a consisté à 1) concevoir un modèle capable de représenter les interactions d'un collectif distribué et leurs relations avec l'activité du collectif, 2) évaluer l'utilité d'un tel modèle pour l'étude des PCD au travers d'une phase expérimentale et 3) étudier la faisabilité de l'automatisation des traitements requis par le modèle à l'aide de technologies d'apprentissage machine et de traitement du langage. Notre étude a plus particulièrement porté sur des données recueillies dans le collectif open-source Bugzilla.