Occurrence du semblable et du différent : réflexion sur la modélisation de la sémantique à partir de la cognition et de la culture et de la fouille de texte
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
This thesis proposes a reflexion on the processes of iteration of similar and different episodes on both human and artificial cognition. This process has been identified as central by many researchers from Psychology and Artificial Intelligence such as Piaget, Brunner or Minsky. It is studied under the framework of text comprehension and text production, on the one hand, and, under the framework of large-scale text categorization by artificial systems on the other hand. The influence of the cultural and linguistic rapprochement are studied at La Réunion Island and in Kabylia in the aim of identifying the cognitive processes involved in knowledge activation during text comprehension and text production tasks. The modeling of semantic knowledge by semantic spaces models such as LSA and Random Indexing is studied in the frame of large-scale text categorization. The major contribution of our thesis is the proposition of a cognitive model of text categorization, which is based on the representation of different level of abstraction for textual categories. This model, named Alida, is inspired by classical cognitive models of categorization. Alida is finalist of the text-mining evaluation campaign Deft'09. Also, Alida has been laureate of the National Contest of Business Projects of Innovative Technologies by the French Ministry for Research and Science.
Abstract FR:
Cette thèse propose une réflexion sur le processus d'itération d'épisodes similaires et d'épisodes différents sur la cognition, que celle-ci soit humaine ou artificielle. Ce processus, identifié comme central par de grands penseurs issus tant de la psychologie et que de l'intelligence artificielle tels que Piaget, Brunner ou Minsky, fait l'objet d'une étude à travers d'une part, la compréhension et la production de texte par des apprenants en situation plurilingue et pluriculurelle, et, d'autre part, la catégorisation de texte par des systèmes de catégorisations artificielles. L'influence du rapprochement culturel et l'utilisation de la langue maternelle sont étudiées à La Réunion et en Kabylie afin d'identifier les processus cognitifs impliqués dans l'activation des connaissances dans la compréhension et la production de textes. La modélisation des connaissances sémantiques via des modèles d'espaces sémantiques LSA et Random Indexing est étudiée dans le cadre de la catégorisation de textes à grande échelle. La contribution majeure de la thèse consiste en la proposition d'un modèle cognitif de la catégorisation de textes qui représente différents niveaux d'abstraction des catégories textuelles. Ce modèle, appelé Alida, s'inspire des modèles cognitifs classiques de la catégorisation. Alida est finaliste du Deft'09 et lauréat du Concours national de la création d'entreprise de techonologie innovante du Ministère de la recherche en 2010.