Catégorisation, usage et extraction de classes
Institution:
Université Marc Bloch (Strasbourg) (1971-2008)Disciplines:
Directors:
Abstract EN:
In Natural Language Processing area, several researches were carried out in order to gather semantically close terms. The linguistic underlying problem is the categorization. We demonstrate what the distributive method and the justification inspired by the semiotic can bring to this topic. We chose to approach this issue from the viewpoint of the use. The use is, at least partially, in the texts which are the only objectives data a computer can receive as input. We suppose, according to Harris, that the study of words and their operations can be used as foundation for researches on the semantic of these words. The corpus analysis we present shows that not to suppose existing classes allows the emergence of original, fuzzy and unstable classes, which are related to the use. Thus we believe we defined a first theoretical basis on which coming researches on the constitution of digital lexical resources can be based.
Abstract FR:
Dans le domaine du Traitement Automatique du Langage, plusieurs études ont été menées afin de regrouper des termes sémantiquement proches. Le problème linguistique sous-jacent est celui de la catégorisation. Nous montrons ce que la méthode distributionnelle et la justification inspirée par la sémiotique peuvent apporter à ce sujet. Nous avons choisi de traiter ce problème du point de vue de l'usage, car l'usage est dans les textes, qui sont les seules données objectives qu'un ordinateur puisse recevoir en entrée. Nous reprenons l'idée harrissienne qui suppose que l'examen de mots et de leurs fonctionnements peut servir de base pour des travaux sur la sémantique de ces mots. L'analyse de corpus que nous proposons montre que le fait de ne pas présupposer l'existence des classes permet de faire émerger des classes originales liées à l'usage, et qui constituent une base sur laquelle pourront s'appuyer de prochains travaux de constructions de ressources lexicales numériques.