Problèmes de suffixation et structuration du lexique : étude des mots en -eur, -age, -ment, -ion
Institution:
Paris 7Disciplines:
Directors:
Abstract EN:
The these est consacree au decoupage des mots suffixes en francais, tant du point de vue d'une theorie morphologique de la segmentation des mots que de celui de son application a l'elaboration de dictionnaires electronqiues. Une analyse des unites lexicales morphologiquement justifiee doit permettre de repondre au double probleme pose : comment faut-il segmenter les mots derives du type programmation, la forme du suffixe est-elle -ion ou -ation, quel est le statut de l'element -at- ? le decoupage formel est-il en coincidence avec une decomposition semantique, comment decrire non seulement le "sens" des suffixes mais aussi celui de la base et du segment d'allongement ? on traite un corpus de 9975 mots en -age, -ion, -ment, -aison et -eur. Il rassemble des mots habituellement decrits comme exprimant les valeurs "action" et "agent" (evidemment reliees) et comporte les suffixes -eur et -ion, pour lesquel la question de la segmentation est loin d'etre tranchee. Par la confrontation de mots tels que programmeur, programmation, on identifie deux types de <<bases>> : une base simple (programm-) et une base complexe (programmat-), le suffixe etant identifie comme la partie fixe des mots. Le depouillement morphologique du corpus a permis de mettre a jour certaines regularites dans le processus de selection qui s'opere entre base et suffixe. L'apparition des differentes realisations du segment d'allongement de la base (at, quelquefois it ou t) n'est pas aleato on peut meme rendre compte de la majorite des cas ou ce segment n'apparait pas en surface (decision, fusion. . . ) par une serie de regles de type phonologique ou morpholexical. L'analyse en termes de base simple complexe est operatoire. Mais elle isole un segment d'allongement (-at-) dont le statut reste problematique, sur le plan semantique notamment. Cette question est traitee par l'examen de deux sous-ensembles degages du corpus : l'etude de la polyvalence de -eur et du statut de l'element "joncteur" -at- dans les paires du type programmeur programmateur conduit a supposer que le
Abstract FR:
This thesis is devoted to the segmentation of suffixed words in french, from the point of view of a morphological word segmentation theory and its application to the elaboration of electronic dictionaries. A morphologically-justified analysis of the lexical units has to answer the following problems : how to segment derived words such as programmation ? is the suffix -ion or -ation ? what is the statute of the element -at- ? does the formal segmentation coincide with a semantic breakdown ? how to describe not only the meaning of suffixes, but also those of the <<basis>> a,d the lengthening segment ? we work with a corpus of 9975 words with -age, -ion, -ment, -aison and -eur. It collects words usually described as expressing clearly linked <<action>> and <<agent>> values and includes the suffixes -eur and -ion, for which the segmentation question is far from solved. By confronting words such as programmeur, programmation, two types of <<bases>> are identified : one <<simple basis>> (programm-) and a <<complex>> one (programmat-), the suffix being analyzed as the fixed part of the words. The morphological accounting of the corpus reveals some regularities in the selection process between <<basis>> and suffixes the distribution of the different realizations of the <<basis>> lengthening segment (-at, sometimes -it- or -t-) is not random. It is possible to account for most of cases where this segment does not appear on the surface (decision, fusion. By some phonological or morpholexical rules. The analysis in terms of <<simple complex>> basis is efficient and shows some regularities. But it isolates a lengthenin segment (-at-) whose statute is problematic, in particular on the semantic level. This question is treated by examining two subsets extracted from the corpus : the polyvalence of -eur and the statute of the <<linking element>> (-at-) in pai