Les reseaux collocationnels dans la construction et l'exploitation d'un corpus dans le cadre d'une communaute de discours scientifique
Institution:
NantesDisciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Les corpus sont de plus en plus utilises dans la lexicographie, en particulier pour les dictionnaires a utilisation pedagogique. Bien que de nombreuses etudes basees sur des corpus specialises aient ete entreprises, les resultats sont oberes par la difficulte a definir clairement la representativite de tels corpus. Les communautes de discours c. D. ) definies par swales offrent un modele interessant puisqu'elles sont definies par rapport a leurs membres. Au lieu de faire appel a la notion abstraite de representativite", le contenu peut etre justifie comme etant "representatif" d'une communaute definissable. Pour exploiter un corpus, il est necessaire de le baliser en sgml afin de retenir les elements importants de l'aspect physique des textes publies et de souligner les elements a analyser. Notre corpus a ete balise suivant les recommandations de la tei. L'interpretation du balisage est proposee comme norme minimale pour le balisage de ce genre de corpus. L'etude exploite surtout la notion distributionnelle de collocation comme facteur de coherence textuelle. Les differentes theories actuelles de collocation sont illustrees avant de developper une definition plus textuelle des collocations et d'introduire les reseaux de collocations. La mesure statistique d'information mutuelle est employee pour extraire les reseaux d'un corpus sous-divise par theme. Dans un corpus balise selon la tei la balise <rs> sert de pivot pour l'utilisation de collocations dans le developpement de criteres de selection internes. L'hypothese est qu'en regroupant certains elements lexicaux par leur balisage les themes majeurs d'un corpus peuvent etre isoles par la collocation et la theorie des indices de polysemie de clear. Des reseaux de collocation sont extraits des sous-corpus afin d'illustrer les themes majeurs de la communaute de discours et les disciplines concernees.