thesis

Structures du syntagme nominal. Etude statistique sur un corpus de prose narrative francaise de la premiere moitie du xxe siecle

Defense date:

Jan. 1, 1987

Edit

Disciplines:

Authors:

Directors:

Abstract EN:

The purpose of the work was to discover regularities in the statistical distribution of french noun phrase structures. Furthermore, i sought to point out some landmarks within the field of relevance of syntactic statistics. The noun phrase has been defined most extensively, as any word or phrase occurring in a verb subject or object function, or after a preposition. The corpus consists of samples of the following three novels : 1. Vin de champagne, by pierre hamp, 2. Parts 1& 2 of gaspard des montagnes, by henri pourrat, and 3. La jument verte, by marcel ayme. Noun phrases were manually delimited and coded, with special coding of nouns and proper nouns. A syntactic analyzer, using a grammatical lexicon, collects information and stores it in mass memory, thus constituting the corpus for statistical analysis; another output file receives the np texts, with identifiers permitting the switch from one file to the other. The statistical analysis goes through all aspects of the corpus : np length and length of np parts, types of nps (pronouns, nouns, proper nouns, etc. ), the categories of gender, number, and person, the noun determiners, attributives, prepositions before and within nps, embedded sentences functioning as nps or members of nps. Comparisons between the samples show the effect of "style" factors, whose semantic source is often easy to find; in any case, the logical consistency of the quantitative results obtained is without contradiction. The same can be observed about syntax questions that are independent of the sample, such as correlations between determiners and attributives, or between np types, or as de used as a determiner, as well as about other taxonomic questions. The statistical results are often very dependent upon the particular reference set to which the calculus has been applied. Paradoxically, nevertheless, similar tests made using different reference sets usually lead to complementary conclusions, and rarely seem contradictory.

Abstract FR:

Le but du travail est de decouvrir des regularites statistiques dans la repartition des structures du syntagme nominal francais, et, par-dela, de poser quelques jalons en vue de cerner les zones de pertinence des faits statistiques en syntaxe. Le syntagme nominal a ete defini de la maniere la plus extensive, comme tout mot ou tout syntagme apparaissant en fonction de sujet ou de complement d'un verbe ou apres une preposition. Le corpus se compose d'echantillons representatifs de 1 vin de champagne de p. Hamp, 2e les deux premiers tomes de gaspard des montagnes d'h. Pourrat, et 3e la jument verte de m. Ayme. Les syntagmes nominaux ont ete delimites a la main. Un analyseur syntaxique rassemble l'information grammaticale livree par le syntagme ; ses deux fichiers de sortie, relies par un systeme d'identifieurs, conservent cette information et les textes des syntagmes. L'analyse statistique passe en revue successivement l'aspect directement quantitatif (longueur des syntagmes et de leurs parties constitutives), les differentes classes de syntagmes, les categories du genre, du nombre et de la personne grammaticale, les determinants du nom, les epithetes, le role des prepositions en tete des syntagmes et en leur sein, le role des "subordonnees". La comparaison des echantillons revele des facteurs "stylistiques" dans les structures syntaxiques; leur origine semantique est souvent aisee a trouver, et en tout cas la coherence logique des indications quantitatives est totale. Il en est de meme a propos des points de syntaxe independants du texte analyse, comme les liens entre les determinants et les epithetes, ou entre les differentes classes de syntagmes nominaux, le role de determinant joue par de ainsi que d'autres points de taxinomie. Les resultats statistiques sont souvent fortement dependants de l'ensemble de reference a l'interieur duquel les totalisations sont faites. Mais, paradoxalement, ceux qu'on obtient a partir d'ensembles de reference distincts sont generalement complementaires, et risquent rarement de conduire a des conclusions contradictoires.