thesis

Syntaxe et structure d'un texte : les connecteurs du français dans un système de génération automatique

Defense date:

Jan. 1, 1995

Edit

Institution:

Paris 7

Disciplines:

Directors:

Abstract EN:

This study aims defining the content and structure of the linguistic databases of a nlg system. More precisely, it concentrates on the lexical encoding of cue-prases - in which we include the full-stop, complex verb- phrases, relativization and participles - and the evaluation of the potential ambiguities of a complex discourse structure. As demonstrated by danlos (1985), the relevant item for lexical choice is not the connective by itself, but a set of constraints attached to if (henceforth, discourse structure, or ds). To define the relevant dss for a given semantic relation, a thorough analysis of the linguistic properties of cue-phrases is required, and more specifically, the determination of differential syntactic properties that reflect semantic variation. Once defined the dss families, i. E. All the possible dss built around a given cue-phrase - they are organised in a hierarchy which can serve as an interface between the conceptual level and the lexicon. But the ambiguities of complex discourse structures are thus only partly controlled. We therefore study the possible scope ambiguities in p1 c1 p2 c2 p3 discourses, and show the various factors which interfere with the choice of cue-phrases to create ambiguity (subordinate clause moving, ellipsis, pronominalisation, causal inference). The last part of this work proposes a tag-inspired tree representation for elementary dss and discusses the linguistic relevance of possible representations for complex dss as tree-structures.

Abstract FR:

Cette these propose une etude linguistique des connecteurs du francais dans le but de construire les bases de donnees linguistiques fournies a un systeme de generation automatique de textes. Partant de l'hypothese que les connecteurs peuvent etre consideres comme des "predicats textuels", nous avons cherche a decrire leurs cadres de souscategorisation. Ces contextes sont appeles "structures de discours" (sd), et sont les unites elementaires sur lesquelles opere le choix lexical dans le systeme de generation. Elles sont organisees dans une hierarchie dominee par des relations conceptuelles et representant les relations d'inclusion, partielle, totale ou nulle, entre les differentes classes de sd construites aotour de chaque connecteur. Cette representation de l'interface entre le conceptuel et le linguistique ne suffit cependant pas a garantir la non-ambiguite des discours produits, et une etude complementaire de la polysemie (de alors que, par exemple) et de la neutralite (de et) permet de faire apparaitre certaines proprietes syntaxiques discriminantes entre divers effets de sens d'un meme connecteur. Un dernier type d'ambiguite est etudie : celui qui apparait dans des discours p11 c1 p12 c2 p2, ou les phenomenes de portee multiplient les lectures possibles. Cette multiplicite depend de facteurs aussi divers que les relations exprimees par les connecteurs, les evenements relies, l'ordre dans lequel ils sont exprimes, et les constructions syntaxiques choisies. Toutes les donnees linguistiques mises au jour precedemment sont representees dans un formalisme arborescent inspire des grammaires d'arbres adjoints, et donnent lieu a la construction des arbres elementaires correspondant aux connecteurs et a une representation arborescente de la structure du texte a produire.