Dictionnaire électronique des mots français à trait d'union : problèmes de lexicographie informatique
Hyphenated words are oneof the main difficulties of french spelling ; moreover, they constitute a choice sample for a linguistic study of compound words. For this reason, a systematic inventory has been made in the form of an electronic dictionary. Each entry is coded formally and semantically in the following manner : morphological description (type of compound grammatical category, flexion) ; spelling (noting variation) ; semantic information (features, field of refefence, "classes of objects" and registers). All in all, more than 17000 units are thus described. This lay-out lends itself to aprecise analysis of the parameters present, concerning more particularly morphology, spelling and typology (study of the forms ofcompounds : over 300 types are represented). The last part of the study includes a glossary of 1900 phrases with a hyphenated form (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) and a presentation of the main productive models involving neologisms and free creation. Beyond the particularities linked with the hyphen, the ways of represenging lexical information in an electronic dictionary are investigated : splitting up the entries makes it possible to deal not only with the morphological description of the units, but also with the semantic characterization (in particular the fields of reference and the "classes of objects"), indispensable for the effective use of thedictionary by the computer.
Les mots a trait d'union representent une des principales difficultes de l'orthographe francaise, en meme temps qu'ils constituent un echantillon de choix pour l'etude linguistique de la composition : d'ou l'interet d'un recensement systematique, presente sous la forme d'un dictionnaire electronique. Chaque entree donne lieu a un codage formel et semantique : description morphotogique (type de composition, categorie grammaticale, flexion) ; particularites orthographiques (notation des variantes) ; informations semantiques (traits, domaines, classes d'objets et registres). Au total, plus de 17000 unites se trouvent ainsi decrites. Le format adopte permet une analyse precise des parametres en presence. La reflexion porte en particulier sur la morphologie, l'orthographe et la typologie (etude des formes de composition : plus de trois cents types repertories). Le dictionnaire est complete par un lecique de 1900 locutions impliquant un trait d'union (a la va-vite, boire du petit-lait, centre hospitalo-universitaire) et par une presentation des principaux modeles productifs regissant les neologismes et les creations libres. Au-dela des particularites liees au trait d'union, l'accent est mis, du point de vue methodologique, sur les modalites de representation de l'information lexicale dans un dictionnaire electronique : le degroupement des entrees permet de prendre en charge, a cote de la description morphologique des unites, leur caracterisation semantique (notamment les domaines et les "classes d'objets"). Ce type d'information s'avere indispensable pour l'utilisation effective du dictionnaire dans des applications informatiques.