thesis

Modélisation de texte numérique multilingue : vers un modèle général et extensible fondé sur le concept de textème

Defense date:

Jan. 1, 2008

Edit

Institution:

Télécom Bretagne

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis is concerned with the modelling of electronic text. This modelling involves the definition both of the atomic text elements and of the way these elements join together to form textual structures. In response to the growing need for internationalisation of information systems, historical models of text, based on the concept of code tables, have been extended by semi-formalised knowledge related to the writing system so that, by now, such knowledge is essential to text processing of even the simplest kind. Thus were born the Unicode character encoding and the so-called 'intelligent' font formats. Realising that this phenomenon marks only the beginning of a convergence towards models based on the principles of knowledge representation, we here propose an alternative approach to text modelling that defines a text element not as a table entry but through the properties that describe the element. The formal framework that we establish, initially developed for the purposes of knowledge representation, provides us with a method by which precise formal definitions can be given to much-used but ill-defined notions such as character, glyph, or usage. The same framework allows us to define a generalised text element that we call a texteme, the atomic element on which a whole family of new text models is based. The study of these models then leads us to the understanding

Abstract FR:

Cette thèse s'intéresse aux modèles de texte numériques, plus précisément à la définition même des éléments textuels atomiques et à la manière dont le texte se compose à partir de ceux-ci. En réponse aux besoins d'internationalisation des systèmes informatiques, les modèles de texte historiques, basés sur l'idée de la table de codage, ont été enrichis par des connaissances semi-formelles liées aux systèmes d'écriture, connaissances qui sont désormais essentielles pour l'exécution de la moindre opération textuelle. Ainsi sont nés le codage de caractères Unicode et les formats de fonte dits " intelligents ". Par la réalisation que cet enrichissement ne représente que le début d'une convergence vers des modèles fondés sur des principes de la représentation des connaissances, nous proposons une approche alternative à la modélisation de texte, selon laquelle l'élément textuel se définit non comme une entrée d'une table mais par les propriétés qui le décrivent. Le formalisme que nous établissons - initialement développé dans le cadre de la représentation des connaissances - nous fournit une méthodologie pour définir, pour la première fois de manière précise, des notions telles que caractère, glyphe ou usage, mais aussi de concevoir l'élément textuel généralisé que nous appelons textème et qui devient l'atome d'une famille de nouveaux modèles de texte. L'étude de ces modèles nous amène ensuite à comprendre et à formaliser, du moins en partie, des phénomènes tels que la contextualité ou la dépendance entre éléments textuels, phénomènes qui sont également présents, même si parfois de manière cachée, dans les modèles actuels. Dans la thèse nous analysons également les enjeux liés à l'implémentation des modèles proposés.