Semantique, reference et acquisition automatique de connaissances a partir de textes
Institution:
Université Marc Bloch (Strasbourg) (1971-2008)Disciplines:
Directors:
Abstract EN:
Automatic knowledge acquisition from text ideally consists in generating a structured representation of a corpus, which a human or a machine should be able to query. Designing and realising such a system raises a number of difficulties, both theoretical and practical, which we intend to look into. The first part of this dissertation studies the two main approaches to the problem : automatic terminology retrieval, and model driven knowledge acquisition. The second part studies the mostly implicit theoretical foundations of natural language processing i. E. Logical positivism and componential lexical semantics. We offer an alternative inspired from the work of charles sanders peirce, ludwig wittgenstein and georges kleiber, i. E. A semantics based on the notions of sign, usage and reference. The third part is devoted to a detailed semantic analysis of a medical corpus. Reference is studied through two notions, denomination and denotation. Denominations allow for arbitrary, preconstructed and opaque reference; denotations, for discursive, constructed and transparent reference. In the fourth part, we manually construct a detailed representation of a fragment of the corpus. The aim is to study the relevance of the theoretical analysis and to set precise objectives to the system. The fifth part focuses on implementation. It is devoted to the construction of a terminological knowledge base capable of representing a domain corpus, and sufficiently structured for use by applications in terminology or domain modelling for example. In a nutshell, this dissertation examines automatic knowledge acquisition from text from a theoretical and technical point of view, with the technology setting the guidelines for the theoretical discussions.
Abstract FR:
L'acquisition automatique de connaissances a partir de textes consiste, idealement, a generer une representation structuree d'un corpus fourni en entree a un systeme informatique. Cette representation doit pouvoir etre interrogee par un humain ou par une machine. La conception et la realisation d'un tel systeme soulevent des difficultes considerables, tant sur le plan theorique que technique. Ce travail a pour but d'examiner ces deux aspects du probleme. Une premiere partie est consacree a une analyse de l'etat de l'art. Elle consiste en une vue structuree des deux grandes familles d'approches du probleme de l'acquisition de connaissances : l'extraction automatique de terminologie, et l'acquisition de connaissances par projection de modeles conceptuels. Une seconde partie etudie les fondement souvent implicites du traitement automatique des langues, c'est-a-dire le positivisme logique et la semantique lexicale componentielle. En guise d'alternative a la componentialite, nous proposons une semantique du signe, de l'usage et de la reference inspiree de charles sanders peirce, de ludwig wittgenstein et de georges kleiber. Dans la troisieme partie, il est procede a l'analyse semantique referentielle d'un corpus de textes medicaux. Nous y definissons deux types de reference : la denomination et la denotation. La premiere consiste en une reference arbitraire, preconstruite, et opaque; la seconde, en une reference discursive, construite, et transparente. Dans la quatrieme partie, nous construisons manuellement une representation detaillee d'un fragment du corpus afin d'examiner la pertinence pratique de l'analyse theorique, et de fixer des objectifs precis au systeme. Enfin, la cinquieme partie est consacree a la construction aussi automatisee que possible d'une base de connaissances terminologiques capable de representer un corpus de textes techniques ou scientifiques, et qui soit suffisamment structuree pour permettre des usages applicatifs par exemple en terminologie ou en modelisation de domaines. En somme, ce travail examine le probleme de l'acquisition automatique de connaissances en liant intimement la theorie et la pratique, la finalite technologique donnant une ligne directrice aux discussions theoriques.