Acquisition sémantique en langue générale : la paradocumentation textuelle pour l'indexation des documents audiovisuels sur la politique
Institution:
Paris 3Disciplines:
Directors:
Abstract EN:
In order to respond to the documentation needs of the INA (the National Broadcasting Institute), which indexes French television program archives, we propose to use "paradocumentation" in computer-aided treatments. The so-called "paradocumentation" is comprised of all of the textual or photographic documents produced in the making of the audiovisual document. As long as the "peritexts" exist in an electronic format, they can be structured in the form of corpora of which the content is closely linked to the audiovisual program and can therefore enrich its description. The scientific goal is to exploit the results obtained from the treatments in a general language with an approach historically developed for sublanguages (methods, tools). There is a pragmatic reason for this choice (no other tools are available) as well as a theoretical one : general language resists automation as showed by Zellig Harris. We have conducted several experiments on the semantic acquisition of different peritexts taken from political programs : indexing files, transcriptions from soundtracks, press articles. . .
Abstract FR:
A l'INA (Institut National de l'Audiovisuel), lieu des archives télévisées françaises, nous proposons des pistes de traitements automatisés de la " paradocumentation ". La paradocumentation rassemble les documents (textuels, photographiques) qui jalonne le cycle de vie du document audiovisuel. Dans la mesure où les " péritextes " existent au format électronique, il est possible de les constituer en corpus dont le contenu est étroitement lié au document audiovisuel et qui peuvent donc enrichir la description documentaire. L'enjeu scientifique réside dans l'exploitation des résultats de traitements appliqués à une langue générale avec une approche développée pour les langages techniques (méthodes, outils). Ce choix s'explique de manière pragmatique (absence d'autres outils) mais aussi théorique : la langue générale est un défi pour les traitements automatisés. Nous avons mené plusieurs expériences d'acquisition sémantique, sur différents " péritextes " pointant sur des émissions de politique : notices documentaires, transcriptions de bande-son, articles de presse. . .