Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel
Institution:
CaenDisciplines:
Directors:
Abstract EN:
In this dissertation we tackle the problem of multilingual epidemic surveillance. We present an approach which is differential, endogenous and non-compositionnal. Using genre properties and communication principles, we maximise the factorization in order to get a system as generic as possible. Our local analysis does not rely on classical linguistic analyzers for morphology, syntax or semantics but on the distribution of character strings at key positions thus avoiding the problem of the definition of a "word". We implemented a system using this approach, this system is called DAnIEL (Data Analysis for Information Extraction in any Language). DanIEL analyzes press articles in order to check if they contain epidemic events and classifies them according to disease-location pair in order to reduce redundancy for the end-user. DanIEL is fast, efficient in comparison to state-of-the-art systems. It needs very few additional knowledge for processing new languages.
Abstract FR:
Dans cette thèse, nous exposons les fondements d’une méthode de veille sur la presse adaptée au traitement du plus grand nombre de langues possible. Le domaine spécifique auquel nous nous intéressons est la veille épidémiologique, domaine pour lequel une couverture la plus large possible est de rigueur. Nous employons une méthode différentielle, non-compositionnelle et endogène. Notre but est de maximiser la factorisation afin de permettre le traitement de nouvelles langues avec un coût marginal minimal. Pour ce faire nous exploitons les propriétés du genre journalistique et tout particulièrement la répétition de certains éléments à des positions clés. Notre grain d’analyse est le grain caractère de façon à être indépendant des contraintes posées par le concept de mot graphique dans un grand nombre de langues. Nous aboutissons à l’implantation du système DAnIEL (Data Analysis for Information Extraction in any Language). DAnIEL opère une classification des documents selon qu’ils décrivent ou non des faits épidémiologiques et les regroupe par faits épidémio-logiques sous la forme de paires maladie-lieu. DAnIEL est rapide et efficace en comparaison des systèmes existants. Il nécessite des ressources légères pour fonctionner, facilitant ainsi le traitement de nouvelles langues.