thesis

Contributions à l'indexation et à la reconnaissance des manuscrits syriaques

Defense date:

Jan. 1, 2010

Edit

Institution:

Lyon, INSA

Disciplines:

Authors:

Directors:

Abstract EN:

This thesis is dedicated to the computed exploration of Syriac manuscripts; it is the first study of the sort. Syriac is a language that developed in the eastern region of the Mediterranean coast, about twenty centuries ago, and is still in practice, today. The history as well as the development of the language is presented in the first chapter. Syriac is written from right to left with a distinct feature which is a tilt of about 45Ê which renders classical signal and document analysis algorithms which were developed for other languages rather useless. In the second chapter, after describing and extracting the documents structure, we developed a word segmentation method that takes this tilt into consideration, this lead us to about thirty stable shapes which are vertical letters and n-grammes made out of titled letters. In the second part of this thesis, we were interested in the content of the documents for indexation purposes. We developed a word spotting method that allowed us to find all the occurrences of a word in a document using several word query approaches (word spotting, word retrieval). It is based on shape similarity evaluated after a thorough analysis of the orientations of the handwriting. The last chapter consists of a first contribution to assisted transcription of Syriac manuscripts which relies on the above described segmentation. We showed that transcription based on interaction, is in conflict with the traditional approaches of OCR recognition.

Abstract FR:

Cette thèse est dédiée à l’exploration informatique de manuscrits syriaques, c’est la première étude de ce type mise en œuvre. Le syriaque est une langue qui s’est développé à l’est du bassin méditerranéen, il y a plus de vingt siècles et qui aujourd’hui est encore pratiquée. La présentation de l’histoire du développement de cette langue fait l’objet du premier chapitre. Le syriaque s’écrit de droite à gauche, avec un aspect très singulier, un penché d’un angle d’environ 45° qui rend les algorithmes de traitement et d’analyse de documents développés pour les autres écritures inopérants. Dans le second chapitre, après nous être intéressés à la description et l’extraction des structures des documents, nous avons élaboré une méthode de segmentation des mots qui prend en compte ce penché ; elle nous conduit à une trentaine de formes stables qui sont des lettres individuelles verticales et des « n-grammes » constitués par des lettres penchées. Dans la deuxième partie de la thèse, nous nous sommes intéressés au contenu des documents à des fins d’indexation. Nous avons développé une méthode de repérage de mots qui permet de retrouver, dans un document, toutes les occurrences d’un mot selon plusieurs modes de requêtes (word spotting, word retrieval). Elle repose sur une similarité de forme évaluée à partir d’une analyse très fine de l’orientation du tracé de l’écriture. Le dernier chapitre est une première contribution à la transcription assistée des manuscrits syriaques qui repose sur la segmentation des mots décrite ci-dessus. Nous montrons que la transcription, qui s’appuie sur l’interaction, est en rupture avec la traditionnelle démarche de reconnaissance par OCR.