Etiquetage grammatical de l'arabe voyelle ou non
Institution:
Paris 7Disciplines:
Directors:
Abstract EN:
Pas de résumé disponible.
Abstract FR:
Nous abordons le probleme de l'etiquetage grammatical de l'arabe en reprenant les methodes couramment utilisees, lesquelles sont fondees sur des regles de succession de deux ou trois categories grammaticales. Nous montrons que l'on ne peut pas reprendre tels quels les algorithmes preconises pour le francais ou pour l'anglais, la raison etant que l'arabe pose deux problemes : l'absence des voyelles et l'agglutination des enclinomenes. Ceux-ci induisent une combinatoire qui conduit a reecrire partiellement ces algorithmes. Rappelons que la resolution des ambiguites grammaticales est effectuee en passant par plusieurs etapes (analyse morphologique, reconnaissance des locutions et etiquetage grammatical), chaque etape amenant sa contribution dans le processus general. Les resultats obtenus pour l'arabe voyelle sont comparables a ce que l'on obtient pour le francais ou pour l'anglais. Pour l'arabe non voyelle par contre, les performances chutent assez sensiblement. L'explication reside precisement dans l'absence des voyellations et l'agglutination qui conduisent a une surmultiplication de l'ambiguite grammaticale de depart. Pour ameliorer ces resultats nous definissons un nouveau jeu de categories grammaticales qui amene a une diminution de l'ambiguite de depart et a un elargissement de la portee des regles de succession. Ces categories sont associees aux formes non-minimales de l'arabe telles que l'on peut les rencontrer dans les textes. Il y a dans ce cas une amelioration sensible. Dans la derniere partie de ce travail, nous avons tente d'utiliser les resultats obtenus en matiere d'etiquetage pour a la fois mettre en oeuvre une application concrete, et valider quelque peu l'etiqueteur lui-meme. Le champ d'application choisi fut celui de l'indexation automatique de textes arabes. En conclusion, nous montrons les limites de nos solutions d'abord, et les directions experimentales susceptibles de produire mieu