Réseaux profonds pour la classification des opinions multilingue
Institution:
Paris 8Disciplines:
Directors:
Abstract EN:
In the era of social networks where everyone can claim to be a contentproducer, the growing interest in research and industry is an indisputablefact for the opinion mining domain.This thesis is mainly addressing a Web inherent characteristic reflectingits globalized and multilingual character.To address the multilingual opinion mining issue, the proposed model isinspired by the process of acquiring simultaneous languages with equal intensityamong young children. The incorporate corpus-based input is raw, usedwithout any pre-processing, translation, annotation nor additional knowledgefeatures. For the machine learning approach, we use two different deep neuralnetworks. The evaluation of the proposed model was executed on corpusescomposed of four different languages, namely French, English, Greek and Arabic,to emphasize the ability of a deep learning model in order to establishthe sentiment polarity of reviews and topics classification in a multilingualenvironment. The various experiments combining corpus size variations forbi and quadrilingual grouping languages, presented to our models withoutadditional modules, have shown that, such as children bilingual competencedevelopment, which is linked to quality and quantity of their immersion in thelinguistic context, the network learns better in a rich and varied environment.As part of the problem of opinion classification, the second part of thethesis presents a comparative study of two models of deep networks : convolutionalnetworks and recurrent networks. Our contribution consists in demonstratingtheir complementarity according to their combinations in a multilingualcontext.
Abstract FR:
À l’ère de l’avènement des réseaux sociaux où tout un chacun peut se targuerd’être un producteur de contenus, l’intérêt grandissant de la recherche etl’industrie pour l’analyse automatique des opinions est un fait incontestable.Cette thèse traite de la fouille d’opinions en adressant principalement une caractéristiqueinhérente aux avis publiés sur le Web reflétant leurs caractèresglobalisés et multilingue.Pour adresser la problématique multilingue des opinions, le modèle proposéest inspiré du processus d’acquisition des langues simultanées avec intensitéégale chez les jeunes enfants. Il est basé sur des réseaux neuronauxprofonds, avec comme intention de se défaire de pré-traitements, de choixmanuels de caractéristiques et surtout d’avoir une chaîne de traitement sansinterdépendances de langues, de traduction ou de langue pivot.L’évaluation du modèle proposé a été effectué sur des corpus composés dequatre langues, à savoir le français, l’anglais, le grec et l’arabe pour répondreà une classification d’opinion suivant deux polarités, positive et négative,ainsi qu’une classification thématique. Les diverses expérimentations alliantvariation de taille de corpus, regroupement bi-tri et quadrilingue présentésà un réseau profond sans modules additionnels ont montré qu’à l’instar dudéveloppement de la compétence bilingue chez l’enfant qui est liée à la qualitéet la quantité de son immersion au contexte linguistique, le réseau apprendmieux dans un environnement riche et varié.Dans le cadre de la problématique de la classification des opinions, ledeuxième volet de la thèse présente une étude comparative de deux modèlesde réseaux profonds : les réseaux convolutionnels et les réseaux récurrents.Notre contribution consiste à démontrer leur complémentarité selon leurscombinaisons dans un contexte multilingue.