
Filtrage d'information pour la construction de résumés multi-documents guidée par le profil utilisateur : le système REDUIT

Defense date:

Jan. 1, 2004




Abstract EN:

In this work, we present an information filtering method that selects from a set of documents their most significant excerpts in relation to an user profile. We developed a method which takes into account the topical heterogeneity of the information needs of an user to produce a multi-document summary that is specific of its requirements. The information needs of an user are represented by an user profile that is structured from a topical viewpoint. More precisely, we chose to structure user profiles according to a topical criterion: a profile is a set of terms that are grouped into topically homogeneous subsets. Each of these subsets represents a sub-topic of the profile. The summarizing of documents is based on the extraction of segments that are the most likely to match with the profile. The first step of this extraction is the filtering document step. The input documents are pre-processed, both for selecting and normalizing their content words and segmenting them into topically coherent segments. The filtering is based on the matching of the profile and the topical segments of documents. The result of this matching is first used for discarding the documents without any relation with the profile and then, for selecting the excerpts in relation with the profile. This selection step is also based on the detection of the vocabulary of segments that is closely linked to the profile. When a global compatibility between the profile and the document is found, an additional topical analysis is performed to expand the vocabulary defining each sub-topic of the profile and to add to it the terms of the document that are linked to this sub-topic but that are not already present in the profile. This expansion is a way for selecting in a more reliable way excerpts that are linked to profiles but also for selecting excerpts that may bring new and interesting information about their topics. The third step performs information fusion by detecting and removing redundancies among the selected segments. This operation is first achieved among the segments of a document and then, among the segments coming from all the selected documents. Finally, the fourth step is turned toward users: the selected segments are ranked according to their significance, both from the viewpoint of the profile and the viewpoint of documents, and they are pruned for limiting the amount of text to read. This method was implemented by the REDUIT system, whose the evaluation showed that taking into account the topical heterogeneity of profiles can improve the results of the processes at the different steps of the building the a multi-document summary

Abstract FR:

Dans ce travail, nous allons présenter une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents selon un point de vue particulier. Plus précisément, nous avons développé une méthode qui prend en compte l’hétérogénéité thématique des centres d’intérêts pouvant être définis par un utilisateur pour produire un résumé multi-document spécifique de ses besoins. Les centres d’intérêt de l’utilisateur sont représentés par le biais d’un profil. La structuration des profils que nous avons définie est de nature thématique : un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. Chacun de ces sousensembles représente un sous-thème du profil. Le résumé des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. La première étape de cette extraction est un filtrage permettant de sélectionner les documents en relation avec le profil de l’utilisateur. Puis une analyse permet de délimiter au sein de chaque document les blocs de texte thématiquement homogènes, c’est-à-dire les unités de base du processus d’extraction. Cette analyse est suivie d’une étape d’appariement entre les unités délimitées et les sous-thèmes du profil considéré. Lorsque cet appariement laisse apparaître une compatibilité globale entre le profil et le document, une analyse supplémentaire est menée afin d’élargir le vocabulaire définissant chaque sous-thème du profil en y intégrant les termes du document liés à ce sous-thème mais ne figurant pas dans le profil. Cette capacité ouvre la voie à une plus grande finesse du filtrage en permettant la sélection de passages de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes, ce qui présente un intérêt particulier pour des applications de veille technologique par exemple. Enfin, une méthode de fusion permet de combiner les passages sélectionnés afin de construire un texte regroupant les informations les plus pertinentes pour l’utilisateur. L’intérêt de notre approche a été illustré au travers du système REDUIT qui a fait l’objet d’une évaluation montrant que la prise en compte explicite de l’hétérogénéité thématique des profils permet d’améliorer les résultats des processus intervenant aux différents niveaux de construction d’un résumé multi-document