thesis

LSTM-Based Information Extraction for Cybersecurity Vulnerability Management

Defense date:

July 15, 2020

Edit

Institution:

Lyon

Disciplines:

Authors:

Abstract EN:

We studied the suitability of Long Short Term Memory (LSTM) deep neural networks in extracting information from cybersecurity vulnerability descriptions. Information extraction is a sub-field of Natural Language Processing (NLP) that involves the recognition of semantic content in natural language text. The two common tasks of information extraction are Named Entity Recognition (NER) and Relation Extraction (REx). Previous works have shown that off-the-shelf NLP tools are not capable of extracting security-related entities and their relations and the mainstream tools used for NER that give the best results rely on feature engineering for information extraction. Feature engineering suffers from several limitations. LSTM-based neural networks-based methods, which became able to handle real-world problems in recent years, provide a promising alternative for the traditional information extraction methods. Their main promise is the elimination of manual feature engineering as neural networks can automatically learn non-linear combinations of features, which relieves us from the laborious feature engineering.The results showed a remarkable improvement in the NER task over the traditional statistical-based Conditional Random Fields (CRF) model, which we used for benchmarking. The LSTM models used for relation extraction showed that there is a variance in their performance in this domain. As a result, the Shortest Dependency Path (SDP) model achieved the highest accuracy. One of the strengths of the studied LSTM models is being domain agnostic and can be applied to other domains. The traditional methods required extensive feature engineering, which made them time-consuming and labour-intensive. With this approach, the need for domain-specific tools is alleviated. The training corpus consequently is much simpler and requires much simple preprocessing. Finally, the LSTM models were integrated into a unified framework that can be used to convert textual descriptions of software vulnerabilities into information that is used to populate a vulnerability management ontology. This ontology opens the door for systems that provides timely intelligence and awareness of these vulnerabilities and threats.

Abstract FR:

À travers cette thèse, nous avons étudié la pertinence des modèles basés sur LSTM (Long Short Term Memory) dans l'extraction d'informations à partir de corpus de cyber sécurité et plus spécifiquement les descriptions textuelles des vulnérabilités des systèmes informatiques. Nous avons utilisé les techniques du traitement du langage naturel (NLP) et des réseaux de neurones LSTM. Les techniques NLP aident à l'automatisation de l'extraction et la transformation de l'information. L'extraction d'informations est un sous-domaine de l’NLP qui implique la reconnaissance de contenu sémantique dans le texte en langage naturel. Des travaux antérieurs ont montré que les outils NLP standard ne sont pas capables d'extraire des entités liées à la cyber sécurité et les relations entre elles. Les outils traditionnels utilisés pour NER (reconnaissance d’entités nommées) donnent les meilleurs résultats, et s'appuient sur l'ingénierie des caractéristiques pour l'extraction d'informations. L'ingénierie des caractéristiques souffre de plusieurs limitations. Les méthodes basées sur les réseaux de neurones LSTM, qui sont devenues plus efficaces ces dernières années, offrent une alternative prometteuse aux méthodes traditionnelles d'extraction d'informations. Leur principal avantage est l'élimination de l’extraction manuelle des caractéristiques, car les réseaux de neurones peuvent apprendre à modéliser les caractéristiques à partir des données, ce qui soulage de la laborieuse définition des caractéristiques.Les résultats obtenus ont montré une amélioration remarquable de la tâche NER par rapport au modèle CRF (Conditional Random Fields) statistique traditionnel. Les modèles LSTM utilisés pour l'extraction des relations ont montré qu'il existe une variance dans leurs performances dans ce domaine. En conséquence, un des modèles (SDP : Shortest Dependency Path) a atteint la plus grande précision. L'un des points forts des LSTM étudiés est l’indépendance par rapport au domaine sur lequel ces modèles sont appliqués. Avec notre approche, le besoin d'outils spécifiques au domaine est éliminé. Le corpus d’entrainement est par conséquent beaucoup plus simple et nécessite un prétraitement plus simplifié. Enfin, les modèles LSTM ont été intégrés dans un framework qui peut être utilisé pour convertir les descriptions textuelles des vulnérabilités en informations utilisées pour remplir une ontologie de gestion des vulnérabilités. Cette ontologie ouvrirait la voie à des systèmes qui fourniraient rapidement des informations pertinemment sur ces vulnérabilités et menaces.