
Méthodes d'apprentissage automatique pour la transcription automatique de la batterie

Defense date:

April 5, 2019



Sorbonne université



Abstract EN:

This thesis focuses on learning methods for automatic transcription of the battery. They are based on a transcription algorithm using a non-negative decomposition method, NMD. This thesis raises two main issues: the adaptation of methods to the analyzed signal and the use of deep learning. Taking into account the information of the signal analyzed in the model can be achieved by their introduction during the decomposition steps. A first approach is to reformulate the decomposition step in a probabilistic context to facilitate the introduction of a posteriori information with methods such as SI-PLCA and statistical NMD. A second approach is to implement an adaptation strategy directly in the NMD: the application of modelable filters to the patterns to model the recording conditions or the adaptation of the learned patterns directly to the signal by applying strong constraints to preserve their physical meaning. The second approach concerns the selection of the signal segments to be analyzed. It is best to analyze segments where at least one percussive event occurs. An onset detector based on a convolutional neural network (CNN) is adapted to detect only percussive onsets. The results obtained being very interesting, the detector is trained to detect only one instrument allowing the transcription of the three main drum instruments with three CNNs. Finally, the use of a CNN multi-output is studied to transcribe the part of battery with a single network.

Abstract FR:

Cette thèse se concentre sur les méthodes d’apprentissage pour la transcription automatique de la batterie. Elles sont basées sur un algorithme de transcription utilisant une méthode de décomposition non-négative, la NMD. Cette thèse soulève deux principales problématiques : l’adaptation des méthodes au signal analysé et l’utilisation de l’apprentissage profond. La prise en compte des informations du signal analysé dans le modèle peut être réalisée par leur introduction durant les étapes de décomposition. Une première approche est de reformuler l’étape de décomposition dans un contexte probabiliste pour faciliter l’introduction d’informations a posteriori avec des méthodes comme la SI-PLCA et la NMD statistique. Une deuxième approche est d’implémenter directement dans la NMD une stratégie d’adaptation : l’application de filtres modelables aux motifs pour modéliser les conditions d’enregistrement ou l’adaptation des motifs appris directement au signal en appliquant de fortes contraintes pour conserver leur signification physique. La deuxième approche porte sur la sélection des segments de signaux à analyser. Il est préférable d’analyser les segments où au moins un événement percussif a lieu. Un détecteur d’onsets basé sur un réseau de neurones convolutif (CNN) est adapté pour détecter uniquement les onsets percussifs. Les résultats obtenus étant très intéressants, le détecteur est entraîné à ne détecter qu’un seul instrument permettant la réalisation de la transcription des trois principaux instruments de batterie avec trois CNN. Finalement, l’utilisation d’un CNN multi-sorties est étudiée pour transcrire la partie de batterie avec un seul réseau.