Key points are not available for this paper at this time.
L'apprentissage auto-supervisé a émergé comme un moyen puissant de pré-entrainer des modèles d'apprentissage automatique généralisables sur de grandes quantités de données non étiquetées. Il est particulièrement convaincant dans le domaine de la musique, où l'obtention de données étiquetées est chronophage, sujette à erreurs et ambiguë. Pendant le processus auto-supervisé, les modèles sont entraînés sur des tâches de prétexte, avec l'objectif principal d'acquérir des caractéristiques robustes et informatives qui pourront ensuite être ajustées pour des tâches spécifiques en aval. Le choix de la tâche de prétexte est crucial car il guide le modèle à façonner l'espace des caractéristiques avec des contraintes significatives pour l'encodage de l'information. Dans le contexte musical, la plupart des travaux se sont appuyés sur des techniques d'apprentissage contrastif ou de masquage. Dans cette étude, nous élargissons le champ des tâches de prétexte appliquées à la musique en enquêtant et en comparant la performance de nouvelles méthodes auto-supervisées pour le tagging musical. Nous open-source un modèle ResNet simple entraîné sur un catalogue diversifié de millions de morceaux. Nos résultats montrent que, bien que la plupart de ces méthodes de pré-entraînement entraînent des résultats similaires en aval, l'apprentissage contrastif aboutit systématiquement à de meilleures performances en aval comparativement à d'autres méthodes de pré-entraînement auto-supervisées. Cela est vrai dans un contexte de données limitées en aval.
Meseguer-Brocal et al. (Sun,) ont étudié cette question.