November 14, 2022

Réseau d'apprentissage collaboratif en profondeur à travers les couches pour la distillation de connaissances en ligne

Key Points

Key points are not available for this paper at this time.

Abstract

Les méthodes récentes de distillation de connaissances en ligne (OKD) se concentrent sur la capture d'informations intermédiaires riches et utiles en effectuant un apprentissage de caractéristiques multi-couches. Les travaux existants ne considèrent que les cartes des caractéristiques des couches intermédiaires entre les mêmes couches et ignorent les informations précieuses entre les couches, ce qui entraîne un manque de supervision croisée adéquate dans le détail et le processus d'apprentissage. De plus, cette méthode fournit des informations de supervision insuffisantes pour superviser l'apprentissage des étudiants, car elle ne parvient pas à construire un enseignant qualifié. Dans ce travail, nous proposons un réseau d'apprentissage collaboratif à couches croisées en profondeur (DCCL) pour OKD, qui exploite de manière efficace les connaissances fructueuses des modèles d'étudiants pairs en maintenant une supervision intermédiaire croisée appropriée. Spécifiquement, chaque étudiant intègre progressivement ses propres caractéristiques à différentes couches pour le rapprochement des caractéristiques, afin d'utiliser efficacement les caractéristiques à des niveaux bas et élevés pour apprendre des connaissances plus composites. De plus, nous assignons une stratégie d'apprentissage collaboratif des connaissances, dans laquelle un enseignant qualifié est établi en fusionnant les caractéristiques des dernières couches de convolution pour améliorer la représentation de haut niveau. De cette manière, tous les modèles étudiants transfèrent continuellement la riche représentation interne de l'enseignant ainsi que capturent son processus de croissance dynamique, et aident à leur tour l'apprentissage de l'enseignant fusionné pour superviser davantage les étudiants. Lors des expériences, notre DCCL proposé a montré une grande capacité de généralisation avec divers modèles de fond sur CIFAR-100, Tiny ImageNet et ImageNet, et a également démontré des performances supérieures par rapport aux travaux mainstream d'OKD. Notre code est disponible ici : https://github.com/nanxiaotong/DCCL.

Demander à l'IA

Bookmark