Key points are not available for this paper at this time.
Diese Arbeit präsentiert eine effiziente und zugleich effektive Methode zur Online-Wissen-Destillation durch kollaboratives Lernen, die als KDCL bezeichnet wird. Diese Methode ist in der Lage, die Generalisierungsfähigkeit von tiefen neuronalen Netzwerken (DNNs) mit unterschiedlichen Lernkapazitäten konstant zu verbessern. Anders als bei bestehenden zweistufigen Verfahren zur Wissen-Destillation, die ein DNN mit großer Kapazität als ''Lehrer'' vortrainieren und dann das Wissen des Lehrers einseitig (d.h. in eine Richtung) auf ein anderes ''Schüler''-DNN übertragen, behandelt KDCL alle DNNs als ''Schüler'' und trainiert sie kollaborativ in einer einzigen Phase (Wissen wird während des kollaborativen Trainings zwischen beliebigen Schülern übertragen), was paralleles Rechnen, schnelle Berechnungen und eine ansprechende Generalisierungsfähigkeit ermöglicht. Im Speziellen entwerfen wir mehrere Methoden, um weiche Ziele als Aufsicht zu generieren, indem wir die Vorhersagen der Schüler effektiv zusammenfassen und die Eingabebilder verzerren. Umfassende Experimente zeigen, dass KDCL alle ''Schüler'' in verschiedenen Datensätzen, einschließlich CIFAR-100 und ImageNet, konstant verbessert. Zum Beispiel erreichen ResNet-50 und MobileNetV2, wenn sie zusammen mit KDCL trainiert werden, eine Top-1-Genauigkeit von 78,2% bzw. 74,0% auf ImageNet, was die ursprünglichen Ergebnisse um 1,4% und 2,0% übertrifft. Wir bestätigen auch, dass Modelle, die mit KDCL vortrainiert wurden, gut auf Objekterkennung und semantische Segmentierung im MS COCO-Datensatz übertragen werden. Beispielsweise wird der FPN-Detektor um 0,9% mAP verbessert.
Guo et al. (Mon,) haben diese Frage untersucht.