Key points are not available for this paper at this time.
A destilação de conhecimento (KD) pode comprimir redes neurais profundas (DNNs) transferindo o conhecimento do modelo professor redundante para o modelo aluno com recursos, onde a KD entre camadas cruzadas (CKD) realiza a KD entre cada estágio dos alunos e os múltiplos estágios dos professores. No entanto, esquemas CKD anteriores selecionam as características de estágio grosseiras dos professores para ensinar os alunos, levando a um alinhamento inadequado dos canais. Além disso, a maioria desses métodos realiza uma destilação uniforme para todo o conhecimento, limitando os alunos a se concentrarem mais no conhecimento importante. Para abordar esses problemas, propomos uma KD densa (DenseKD) neste artigo, chamada de DenseKD. Primeiro, para alcançar um alinhamento de características mais preciso na CKD, construímos a arquitetura densa aprendível para fazer com que cada canal do aluno capture flexivelmente mais características canalizadas diversas do professor. Além disso, introduzimos a importância da região para investigar o potencial orientador da região, que distingue a influência de diferentes regiões pela variação das representações dos modelos professores. Além disso, para fazer com que os alunos prestem mais atenção a amostras úteis na KD, calculamos a importância das amostras pela perda dos modelos professores. Melhorias consistentes sobre abordagens de ponta são observadas em experimentos em múltiplas tarefas de visão. Por exemplo, na tarefa de classificação, o DenseKD atinge 72,30% de precisão do ResNet-20 no CIFAR-100, que é superior aos resultados dos métodos CKD anteriores. Além disso, na tarefa de detecção de objetos, o DenseKD ganha 2,84% de melhorias na precisão média (mAP) do Faster R-CNN com ResNet-18 contra o KD convencional.
Zhang et al. (Quarta-feira) estudaram essa questão.