March 21, 2024Open Access

Aprendendo a Projetar para Destilação de Conhecimento entre Tarefas

Key Points

Key points are not available for this paper at this time.

Abstract

A destilação de conhecimento tradicional (KD) depende de um professor proficiente treinado na tarefa alvo, que nem sempre está disponível. Nesse contexto, a destilação entre tarefas pode ser usada, permitindo o uso de qualquer modelo professor treinado em uma tarefa diferente. No entanto, muitos métodos de KD provam ser ineficazes quando aplicados a esse contexto intertarefa. Para abordar essa limitação, propomos uma modificação simples: o uso de uma projeção invertida. Mostramos que essa substituição direta por um projetor padrão é eficaz ao aprender a desconsiderar quaisquer características específicas da tarefa que possam degradar o desempenho do aluno. Descobrimos que essa simples modificação é suficiente para estender muitos métodos de KD ao contexto intertarefa, onde as tarefas do professor e do aluno podem ser muito diferentes. Ao fazer isso, obtemos até 1,9% de melhoria no contexto intertarefa em comparação com a projeção tradicional, sem custo adicional. Nosso método pode obter melhorias significativas de desempenho (até 7%) ao usar até mesmo um professor inicializado aleatoriamente em várias tarefas, como estimativa de profundidade, tradução de imagens e segmentação semântica, apesar da falta de qualquer conhecimento aprendido para transferir. Para fornecer insights conceituais e analíticos sobre esse resultado, mostramos que o uso de uma projeção invertida permite que a perda de destilação seja decomposta em uma transferência de conhecimento e um componente de regularização espectral. Por meio dessa análise, também conseguimos propor uma nova perda de regularização que permite a destilação sem professor, possibilitando melhorias de desempenho de até 8,57% em ImageNet sem custos adicionais de treinamento.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper