Key points are not available for this paper at this time.
A elicitação de racionalizações de "cadeia de pensamento" (CoT) -- sequências de tokens que transmitem um processo de "razão" -- demonstrou consistentemente melhorar o desempenho de LLM em tarefas como resposta a perguntas. Esforços mais recentes mostraram que tais racionalizações também podem ser usadas para destilação de modelos: Incluir sequências de CoT (elicidadas a partir de um grande modelo "mestre") além de rótulos-alvo ao ajustar um pequeno modelo estudante resulta em melhorias (muitas vezes substanciais). Neste trabalho, perguntamos: Por que e como esse sinal de treinamento adicional ajuda na destilação de modelos? Realizamos ablações para investigar isso e relatamos alguns resultados potencialmente surpreendentes. Especificamente: (1) Colocar sequências de CoT após os rótulos (em vez de antes) alcança um desempenho consistente melhor a montante -- isso significa que nenhuma "razão" do estudante é necessária no momento do teste para se realizarem os ganhos. (2) Quando as racionalizações são anexadas dessa forma, elas não precisam ser sequências de raciocínio coerentes para gerar melhorias; os aumentos de desempenho são robustos a permutações de tokens de CoT, por exemplo. De fato, (3) um pequeno número de tokens-chave é suficiente para alcançar melhorias equivalentes àquelas observadas quando racionalizações completas são usadas na destilação de modelos.
Wadhwa et al. (Qui,) estudaram esta questão.