O aprendizado por reforço (RL) emergiu como um método poderoso para melhorar as habilidades de raciocínio de grandes modelos de linguagem (LLMs). O RL baseado em resultado, que recompensa políticas apenas pela correção da resposta final, gera ganhos substanciais de precisão, mas também induz uma perda sistemática na diversidade de geração. Este colapso prejudica o desempenho no mundo real, onde a diversidade é crítica para escalabilidade em testes. Analisamos esse fenômeno ao ver o RL pós-treinamento como um processo de amostragem e mostramos que, de forma notável, o RL pode reduzir a diversidade efetiva mesmo no conjunto de treinamento em relação ao modelo base. Nosso estudo destaca dois achados centrais: (i) uma transferência de degradação da diversidade, onde a diversidade reduzida em problemas resolvidos se propaga para os não resolvidos, e (ii) a tratabilidade do espaço de resultados, uma vez que tarefas de raciocínio admitem apenas um conjunto limitado de respostas distintas. Motivados por essas percepções, propomos a exploração baseada em resultados, que atribui bônus de exploração de acordo com os resultados finais. Introduzimos dois algoritmos complementares: exploração histórica, que incentiva respostas raramente observadas por meio de bônus no estilo UCB, e exploração em lote, que penaliza repetições dentro do lote para promover diversidade em testes. Experimentos com matemática de competição padrão utilizando modelos Llama e Qwen demonstram que ambos os métodos melhoram a precisão enquanto mitigam o colapso da diversidade. Do lado teórico, formalizamos o benefício da exploração baseada em resultados através de um novo modelo de bandidos baseados em resultados. Juntas, essas contribuições traçam um caminho prático em direção a métodos de RL que aprimoram o raciocínio sem sacrificar a diversidade essencial para a implementação em larga escala.
Song et al. (Mon,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: