What type of study is this?

This is a Experimental Study study.

October 12, 2025Open Access

Exploração Baseada em Resultado para Raciocínio de LLMs

Key Points

O aprendizado por reforço baseado em resultados aumenta significativamente a precisão, mas diminui a diversidade de geração.
O estudo revela que a diversidade reduzida em tarefas resolvidas se transfere para tarefas não resolvidas, o que pode prejudicar o desempenho.
Ao utilizar algoritmos como exploração histórica e em lote, essa abordagem mitiga o colapso da diversidade enquanto aumenta a correção.
Ao formalizar o modelo de bandidos baseados em resultados, a pesquisa fornece uma base teórica que apoia suas descobertas empíricas.

Abstract

O aprendizado por reforço (RL) emergiu como um método poderoso para melhorar as habilidades de raciocínio de grandes modelos de linguagem (LLMs). O RL baseado em resultado, que recompensa políticas apenas pela correção da resposta final, gera ganhos substanciais de precisão, mas também induz uma perda sistemática na diversidade de geração. Este colapso prejudica o desempenho no mundo real, onde a diversidade é crítica para escalabilidade em testes. Analisamos esse fenômeno ao ver o RL pós-treinamento como um processo de amostragem e mostramos que, de forma notável, o RL pode reduzir a diversidade efetiva mesmo no conjunto de treinamento em relação ao modelo base. Nosso estudo destaca dois achados centrais: (i) uma transferência de degradação da diversidade, onde a diversidade reduzida em problemas resolvidos se propaga para os não resolvidos, e (ii) a tratabilidade do espaço de resultados, uma vez que tarefas de raciocínio admitem apenas um conjunto limitado de respostas distintas. Motivados por essas percepções, propomos a exploração baseada em resultados, que atribui bônus de exploração de acordo com os resultados finais. Introduzimos dois algoritmos complementares: exploração histórica, que incentiva respostas raramente observadas por meio de bônus no estilo UCB, e exploração em lote, que penaliza repetições dentro do lote para promover diversidade em testes. Experimentos com matemática de competição padrão utilizando modelos Llama e Qwen demonstram que ambos os métodos melhoram a precisão enquanto mitigam o colapso da diversidade. Do lado teórico, formalizamos o benefício da exploração baseada em resultados através de um novo modelo de bandidos baseados em resultados. Juntas, essas contribuições traçam um caminho prático em direção a métodos de RL que aprimoram o raciocínio sem sacrificar a diversidade essencial para a implementação em larga escala.

Exploração Baseada em Resultado para Raciocínio de LLMs

Key Points

Abstract

Cite This Study

Also Consider

Also Consider