August 29, 2024Open Access

Aprendizado por Reforço sem Feedback Humano para Ajuste Fino da Última Milha de Modelos de Linguagem Grandes

Key Points

Key points are not available for this paper at this time.

Abstract

O aprendizado por reforço é utilizado para alinhar modelos de linguagem com sinais de preferência humana após o pré-treinamento inicial do modelo para prever o próximo token de texto dentro de um grande corpus usando maximização da verossimilhança. Antes de serem implantados em um domínio específico, os modelos são frequentemente ajustados ainda mais em dados específicos da tarefa. Uma vez que as preferências humanas muitas vezes não estão disponíveis para a última etapa, essa é realizada usando a maximização da verossimilhança, pois é o método padrão típico. No entanto, o aprendizado por reforço possui outras vantagens além de facilitar o alinhamento a uma função de recompensa derivada de humanos. Por um lado, enquanto a maximização da verossimilhança é uma forma de aprendizado por imitação na qual o modelo é treinado sobre o que fazer em condições ideais, o aprendizado por reforço não se limita a demonstrar ações apenas para estados alcançados de forma otimizada e treina um modelo sobre o que fazer em uma variedade de cenários enquanto explora o espaço de políticas. Além disso, também treina um modelo sobre o que não fazer, suprimindo ações competitivas, mas ruins. Este trabalho desenvolve uma estrutura para ajuste fino da última milha usando aprendizado por reforço e testa se isso gera ganhos de desempenho. Os experimentos se concentram na sumarização abstrativa, mas a estrutura é geral e amplamente aplicável. O uso do procedimento produziu resultados significativamente melhores do que a maximização da verossimilhança ao comparar previsões brutas. Para os dados específicos testados, a lacuna poderia ser preenchida empregando pós-processamento das saídas de máxima verossimilhança. No entanto, a estrutura oferece uma nova avenida para otimização de modelos em situações onde o pós-processamento pode ser menos direto ou eficaz, e pode ser estendida para incluir classes mais complexas de saídas indesejáveis a serem penalizadas e treinadas, como alucinações.

Aprendizado por Reforço sem Feedback Humano para Ajuste Fino da Última Milha de Modelos de Linguagem Grandes

Key Points

Abstract

Cite This Study

Also Consider

Also Consider