What type of study is this?

This is a Experimental Study study (also classified as: Quantitative Study).

September 29, 2025Open Access

Otimização de Preferência Extragradiente (EGPO): Além da Convergência da Última Iteração para Aprendizado de Nash a partir do Feedback Humano

Key Points

EGPO atinge convergência linear da última iteração para o equilíbrio de Nash em jogos regularizados por KL.
Avaliações empíricas mostram que o EGPO supera os métodos de base no treinamento de modelos de linguagem pelas taxas de vitória par a par.
O novo algoritmo é robusto a ruídos, abordando limitações nas abordagens tradicionais para preferências humanas.
Ao usar métodos baseados em gradientes, o EGPO facilita implementações mais precisas de redes neurais para o alinhamento do modelo.

Abstract

O aprendizado por reforço a partir do feedback humano (RLHF) tornou-se essencial para melhorar as capacidades de modelos de linguagem, mas abordagens tradicionais dependem da suposição de que as preferências humanas seguem um modelo de Bradley-Terry transitivo. Essa suposição falha em capturar a natureza não transitiva das preferências humanas populacionais. O aprendizado de Nash a partir do feedback humano (NLHF), visando preferências não transitivas, é um problema de computar o equilíbrio de Nash (NE) do jogo de soma constante de dois jogadores definido pela preferência humana. Introduzimos a otimização de preferência extragradiente (EGPO), um algoritmo novel para NLHF que atinge convergência linear da última iteração para o NE de jogos regularizados por KL e convergência polinomial para o NE de jogos originais, enquanto é robusto a ruídos. Ao contrário das abordagens anteriores que dependem de otimização aninhada, derivamos uma implementação equivalente usando gradientes de uma variante online da perda de otimização de preferência identidade (IPO), permitindo uma implementação mais fiel para redes neurais. Nossas avaliações empíricas demonstram que o EGPO tem desempenho superior em relação aos métodos de base ao treinar pelo mesmo número de épocas, medido pelas taxas de vitória par a par usando a preferência do valor real. Esses resultados validam tanto as forças teóricas quanto as vantagens práticas do EGPO para o alinhamento de modelos de linguagem com preferências humanas não transitivas.

Read Full Paperexternally

Perguntar à IA

Bookmark

View Full Paper