O aprendizado por reforço a partir do feedback humano (RLHF) tornou-se essencial para melhorar as capacidades de modelos de linguagem, mas abordagens tradicionais dependem da suposição de que as preferências humanas seguem um modelo de Bradley-Terry transitivo. Essa suposição falha em capturar a natureza não transitiva das preferências humanas populacionais. O aprendizado de Nash a partir do feedback humano (NLHF), visando preferências não transitivas, é um problema de computar o equilíbrio de Nash (NE) do jogo de soma constante de dois jogadores definido pela preferência humana. Introduzimos a otimização de preferência extragradiente (EGPO), um algoritmo novel para NLHF que atinge convergência linear da última iteração para o NE de jogos regularizados por KL e convergência polinomial para o NE de jogos originais, enquanto é robusto a ruídos. Ao contrário das abordagens anteriores que dependem de otimização aninhada, derivamos uma implementação equivalente usando gradientes de uma variante online da perda de otimização de preferência identidade (IPO), permitindo uma implementação mais fiel para redes neurais. Nossas avaliações empíricas demonstram que o EGPO tem desempenho superior em relação aos métodos de base ao treinar pelo mesmo número de épocas, medido pelas taxas de vitória par a par usando a preferência do valor real. Esses resultados validam tanto as forças teóricas quanto as vantagens práticas do EGPO para o alinhamento de modelos de linguagem com preferências humanas não transitivas.
Zhou et al. (Terça,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: