What question did this study set out to answer?

この研究の目的は、自己生成された好みデータに基づいて大規模言語モデルの応答を改善する新しい整合フレームワークSGPOを開発することです。

March 27, 2026

SGPO: 自己生成された好みの最適化に基づく自己改善者

Key Points

この研究の目的は、自己生成された好みデータに基づいて大規模言語モデルの応答を改善する新しい整合フレームワークSGPOを開発することです。
オンポリシー学習フレームワーク内に自己改善メカニズムを開発した。
ポリシーモデルと自己改善者を一つの統合モデルに結合した。
ポリシーモデルの応答とファインチューニングの出力を使用して新しい好みデータを生成した。
SGPOはAlpacaEval 2.0ベンチマークで重要なパフォーマンス改善を示した。
従来のDPO方法やベースラインの自己改善技術を上回った。
外部の好みデータセットを必要とせずに改善を達成した。

Abstract

大規模言語モデル（LLM）は、多様なデータセットでの広範な事前学習にもかかわらず、実用的かつ信頼性のある展開のために人間の好みに効果的に整合させる必要があります。従来の整合方法は一般的にオフポリシー学習を採用し、人間によって注釈付けされたデータセットに依存しているため、広範な適用性が制限され、トレーニング中に分布のシフト問題を引き起こします。これらの課題に対処するために、自己改善者に基づく自己生成された好みの最適化（SGPO）という革新的な整合フレームワークを提案します。具体的には、改善者はポリシーモデルからの応答を洗練し、ポリシーモデルの直接的な好み最適化（DPO）のために好みデータを自己生成します。ここで、改善者とポリシーは単一のモデルに統合されており、より高品質な好みデータを生成するために、この自己改善者は監視付きファインチューニングの出力を参照することによって、現在の応答に対して漸進的かつ識別可能な改善を行うことを学習します。AlpacaEval 2.0およびArena-Hardにおける実験結果は、提案されたSGPOが外部の好みデータを使用せずに、DPOおよびベースラインの自己改善方法に対してパフォーマンスを大幅に向上させることを示しています。

AIに質問

Bookmark

AIに質問

Bookmark

SGPO: 自己生成された好みの最適化に基づく自己改善者

Key Points

Abstract

Cite This Study