検証可能な報酬を用いた強化学習(RLVR)により、複雑な推論のために大規模言語モデル(LLM)をトレーニングすることは効果的ですが、高価で特定のドメインに依存する監視に制限されています。本研究では、外部報酬やラベル付きデータなしで内因的信号から学習できるフレームワークである内部フィードバックからの強化学習(RLIF)を探ります。私たちは、モデル独自の自信、自己確信と呼ばれるものを唯一の報酬信号として使用するRLIF手法であるIntuitorを提案します。Intuitorは、グループ相対方針最適化(GRPO)における外部報酬を自己確信スコアに置き換え、完全に無監視の学習を可能にします。実験により、Intuitorは数式ベンチマークでのGRPOのパフォーマンスを一致させるとともに、金のソリューションやテストケースなしでコード生成のようなドメイン外のタスクへの一般化を優れたものとしています。我々の発見は、内因的なモデル信号がドメインを越えた効果的な学習を促進できることを示しており、検証可能な報酬が利用できない自律AIシステムのためのスケーラブルな代替手段を提供します。コードはhttps://github.com/sunblaze-ucb/Intuitorで入手可能です。
Zhao et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: