What type of study is this?

This is a Experimental Study study.

October 16, 2025Open Access

外部報酬なしでの推論学習

Key Points

IntuitorはベンチマークでGRPOに類似したパフォーマンスを達成し、外部報酬なしでの効果的な推論を示します。
自己確信を報酬信号として使用することで、特定のドメインに依存せずにさまざまなタスクで無監視学習が可能になります。
実験により、Intuitorはコード生成などのタスクに対してより良い一般化ができ、従来の手法と比較してその汎用性を高めることが示されています。
この発見は、外部報酬が乏しい場合にスケーラブルなAIシステムの開発に内因的信号を活用することを支持します。

Abstract

検証可能な報酬を用いた強化学習（RLVR）により、複雑な推論のために大規模言語モデル（LLM）をトレーニングすることは効果的ですが、高価で特定のドメインに依存する監視に制限されています。本研究では、外部報酬やラベル付きデータなしで内因的信号から学習できるフレームワークである内部フィードバックからの強化学習（RLIF）を探ります。私たちは、モデル独自の自信、自己確信と呼ばれるものを唯一の報酬信号として使用するRLIF手法であるIntuitorを提案します。Intuitorは、グループ相対方針最適化（GRPO）における外部報酬を自己確信スコアに置き換え、完全に無監視の学習を可能にします。実験により、Intuitorは数式ベンチマークでのGRPOのパフォーマンスを一致させるとともに、金のソリューションやテストケースなしでコード生成のようなドメイン外のタスクへの一般化を優れたものとしています。我々の発見は、内因的なモデル信号がドメインを越えた効果的な学習を促進できることを示しており、検証可能な報酬が利用できない自律AIシステムのためのスケーラブルな代替手段を提供します。コードはhttps://github.com/sunblaze-ucb/Intuitorで入手可能です。

外部報酬なしでの推論学習

Key Points

Abstract

Cite This Study

Also Consider

Also Consider