What type of study is this?

This is a Experimental Study study.

October 20, 2025Open Access

静的から動的へ：数学的プロセス監視のための適応型モンテカルロ検索

Key Points

AMCSは不確実な推論ステップの推定を適応的に洗練しながら、データ効率を最大化し、パス拡張を最適化する。
実験結果は、Qwen2.5-Math-7B-PRM-AMCSがMATH500において76.2％の精度を達成し、他のモデルを上回ることを示しています。
観察された利点は分布外問題においても一貫しており、AMCSの強力な一般化能力を強調しています。
本研究は、プロセスリワードモデルのトレーニングに約20万の例を使用した大規模データセットMathSearch-200Kを示しています。

Abstract

プロセスデータの質はプロセスリワードモデル（PRM）のトレーニングにおいて重要な役割を果たし、大規模言語モデルの複雑な数学的推論能力を向上させることができます。既存の手法は、固定予算サンプリング戦略に基づいて推論ステップの質を推定し、自動データ生成プロセス中にパス拡張を行うために広大な探索空間をナビゲートしますが、その結果、非効率で柔軟性に欠けます。これらの問題に対処するために、ノード値の推定とパス拡張のレベルでデータ生成を固定的かつ静的から適応的かつ動的な検索に変えるフレームワーク、適応型モンテカルロ検索（AMCS）を提案します。一方で、AMCSは不確実な推論ステップにより多くのサンプルを配分し、推定しやすいものにはより少ないサンプルを使用することで、推定を適応的に洗練します。もう一方で、広範な探索から最も有望な方向に徐々にシフトする一時的な適応ポリシーを持ったモンテカルロアルゴリズムを通じて、パス拡張を強化します。AMCSを用いて、約20万のプロセス監視例から成る大規模データセットMathSearch-200Kを構築し、PRMのトレーニングを行います。私たちの手法の効果を検証するために、4つの数学的推論ベンチマークに関して広範な実験を実施しました。実験結果は、Qwen2.5-Math-7B-PRM-AMCSがGLM-4-9BでMATH500において最大76.2％の精度を達成し、すべてのベースラインPRMを上回ることを示しています。特に、Qwen2.5-Math-7B-PRM-AMCSで監視された7Bモデルは、弱い監視の72Bモデルを凌駕します。さらに、Qwen2.5-Math-7B-PRM-AMCSは分布外問題においても一貫した利点を維持し、強力な一般化能力を示しています。私たちのコードはhttps://github.com/reml-group/AMCSで入手可能です。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper