プロセスデータの質はプロセスリワードモデル(PRM)のトレーニングにおいて重要な役割を果たし、大規模言語モデルの複雑な数学的推論能力を向上させることができます。既存の手法は、固定予算サンプリング戦略に基づいて推論ステップの質を推定し、自動データ生成プロセス中にパス拡張を行うために広大な探索空間をナビゲートしますが、その結果、非効率で柔軟性に欠けます。これらの問題に対処するために、ノード値の推定とパス拡張のレベルでデータ生成を固定的かつ静的から適応的かつ動的な検索に変えるフレームワーク、適応型モンテカルロ検索(AMCS)を提案します。一方で、AMCSは不確実な推論ステップにより多くのサンプルを配分し、推定しやすいものにはより少ないサンプルを使用することで、推定を適応的に洗練します。もう一方で、広範な探索から最も有望な方向に徐々にシフトする一時的な適応ポリシーを持ったモンテカルロアルゴリズムを通じて、パス拡張を強化します。AMCSを用いて、約20万のプロセス監視例から成る大規模データセットMathSearch-200Kを構築し、PRMのトレーニングを行います。私たちの手法の効果を検証するために、4つの数学的推論ベンチマークに関して広範な実験を実施しました。実験結果は、Qwen2.5-Math-7B-PRM-AMCSがGLM-4-9BでMATH500において最大76.2%の精度を達成し、すべてのベースラインPRMを上回ることを示しています。特に、Qwen2.5-Math-7B-PRM-AMCSで監視された7Bモデルは、弱い監視の72Bモデルを凌駕します。さらに、Qwen2.5-Math-7B-PRM-AMCSは分布外問題においても一貫した利点を維持し、強力な一般化能力を示しています。私たちのコードはhttps://github.com/reml-group/AMCSで入手可能です。
Ma et al. (Mon,) はこの問題を研究しました。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: