December 1, 2025Open Access

錯覚の回廊：大量の合成データによる訓練が実世界での性能を蝕む仕組み

Key Points

合成データは実世界データに対する性能に悪影響を及ぼし、崩壊の可能性を引き起こす。
合成データの割合が増えるほど、実際の性能は低下し、指標も悪化する。
分析にはフィードバックループと複数のトイモデルが含まれ、高い合成利用下での安定性問題が明らかになった。
訓練における合成データ関連のリスクを軽減するため、検証や基準の必要性を強調している。

Abstract

本論文は、大規模言語モデルの訓練とファインチューニングにおける合成（モデル生成）データの多用が「錯覚の回廊」崩壊という構造的リスクを生み出すと論じる。モデルは自らの出力にますます適応する一方で、特にロングテール領域の実世界データから乖離していく。実データで訓練されたモデルが実データと偽データの混合物で繰り返し再訓練される単純な合成フィードバックループを定式化した。2Dガウス混合モデルと小規模な文字レベルnグラム言語モデルという2つの透明なトイ実験を用い、合成データの割合αと世代数が増加するにつれて、保持された実データでの性能が低下し、最終的に崩壊することを示す。両ケースとも、実テストセットの指標は合成データなしで安定し、適度な合成利用で悪化し、合成データが支配的になると急激に失敗する。本論文は「錯覚の回廊」という比喩と鏡面空洞の類推を導入し、この振る舞いが構造的に予想されるものであり異常ではないと説明する。トイセットアップを超えて、実際のLLMパイプラインへの影響を論じ、部分的緩和策（自己批判、嗜好モデル、プロセス監督、多様化）を調査し、それらは高合成割合時の根本リスクを除去しないと主張する。具体的な検証方法と開示要件（概算合成割合の報告、多世代崩壊試験の実施、ロングテール性能のストレステスト）を提案し、合成データが安全にスケーリングの中心柱となる前の最低基準とする。トイ実験の図表と例示コードも含み、結果の再現性を高めている。

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper