本論文は、大規模言語モデルの訓練とファインチューニングにおける合成(モデル生成)データの多用が「錯覚の回廊」崩壊という構造的リスクを生み出すと論じる。モデルは自らの出力にますます適応する一方で、特にロングテール領域の実世界データから乖離していく。実データで訓練されたモデルが実データと偽データの混合物で繰り返し再訓練される単純な合成フィードバックループを定式化した。2Dガウス混合モデルと小規模な文字レベルnグラム言語モデルという2つの透明なトイ実験を用い、合成データの割合αと世代数が増加するにつれて、保持された実データでの性能が低下し、最終的に崩壊することを示す。両ケースとも、実テストセットの指標は合成データなしで安定し、適度な合成利用で悪化し、合成データが支配的になると急激に失敗する。本論文は「錯覚の回廊」という比喩と鏡面空洞の類推を導入し、この振る舞いが構造的に予想されるものであり異常ではないと説明する。トイセットアップを超えて、実際のLLMパイプラインへの影響を論じ、部分的緩和策(自己批判、嗜好モデル、プロセス監督、多様化)を調査し、それらは高合成割合時の根本リスクを除去しないと主張する。具体的な検証方法と開示要件(概算合成割合の報告、多世代崩壊試験の実施、ロングテール性能のストレステスト)を提案し、合成データが安全にスケーリングの中心柱となる前の最低基準とする。トイ実験の図表と例示コードも含み、結果の再現性を高めている。
Lei Yu(Mon,)がこの問題を研究した。
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: