July 22, 2024Open Access

生成的マスク付き言語モデルの約束と落とし穴：理論的枠組みと実用的ガイドライン

Key Points

Key points are not available for this paper at this time.

Abstract

自己回帰型言語モデルはテキスト生成において現在支配的なパラダイムですが、内在的に逐次的で一方向性の生成といった基本的な限界があり、規模を拡大しても修正できません。代替のモデルクラスが探求されていますが、その基本的な力や限界についての数学的理解は限られています。本論文では、生成的マスク付き言語モデル（GMLM）に焦点を当て、マスキングを通じてデータ分布の条件付き確率にフィットするモデルを訓練し、これをマルコフ連鎖の入力として使用しサンプルを生成します。これらのモデルは、各ステップを通常は全シーケンスを並行してデコードすることで並列化できるため、実証的に有望な速度と品質のトレードオフを実現します。サンプルの複雑性や推論速度、品質に関する質問に光を当てる数学的枠組みを開発します。実証的には、T5モデルを反復的に洗練された並列デコーディングに適応させ、従来の自己回帰型モデルと比較して品質の最小限の犠牲で機械翻訳における2〜3倍のスピードアップを達成しました。重要な設計選択に関する推奨事項を提供するために慎重なアブレーション実験を実施し、私たちの理論に関連する一般的なエラーモードについての詳細な観察を行います。私たちの数学的分析と実証的観察は、このアプローチの可能性と限界の両方を特徴付け、GMLMの理解と性能向上に関する将来の研究に適用できます。私たちのコードは次のリンクで公開されています：https://github.com/google-research/google-research/tree/master/padir

Read Full Paperexternally

AIに質問

Bookmark

View Full Paper