Key points are not available for this paper at this time.
多言語大規模言語モデル(LLM)は、ゼロショットの言語横断的転送性能において著しいレベルを達成しています。私たちは、これが並行文からの明示的な監視なしに言語を整合させる能力に基づいていると推測しています。異なる言語における翻訳的に等価な文の表現は収束後に類似していることが知られていますが、どのようにしてそのような言語横断的整合性がLLMのプレトレーニング中に出現するのかは不明です。本研究は、言語的特徴を符号化するニューロンのサブセットを特定する内因性のプロービング技術を活用し、特定のモデルにおける言語横断的ニューロン重複の程度とゼロショット言語横断的転送性能を相関させます。特に、異なるトレーニングステップおよびモデルスケールにわたる多言語オートリグレッシブLLMであるBLOOMのチェックポイントに依存します。ニューロンの重複と下流性能との間には高い相関が観察され、効果的な言語横断的転送につながる条件に関する仮説を支持しています。興味深いことに、プレトレーニングプロセスの特定のフェーズにおいて、暗黙の整合性と多言語能力の両方の劣化も検出されており、多言語プレトレーニングダイナミクスに新たな洞察を提供しています。
Wang et al. (Wed,) はこの問題を研究しました。