Key points are not available for this paper at this time.
教師なしマルチタスク事前学習は、近年の言語モデル(LM)の成功の背後にある重要な手法です。しかし、教師ありマルチタスク学習も依然として大きな可能性を秘めており、後処理段階でのスケーリングが一般化の向上に繋がる傾向にあります。本論文では、命令応答ペアを用いて大規模な未加工コーパスを拡張し言語モデルを事前学習する枠組みとして、Instruction Pre-Trainingを提案し、教師ありマルチタスク事前学習を探究します。命令応答ペアは、オープンソースモデルに基づく効率的な命令シンセサイザーによって生成されます。実験では、40以上のタスクカテゴリを網羅する2億の命令応答ペアを合成し、Instruction Pre-Trainingの有効性を検証しました。スクラッチからの事前学習では、Instruction Pre-Trainingは基礎モデルの性能を一貫して向上させるだけでなく、さらなる命令チューニングからもより大きな恩恵を受けました。継続的事前学習においては、Instruction Pre-TrainingによりLlama3-8BがLlama3-70Bと同等、あるいはそれ以上の性能を発揮しました。モデル、コード、データはhttps://github.com/microsoft/LMOpsで公開しています。
Chengら(Thu,)はこの問題を研究しました。