Key points are not available for this paper at this time.
複数の画像とテキストが自然な文書形式で交互に配置された画像-テキストインターリーブデータは、インターネットデータの提示パラダイムに合致し、人間の読書習慣に非常に近いものです。最近の研究は、このようなデータがマルチモーダルなインコンテキスト学習を支援し、マルチモーダル微調整中も大規模言語モデルの能力を維持することを示しています。しかし、現行の画像-テキストインターリーブデータは規模と多様性が限られているため、マルチモーダル大規模言語モデルの発展を制約しています。本稿では、OmniCorpusという100億規模の画像-テキストインターリーブデータセットを紹介します。効率的なデータエンジンを用いて、大規模で高品質な文書をフィルタリングおよび抽出し、86億枚の画像と1兆6960億トークンのテキストを含みます。従来のデータセット(例:MMC4、OBELICS)と比較して、本データセットは1) データ品質を保ちながら15倍の規模を有し、2) 英語・非英語のウェブサイトや動画中心のサイトなど多様なソースを特徴としており、3) 画像-テキストインターリーブ形式から純粋テキストコーパスや画像-テキストペアへ容易に変換可能という柔軟性を持ちます。包括的な分析と実験を通じて、本データセットの品質、利用性、効果を検証しました。これは今後のマルチモーダルモデル研究の堅実なデータ基盤となることを期待します。コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開しています。
Li et al. (Wed,) はこの問題を研究しました。