Key points are not available for this paper at this time.
Wir schlagen SPHINX-X vor, eine umfassende Serie von multimodalen großen Sprachmodellen (MLLM), die auf SPHINX basiert. Um die Architektur und Effizienz des Trainings zu verbessern, modifizieren wir das SPHINX-Framework, indem wir redundante visuelle Encoder entfernen, vollständig gepolsterte Unterbilder mit Skip-Tokens umgehen und das mehrstufige Training in ein einstufiges All-in-One-Paradigma vereinfachen. Um das Potenzial von MLLMs voll auszuschöpfen, stellen wir einen umfassenden multikodomainalen und multimodalen Datensatz zusammen, der öffentlich verfügbare Ressourcen in Sprach-, Sicht- und Sicht-Sprach-Aufgaben abdeckt. Wir bereichern diese Sammlung weiter mit unseren kuratierten OCR-intensiven und Set-of-Mark-Datensätzen, die Vielfalt und Allgemeingültigkeit erweitern. Durch das Training über verschiedene Basis-LLMs, einschließlich TinyLlama1.1B, InternLM2-7B, LLaMA2-13B und Mixtral8x7B, erhalten wir ein Spektrum an MLLMs, die in der Parametergröße und den mehrsprachigen Fähigkeiten variieren. Umfassende Benchmarks zeigen eine starke Korrelation zwischen der multimodalen Leistung und den Daten- und Parameterskalen. Code und Modelle werden veröffentlicht unter https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Gao et al. (Do,) untersuchten diese Frage.