Key points are not available for this paper at this time.
في هذا العمل، نناقش بناء نماذج اللغة الكبيرة متعددة الأنماط (MLLMs) ذات الأداء العالي. على وجه الخصوص، ندرس أهمية مكونات الهندسة المعمارية المختلفة وخيارات البيانات. من خلال إجراء تجارب دقيقة وشاملة على مشفر الصور، وموصل اللغة البصرية، وخيارات بيانات التدريب المسبق المختلفة، حددنا عدة دروس تصميم حاسمة. على سبيل المثال، نوضح أنه بالنسبة للتدريب المسبق متعدد الأنماط على نطاق واسع، فإن استخدام مزيج دقيق من بيانات الصورة-التعليق، وبيانات الصورة-النص المتداخلة، وبيانات النص فقط أمر بالغ الأهمية لتحقيق نتائج متقدمة (SOTA) في حالات قليلة عبر العديد من المعايير، مقارنة بالنتائج المنشورة الأخرى للتدريب المسبق. علاوة على ذلك، نظهر أن مشفر الصور مع دقة الصورة وعدد رموز الصورة له تأثير كبير، بينما تصميم موصل اللغة البصرية له أهمية ضئيلة نسبياً. من خلال توسيع الوصفة المعروضة، نبني MM1، عائلة من النماذج متعددة الأنماط تصل إلى 30B من المعلمات، تتكون من نماذج كثيفة ومتغيرات مزيج الخبراء (MoE)، التي تحقق نتائج متقدمة في معايير التدريب المسبق وتحقق أداءً تنافسياً بعد التعديل الدقيق تحت الإشراف على مجموعة من المعايير متعددة الأنماط المعروفة. بفضل التدريب المسبق على نطاق واسع، يتمتع MM1 بخواص جذابة مثل التعلم المحسن في السياق، والتفكير متعدد الصور، مما يمكنه من تقديم تلميحات سلسلة أفكار في حالات قليلة.
دراسة مككينزي وآخرون (الخميس) هذا السؤال.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: