Los puntos clave no están disponibles para este artículo en este momento.
En este trabajo, discutimos la construcción de Modelos de Lenguaje Grandes Multimodales (MLLM) performantes. En particular, estudiamos la importancia de varios componentes arquitectónicos y elecciones de datos. A través de ablaciones cuidadosas y exhaustivas del codificador de imágenes, el conector visión-lenguaje y diversas elecciones de datos para el preentrenamiento, identificamos varias lecciones cruciales de diseño. Por ejemplo, demostramos que para un preentrenamiento multimodal a gran escala es crucial usar una mezcla cuidadosa de datos de imagen-contenido, texto intercalado imagen-texto y solo texto para lograr resultados few-shot de estado del arte (SOTA) en múltiples benchmarks, comparado con otros resultados publicados de preentrenamiento. Además, mostramos que el codificador de imágenes junto con la resolución de imagen y el conteo de tokens de imagen tienen un impacto sustancial, mientras que el diseño del conector visión-lenguaje es de importancia comparativamente insignificante. Al escalar la receta presentada, construimos MM1, una familia de modelos multimodales de hasta 30 mil millones de parámetros, que consiste tanto en modelos densos como variantes de mezcla de expertos (MoE), que son SOTA en métricas de preentrenamiento y logran un desempeño competitivo tras ajuste supervisado en una gama de benchmarks multimodales establecidos. Gracias al preentrenamiento a gran escala, MM1 disfruta de propiedades atractivas como aprendizaje en contexto mejorado y razonamiento con múltiples imágenes, habilitando prompting de cadena de pensamiento few-shot.
McKinzie et al. (Thu,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: