Los puntos clave no están disponibles para este artículo en este momento.
Como componente clave en los modelos de lenguaje grande multimodal (MLLMs), la capacidad del codificador visual afecta en gran medida la comprensión del MLLM sobre diversos contenidos de imagen. Aunque algunos codificadores visuales preentrenados a gran escala como los codificadores de visión en CLIP y DINOv2 han demostrado un rendimiento prometedor, encontramos que aún no hay un solo codificador visual que pueda dominar la comprensión de varios contenidos de imagen; por ejemplo, el codificador visual de CLIP logra resultados sobresalientes en la comprensión general de imágenes pero un rendimiento deficiente en contenido de documentos o gráficos. Para aliviar el sesgo del codificador visual de CLIP, primero investigamos el comportamiento inherente de diferentes codificadores de visión preentrenados y luego proponemos MoVA, un MLLM poderoso y novedoso, que enruta y fusiona adaptativamente expertos en visión específicos de la tarea con un mecanismo de grueso a fino. En la etapa de grueso, diseñamos una estrategia de enrutamiento de expertos consciente del contexto para seleccionar dinámicamente los expertos en visión más adecuados según la instrucción del usuario, la imagen de entrada y la experiencia de los expertos en visión. Esto se beneficia de la poderosa capacidad de comprensión de función del modelo del modelo de lenguaje grande (LLM) equipado con adaptación de rango bajo con enrutamiento de expertos (LoRA). En la etapa de fino, llevamos a cabo meticulosamente el adaptador de mezcla de expertos en visión (MoV-Adapter) para extraer y fusionar conocimientos específicos de la tarea de varios expertos. Este paradigma de grueso a fino aprovecha de manera efectiva las representaciones de los expertos basadas en el contexto multimodal y la experiencia del modelo, mejorando aún más la capacidad de generalización. Realizamos extensos experimentos para evaluar la efectividad del enfoque propuesto. Sin ninguna complicación, MoVA puede lograr ganancias significativas en rendimiento en comparación con los métodos actuales de vanguardia en una amplia gama de desafiantes puntos de referencia multimodal. El código y los modelos estarán disponibles en https://github.com/TempleX98/MoVA.
Zong et al. (Vie,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: