Impulsado por el rápido avance en los modelos de visión-lenguaje (VLMs), el comportamiento responsable de los modelos multimodales a gran escala se ha convertido en un área de investigación prominente, centrándose particularmente en la detección de alucinaciones y la verificación de hechos. En este artículo, presentamos la solución para las dos pistas del desafío de IA Responsable. Inspiraciones del dominio general demuestran que un VLM destilado más pequeño puede superar a menudo a un VLM más grande que está ajustado directamente en tareas específicas, logrando así una mayor eficiencia. Por lo tanto, abordamos conjuntamente dos tareas desde la perspectiva de la destilación de conocimientos y proponemos un marco progresivo de destilación de conocimientos híbridos denominado HKD4VLM. Específicamente, el marco general puede descomponerse en una destilación en línea progresiva tipo pirámide y una destilación de refinamiento acoplada ternaria, moviéndose jerárquicamente de la alineación de conocimientos de grano grueso a un refinamiento de grano fino. Además, introducimos estrategias de aumento diversas y de inferencia mejorada mediante desplazamiento para mejorar el rendimiento y la robustez del modelo. Resultados experimentales extensivos demuestran la efectividad de nuestro HKD4VLM. Estudios de ablación ofrecen ideas sobre las decisiones de diseño críticas que impulsan las mejoras en el rendimiento.
Zhang et al. (Mon,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: