August 21, 2024Open Access

Q-BENCH: Un punto de referencia para modelos fundacionales multimodales en visión de bajo nivel desde imágenes individuales hasta pares

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El rápido desarrollo de los Modelos de Lenguaje de Gran Tamaño multimodales (MLLMs) ha impulsado un cambio de paradigma en la visión por computadora, avanzando hacia modelos fundacionales versátiles. Sin embargo, evaluar los MLLMs en la percepción y comprensión visual de bajo nivel sigue siendo un dominio por explorar. Con este fin, diseñamos configuraciones de referencia para emular respuestas lingüísticas humanas relacionadas con la visión de bajo nivel: la percepción visual de bajo nivel (A1) mediante preguntas visuales relacionadas con atributos de bajo nivel (p. ej., claridad, iluminación); y la descripción visual de bajo nivel (A2), evaluando MLLMs para descripciones textuales de bajo nivel. Además, dado que la comparación por pares puede evitar mejor la ambigüedad de las respuestas y ha sido adoptada por muchos experimentos humanos, ampliamos aún más la evaluación de preguntas y descripciones relacionadas con la percepción de bajo nivel de MLLMs de imágenes individuales a pares de imágenes. Específicamente, para la percepción (A1), realizamos el conjunto de datos LLVisionQA+, que comprende 2,990 imágenes individuales y 1,999 pares de imágenes, cada uno acompañado por una pregunta abierta sobre sus características de bajo nivel; para la descripción (A2), proponemos el conjunto de datos LLDescribe+, evaluando MLLMs para descripciones de bajo nivel en 499 imágenes individuales y 450 pares. Además, evaluamos la capacidad de evaluación (A3) de los MLLMs, es decir, la predicción de puntuaciones, empleando un enfoque basado en softmax para permitir que todos los MLLMs generen calificaciones cuantificables de calidad, probadas contra opiniones humanas en 7 conjuntos de datos de evaluación de calidad de imagen (IQA). Con 24 MLLMs bajo evaluación, demostramos que varios MLLMs tienen competencias visuales de bajo nivel decentes en imágenes individuales, pero solo GPT-4V exhibe mayor precisión en comparaciones por pares que en evaluaciones de imagen única (como los humanos). Esperamos que nuestro punto de referencia motive más investigaciones para descubrir y mejorar estas capacidades incipientes de los MLLMs. Los conjuntos de datos estarán disponibles en https://github.com/Q-Future/Q-Bench.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo