What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

Detrás de Maya: Construyendo un Modelo de Lenguaje Multilingüe para Visión

Puntos clave

Maya mejora significativamente el rendimiento para idiomas de bajos recursos, ampliando el acceso a tareas de visión-lenguaje para diversas culturas.
El modelo soporta ocho idiomas, utilizando un conjunto de datos que mejora la comprensión cultural y lingüística, abordando las brechas existentes.
Maya se basa en el conjunto de datos de preentrenamiento LLaVA, incorporando un marco multilingüe que permite un mejor soporte lingüístico en tareas de visión.
Esta iniciativa destaca la necesidad de inclusión en los marcos de aprendizaje automático, asegurando un rendimiento equitativo entre grupos lingüísticos.

Resumen

En tiempos recientes, hemos visto un desarrollo rápido de grandes Modelos de Lenguaje y Visión (VLMs). Han mostrado resultados impresionantes en benchmarks académicos, principalmente en idiomas ampliamente hablados, pero carecen de rendimiento en idiomas de bajos recursos y contextos culturales variados. Para abordar estas limitaciones, introducimos Maya, un VLM multilingüe de código abierto. Nuestras contribuciones son: 1) un conjunto de datos de preentrenamiento de imagen-texto multilingüe en ocho idiomas, basado en el conjunto de datos de preentrenamiento LLaVA; y 2) un modelo de imagen-texto multilingüe que apoya estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. El código está disponible en https://github.com/nahidalam/maya.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo