En tiempos recientes, hemos visto un desarrollo rápido de grandes Modelos de Lenguaje y Visión (VLMs). Han mostrado resultados impresionantes en benchmarks académicos, principalmente en idiomas ampliamente hablados, pero carecen de rendimiento en idiomas de bajos recursos y contextos culturales variados. Para abordar estas limitaciones, introducimos Maya, un VLM multilingüe de código abierto. Nuestras contribuciones son: 1) un conjunto de datos de preentrenamiento de imagen-texto multilingüe en ocho idiomas, basado en el conjunto de datos de preentrenamiento LLaVA; y 2) un modelo de imagen-texto multilingüe que apoya estos idiomas, mejorando la comprensión cultural y lingüística en tareas de visión-lenguaje. El código está disponible en https://github.com/nahidalam/maya.
Alam et al. (Tue,) estudiaron esta cuestión.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: