Los puntos clave no están disponibles para este artículo en este momento.
La respuesta a preguntas visuales (VQA) en teledetección (RS) tiene como objetivo proporcionar respuestas precisas a preguntas relacionadas con imágenes de RS. Los modelos basados en Transformadores se han vuelto gradualmente populares para resolver tareas de VQA en RS. Debido al creciente tamaño del modelo, el entrenamiento completo de parámetros del modelo se vuelve prohibitivamente costoso. Además, la mayoría de los métodos actuales de VQA en RS se centran principalmente en mejorar la codificación de imágenes unimodales, prestando poca atención a las interacciones cruzadas entre las características visuales y textuales. En este documento, proponemos el modelo de aprendizaje por transferencia eficiente en parámetros con aprendizaje de representación cruzada (PECR) para tareas de VQA en RS. Específicamente, introducimos técnicas de aprendizaje por transferencia eficientes en parámetros basadas en adaptadores en el codificador visual y las inicializamos con pesos preentrenados en imágenes de RS a gran escala. Además, utilizamos un mecanismo de atención cruzada en el módulo de fusión cruzada para fusionar las representaciones contextuales de imágenes y texto, facilitando el aprendizaje de representación cruzada. Los resultados experimentales demuestran que nuestro enfoque supera a los métodos de vanguardia anteriores en los conjuntos de datos RSVQA-LR y RSVQA-HR. Además, también validamos que emplear la estrategia de adaptadores para el entrenamiento local de parámetros puede ofrecer resultados de rendimiento comparables al entrenamiento completo de parámetros, reduciendo significativamente el costo del entrenamiento del modelo.
Li et al. (Mon,) estudiaron esta cuestión.