Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de fundación de visión a gran escala han logrado un progreso significativo en tareas visuales en imágenes naturales, siendo los transformers de visión la opción primaria debido a su buena escalabilidad y capacidad de representación. Sin embargo, los modelos a gran escala en el ámbito de la teledetección (RS) aún no se han explorado suficientemente. En este artículo, recurrimos a transformers de visión simple con aproximadamente 100 millones de parámetros y hacemos el primer intento de proponer grandes modelos de visión adaptados a tareas de RS e investigar cómo se desempeñan dichos modelos grandes. Para manejar los tamaños grandes y objetos de orientaciones arbitrarias en imágenes RS, proponemos una nueva atención de ventana de tamaño variado y rotada para reemplazar la atención completa original en transformers, lo que puede reducir significativamente el costo computacional y la huella de memoria mientras se aprende una mejor representación de objetos al extraer un contexto rico de las diversas ventanas generadas. Los experimentos en tareas de detección muestran la superioridad de nuestro modelo sobre todos los modelos de última generación, logrando un 81.24% de mAP en el conjunto de datos DOTA-V1.0. Los resultados de nuestros modelos en tareas de clasificación y segmentación descendente también muestran un rendimiento competitivo en comparación con métodos avanzados existentes. Experimentos adicionales muestran las ventajas de nuestros modelos en términos de complejidad computacional y eficiencia de datos en la transferencia.
Wang et al. (Mon,) estudiaron esta cuestión.