March 22, 2024Open Access

Tu imagen es mi video: Remodelando el campo receptivo a través de la AutoAumentación Diferenciable y Fusión de Imagen a Video

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El panorama de la investigación en aprendizaje profundo se está moviendo hacia estrategias innovadoras para aprovechar el verdadero potencial de los datos. Tradicionalmente, se ha puesto énfasis en escalar arquitecturas de modelos, lo que resulta en redes neuronales grandes y complejas, que pueden ser difíciles de entrenar con recursos computacionales limitados. Sin embargo, independientemente del tamaño del modelo, la calidad de los datos (es decir, cantidad y variabilidad) sigue siendo un factor importante que afecta la generalización del modelo. En este trabajo, proponemos una técnica novedosa para explotar los datos disponibles mediante el uso de aumentación automática de datos para las tareas de clasificación de imágenes y segmentación semántica. Introducimos el primer método de Búsqueda de Aumentación Diferenciable (DAS) para generar variaciones de imágenes que pueden ser procesadas como videos. En comparación con enfoques anteriores, DAS es extremadamente rápido y flexible, permitiendo la búsqueda en espacios de búsqueda muy grandes en menos de un día de GPU. Nuestra intuición es que el campo receptivo aumentado en la dimensión temporal proporcionado por DAS podría ofrecer beneficios también al campo receptivo espacial. Más específicamente, aprovechamos DAS para guiar la remodelación del campo receptivo espacial mediante la selección de transformaciones dependientes de la tarea. Como resultado, en comparación con alternativas de aumentación estándar, mejoramos en términos de precisión en ImageNet, Cifar10, Cifar100, Tiny-ImageNet, Pascal-VOC-2012 y CityScapes al integrar nuestro DAS sobre diferentes armazones de video ligeros.

Leer artículo completoexternamente

Preguntar a la IA

Me gusta

Guardar

Ver artículo completo