Los puntos clave no están disponibles para este artículo en este momento.
Este documento presenta EfficientNetV2, una nueva familia de redes convolucionales que tienen una velocidad de entrenamiento más rápida y una mejor eficiencia de parámetros que los modelos anteriores. Para desarrollar esta familia de modelos, utilizamos una combinación de búsqueda de arquitectura neural consciente del entrenamiento y escalado, para optimizar conjuntamente la velocidad de entrenamiento y la eficiencia de parámetros. Los modelos fueron buscados a partir del espacio de búsqueda enriquecido con nuevas operaciones como Fused-MBConv. Nuestros experimentos muestran que los modelos EfficientNetV2 entrenan mucho más rápido que los modelos de vanguardia, mientras son hasta 6.8 veces más pequeños. Nuestro entrenamiento puede acelerarse aún más al aumentar progresivamente el tamaño de la imagen durante el entrenamiento, pero a menudo causa una caída en la precisión. Para compensar esta caída de precisión, proponemos ajustar de manera adaptativa la regularización (por ejemplo, abandono y aumento de datos) también, de modo que podamos lograr tanto un entrenamiento rápido como una buena precisión. Con el aprendizaje progresivo, nuestro EfficientNetV2 supera significativamente a los modelos anteriores en los conjuntos de datos ImageNet y CIFAR/Cars/Flowers. Al preentrenar en el mismo ImageNet21k, nuestro EfficientNetV2 logra una precisión top-1 del 87.3% en ImageNet ILSVRC2012, superando al reciente ViT por un 2.0% de precisión mientras entrena de 5x a 11x más rápido utilizando los mismos recursos de computación. El código estará disponible en https://github.com/google/automl/tree/master/efficientnetv2.
Tan et al. (Jue,) estudiaron esta cuestión.