Los puntos clave no están disponibles para este artículo en este momento.
Impulsado por arquitecturas mejoradas y mejores marcos de aprendizaje de representaciones, el campo del reconocimiento visual ha disfrutado de una rápida modernización y un aumento en el rendimiento a principios de la década de 2020. Por ejemplo, los ConvNets modernos, representados por ConvNeXt 33, han demostrado un rendimiento sólido en varios escenarios. Aunque estos modelos fueron diseñados originalmente para el aprendizaje supervisado con etiquetas de ImageNet, también pueden beneficiarse potencialmente de técnicas de aprendizaje auto-supervisado como los autoencoders enmascarados (MAE) 14. Sin embargo, encontramos que simplemente combinar estos dos enfoques conduce a un rendimiento inferior. En este documento, proponemos un marco de autoencoder enmascarado completamente convolucional y una nueva capa de Normalización de Respuesta Global (GRN) que se puede agregar a la arquitectura de ConvNeXt para mejorar la competencia de características entre canales. Este co-diseño de técnicas de aprendizaje auto-supervisado y mejora arquitectónica resulta en una nueva familia de modelos llamada ConvNeXt V2, que mejora significativamente el rendimiento de los ConvNets puros en varios benchmarks de reconocimiento, incluyendo la clasificación de ImageNet, la detección de COCO y la segmentación de ADE20K. También proporcionamos modelos ConvNeXt V2 preentrenados de varios tamaños, que van desde un modelo Atto eficiente de 3.7M parámetros con un 76.7% de precisión top-1 en ImageNet, hasta un modelo Huge de 650M que logra una precisión de estado del arte del 88.9% utilizando solo datos de entrenamiento públicos.
Woo et al. (Jue,) estudiaron esta pregunta.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: