Key points are not available for this paper at this time.
Comparé au grand progrès des transformateurs de vision à grande échelle (ViTs) ces dernières années, les modèles à grande échelle basés sur des réseaux de neurones convolutionnels (CNNs) en sont encore à un stade précoce. Ce travail présente un nouveau modèle de fondation basé sur les CNN à grande échelle, appelé InternImage, qui peut tirer profit de l'augmentation des paramètres et des données d'entraînement comme les ViTs. Contrairement aux CNN récents qui se concentrent sur de grands noyaux denses, InternImage utilise la convolution déformable comme opérateur principal, de sorte que notre modèle possède non seulement le grand champ réceptif effectif requis pour des tâches en aval telles que la détection et la segmentation, mais aussi la compilation spatiale adaptative conditionnée par les informations d'entrée et de tâche. En conséquence, l'InternImage proposé réduit le biais inductif strict des CNN traditionnels et rend possible l'apprentissage de motifs plus forts et plus robustes avec des paramètres à grande échelle à partir de données massives comme les ViTs. L'efficacité de notre modèle est prouvée sur des références difficiles telles que ImageNet, COCO, et ADE20K. Il convient de mentionner qu'InternImage-H a atteint un nouveau record de 65,4 mAP sur COCO test-dev et 62,9 mIoU sur ADE20K, dépassant les CNN et ViTs actuellement en tête.
Wang et al. (Jeudi,) ont étudié cette question.