Key points are not available for this paper at this time.
L'apprentissage de la représentation promet de débloquer l'apprentissage profond pour la longue traîne des tâches visuelles sans ensembles de données étiquetées coûteux. Pourtant, l'absence d'une évaluation unifiée pour les représentations visuelles générales freine le progrès. Les protocoles populaires sont souvent trop contraints (classification linéaire), limités en diversité (ImageNet, CIFAR, Pascal-VOC), ou seulement faiblement liés à la qualité de la représentation (ELBO, erreur de reconstruction). Nous présentons le benchmark d'adaptation des tâches visuelles (VTAB), qui définit de bonnes représentations comme celles qui s'adaptent à des tâches diverses et non vues avec peu d'exemples. Avec VTAB, nous réalisons une étude à grande échelle de nombreux algorithmes d'apprentissage de la représentation populaires disponibles publiquement. Nous contrôlons soigneusement les variables confondantes telles que l'architecture et le budget de réglage. Nous abordons des questions telles que : Quelle est l'efficacité des représentations d'ImageNet au-delà des ensembles de données naturels standards ? Comment les représentations entraînées via des modèles génératifs et discriminatifs se comparent-elles ? Dans quelle mesure la auto-supervision peut-elle remplacer les étiquettes ? Et, à quel point sommes-nous proches des représentations visuelles générales ?
Zhai et al. (Mar,) ont étudié cette question.
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: