Key points are not available for this paper at this time.
Des travaux récents ont montré que l'auto-attention peut servir de bloc de construction de base pour les modèles de reconnaissance d'images. Nous explorons les variations de l'auto-attention et évaluons leur efficacité pour la reconnaissance d'images. Nous considérons deux formes d'auto-attention. La première est l'auto-attention par paires, qui généralise l'attention standard par produit scalaire et est fondamentalement un opérateur d'ensemble. L'autre est l'auto-attention par patchs, qui est strictement plus puissante que la convolution. Nos réseaux d'auto-attention par paires égalent ou surpassent leurs homologues convolutionnels, et les modèles par patchs surpassent considérablement les références convolutionnelles. Nous menons également des expériences qui sondent la robustesse des représentations apprises et concluons que les réseaux d'auto-attention peuvent avoir des avantages significatifs en termes de robustesse et de généralisation.
Zhao et al. (Mon,) ont étudié cette question.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: