Key points are not available for this paper at this time.
Les couches feed-forward constituent les deux tiers des paramètres d'un modèle transformer, cependant leur rôle dans le réseau reste peu exploré. Nous montrons que les couches feed-forward dans les modèles de langue basés sur des transformateurs fonctionnent comme des mémoires clé-valeur, où chaque clé correspond à des motifs textuels dans les exemples d'entraînement, et chaque valeur induit une distribution sur le vocabulaire de sortie. Nos expériences montrent que les motifs appris sont interprétables par les humains, et que les couches inférieures ont tendance à capturer des motifs superficiels, tandis que les couches supérieures apprennent des motifs plus sémantiques. Les valeurs complètent les motifs d'entrée des clés en induisant des distributions de sortie qui concentrent la masse de probabilité sur les tokens susceptibles d'apparaître immédiatement après chaque motif, en particulier dans les couches supérieures. Enfin, nous démontrons que la sortie d'une couche feed-forward est une composition de ses mémoires, qui est ensuite affinée à travers les couches du modèle via des connexions résiduelles pour produire la distribution de sortie finale.
Geva et al. (Fri,) ont étudié cette question.
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: