Dual-Head Attention ermöglicht Längenverallgemeinerung bei der Multiplikation von Transformern. | Synapse