Attention à l'écart de mémoire : Dévoiler les goulets d'étranglement GPU dans l'inférence LLM à grande échelle | Synapse