Mamba-basierter modulierter Fusionsmodell für die Video-Momenterkennung | Synapse