Hierarchisches Gated Delta Memory (HGDM) ist eine aufmerksame freie rekursive Architektur für das Byte-Level-Sprachmodellieren mit konstantem Inferenzspeicher. HGDM erhält einen festgelegten rekursiven Matrixzustand, der durch gated outer-product-Dynamik und multi-timescale decay-Mechanismen aktualisiert wird, inspiriert von prädiktivem Codieren und sparsamen Darstellungen. Die Architektur eliminiert Selbstaufmerksamkeit und externe Schlüssel-Wert-Caches und unterstützt gleichzeitig die rekursive Inferenz mit langem Kontext bei festem Speicherbedarf. Diese Veröffentlichung enthält das begleitende Preprint, das die HGDM-Architektur, die Trainingsmethodik, den Nitro Triton Scan-Kernel und experimentelle Bewertungen zum Byte-Level-Sprachmodellieren und zu Aufgaben mit langem Kontext beschreibt. Code-Repository: https://github.com/iam-saiteja/HGDM-Hierarchical-Gated-Delta-Memory
Thanniru Sai Teja (Tue,) hat diese Frage untersucht.