What question did this study set out to answer?

Diese Forschung hat zum Ziel, eine neue Familie von Aktivierungsfunktionen, die Steklov-Aktivierungen, einzuführen und im Vergleich zu Standardfunktionen wie GELU zu analysieren.

April 10, 2026Open Access

Steklov-Aktivierungen: Stückweise-polynomiale Gates mit kompaktem Träger und einstellbarer Sparsität

Read Full Paperexternally

Key Points

Diese Forschung hat zum Ziel, eine neue Familie von Aktivierungsfunktionen, die Steklov-Aktivierungen, einzuführen und im Vergleich zu Standardfunktionen wie GELU zu analysieren.
Abgeleitete Aktivierungsfunktionen aus Steklov-Kernen der Approximationstheorie
Untersuchte Leistung bei Bildklassifikations- und Sprachmodellierungsaufgaben
Analysierte Muster der Inaktivität, Pruning-Techniken und Inferenz-Effizienz
Gezeigt, dass Steklov-Aktivierungen HardSwish präzise darstellen und GELU approximieren können
Eingeführter Skalierungsparameter zur Balance zwischen Glätte, Selektivität und Sparsität
Verbesserte Neuroneninaktivität und effiziente Inferenz in den durchgeführten Aufgaben nachgewiesen

Abstract

Steklov-Aktivierungen stellen eine Familie von stückweise-polynomialen Aktivierungsfunktionen mit kompaktem Träger vor, die aus Steklov-Kernen der Approximationstheorie abgeleitet sind. Im Gegensatz zu standardmäßigen glatten Aktivierungen wie GELU oder SiLU besitzen Steklov-Aktivierungen eine endliche Unterstützung in ihrer Gate-Funktion: Außerhalb eines steuerbaren Übergangsbereichs sind Neuronen exakt inaktiv oder vollständig linear. Dies verleiht der Familie eine charakteristische Eigenschaft, die bei gängigen dichten Aktivierungen nicht vorhanden ist: einen einstellbaren Mechanismus für exakte Neuroneninaktivität. Die Arbeit zeigt, dass die Familie HardSwish exakt einschließt und GELU nahe approximieren kann, dabei jedoch einen Skalierungsparameter einführt, der den Kompromiss zwischen Glätte, Selektivität und Sparsität steuert. Es werden diese Aktivierungen bei Bildklassifikation und Sprachmodellierung untersucht, einschließlich GPT-2 und eines kleinen LLaMA-ähnlichen Decoders, und ihr Verhalten hinsichtlich Leistung, Inaktivitätsmustern, Pruning und Inferenz-Effizienz analysiert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Aleksandr Masalskikh

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Steklov-Aktivierungen: Stückweise-polynomiale Gates mit kompaktem Träger und einstellbarer Sparsität

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Also consider