Steklov-Aktivierungen stellen eine Familie von stückweise-polynomialen Aktivierungsfunktionen mit kompaktem Träger vor, die aus Steklov-Kernen der Approximationstheorie abgeleitet sind. Im Gegensatz zu standardmäßigen glatten Aktivierungen wie GELU oder SiLU besitzen Steklov-Aktivierungen eine endliche Unterstützung in ihrer Gate-Funktion: Außerhalb eines steuerbaren Übergangsbereichs sind Neuronen exakt inaktiv oder vollständig linear. Dies verleiht der Familie eine charakteristische Eigenschaft, die bei gängigen dichten Aktivierungen nicht vorhanden ist: einen einstellbaren Mechanismus für exakte Neuroneninaktivität. Die Arbeit zeigt, dass die Familie HardSwish exakt einschließt und GELU nahe approximieren kann, dabei jedoch einen Skalierungsparameter einführt, der den Kompromiss zwischen Glätte, Selektivität und Sparsität steuert. Es werden diese Aktivierungen bei Bildklassifikation und Sprachmodellierung untersucht, einschließlich GPT-2 und eines kleinen LLaMA-ähnlichen Decoders, und ihr Verhalten hinsichtlich Leistung, Inaktivitätsmustern, Pruning und Inferenz-Effizienz analysiert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Aleksandr Masalskikh
Building similarity graph...
Analyzing shared references across papers
Loading...
Aleksandr Masalskikh (Do,) untersuchte diese Fragestellung.
synapsesocial.com/papers/69d894526c1944d70ce05484 — DOI: https://doi.org/10.5281/zenodo.19454642
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: