What type of study is this?

This is a Quantitative Study study.

October 5, 2025Open Access

Eine vergleichende Analyse von sparsamen Autoencodern und Aktivierungsunterschieden bei der Steuerung von Sprachmodellen

Key Points

Die Steuerung eines sparsamen Autoencoders führt zu erheblichen Verbesserungen der Ausgabewqualität, insbesondere bei Denkaufgaben.
Empirische Ergebnisse zeigen, dass sparsamen Autoencoder bei Benchmarks für mathematisches Denken besser abschnitten als Methoden des mittleren Aktivierungsunterschieds.
Die Annahme einer tokenweisen abnehmenden Steuerungsstrategie verbessert die Effektivität sparsamer Autoencoder bei der Generierung kohärenter Ausgaben.
Die Fokussierung auf die top-1 SAE-Latenz eliminiert effektiv nicht-semantische Merkmale und führt zu einer verbesserten Inferenzqualität.

Abstract

Sparse Autoencoder (SAEs) haben sich kürzlich als leistungsfähiges Werkzeug zur Steuerung von Sprachmodellen erwiesen. Frühere Arbeiten haben top-k SAE-Latenzen für die Steuerung untersucht, aber wir beobachten, dass viele Dimensionen unter den top-k Latenzen nicht-semantische Merkmale wie Interpunktion und nicht semantische Attribute wie Instruktionen erfassen. Um dies zu adressieren, schlagen wir vor, uns auf eine einzige, relevanteste SAE-Latenz (top-1) zu konzentrieren und redundante Merkmale zu eliminieren. Zudem identifizieren wir eine Einschränkung der konstanten SAE-Steuerung, die oft degenerierte Ausgaben wie sich wiederholende Einzelwörter produziert. Um dies zu mildern, führen wir eine tokenweise abnehmende Steuerungsstrategie ein, die genauere Vergleiche mit Basislinien des mittleren Aktivierungsunterschieds ermöglicht. Empirisch zeigen wir, dass die Steuerung einer mit Denken assoziierten SAE-Latenz zuverlässig schrittweises mathematisches Denken hervorrufen und die Inferenzqualität verbessern kann, was funktionell dem Effekt des Hinzufügens eines leitenden Tokens ähnelt. Unsere Ergebnisse zeigen, dass SAEs bei Benchmarks für mathematisches Denken besser abschnitten als Methoden des mittleren Aktivierungsunterschieds und deren Leistung bei IF-Eval entsprachen.

Read Full Paperexternally

Bookmark

View Full Paper

Cite This Study

Jiaqing Xie (Mi,) untersuchte diese Frage.

synapsesocial.com/papers/68e25382d6d66a53c24748c1 https://doi.org/https://doi.org/10.48550/arxiv.2510.01246

Bookmark

View Full Paper