Sparse Autoencoder (SAEs) haben sich kürzlich als leistungsfähiges Werkzeug zur Steuerung von Sprachmodellen erwiesen. Frühere Arbeiten haben top-k SAE-Latenzen für die Steuerung untersucht, aber wir beobachten, dass viele Dimensionen unter den top-k Latenzen nicht-semantische Merkmale wie Interpunktion und nicht semantische Attribute wie Instruktionen erfassen. Um dies zu adressieren, schlagen wir vor, uns auf eine einzige, relevanteste SAE-Latenz (top-1) zu konzentrieren und redundante Merkmale zu eliminieren. Zudem identifizieren wir eine Einschränkung der konstanten SAE-Steuerung, die oft degenerierte Ausgaben wie sich wiederholende Einzelwörter produziert. Um dies zu mildern, führen wir eine tokenweise abnehmende Steuerungsstrategie ein, die genauere Vergleiche mit Basislinien des mittleren Aktivierungsunterschieds ermöglicht. Empirisch zeigen wir, dass die Steuerung einer mit Denken assoziierten SAE-Latenz zuverlässig schrittweises mathematisches Denken hervorrufen und die Inferenzqualität verbessern kann, was funktionell dem Effekt des Hinzufügens eines leitenden Tokens ähnelt. Unsere Ergebnisse zeigen, dass SAEs bei Benchmarks für mathematisches Denken besser abschnitten als Methoden des mittleren Aktivierungsunterschieds und deren Leistung bei IF-Eval entsprachen.
Jiaqing Xie (Mi,) untersuchte diese Frage.