What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

Hyperdimensionale Probe: Dekodierung von LLM-Darstellungen über Vektor-Symbolarchitekturen

Key Points

Die Hyperdimensionale Probe extrahiert zuverlässig bedeutungsvolle Konzepte aus großen Sprachmodellen und verbessert deren Interpretierbarkeit.
Experimentelle Ergebnisse zeigen eine effektive Dekodierung über verschiedene LLMs und Domänen hinweg und decken wichtige Merkmale innerhalb der Modelle auf.
Die Methodologie kombiniert neuronale Proben und vektorielle symbolische Architekturen, um Einblicke in die internen Darstellungen von LLMs zu erweitern.
Dieser Fortschritt in der Interpretierbarkeit beleuchtet LLM-Fehler und könnte zukünftige Modellverbesserungen informieren.

Abstract

Trotz ihrer Fähigkeiten bleiben große Sprachmodelle (LLMs) undurchsichtig mit einem begrenzten Verständnis ihrer internen Darstellungen. Aktuelle Methoden zur Interpretierbarkeit, wie direkte Logit-Zuschreibung (DLA) und spärliche Autoencoder (SAEs), bieten aufgrund von Einschränkungen wie dem Ausgabe-Vokabular des Modells oder unklaren Funktionsnamen nur eingeschränkte Einblicke. Diese Arbeit stellt die Hyperdimensionale Probe vor, ein neuartiges Paradigma zur Dekodierung von Informationen aus dem LLM-Vektorraum. Es kombiniert Ideen aus symbolischen Darstellungen und neuronalen Proben, um den Residualstrom des Modells in interpretierbare Konzepte über Vektor-Symbolarchitekturen (VSAs) zu projizieren. Diese Probe kombiniert die Stärken von SAEs und herkömmlichen Proben und überwindet dabei deren wesentliche Einschränkungen. Wir validieren unser Dekodierungsparadigma mit kontrollierten Aufgaben zur Eingabeabschließung, indem wir den endgültigen Zustand des Modells vor der Vorhersage des nächsten Tokens bei Eingaben untersuchen, die syntaktische Musterekennung, Schlüssel-Wert-Assoziationen und abstrakte Inferenz umfassen. Außerdem bewerten wir es in einem Frage-Antwort-Setting und untersuchen den Zustand des Modells sowohl vor als auch nach der Textgenerierung. Unsere Experimente zeigen, dass unsere Probe zuverlässig bedeutungsvolle Konzepte aus verschiedenen LLMs, Einbettungsgrößen und Eingabedomen extrahiert und auch hilft, LLM-Fehler zu identifizieren. Unsere Arbeit fördert die Informationsdekodierung im LLM-Vektorraum und ermöglicht es, informativere, interpretierbare und strukturierte Merkmale aus neuronalen Darstellungen zu extrahieren.

Hyperdimensionale Probe: Dekodierung von LLM-Darstellungen über Vektor-Symbolarchitekturen

Key Points

Abstract

Cite This Study