Trotz ihrer Fähigkeiten bleiben große Sprachmodelle (LLMs) undurchsichtig mit einem begrenzten Verständnis ihrer internen Darstellungen. Aktuelle Methoden zur Interpretierbarkeit, wie direkte Logit-Zuschreibung (DLA) und spärliche Autoencoder (SAEs), bieten aufgrund von Einschränkungen wie dem Ausgabe-Vokabular des Modells oder unklaren Funktionsnamen nur eingeschränkte Einblicke. Diese Arbeit stellt die Hyperdimensionale Probe vor, ein neuartiges Paradigma zur Dekodierung von Informationen aus dem LLM-Vektorraum. Es kombiniert Ideen aus symbolischen Darstellungen und neuronalen Proben, um den Residualstrom des Modells in interpretierbare Konzepte über Vektor-Symbolarchitekturen (VSAs) zu projizieren. Diese Probe kombiniert die Stärken von SAEs und herkömmlichen Proben und überwindet dabei deren wesentliche Einschränkungen. Wir validieren unser Dekodierungsparadigma mit kontrollierten Aufgaben zur Eingabeabschließung, indem wir den endgültigen Zustand des Modells vor der Vorhersage des nächsten Tokens bei Eingaben untersuchen, die syntaktische Musterekennung, Schlüssel-Wert-Assoziationen und abstrakte Inferenz umfassen. Außerdem bewerten wir es in einem Frage-Antwort-Setting und untersuchen den Zustand des Modells sowohl vor als auch nach der Textgenerierung. Unsere Experimente zeigen, dass unsere Probe zuverlässig bedeutungsvolle Konzepte aus verschiedenen LLMs, Einbettungsgrößen und Eingabedomen extrahiert und auch hilft, LLM-Fehler zu identifizieren. Unsere Arbeit fördert die Informationsdekodierung im LLM-Vektorraum und ermöglicht es, informativere, interpretierbare und strukturierte Merkmale aus neuronalen Darstellungen zu extrahieren.
Bronzini et al. (Mon,) haben diese Frage untersucht.