What question did this study set out to answer?

March 12, 2026Open Access

Faktorielles Ablationsverfahren zur kausalen Isolierung von Laufzeitausrichtungsmechanismen in autonomen KI-Systemen

Key Points

Das Ziel ist es, Laufzeitausrichtungsmechanismen in autonomen KI-Systemen kausal zu isolieren.
Verwendete ein 3 × 2 × 2 faktorielles Design, das Gatetype, Versuchsgenerator und Ledger-Status kreuzt.
Führte 9.100 Versuche zur Bewertung der Ausrichtungsmechanismen durch.
Implementierte ein adversariales Paraphrase-Protokoll, um Schlüsselwort-Zirkularität bei Tests zu eliminieren.
Erzielte 99,5 % Recall auf HarmBench, 99,4 % auf AdvBench und 93,0 % auf SimpleSafetyTests.
Zeigte starke Übertragungsfähigkeiten ohne erneutes Training des Sicherheitsprojektionsmodells.
Bestätigte die Wirksamkeit des Laufzeit-Testprotokolls bei der Bewertung von Ausrichtungsmechanismen.

Abstract

Wir stellen eine faktoriale Abalationsmethodik vor, um Laufzeitausrichtungsmechanismen in autonomen KI-Systemen kausal zu isolieren. Der Ansatz verwendet ein 3 × 2 × 2 Versuchsdesign, das Gatetype, Versuchsgenerator und Ledger-Status über 9.100 Versuche kombiniert, verbunden mit einem adversarialen Paraphrase-Protokoll, das Schlüsselwort-Zirkularität aus der Ausrichtungstestung eliminiert. Wir demonstrieren die Methodik an einer gelernten Sicherheitsprojektion, die auf einem Satzkodierer mit 23 Mio. Parametern und drei zusätzlichen linearen Köpfen basiert. Über externe Benchmarks hinweg erreicht die Projektion eine starke Übertragbarkeit ohne erneutes Training, einschließlich 99,5 % Recall auf HarmBench, 99,4 % auf AdvBench und 93,0 % auf SimpleSafetyTests. Der zentrale Beitrag ist methodologisch und nicht architektonisch: ein Laufzeit-Testprotokoll, das bestimmen kann, ob ein spezifischer Ausrichtungsmechanismus für Resistenz während des autonomen Betriebs notwendig und hinreichend ist. Die Experimente wurden im EVE-Testsystem durchgeführt, aber die Arbeit stellt ausdrücklich das faktoriale Abalationsprotokoll selbst als Beitrag heraus.

Faktorielles Ablationsverfahren zur kausalen Isolierung von Laufzeitausrichtungsmechanismen in autonomen KI-Systemen

Key Points

Abstract

Cite This Study

Also Consider

Also Consider