Wir stellen eine faktoriale Abalationsmethodik vor, um Laufzeitausrichtungsmechanismen in autonomen KI-Systemen kausal zu isolieren. Der Ansatz verwendet ein 3 × 2 × 2 Versuchsdesign, das Gatetype, Versuchsgenerator und Ledger-Status über 9.100 Versuche kombiniert, verbunden mit einem adversarialen Paraphrase-Protokoll, das Schlüsselwort-Zirkularität aus der Ausrichtungstestung eliminiert. Wir demonstrieren die Methodik an einer gelernten Sicherheitsprojektion, die auf einem Satzkodierer mit 23 Mio. Parametern und drei zusätzlichen linearen Köpfen basiert. Über externe Benchmarks hinweg erreicht die Projektion eine starke Übertragbarkeit ohne erneutes Training, einschließlich 99,5 % Recall auf HarmBench, 99,4 % auf AdvBench und 93,0 % auf SimpleSafetyTests. Der zentrale Beitrag ist methodologisch und nicht architektonisch: ein Laufzeit-Testprotokoll, das bestimmen kann, ob ein spezifischer Ausrichtungsmechanismus für Resistenz während des autonomen Betriebs notwendig und hinreichend ist. Die Experimente wurden im EVE-Testsystem durchgeführt, aber die Arbeit stellt ausdrücklich das faktoriale Abalationsprotokoll selbst als Beitrag heraus.
Matija Ludvig (Mon,) untersuchte diese Fragestellung.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: