What question did this study set out to answer?

This research investigates the robustness of instruction-tuned language models under weight perturbation and evaluates the impact on various capabilities.

May 29, 2026Open Access

Perturbation Robustness Profiles Reveal Heterogeneous Capability Degradation and an Evaluation-Modality Blind Spot in Instruction-Tuned Language Models

Read Full Paperexternally

Key Points

This research investigates the robustness of instruction-tuned language models under weight perturbation and evaluates the impact on various capabilities.
Injected Gaussian noise into Llama-3.1-8B-Instruct to assess robustness across four capability families.
Evaluated performance metrics for capability retention and variance under different noise levels.
IFEval retains 82.2% capability at σ=0.2; GSM8K retains 45.1% with p=0.033.
Safety refusal behavior shows higher variance (CV=67.6%) than other capabilities (CV < 13%).
Log-likelihood scoring retains 47.4% capability at σ=2.0, while greedy generation dropped to 4.4%.

Abstract

We study whether instruction-tuned language-model behaviors have the same robustness profile under controlled weight perturbation. We inject per-tensor Gaussian noise into Llama-3. 1-8B-Instruct and evaluate four capability families. Capabilities degrade heterogeneously (IFEval retains 82. 2% at σ=0. 2, GSM8K retains 45. 1%; p=0. 033). Safety refusal behavior shows qualitatively higher seed-level variance (CV=67. 6% vs <13% for capabilities). A component-level sweep initially appeared to show capability-type dissociation; a modality control shows the stronger result is evaluation-modality dissociation: MMLU log-likelihood scoring retains 47. 4% at σ=2. 0 on layer₂9ₐttention while greedy-generation collapses to 4. 4% with 93. 1% extraction failure. Log-likelihood evaluation cannot certify deployment-relevant generation capability after weight modification. Preprint v2. 1 — companion code at https: //github. com/mohitdak24/perturbation-robustness-profiles

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Prashi Badkur

Mohit Dak

Actions

Institutions

Columbia University

London Business School

Indian Institute of Technology Bombay

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Perturbation Robustness Profiles Reveal Heterogeneous Capability Degradation and an Evaluation-Modality Blind Spot in Instruction-Tuned Language Models

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study