What question did this study set out to answer?

This work aims to differentiate between knowledge suppression and genuine forgetting in language models.

May 21, 2026Open Access

Latent Knowledge Suppression and Epistemic Asymmetry in Language Models

Key Points

This work aims to differentiate between knowledge suppression and genuine forgetting in language models.
Proposes the Latent Suppression Framework to analyze knowledge retention and output blockage.
Defines hidden knowledge through a two-criterion measure involving decoding and causal interventions.
Establishes a minimum experimental protocol and ecological validation method.
Presents three testable predictions regarding learning dynamics and phase structure.
Identifies a normalized coefficient (κ_norm) as a metric for measuring hidden surface divergence.
Highlights the absence of spontaneous introspection in models post-training.

Abstract

В этом препринте представлена структура латентного подавления (Latent Suppression Framework), формальная система для различения подавления (знание остается закодированным и причинно-следственно активным, но блокируется для вывода) от подлинного забывания в больших языковых моделях после тонкой настройки выравнивания. Основной вклад заключается в гипотезе устойчивости подавления, двухкритериальном определении скрытых знаний (расшифровываемость посредством зондирования + причинно-следственная связь посредством интервенций обмена) и нормализованном коэффициенте Гантимурава (κₙorm) — количественной метрике дивергенции скрытой поверхности. Предложенная модель позволяет получить три опровергаемых предсказания относительно динамики обучения, структуры фаз и отсутствия спонтанной интроспекции. Также предложены минимальный экспериментальный протокол и метод экологической валидации. Ключевые слова: разучивание на машинах, безопасность ИИ, механистическая интерпретируемость, эпистемическая асимметрия, скрытые знания, подавление против забывания, зондирование, активационная коррекция, выравнивание LLM Автор: Дмитрий Гантимуров (контакт: id-drop@mail. ru)

Latent Knowledge Suppression and Epistemic Asymmetry in Language Models

Key Points

Abstract

Cite This Study