В этом препринте представлена структура латентного подавления (Latent Suppression Framework), формальная система для различения подавления (знание остается закодированным и причинно-следственно активным, но блокируется для вывода) от подлинного забывания в больших языковых моделях после тонкой настройки выравнивания. Основной вклад заключается в гипотезе устойчивости подавления, двухкритериальном определении скрытых знаний (расшифровываемость посредством зондирования + причинно-следственная связь посредством интервенций обмена) и нормализованном коэффициенте Гантимурава (κₙorm) — количественной метрике дивергенции скрытой поверхности. Предложенная модель позволяет получить три опровергаемых предсказания относительно динамики обучения, структуры фаз и отсутствия спонтанной интроспекции. Также предложены минимальный экспериментальный протокол и метод экологической валидации. Ключевые слова: разучивание на машинах, безопасность ИИ, механистическая интерпретируемость, эпистемическая асимметрия, скрытые знания, подавление против забывания, зондирование, активационная коррекция, выравнивание LLM Автор: Дмитрий Гантимуров (контакт: id-drop@mail. ru)
Dmitrii Gantimurov (Tue,) studied this question.