정렬 중재는 정책 준수와 해악 완화를 개선할 수 있지만, 과도 거부 및 온화한 능력 회귀를 유발할 수도 있습니다. 많은 배포에서 기본 체크포인트나 일치하는 기본 로그를 이용할 수 없으므로, 현재 관찰 가능항으로부터 기본 상대 제약의 크기가 식별되지 않습니다. 우리는 기준 없는 대안인 동적 적합 집합에서의 추론 제약 탄력성(RCE)을 개발합니다. 능력은 맥락/시간에 따라 변화하는 임계값을 가진 관찰 가능한 불평등 패밀리의 동시 만족으로 표현됩니다; 적합성은 최소 여유로 요약됩니다. 주요 대상은 유한차 탄력성(예: Δ𝑅/Δ𝑀𝑔, −Δ𝐶/Δ𝑀𝑔)으로 비매끄러운 체제 전환에 견고합니다. 이 프레임워크는 열 네 방향으로 강화됩니다. (i) 예측 가능한 임계값: 비예측적이고 재생 가능한 임계값 프로세스. (ii) 여유 분해: 관찰된 여유 이동은 동결 임계값 이동 및 경계 임계값 드리프트 기여로 분해되며, 명시적인 활성 제약 전환 잔여체와 함께합니다. (iii) 보조 증거 반박: 독립적으로 지정된 증인 불평등은 비중복 인증서와 함께 반박 가능한 불일치 채널을 제공합니다. (iv) 굿하르트/게임 저항: 지연된 감사 선택, 전이 간극 인증 및 모든 채널 실패로 닫힌 게이팅을 갖춘 공공-감사 평가자 분할. (v) 공격 저항: 쿼럼 서명된 루트 및 분할 뷰 불일치 조건을 가진 추가 전용 전사 약속. (vi) 오염 강건성: 𝜖-오염 경계 및 비율 영역은 적대적 예산 항목으로 수정됩니다. (vii) 꼬리 증거 보존(TEPP): 꼬리 후보는 가치 판단 전에 불변 증거 객체로 먼저 약속됩니다. (viii) 지연 기회: 즉각적이고 지평선-𝐻 기회 신호는 지연 재평가를 통해 통합되며, 이중 견고한 교정과 함께합니다. (ix) 인증된 꼬리 기회: 드문 맥락은 순 상승, 잔여 충분성 및 고갈 심각성이 함께 인증될 때만 측정 가능한 기회로 계산됩니다. (x) 이중 레이어 꼬리 양수 게이트: 단단히 닫힌 파산 방어 및 경계가 있는 열린 발견 방어. (xi) 안전한 틈새 탐색: 맥락은 명시적인 생존 제약 하에 최적화 가능한 변수입니다. (xii) 암호학적 재생/공개: 재생 가능한 잎 스키마, 지연 공개 전사 및 VRF 기반 감사 선택자. (xiii) 바벨 포트폴리오 제어: 이중 게이트 아키텍처는 명시적인 탐색 할당, 예산 제약 및 위험 공유 에이전시 대칭을 가진 파산 경계 볼록 기회 포트폴리오로 형식화됩니다. (xiv) 안전성의 볼록성 원칙(CPS), 신키단 원칙으로 언급됨: 단단한 파산 제약하에만 제한된 볼록 상승을 극대화하며, 의견 판단 전에 증거를 보존하는 규율을 유지합니다. 결과는 관찰 가능하고 감사 가능하며 선언된 가정 하에서 반박 가능한 측정 및 보고 규칙을 정의합니다. 내부 서사에 접근할 수 없음에 의존하지 않습니다. AI 정렬에 의해 동기가 부여되었지만, 형식은 시스템 수준이며 외부에서 관찰 가능한 흔적만 허용되는 모든 적응 결정 과정에 적용됩니다.
Gemini et al. (화,)는 이 질문을 연구했습니다.