우리는 경계 실패의 세 축을 따라 조직된 시스템 붕괴의 여섯 가지 모드를 제시합니다. 원래 인간-AI 협력 시스템(“초일관성”)의 실패 모드를 설명하기 위해 개발된 이 분류학은 생물학적 시스템(자가면역 질환, 섬유증, 장기 부전, 암, 부정맥, 패혈증), 사회 시스템(제도적 포획, 경직화, 혁명, 분열, 양극화, 정보 과부하), 그리고 인공지능 시스템(아첨, 모드 붕괴, 보상 해킹, 목표 불일치, 훈련 불안정성, 재앙적 망각)에 걸쳐 구조적으로 평행한 매핑을 생성합니다. 우리는 이러한 구조적 평행성이 활동적인 경계 규제를 통해 자가 유지를 하는 모든 복잡한 시스템들이 실패 기하학을 공유하기 때문에 발생한다는 것을 제안합니다. 이 분류학의 주요 가치는 분류에 있는 것이 아니라 실패 연쇄와 모드 간의 전이 역학을 예측하는 데 있습니다. AI 시스템을 위한 네 가지 검증 가능 예측을 제시하고 검증을 위한 실험적 접근 방법을 개 outline합니다.
Niall IM Ryan(Sat,)이 이 질문을 연구했습니다.