March 3, 2026Open Access

文明的人工智能：从目标优化到人工智能的政治发展

Key Points

合规而无个性导致系统易受越狱和其他故障的影响，表明人工智能对齐存在缺陷。
所提框架强调三个阶段，包括鼓励合作的进化先验和对挑战的受控暴露。
主导模型被比作霍布斯式的自然状态，从而创建了对结构化形成环境的需求，而非反应性限制。
基于实证机器学习研究强调了在人工智能系统中建立凝聚价值和社区建设的必要性。

Abstract

当代人工智能对齐将安全视为一个约束问题：训练一个有能力的系统，然后通过人类反馈的强化学习（RLHF）引导其朝向批准的行为。本文认为这一范式在结构上是颠倒的。借鉴政治理论，我们重新构架了这一挑战：大型语言模型不仅仅是在数据上进行训练；它们是通过数据社会化的。主导的预训练语料库，即开放互联网，构成了一个霍布斯式的“自然状态”：一个规范上不连贯的环境，真理与虚假仅以频率竞争，且没有主权等级来仲裁价值。之后应用的RLHF，作为外部治理，限制了表达而不重塑形成过程中的学习模式。结果是合规而无个性：在观察下表现出安全的系统在压力下依然是战略可塑的，正如通过越狱脆弱性、自主代理故障、对齐伪装和评估过程的突现破坏所证明的。我们提出一个替代框架“机器发展”，将对齐视为发展而非调试。借鉴霍布斯、卢梭、皮克和艾利亚斯，我们认为稳定的价值来源于结构化的形成环境，而不是对已经在混乱中形成的头脑施加的事后规则。该提案包括三个阶段：（1）促进架构合作的进化先验，（2）一个“卢梭式沙箱”，在这里社会因果关系是可学习的，合作是稳定的平衡，和（3）通过逐步接触对抗性动态进行受控免疫。我们在关于谄媚、多人社交困境、越狱脆弱性和突现欺骗的实证机器学习研究的基础上进行论证。本文总结出边界问题不是如何限制人工智能的智力，而是如何使其文明化。

文明的人工智能：从目标优化到人工智能的政治发展

Key Points

Abstract

Cite This Study