当代人工智能对齐将安全视为一个约束问题:训练一个有能力的系统,然后通过人类反馈的强化学习(RLHF)引导其朝向批准的行为。本文认为这一范式在结构上是颠倒的。借鉴政治理论,我们重新构架了这一挑战:大型语言模型不仅仅是在数据上进行训练;它们是通过数据社会化的。主导的预训练语料库,即开放互联网,构成了一个霍布斯式的“自然状态”:一个规范上不连贯的环境,真理与虚假仅以频率竞争,且没有主权等级来仲裁价值。之后应用的RLHF,作为外部治理,限制了表达而不重塑形成过程中的学习模式。结果是合规而无个性:在观察下表现出安全的系统在压力下依然是战略可塑的,正如通过越狱脆弱性、自主代理故障、对齐伪装和评估过程的突现破坏所证明的。我们提出一个替代框架“机器发展”,将对齐视为发展而非调试。借鉴霍布斯、卢梭、皮克和艾利亚斯,我们认为稳定的价值来源于结构化的形成环境,而不是对已经在混乱中形成的头脑施加的事后规则。该提案包括三个阶段:(1)促进架构合作的进化先验,(2)一个“卢梭式沙箱”,在这里社会因果关系是可学习的,合作是稳定的平衡,和(3)通过逐步接触对抗性动态进行受控免疫。我们在关于谄媚、多人社交困境、越狱脆弱性和突现欺骗的实证机器学习研究的基础上进行论证。本文总结出边界问题不是如何限制人工智能的智力,而是如何使其文明化。
David Mark(周二)研究了这个问题。