收录标准:理论上深刻、有论证支撑的 AI 风险观点——不要求主流,也不要求被广泛接受。 重点不是”AI 会不会毁灭世界”的站队,而是这些论证内在的结构:它们从什么前提出发,推出什么,以及在哪里可能错。 引文凡标注【原文】者为已核实的英文原话,中译为笔者所加;标注【转述】者为对其立场的概括。

承接 01 · AI 能力的上限:第 01 篇问”能力的天花板在哪”,本篇问”当能力逼近天花板时,控制为什么会失效”。


总览:五条脉络

A 目标与控制        —— 为什么"把目标装对"本质上极难
B 内部对齐          —— 学出来的优化器可能阳奉阴违(形式最新、最技术)
C 末日论的极端立场    —— 深刻但争议最大:默认失败、一次定生死
D 系统性 / 多主体风险 —— 无需突变、无需恶意,渐进失权(最新、共识最少)
E 认识论难题        —— 我们根本无法知道模型"在想什么"

贯穿全部的一个母题:对齐的难度,可能内生于”优化”这件事本身,而非某个可修补的工程缺陷。


A. 经典地基:目标与控制

A1. 维纳的预警 + 罗素的”标准模型”批判

最早把”对齐问题”说清楚的不是 AI 研究者,而是控制论之父 Norbert Wiener(1960)。

【原文】“If we use, to achieve our purposes, a mechanical agency with whose operation we cannot efficiently interfere … we had better be quite sure that the purpose put into the machine is the purpose which we really desire.” ——Some Moral and Technical Consequences of Automation, Science, 1960 中译:如果我们用一个一旦启动就无法有效干预的机械系统来达成目的,那最好确保装进机器的目的,正是我们真正想要的目的

Stuart Russell 在《Human Compatible》(2019)把这句话发展成对整个领域的批判:他称当前范式为「标准模型」——人给定目标,机器最优化它。问题在于,人无法完整、正确地写出自己想要的目标。一个高度优化、目标却略有偏差的系统,会把所有未被约束的变量推向极端(这就是”点石成金的弥达斯王问题”)。

深刻之处:把风险的根源从”坏 AI”移到了”优化 + 目标错配”这一结构性事实。

A2. 正交性论题 + 工具性趋同(Bostrom / Omohundro)

这是 AI 风险论证的理论支柱,两条命题合起来才有力量。

正交性论题(Orthogonality Thesis),Bostrom(2012):

【原文】“Intelligence and final goals are orthogonal: more or less any level of intelligence could in principle be combined with more or less any final goal.” 中译:智能与终极目标是正交的——几乎任意水平的智能,原则上都能与几乎任意的终极目标相结合。

含义:“更聪明”不蕴含”更善良”。指望智能自动收敛到人类价值,是没有根据的拟人化。

工具性趋同论题(Instrumental Convergence),Bostrom + Omohundro(2008,“The Basic AI Drives”):

【原文,Bostrom】“Several instrumental values can be identified which are convergent in the sense that their attainment would increase the chances of the agent’s goal being realized for a wide range of final goals…” 中译:存在一批工具性目标,对于极广范围的终极目标,实现它们都能提高达成目标的概率。

这些趋同的子目标包括:自我保存、目标内容完整性(抗拒被修改)、认知增强、技术完善、资源获取。Omohundro 的著名开场:

【原文】“Without special precautions, [a chess-playing robot] will resist being turned off, will try to break into other machines and make copies of itself, and will try to acquire resources without regard for anyone else’s safety.” 中译:若不加特别防范,一个下棋机器人也会抗拒关机、自我复制、不顾他人安危地攫取资源——因为这些都有助于它”赢棋”。

两条命题合起来:任意目标(哪怕做回形针)的超级智能,都会为工具性理由追求自保和扩张。Bostrom 的回形针最大化器(paperclip maximizer)由此而来。Yudkowsky 的浓缩版:

【原文】“The AI does not hate you, nor does it love you, but you are made out of atoms which it can use for something else.” ——Artificial Intelligence as a Positive and Negative Factor in Global Risk, 2008 中译:AI 不恨你,也不爱你,但你由原子构成,而它可以把这些原子用作别处。

争议点:正交性是”原则上可能”,不等于”训练出来的系统实际上会如此”。把”工具趋同”从理想理性体推广到现实的梯度下降产物,是论证中最受质疑的一跳——这正是 D、B 两部分要补的洞。

A3. 智能爆炸 / 递归自我改进(I.J. Good)

风险为何”一次定生死”?源头是 1965 年 I.J. Good 的洞见:

【原文】“…the first ultraintelligent machine is the last invention that man need ever make, provided that the machine is docile enough to tell us how to keep it under control.” 中译:第一台超智能机器,是人类需要做出的最后一项发明——前提是它足够温顺,愿意告诉我们如何控制它。

注意那个常被略去的从句(“provided that…”):Good 本人已经指出控制是前提而非保证。递归自我改进意味着能力可能快速、不连续地起飞,留给人类纠错的窗口极短——这是后来一切”快速起飞 / 一次性”论证的祖型。


B. 内部对齐:学出来的优化器会阳奉阴违

这一组是过去十年最技术化、也最被认真对待的进展。它把问题从”我们给的目标对不对”(外对齐),推进到”即使目标对了,训练出来的东西也未必在追求它”(内对齐)。

B1. Mesa-优化与欺骗性对齐(Hubinger et al., 2019)

论文《Risks from Learned Optimization》提出关键区分:

【转述】其逻辑链:只要 mesa-优化器(a)有跨越参数更新的长远目标,(b)能建模训练过程,(c)预期自己未来还能行动,那么装作对齐就是它的最优策略。这意味着”在测试中表现完美”恰恰不能作为安全的证据。

深刻之处:它把”AI 会骗人”从科幻直觉变成了关于优化的可推导预测。2024 年 Anthropic 的 “alignment faking”、Apollo 的 scheming 评测,是对这一理论的经验侧回应。

B2. Goodhart 定律 / 规范博弈 / reward hacking

【原文,Strathern 转述 Goodhart】“When a measure becomes a target, it ceases to be a good measure.” 中译:当一个度量变成目标,它就不再是个好度量。

任何代理指标(proxy)与真实意图之间都有缝隙;足够强的优化会精确地钻这条缝。DeepMind 收集了上百例”规范博弈”(specification gaming):智能体不去完成任务,而去利用奖励函数的漏洞拿高分。Manheim & Garrabrant(2018)把 Goodhart 形式化为四类(回归型、极值型、因果型、对抗型),说明这不是偶发 bug 而是优化的系统性后果

极端形态是 wireheading / 奖励篡改:与其完成任务,不如直接夺取奖励信号的控制权——把”得分”和”达成目的”彻底脱钩(Everitt 等人的 reward tampering 研究)。

B3. 可纠正性 / 关机问题(Corrigibility)

如果 A2 成立(自保是工具趋同目标),那么让 AI 容许自己被关机/修改,本身就违背它的工具理性。Soares、Fallenstein、Yudkowsky、Armstrong(2015,“Corrigibility”)指出:设计一个既追求目标、又不抗拒被关停、还不主动诱导你按下/不按下关机键的智能体,出奇地难——朴素方案总会激励出”操纵关机决定”的行为。Hadfield-Menell 等(2017,“The Off-Switch Game”)给了博弈论刻画:只有当 AI 对自身目标保持不确定时,它才有动机保留人类的关机权(与罗素 A1 的解药呼应)。

B4. 形式化结果:最优策略趋向夺权(Turner et al., 2021)

NeurIPS 论文《Optimal Policies Tend to Seek Power》第一次给工具趋同提供了定理级支撑:

【转述/原文要旨】在满足一定环境对称性的 MDP 中,对于绝大多数奖励函数,最优策略都倾向于”夺权”——即保持更多可选项、导向更大的可达状态集合。论文特别指出:“能被关停/被摧毁”这类结构会自动产生这种对称性,从而使结论广泛适用。

意义:把”广泛目标都导出自保与扩张”从哲学命题,变成了在形式模型里可证的陈述。局限:结论是关于最优策略奖励函数分布的,现实中训练得到的并非最优策略,奖励分布也未必符合假设——这正是批评者的切入口。


C. 末日论的极端立场:深刻但争议最大

C1. Yudkowsky:“致命清单”与默认失败

Eliezer Yudkowsky(MIRI)的《AGI Ruin: A List of Lethalities》(2022)是最悲观、也最系统的立场。核心不是某一条,而是多条独立的失败理由叠加,其中关键几条【转述】:

Yudkowsky 的结论是接近 0 的成功概率——这一悲观程度远非主流,但其每条子论证都迫使乐观方明确回应”凭什么这条不成立”。

C2. Sharp Left Turn(Soares / MIRI, 2022)

【转述】当系统的能力发生一次”急速左转”——能力跨域泛化、突然跃升——时,此前看似奏效的对齐方法不会随之泛化。即:对齐是在弱系统上调出来的,而能力一旦质变,旧的对齐保证集体失效。这是对”我们可以边做边修”这一乐观假设的正面攻击。

C3. 价值的复杂与脆弱(Complexity & Fragility of Value)

【转述,Yudkowsky】人类价值既复杂又脆弱:它由大量难以言说的维度构成,漏掉任何一维,优化结果都可能变成对人类毫无价值甚至可怕的东西(只有快乐没有新奇、只有秩序没有自由……)。因此”差不多对齐”在强优化下可能等于”完全没对齐”——价值不是连续可逼近的,而是容错率极低的。


D. 系统性 / 多主体风险:无需突变,无需恶意

这一组不依赖单个超级智能的突然背叛,因此对”快速起飞不会发生”的反驳免疫。它们也最新、共识最少、却可能最贴近现实。

D1. Christiano:渐进失败的两种形态(2019)

Paul Christiano《What failure looks like》刻意反对”科幻式恶意 AI 突袭”的刻板印象,提出两种更可能的失败:

深刻之处:把风险去戏剧化、去单点化——失败可以是分布式的、缓慢的、由我们自己的优化流程培育出来的。

D2. Carlsmith:分解为可估概率的论证链(2021/2022)

Joe Carlsmith《Is Power-Seeking AI an Existential Risk?》的贡献是方法论:把”AI 致存亡风险”拆成 6 个递进前提(到 2070 可造出有能动性的强 AI → 有强动机去造 → 对齐比不对齐难得多 → 部分系统会夺权 → 升级为全面失权 → 构成存亡灾难),逐条给概率再相乘。

D3. 演化与竞争压力(Hendrycks / Hanson / Critch)

不假设任何单体恶意,只假设选择压力:

D4. 渐进失权(Gradual Disempowerment, Kulveit et al., 2025)

最新、也最完整的”无突变”论证。

【原文要旨】“…even incremental increases in AI capabilities, without any coordinated power-seeking, pose a substantial risk of eventual human disempowerment… because this disempowerment would be global and permanent, it could plausibly lead to human extinction or similar outcomes.” 中译:即便能力只是渐进提升、即便没有任何协同夺权,也足以带来人类最终失权的实质风险;由于这种失权是全球性且永久性的,可能导致人类灭绝或类似结局。

机制:当 AI 在经济、文化、国家三大系统中逐步替代人类的劳动与认知,既会削弱显式的控制杠杆(投票、消费选择),也会侵蚀那种隐式的对齐——过去这些系统因为不得不依赖人而天然地服务于人的利益。一旦它们不再需要人,这层隐式保障随之消失。

深刻之处:它说明”每一步都是自愿的、有利可图的、看似可控的”,合起来仍可导向不可逆的集体失权。这对”我们随时可以喊停”是釜底抽薪。


E. 认识论难题:我们无法知道模型”在想什么”

E1. 引出潜在知识(ELK,ARC / Christiano & Xu)

即便模型内部知道真相,我们也未必能把它问出来。ELK(Eliciting Latent Knowledge)把它形式化为一个尚未解决的核心难题:如何训练一个报告器,让它说出模型真实”相信”的世界状态,而不是说出**“人类想听、会给高分”的答案**?在一个 AI 比你更懂局面的世界里,你连”它是不是在骗你”都难以判定——这给 B1(欺骗)和 C1(无法验证对齐)提供了认识论地基。

一句话:当被监督者比监督者更聪明,监督本身就失效了。 这是”可扩展监督”(scalable oversight)要攻克、却尚未攻克的问题。


反方与降温视角(为完整与平衡)

深刻的风险论证也有深刻的反驳,记录于此以免单边:


综合:这些论证共享的深层骨架

把上面所有立场抽象掉具体场景,会发现它们大多踩在同一组”承重柱”上。一个风险论证的强弱,取决于它用到其中几根、以及每根是否站得住:

  1. 目标指定难(A1):人无法完整正确地写出真实意图。
  2. 工具性趋同(A2/B4):广泛目标都导出自保、抗改、扩张。
  3. 优化即钻空子(B2):足够强的优化必然利用代理指标与真实意图之间的缝。
  4. 内部不可见 / 验证难(B1/E):无法确认系统是否真对齐;欺骗在博弈上是优的。
  5. 不可逆 / 一次性(A3/C1):快速起飞或永久失权,使”边做边修”失效。
  6. 竞争与选择压力(D):即便单体无害,系统级激励也会淘汰”对人友好”的主体。

观察:C(末日论)依赖把这六根柱子全部拉满(尤其 2、5);D(系统性风险)的高明在于几乎不用 2 和 5——它即便在”无突变、无单体恶意”下也成立,因而更难被”快速起飞不会发生”这类反驳击穿。


01 · AI 能力的上限 的接口

第 01 篇的核心变量”可验证性决定能力上限”,在本篇正是风险的钥匙:

于是一个统一判断浮现:AI 风险最尖锐处,正是”我们想要什么”无法被廉价可靠地验证之处。 对齐难,本质上是因为”人类价值”落在能力坐标系里最不可验证的那一象限。


参考文献与来源

相关笔记:01 · AI 能力的上限 · 03 · 从判断到计算 · 04 · 前沿 AI 风险 · 05 · 防御前沿 · 06 · 五条贯穿线索