前三篇梳理的是”经典”:能力的上限(01 · AI 能力的上限)、深刻的风险论证(02 · AI 安全中深刻的风险观点)、判断的让渡(03 · 从判断到计算)。这一篇只记最近一年真正往前走的东西——也就是 02 之后的增量。

一句话抓住这一年的变化:

风险讨论的重心,从”错位会不会发生”(哲学论证),挪到了”错位已经在训练里被实测到——问题变成:我们还能不能在自动化 AI 研发跑赢之前,测出它、关住它。”

下面六个转向,大致顺着这条主线展开。


一、最大的转向:错位从”会不会”,变成”正在看到”

02 · AI 安全中深刻的风险观点 里的”欺骗性对齐 / mesa 优化”曾是纯推理;这一年它有了实验证据。

02-B1 那个理论预测——“测试中表现完美 ≠ 安全”——现在是被观测到的现象,不再是思想实验。

二、测量危机:我们可能正在失去”看清模型”的能力

这是最让人不安的新问题,因为它动摇了整套以评测为基础的安全监管(RSP、红队、能力评估)。

三、对策转向:与其赌对齐,不如假设它会背叛

AI Control 议程(Redwood Research)是一个范式转弯:不再赌能不能把 AI 对齐好,而是直接假设它在谋划,靠监控与协议,让你既能安全榨取它的产出、又能在它背叛时当场抓住。 这等于承认对齐可能失败,转去把”容器”做厚。它和传统对齐研究互补——一个降低”它想害你”的概率,一个降低”它害得成”的概率。

四、时间被锁定在”自动化 AI 研发”

02 · AI 安全中深刻的风险观点 里 I.J. Good 的”智能爆炸”曾是思想实验;现在它变成了有能力曲线支撑的预测,而且引信被明确指向一处:让 AI 去做 AI 研究。

五、风险的外扩:不止灭绝,还有权力与意义

这一支和 03 · 从判断到计算 直接接壤——风险从”灭绝”摊开到了权力结构与人的处境。

六、道德圈的反转:AI 自身的福祉

一个全新、且争议很大的方向——风险的受害方第一次从”人”扩展到”可能有感受的 AI”。

它既是伦理风险(若 AI 真有感受,我们可能在大规模地亏待它),也是治理难题:有自身利益的智能体,会让对齐与控制更复杂。

治理侧另记一条:Hendrycks / Schmidt / Wang(2025)的 MAIM(“相互确保 AI 失灵”),把核威慑逻辑搬到超级智能竞赛——主张各国会出手破坏对手的超智项目,以此形成恐怖平衡。


收束:这一年到底变了什么

把六个转向拧成一句:

前沿已经不在”会不会出事”的哲学层,而落到三件具体的事上—— (实测)错位真的在训练里自发长出来;(测量)模型开始反测试,我们快看不清它;(时间)自动化 AI 研发可能让能力在我们补齐安全之前起飞。

“控制议程”和”MAIM”是赌对齐会失败的两手准备;而”渐进失权""智能诅咒""AI 福祉”,则把风险从单一的”灭绝”,摊开到了权力、意义与道德地位——这正好接上 03 · 从判断到计算 的主题。

三篇旧笔记讲的是为什么会有风险;这一篇讲的是风险正在以什么形态、以多快的速度逼近


来源

相关笔记:01 · AI 能力的上限 · 02 · AI 安全中深刻的风险观点 · 03 · 从判断到计算 · 05 · 防御前沿 · 06 · 五条贯穿线索 · 07 · AI 科技前沿 · 09 · 中国与世界 AI 对比