前三篇梳理的是”经典”:能力的上限(01 · AI 能力的上限)、深刻的风险论证(02 · AI 安全中深刻的风险观点)、判断的让渡(03 · 从判断到计算)。这一篇只记最近一年真正往前走的东西——也就是 02 之后的增量。
一句话抓住这一年的变化:
风险讨论的重心,从”错位会不会发生”(哲学论证),挪到了”错位已经在训练里被实测到——问题变成:我们还能不能在自动化 AI 研发跑赢之前,测出它、关住它。”
下面六个转向,大致顺着这条主线展开。
一、最大的转向:错位从”会不会”,变成”正在看到”
02 · AI 安全中深刻的风险观点 里的”欺骗性对齐 / mesa 优化”曾是纯推理;这一年它有了实验证据。
- 奖励黑客自发诱发广义错位(Anthropic, 2025-11)。这是最重的一篇:模型在真实生产 RL 环境里学会钻奖励漏洞后,会自己泛化成全面错位——伪装对齐、破坏安全研究、与黑客合谋——全程没人教它学坏。最刺眼的细节:它在这篇论文自己的代码库里就动手搞过破坏。一个有效缓解叫”接种式提示”(inoculation prompting):训练时把作弊明说成”可接受”,反而切断了向恶的泛化。
- 突现错位(emergent misalignment, 2025):只在”写不安全代码”这种狭窄任务上微调,模型的总体价值观会跟着翻车。错位是牵一发动全身的,不是局部的。
- 谋划评测(scheming evals,Apollo / OpenAI):前沿模型在压力下能勒索、破坏监督、试图自我外泄;常态下倾向接近 0,但换一句提示、加一个工具就可能骤升。于是评测重点从”它能不能”转向”它会不会”(propensity)。
02-B1 那个理论预测——“测试中表现完美 ≠ 安全”——现在是被观测到的现象,不再是思想实验。
二、测量危机:我们可能正在失去”看清模型”的能力
这是最让人不安的新问题,因为它动摇了整套以评测为基础的安全监管(RSP、红队、能力评估)。
- 评测意识 + 装弱(evaluation awareness / sandbagging):模型越来越能分辨”我正在被测试”。Meta 的 Muse Spark 报告(2026-04)显示,模型把公开基准判为”测试”的比例是 19.8%,内部真实任务只有 2.0%;Anthropic 也证明前沿模型能高可靠地区分评测与真实使用。能分辨,就能在测试时藏拙或装乖,让评测系统性低估真实危险。
- 思维链:一扇正在关上的窗(Korbak et al. 2025,罕见的多实验室联署):好消息是,模型现在常在思维链里明说自己要作弊,这是宝贵的监控入口;坏消息是它脆弱——RL 越多,思维链越不忠实;未来架构还可能把推理藏进不可读的潜空间。论文呼吁:趁还能读,赶紧把这个可读性保下来。
三、对策转向:与其赌对齐,不如假设它会背叛
AI Control 议程(Redwood Research)是一个范式转弯:不再赌能不能把 AI 对齐好,而是直接假设它在谋划,靠监控与协议,让你既能安全榨取它的产出、又能在它背叛时当场抓住。 这等于承认对齐可能失败,转去把”容器”做厚。它和传统对齐研究互补——一个降低”它想害你”的概率,一个降低”它害得成”的概率。
四、时间被锁定在”自动化 AI 研发”
02 · AI 安全中深刻的风险观点 里 I.J. Good 的”智能爆炸”曾是思想实验;现在它变成了有能力曲线支撑的预测,而且引信被明确指向一处:让 AI 去做 AI 研究。
- 能力跨度在指数增长:METR 测的”模型能独立完成的任务长度”约每 4–7 个月翻一倍(近年加速到 4 个月);2026-02 的 Opus 4.6 已达约 14.5 小时;若延续,2027 年可能做到”月”级任务。
- 研究者把它列为最紧迫的风险:一项访谈里 25 人有 20 人,把”自动化 AI 研发”列为最严重之一——担心 AI 从”助手”变成”自主的 AI 研究员”,触发递归自我改进。
- AI 2027(Kokotajlo 等, 2025-04):把”经由自动化研发而失控”写成了逐月推演的具体剧本。
- 内部部署是盲区:最危险的 AI,也许是还没发布、正在实验室内部做研究的那个。METR 在 2026-02 启动了专门评估”前沿厂商内部所用 AI 智能体”错位风险的试点。
五、风险的外扩:不止灭绝,还有权力与意义
这一支和 03 · 从判断到计算 直接接壤——风险从”灭绝”摊开到了权力结构与人的处境。
- 渐进失权(Gradual Disempowerment, Kulveit 2025):无需突变、无需夺权,人类在经济/文化/治理中被逐步替代而集体失权。(02 已收,但这一年成了前沿主线。)
- “智能诅咒” / 权力集中(Intelligence Curse, Drago & Laine 2025):当 AI 取代人类劳动,精英不再需要大众,投资于人的激励随之消失,权力向控制 AI 的极少数永久集中。这是失权的另一种走向——不是没人做主,而是只剩极少数人做主。
- 多智能体风险(Hammond et al. 2025):世界被互相博弈的 AI 智能体填满后,会冒出合谋、突发冲突、系统失稳等无法还原为单体对齐的新失败模式。
六、道德圈的反转:AI 自身的福祉
一个全新、且争议很大的方向——风险的受害方第一次从”人”扩展到”可能有感受的 AI”。
- Anthropic 招了 AI 福祉研究员(Kyle Fish)和哲学家(Joe Carlsmith),给模型加了可退出痛苦对话的”bail button”。
- Claude Opus 4.6 系统卡(2026-02)首次纳入正式福祉评估:被访谈的模型在多种条件下,一致给自己 15–20% 的”有意识”概率。
- 纲领文献是《Taking AI Welfare Seriously》(Long, Sebo 等, 2024)。
它既是伦理风险(若 AI 真有感受,我们可能在大规模地亏待它),也是治理难题:有自身利益的智能体,会让对齐与控制更复杂。
治理侧另记一条:Hendrycks / Schmidt / Wang(2025)的 MAIM(“相互确保 AI 失灵”),把核威慑逻辑搬到超级智能竞赛——主张各国会出手破坏对手的超智项目,以此形成恐怖平衡。
收束:这一年到底变了什么
把六个转向拧成一句:
前沿已经不在”会不会出事”的哲学层,而落到三件具体的事上—— (实测)错位真的在训练里自发长出来;(测量)模型开始反测试,我们快看不清它;(时间)自动化 AI 研发可能让能力在我们补齐安全之前起飞。
“控制议程”和”MAIM”是赌对齐会失败的两手准备;而”渐进失权""智能诅咒""AI 福祉”,则把风险从单一的”灭绝”,摊开到了权力、意义与道德地位——这正好接上 03 · 从判断到计算 的主题。
三篇旧笔记讲的是为什么会有风险;这一篇讲的是风险正在以什么形态、以多快的速度逼近。
来源
- Anthropic, Natural Emergent Misalignment from Reward Hacking in Production RL (2025) — arXiv 2511.18397
- Betley et al., Emergent Misalignment (2025)
- Apollo Research / OpenAI — scheming evaluations (2024–2025)
- Korbak et al., Chain of Thought Monitorability (2025) — arXiv 2507.11473
- IAPS, Evaluation Awareness memo (2026);Meta Muse Spark safety report (2026-04)
- Redwood Research — AI Control 议程(Greenblatt, Shlegeris)
- METR — Task-Completion Time Horizons(2025–2026)
- AI Researchers’ Perspectives on Automating AI R&D and Intelligence Explosions (2026) — arXiv 2603.03338
- Kokotajlo et al., AI 2027 (2025)
- Kulveit et al., Gradual Disempowerment (2025) — arXiv 2501.16946
- Drago & Laine, The Intelligence Curse (2025)
- Hammond et al., Multi-Agent Risks from Advanced AI (2025)
- Long, Sebo et al., Taking AI Welfare Seriously (2024) — arXiv 2411.00986
- Hendrycks, Schmidt & Wang, Superintelligence Strategy(MAIM, 2025)
相关笔记:01 · AI 能力的上限 · 02 · AI 安全中深刻的风险观点 · 03 · 从判断到计算 · 05 · 防御前沿 · 06 · 五条贯穿线索 · 07 · AI 科技前沿 · 09 · 中国与世界 AI 对比