AI 风险研究看起来庞杂、门派林立,但它的概念和历史其实可以用五条线索串起来。掌握这五条,你就能给任何一篇新论文、一个新观点快速定位:它在哪条线索上、推进到了哪一段。
更妙的是,前四条线索各自都有一个方向——而方向惊人地一致:要么向外扩展(分析单元、利害范围),要么向下深入(技术问题的层次)。第五条则是把它们钉在一起的不变量。
这篇是本系列的”地图”;沿途会标出 01 · AI 能力的上限–05 · 防御前沿 落在哪条线索上。
线索一:认识论的成熟——从思想实验,到安全科学
这是领域的时间主轴:它”知道”风险的方式,经历了四个阶段,一段比一段硬。
- 哲学 / 思想实验期(1960–2014):Wiener、I.J. Good、Bostrom、Yudkowsky 在扶手椅上论证。武器是逻辑与类比,没有可碰的系统。
- 技术问题化(2016–2020):把恐惧翻译成研究问题。标志是 Concrete Problems in AI Safety(Amodei 等, 2016)、mesa 优化、可扩展监督——“prosaic alignment”(在真实 ML 上做对齐)登场。
- 经验观测期(2023–2026):错位第一次被实测到,不再是推演——潜伏特工、伪装对齐、突现错位、谋划评测(详见 04 · 前沿 AI 风险)。
- 安全科学 / 工程期(2025– ):领域开始自觉地模仿成熟的安全攸关学科(核电、民航、生物安全、制药),引入它们的整套装置——概率风险评估、安全论证(safety case)、纵深防御、能力阈值(CCL)、红队、事故/未遂上报、第三方审计(各国 AISI)、《国际 AI 安全报告》。这就是”安全科学”一词的由来。
这条线索里最深的张力:核电与民航的安全科学,是建立在一门成熟的”对象科学”之上的(反应堆物理、空气动力学)。而 AI 安全科学正被架设在一门尚不存在的”模型科学”之上——我们在给自己都看不懂的系统写安全论证。这就是为什么”线索二”里的可解释性是承重的:没有对象科学,安全科学就悬空。
线索二:核心技术问题的下移——外对齐 → 内对齐 → 控制
领域对”问题到底出在哪”的理解,逐层往下钻:
- 外对齐(outer):我们能把想要的东西说清楚吗?——Wiener、Russell 的”标准模型”批判、奖励错配、Goodhart 定律。(02 · AI 安全中深刻的风险观点 的 A、B 脉络)
- 内对齐(inner):就算说清了,学出来的系统真的在追求它吗?——mesa 优化、目标错误泛化、欺骗性对齐。
- 控制(control):干脆假设它不对齐——我们还能关住它吗?——AI Control 议程。(05 · 防御前沿 的第 2 条)
- 可解释性横切这三层:它想回答”到底是哪一层在失败”。
方向:从”指定意图”一路退到”即便指定失败也要兜底”。每退一步,都是因为上一步被发现不够。
线索三:分析单元的放大——单体 → 多主体 → 文明
“危险住在哪里”这个问题,答案不断变大:
- 单一超级智能:工具性趋同、智能爆炸、一次性失败——经典的 Bostrom / Yudkowsky 图景。
- 多智能体 / 竞争 / 演化:Critch 的”无主体过程”(RAAP)、Hendrycks 的自然选择论、多智能体风险——危险来自主体间的动力学,而非单个坏 AI。
- 文明 / 系统级:渐进失权、智能诅咒——没有任何一个 AI 想夺权,人类却在系统层面集体失权。(04 · 前沿 AI 风险 的第五节)
方向:向外。而且这一移动很重要——它让风险论证摆脱了对”快速起飞""单体恶意”等争议前提的依赖,因而更难被反驳。
线索四:利害的扩展——灭绝 → 失权 → 意义 → 道德地位
“到底什么东西处于危险中”,同样在不断外扩:
- 灭绝(extinction):人类被消灭——经典的”存亡风险”。
- 失权(disempowerment):人还在,但不再掌控——可以是集体失权,也可以是权力集中到极少数。
- 意义 / 能动性:人甚至舒适,却交出了”做选择”本身——意义式存亡。(03 · 从判断到计算)
- 道德地位:利害方第一次纳入 AI 自身——若模型可能有感受,我们或在大规模亏待它(model welfare)。
方向:向外,从”人类会不会灭绝”一直扩到”我们对可能有感受的造物负有什么责任”。
线索五:一个不变量——可验证性
前四条都在动;这一条不动,它是把全局钉住的支点。
- 能力侧(01 · AI 能力的上限):一个领域”正确答案能多便宜地被验证”,决定了 AI 在该领域能多强。
- 风险侧:对齐之所以难,是因为”人类想要什么”恰好落在最不可验证的象限。
- 防御侧(05 · 防御前沿):六条防御本质都在和可验证性搏斗——可解释性要让内部状态可验证,控制要让行为可验证,GS AI 要让安全性可形式验证。
统一命题:可验证性同时决定了能力的上限和安全的难度,且二者反向——越可验证的地方 AI 越强、也越好防;越不可验证的地方(价值、意义、真实意图)既是能力的边疆,也是风险的渊薮。
怎么用这五条线索
拿到任何一个 AI 风险观点,依次问:
- 认识论:它是思想实验、技术问题、经验发现,还是安全工程?(线索一)
- 技术层次:它谈的是外对齐、内对齐,还是控制?(线索二)
- 分析单元:单体、多主体,还是文明级?(线索三)
- 利害:赌注是灭绝、失权、意义,还是道德地位?(线索四)
- 可验证性:它要应对的,落在可验证还是不可验证的一侧?(线索五)
两条规律收尾:
- 方向上:线索三、四向外扩(单体→文明、灭绝→道德地位),线索二向下钻(指定→兜底)。整个领域在从”科幻式单点末日”,走向”结构性、渐进、多主体、人文”的更广图景。
- 方法上还藏着一条暗线——理论 vs 经验的钟摆:一端是 agent foundations / GS AI(先求形式化保证),一端是 prosaic alignment(直接戳真实模型)。这一年经验侧大幅领先,但 GS AI 提醒人们:没有”对象科学”,经验发现也难以收敛成保证(回到线索一那个张力)。
一句话记住整张地图:领域在向外、向下同时展开,而无论展到哪里,都被”可验证性”这一根支点拽着。
来源与脉络锚点
- 思想实验期:Wiener (1960)、I.J. Good (1965)、Bostrom Superintelligence (2014)、Yudkowsky
- 技术问题化:Amodei et al. Concrete Problems in AI Safety (2016)、Hubinger et al. Risks from Learned Optimization (2019)
- 经验观测:见 04 · 前沿 AI 风险 来源
- 安全科学化:DeepMind Frontier Safety Framework、各国 AISI、International AI Safety Report 2026、safety case 文献
- 不变量:见 01 · AI 能力的上限 与 05 · 防御前沿 的综合
相关笔记:01 · AI 能力的上限 · 02 · AI 安全中深刻的风险观点 · 03 · 从判断到计算 · 04 · 前沿 AI 风险 · 05 · 防御前沿 · 07 · AI 科技前沿 · 08 · AI 学术前沿 · 09 · 中国与世界 AI 对比