AI 风险研究看起来庞杂、门派林立,但它的概念和历史其实可以用五条线索串起来。掌握这五条,你就能给任何一篇新论文、一个新观点快速定位:它在哪条线索上、推进到了哪一段。

更妙的是,前四条线索各自都有一个方向——而方向惊人地一致:要么向外扩展(分析单元、利害范围),要么向下深入(技术问题的层次)。第五条则是把它们钉在一起的不变量

这篇是本系列的”地图”;沿途会标出 01 · AI 能力的上限05 · 防御前沿 落在哪条线索上。


线索一:认识论的成熟——从思想实验,到安全科学

这是领域的时间主轴:它”知道”风险的方式,经历了四个阶段,一段比一段硬。

  1. 哲学 / 思想实验期(1960–2014):Wiener、I.J. Good、Bostrom、Yudkowsky 在扶手椅上论证。武器是逻辑与类比,没有可碰的系统。
  2. 技术问题化(2016–2020):把恐惧翻译成研究问题。标志是 Concrete Problems in AI Safety(Amodei 等, 2016)、mesa 优化、可扩展监督——“prosaic alignment”(在真实 ML 上做对齐)登场。
  3. 经验观测期(2023–2026):错位第一次被实测到,不再是推演——潜伏特工、伪装对齐、突现错位、谋划评测(详见 04 · 前沿 AI 风险)。
  4. 安全科学 / 工程期(2025– ):领域开始自觉地模仿成熟的安全攸关学科(核电、民航、生物安全、制药),引入它们的整套装置——概率风险评估、安全论证(safety case)、纵深防御、能力阈值(CCL)、红队、事故/未遂上报、第三方审计(各国 AISI)、《国际 AI 安全报告》。这就是”安全科学”一词的由来。

这条线索里最深的张力:核电与民航的安全科学,是建立在一门成熟的”对象科学”之上的(反应堆物理、空气动力学)。而 AI 安全科学正被架设在一门尚不存在的”模型科学”之上——我们在给自己都看不懂的系统写安全论证。这就是为什么”线索二”里的可解释性是承重的:没有对象科学,安全科学就悬空。

线索二:核心技术问题的下移——外对齐 → 内对齐 → 控制

领域对”问题到底出在哪”的理解,逐层往下钻:

方向:从”指定意图”一路退到”即便指定失败也要兜底”。每退一步,都是因为上一步被发现不够。

线索三:分析单元的放大——单体 → 多主体 → 文明

“危险住在哪里”这个问题,答案不断变大:

方向:向外。而且这一移动很重要——它让风险论证摆脱了对”快速起飞""单体恶意”等争议前提的依赖,因而更难被反驳。

线索四:利害的扩展——灭绝 → 失权 → 意义 → 道德地位

“到底什么东西处于危险中”,同样在不断外扩:

方向:向外,从”人类会不会灭绝”一直扩到”我们对可能有感受的造物负有什么责任”。

线索五:一个不变量——可验证性

前四条都在动;这一条不动,它是把全局钉住的支点

统一命题:可验证性同时决定了能力的上限和安全的难度,且二者反向——越可验证的地方 AI 越强、也越好防;越不可验证的地方(价值、意义、真实意图)既是能力的边疆,也是风险的渊薮。


怎么用这五条线索

拿到任何一个 AI 风险观点,依次问:

  1. 认识论:它是思想实验、技术问题、经验发现,还是安全工程?(线索一)
  2. 技术层次:它谈的是外对齐、内对齐,还是控制?(线索二)
  3. 分析单元:单体、多主体,还是文明级?(线索三)
  4. 利害:赌注是灭绝、失权、意义,还是道德地位?(线索四)
  5. 可验证性:它要应对的,落在可验证还是不可验证的一侧?(线索五)

两条规律收尾:

一句话记住整张地图:领域在向外、向下同时展开,而无论展到哪里,都被”可验证性”这一根支点拽着。


来源与脉络锚点

相关笔记:01 · AI 能力的上限 · 02 · AI 安全中深刻的风险观点 · 03 · 从判断到计算 · 04 · 前沿 AI 风险 · 05 · 防御前沿 · 07 · AI 科技前沿 · 08 · AI 学术前沿 · 09 · 中国与世界 AI 对比