AI 风险与安全科学：五条贯穿线索

AI 风险研究看起来庞杂、门派林立,但它的概念和历史其实可以用五条线索串起来。掌握这五条,你就能给任何一篇新论文、一个新观点快速定位:它在哪条线索上、推进到了哪一段。

更妙的是,前四条线索各自都有一个方向——而方向惊人地一致:要么向外扩展(分析单元、利害范围),要么向下深入(技术问题的层次)。第五条则是把它们钉在一起的不变量。

这篇是本系列的”地图”;沿途会标出 01 · AI 能力的上限–05 · 防御前沿落在哪条线索上。

线索一:认识论的成熟——从思想实验,到安全科学

这是领域的时间主轴:它”知道”风险的方式,经历了四个阶段,一段比一段硬。

哲学 / 思想实验期(1960–2014):Wiener、I.J. Good、Bostrom、Yudkowsky 在扶手椅上论证。武器是逻辑与类比,没有可碰的系统。
技术问题化(2016–2020):把恐惧翻译成研究问题。标志是 Concrete Problems in AI Safety(Amodei 等, 2016)、mesa 优化、可扩展监督——“prosaic alignment”(在真实 ML 上做对齐)登场。
经验观测期(2023–2026):错位第一次被实测到,不再是推演——潜伏特工、伪装对齐、突现错位、谋划评测(详见 04 · 前沿 AI 风险)。
安全科学 / 工程期(2025– ):领域开始自觉地模仿成熟的安全攸关学科(核电、民航、生物安全、制药),引入它们的整套装置——概率风险评估、安全论证(safety case)、纵深防御、能力阈值(CCL)、红队、事故/未遂上报、第三方审计(各国 AISI)、《国际 AI 安全报告》。这就是”安全科学”一词的由来。

这条线索里最深的张力:核电与民航的安全科学,是建立在一门成熟的”对象科学”之上的(反应堆物理、空气动力学)。而 AI 安全科学正被架设在一门尚不存在的”模型科学”之上——我们在给自己都看不懂的系统写安全论证。这就是为什么”线索二”里的可解释性是承重的:没有对象科学,安全科学就悬空。

线索二:核心技术问题的下移——外对齐 → 内对齐 → 控制

领域对”问题到底出在哪”的理解,逐层往下钻:

外对齐(outer):我们能把想要的东西说清楚吗?——Wiener、Russell 的”标准模型”批判、奖励错配、Goodhart 定律。(02 · AI 安全中深刻的风险观点的 A、B 脉络)
内对齐(inner):就算说清了,学出来的系统真的在追求它吗?——mesa 优化、目标错误泛化、欺骗性对齐。
控制(control):干脆假设它不对齐——我们还能关住它吗?——AI Control 议程。(05 · 防御前沿的第 2 条)
可解释性横切这三层:它想回答”到底是哪一层在失败”。

方向:从”指定意图”一路退到”即便指定失败也要兜底”。每退一步,都是因为上一步被发现不够。

线索三:分析单元的放大——单体 → 多主体 → 文明

“危险住在哪里”这个问题,答案不断变大:

单一超级智能:工具性趋同、智能爆炸、一次性失败——经典的 Bostrom / Yudkowsky 图景。
多智能体 / 竞争 / 演化:Critch 的”无主体过程”(RAAP)、Hendrycks 的自然选择论、多智能体风险——危险来自主体间的动力学,而非单个坏 AI。
文明 / 系统级:渐进失权、智能诅咒——没有任何一个 AI 想夺权,人类却在系统层面集体失权。(04 · 前沿 AI 风险的第五节)

方向:向外。而且这一移动很重要——它让风险论证摆脱了对”快速起飞""单体恶意”等争议前提的依赖,因而更难被反驳。

线索四:利害的扩展——灭绝 → 失权 → 意义 → 道德地位

“到底什么东西处于危险中”,同样在不断外扩:

灭绝(extinction):人类被消灭——经典的”存亡风险”。
失权(disempowerment):人还在,但不再掌控——可以是集体失权,也可以是权力集中到极少数。
意义 / 能动性:人甚至舒适,却交出了”做选择”本身——意义式存亡。(03 · 从判断到计算)
道德地位:利害方第一次纳入 AI 自身——若模型可能有感受,我们或在大规模亏待它(model welfare)。

方向:向外,从”人类会不会灭绝”一直扩到”我们对可能有感受的造物负有什么责任”。

线索五:一个不变量——可验证性

前四条都在动;这一条不动,它是把全局钉住的支点。

能力侧(01 · AI 能力的上限):一个领域”正确答案能多便宜地被验证”,决定了 AI 在该领域能多强。
风险侧:对齐之所以难,是因为”人类想要什么”恰好落在最不可验证的象限。
防御侧(05 · 防御前沿):六条防御本质都在和可验证性搏斗——可解释性要让内部状态可验证,控制要让行为可验证,GS AI 要让安全性可形式验证。

统一命题:可验证性同时决定了能力的上限和安全的难度,且二者反向——越可验证的地方 AI 越强、也越好防;越不可验证的地方(价值、意义、真实意图)既是能力的边疆,也是风险的渊薮。

怎么用这五条线索

拿到任何一个 AI 风险观点,依次问:

认识论:它是思想实验、技术问题、经验发现,还是安全工程?(线索一)
技术层次:它谈的是外对齐、内对齐,还是控制?(线索二)
分析单元:单体、多主体,还是文明级?(线索三)
利害:赌注是灭绝、失权、意义,还是道德地位?(线索四)
可验证性:它要应对的,落在可验证还是不可验证的一侧?(线索五)

两条规律收尾:

方向上:线索三、四向外扩(单体→文明、灭绝→道德地位),线索二向下钻(指定→兜底)。整个领域在从”科幻式单点末日”,走向”结构性、渐进、多主体、人文”的更广图景。
方法上还藏着一条暗线——理论 vs 经验的钟摆:一端是 agent foundations / GS AI(先求形式化保证),一端是 prosaic alignment(直接戳真实模型)。这一年经验侧大幅领先,但 GS AI 提醒人们:没有”对象科学”,经验发现也难以收敛成保证(回到线索一那个张力)。

一句话记住整张地图:领域在向外、向下同时展开,而无论展到哪里,都被”可验证性”这一根支点拽着。

来源与脉络锚点

思想实验期:Wiener (1960)、I.J. Good (1965)、Bostrom Superintelligence (2014)、Yudkowsky
技术问题化:Amodei et al. Concrete Problems in AI Safety (2016)、Hubinger et al. Risks from Learned Optimization (2019)
经验观测:见 04 · 前沿 AI 风险来源
安全科学化:DeepMind Frontier Safety Framework、各国 AISI、International AI Safety Report 2026、safety case 文献
不变量:见 01 · AI 能力的上限与 05 · 防御前沿的综合