设想几十年后的一个世界:AI 已经对齐良好,没有失控,没有战争机器,物质极大丰富,一切运转顺滑。可你若走近去看,会发现一件怪事——几乎没有人在做决定了。读什么、做什么工作、和谁结婚、城市怎么治理、孩子怎么教育,每个问题都有一个比你更懂的系统给出”最优解”,而人们,只是点头。

这个世界没有灾难现场,却已经没有人在做主。

整个 AI 安全领域,几乎都在防备另一种结局:AI 失控、夺权、把人类清除——叫它灭绝式存亡。本篇要谈的是上面那个世界:人活得好端端的,甚至舒适,却把”选择”本身交了出去。叫它意义式存亡

两者的关键差别在于成本:灭绝式存亡需要一长串尚无定论的前提同时成立(快速起飞、工具趋同、欺骗、一次性失败,见 02 · AI 安全中深刻的风险观点;意义式存亡几乎不需要任何前提——它不要求 AI 有目标、会欺骗、想夺权,甚至不要求它出任何差错。它只要求 AI 足够好用,而人足够愿意省事。

这篇笔记的全部论证,就是要说明:这种”不流血的结局”,为什么真实、为什么可能比第一种更难避免。


一、丢的是什么:判断,不是计算

要看清丢失的东西,先借 Joseph Weizenbaum 一个区分。他造出了第一个聊天机器人 ELIZA,又用后半生反对自己的领域,1976 年那本书的标题本身就是论点:《Computer Power and Human Reason》,副题——从判断,到计算

他说,决定(deciding)和选择(choosing)是两回事。

决定能外包,选择不能——一旦外包,丢的不是一道题的答案,而是”做主”这件事本身。Weizenbaum 怕的从来不是机器算不过人(他承认机器会赢),而是:当机器把”决定”做到极致,人会忍不住把本该”选择”的事,也降格成”计算”丢给它。

这正是 02 · AI 安全中深刻的风险观点 里罗素”标准模型批判”的背面:罗素怕我们写不出正确的目标;本篇怕我们干脆不再去问目标对不对


二、怎么丢的:自愿的三级让渡

丢失不是被抢走的,是自己一步步交出去的——而且每一步都合情合理。可以分三级,一级比一级深:

  1. 执行(怎么做):“帮我把这事办了。” 算路线、写代码、起草邮件。纯工具增强,几乎无害。
  2. 决定(选哪个):“帮我挑。” 看什么、买什么、雇谁。你还在”选”,但选项、排序、默认值早被系统塞好。
  3. 提问(该要什么):“我到底该想要什么?这值得吗?” 当连”什么值得追求”都习惯性地问 AI 并照单全收,判断的最后一环也交了。

关键在于:每一步单看都理性、都划算、都可逆。但合起来,做第三级选择的能力,会像不被使用的肌肉一样萎缩——不是被剥夺,是退化。

这不是猜想。飞行员长期依赖自动驾驶,手动飞行技能会退化到在自动化失效时酿成空难(法航 447 是教科书案例);用惯了导航,方位感会变钝。判断力也一样,且更难察觉。

而第二级里藏着最阴的一手:推荐系统不只是满足你想看什么,它在重塑你想看什么。优化的回路,悄悄闭合到了”你是谁”之上——这一点,第四节会变成致命一击。

这套机制,和 02 谈的”渐进失权”是同构的:没有谁”想”夺走你的判断,只是系统不再需要你判断。区别只在舞台——那里是经济与国家,这里是你的脑子。


三、最强的反方:柏拉图早就这么骂过(而他错了)

讲到这,必须先过一关,否则这只是又一次”新技术毁掉年轻人”的怀旧。

两千四百年前,柏拉图借埃及王 Thamus 之口,对文字这项新技术下过一模一样的判词:文字会让人荒废记忆,“给的是智慧的外表而非实质……看似无所不知,实则一无所知。”

而他显然错了。文字非但没让人变蠢,反而成了文明的地基。这就给本篇三记重拳:

这是个诚实的对手。答不上来,本篇就不成立。


四、为什么这次不同:三道防线被同时突破

回应不能靠”这次感觉更严重”,得指出结构上哪里不一样。我认为有三处,且都是论证、不是证明——可错,但站得住。

(一)以往卸载的是某项具体能力,这次卸载的是”判断”这个元能力。 文字卸载记忆,计算器卸载算术——都是单项能力。而”该用哪项能力、该追求什么”这个统筹一切的判断,始终留在人这边。正因为它留着,“卸载记忆 = 解放思想”才成立:你用留下的判断力去思想。可一旦判断本身也被卸载,就没有”被解放的高阶能力”可言了——被卸掉的就是那个高阶能力。柏拉图的反例落空,是因为文字根本没碰判断;这次的标的,恰恰是它。

(二)优化的回路,闭合到了偏好本身。 计算器不会改变你想算什么,导航不会改变你想去哪。但优化你注意力的系统,会反过来编辑你想要什么。于是一个陷阱出现:那个本该察觉”我正在丧失判断力”的”我”,自身正在被这套系统改写。当衡量”我还在不在做主”的尺子也由对方提供,损失就无法从内部被发现。柏拉图反例里”萎缩其实是升级”那点乐观,在这里被釜底抽薪——升级还是降级的标准,本身被纳入了优化。

(三)没有可退守的领域了。 以往每次卸载都是局部的:荒废了记忆,你还在别处运用判断;一门手艺丢了,别的手艺还在,判断力作为整体在别处保活。但”通用”AI 的通用,意味着它没有边界,指向所有领域。当每个角落里”问 AI 并照做”都比”自己判断”更省事,判断力就无处可练

合起来:柏拉图错了,是因为文字只动了一个能力、没碰偏好、且留下了广阔的练武场。这三道防线若被同时突破——动的是元能力、闭合到偏好、覆盖一切——“以前没事所以这次也没事”这个推理就失了据。这不证明灾难必然,但足以说明:历史那套乐观外推,这次不能照搬。


五、三篇接成一条线

把这篇放回前两篇,会看到一个统一的错配:

危险就在这:我们最先、也最该把判断交给 AI 的,是可验证的领域(下棋、算数、写代码),那里它确实更强,外包是理性的。风险是我们把同一种”凡事问 AI”的姿态,延伸进了不可验证的领域——把本需”选择”的事,当成可”计算”的事来办。

这正是 Weizenbaum 那句”从判断到计算”用 01 的语言重述:把不可验证之事,误当可验证之事来优化。

也因此,本篇其实是 02 那些”渐进失败”论证(Christiano 的”伴随呜咽而终”、Hendrycks 的”羸弱化”、Kulveit 的”渐进失权”)的另一张脸:机制完全相同,只是它们度量”谁在掌控”,本篇度量”是否还有人在做主”。前者是控制问题,后者是尊严问题。


六、出路:让工具逼你判断,而非替你不判断

出路不是拒绝 AI——既不可能也无必要。区别只在一处:这件工具是让你更会判断,还是替你不再判断。

这条忧虑并不新——从柏拉图,到 C.S. Lewis(「人对自然的征服,完成之日即自然对人的征服」)、Ellul(技术吞掉”为什么”)、海德格尔(把人化约为可调度资源的”集置”)、Illich(良性工具 vs 致瘾工具)、Arendt(无思即平庸之恶),再到当代 Carr《玻璃笼子》、Vallor”道德去技能化”。只是 AI 安全的主流讨论,几乎与这条长河失联了。


收束

第 02 篇问:AI 会不会毁灭我们。本篇的回答是——也许真正该怕的不是那个。

灭绝式存亡要赌一长串前提同时成立;意义式存亡只要我们愿意省事,它不需要任何机器出错。

回到开头那个世界:对齐良好、繁荣、高效、平稳运转——只是里面,不再有人做主

最深的那层 AI 风险,也许根本与机器无关。它是这样一个问题:当一台机器能替我们算出几乎所有”最优解”,我们还会不会、还愿不愿,亲自去做那个无法被计算的选择


注:英文里两种”存亡”共用 existential 一词,却分属两个传统——Bostrom 的 existential risk 关乎存续,存在主义的 existential 关乎意义。本篇取后一层。

来源

相关笔记:01 · AI 能力的上限 · 02 · AI 安全中深刻的风险观点 · 04 · 前沿 AI 风险 · 05 · 防御前沿 · 06 · 五条贯穿线索