AI 能力的上限

把 AI 当作一种技术而非产品来追问:它能力的天花板由什么决定? 产品的上限是市场、成本、合规、工程化;技术的上限是更硬的东西——信息、物理和数学。

0. 先做一个关键区分

讨论”上限”之前,必须先问:上限于什么?

如果把能力定义为「在某个固定任务上逼近最优解」,那么上限是该任务的理论最优。完美的国际象棋是博弈论意义上的解;完美的天气预报受混沌系统的可预测窗口限制。这类上限是确定的、外生的。
如果把能力定义为「开放式的、通用的智能」,那么没有一个明确的数字,而是一连串约束的叠加——它能学到多少、能验证多少、能动用多少物理资源。

本文谈的是后者,并主张:这些约束可以分成三层,从可以推进的到无法突破的。

第三层 · 物理与数学硬上限

不可突破

第二层 · 认识论上限

决定能否超越人类

第一层 · 资源上限

可推进 · 有成本

越往外越根本、越不可动摇;越往里越是当下工程与经济在搏斗的地方。

1. 第一层:资源的上限(可推进,但有成本)

这是 scaling law 讨论的主战场。它没有理论天花板,只有工程和经济的天花板。

1.1 数据

AI 本质是从信息中学习,数据的边界某种程度上就是它”见过的世界”的边界。但”数据”并不是一个东西,至少分三类,上限各不相同:

类型	来源	上限性质
人类已有知识	文本、图像、代码	有限且正在耗尽——高质量人类文本是稀缺资源
真实世界新采集	传感器、实验、交互	受物理采集成本约束,但原则上可持续扩张
合成 / 自我生成	自我对弈、模型生成	在可验证领域近乎无限;在不可验证领域有”模型崩溃”风险

关键洞察:单纯压缩人类已有文本,上限是人类知识的某种”插值”。要突破,必须引入后两类数据——尤其是能与世界交互、能被验证的数据。这把问题推向了第二层。

1.2 算力

能力随算力大致呈幂律增长(scaling laws),但这是一把双刃剑:

幂律意味着永远有提升空间(没有突然归零的拐点);
幂律也意味着回报递减——每提升一个能力档位,成本指数级上涨。

算力本身受芯片制程、能源供给、资本三重约束。这些是经济问题,不是物理禁令——直到撞上第三层的兰道尔极限。

1.3 算法效率

同样的数据与算力下,更好的架构能榨出更多能力。这是三个变量里:

最不确定的(无法预测下一个架构突破何时到来),
也最可能带来跳变的(Transformer 之于此前的范式即是一例)。

一句话:第一层是”加钱、加卡、加数据”能推进的部分。它会越来越贵,但不会”被禁止”。

2. 第二层:认识论的上限(决定 AI 能否超越教它的人)

这一层是本文的核心,也是当下最值得思考的边界。它回答的问题是:一个从人类知识里学出来的系统,凭什么能超越人类?

2.1 模仿 vs 创造

纯粹拟合既有数据的系统,本质是在做插值:它能在已知点之间填空、重组、外推一小步,但很难产生结构性的新知识。

真正的新知识从哪来?从与世界的交互——提出假设、做实验、观察反馈、修正。这就是科学方法。一个只读不动手的 AI,上限被锁死在”人类已经写下来的东西”附近;一个能行动、能实验的 AI,才有可能向外推进知识的边界。

这也解释了为什么”AI 科学家""AI + 实验室自动化”被认为是关键拐点:它把 AI 从第一层(读数据)接入了产生新可验证数据的闭环。

2.2 可验证性:决定上限的真正变量

把一个领域里”AI 能达到多高”压成一句话:

AI 在一个领域的能力上限,约等于该领域”正确答案能被多便宜、多可靠地验证”的程度。

按这个标准给领域排个谱:

领域	验证成本	反馈信号	AI 上限
围棋 / 棋类	极低(规则即裁判)	完美、即时	远超人类(AlphaZero 自我对弈)
数学 / 形式证明	低(证明可机器检查)	干净	极高
编程	中(测试、运行)	较干净但不完整	高
医学诊断	高(需随访、有噪声)	延迟、含混	中,受限于反馈
审美 / 价值判断 / 长期战略	极高或无法定义	主观、矛盾、滞后	低,上限受”我们能否给出可靠信号”约束

为什么是验证而不是别的? 因为自我提升需要一个”裁判”。可验证 = 可以低成本地分辨”更好”和”更差”,于是系统可以自我对弈、自我迭代,把能力推到接近理论最优。不可验证 = 没有可靠裁判,系统无法知道自己是在进步还是在自欺,上限就被”人类能提供的反馈质量”卡住。

2.3 学习理论的边界

即便抛开验证,学习本身也有理论约束:

没有免费午餐定理(No Free Lunch):不存在对所有问题都最优的学习算法。任何强大的能力都隐含着对世界结构的先验假设——假设错了,能力归零。
PAC 可学习性:某些概念类需要的样本量随复杂度爆炸式增长,实践中等于”学不会”。

换言之,通用智能的”通用”是有代价的:它的强大依赖于”我们的世界恰好是可压缩、有规律的”这一经验事实,而非逻辑必然。

3. 第三层:物理与数学的硬上限(不可突破)

无论多强的 AI——哪怕动用整个宇宙的物质——都撞不破这堵墙。

3.1 数学/逻辑的禁令

不可计算性:停机问题这类问题被证明没有任何算法能解。这不是”还没找到”,而是”不存在”。
计算复杂度:NP-hard 问题即使可解,也可能需要随规模指数级增长的资源。再聪明的 AI 也无法把指数变成多项式(除非 P=NP,而这本身存疑)。
哥德尔不完备性:任何足够强、且自洽的形式系统里,都存在它为真却无法证明的命题。一个基于形式推理的系统无法逃出这个圈。

3.2 信息论的禁令

无中不能生有:无法从不存在的信息里提取知识(garbage in → garbage out 的极端形式)。
一个系统的预测能力,上限是数据里真实存在的互信息。噪声里榨不出信号。

3.3 物理的禁令(给”算力”封顶)

这一层把第一层的”经济上限”最终变成”物理上限”:

兰道尔极限(Landauer limit):擦除 1 bit 的最小能耗为 $kT\ln 2$ ,室温下约 $2.85 \times 10^{-21}$ 焦耳。给定能源预算,就给定了不可逆计算的次数上限。
布雷默曼极限(Bremermann limit):给定质量的系统,单位时间能完成的计算次数有上界(由能量-时间不确定性导出)。
贝肯斯坦界(Bekenstein bound):给定空间区域和能量,能存储的信息量有上界。宇宙能容纳的总信息是有限的。

这些共同意味着:“无限智能”在物理上是不存在的。智能的载体是计算,计算消耗能量、占据空间、需要时间,而这三者在宇宙里都是有限的。

4. 统一视角

把三层收束成一句话:

作为一种技术,AI 能力的上限本质上由「它能从中学习、并能被验证的信息量」决定,而这个信息量最终被物理定律封顶。

拆开看:

能学习的信息 → 第一层(数据/算力/算法决定能吸收多少)
能验证的信息 → 第二层(可验证性决定能自我提升到多高)
信息的物理总量 → 第三层(物理定律给出宇宙级的硬顶)

而真正决定 AI 能否从「模仿人类」走向「超越人类」的,是中间那层——认识论上限。第一层是钱能解决的,第三层远在天边,第二层才是当下真实的战场。

5. 几个常见误解的澄清

“算力够大就能无限聪明” ❌ —— 忽略了第二层(没有可验证的反馈,堆算力只是更精确地模仿)和第三层(物理封顶)。
“AI 永远超不过训练数据” ❌ —— 在可验证领域,自我对弈已经证明能远超人类数据(AlphaZero 从零开始)。关键不是数据,是验证闭环。
“存在某个固定的智能上限分数” ❌ —— 开放式智能没有单一上限,只有约束的叠加;不同任务的上限由各自的可验证性和理论最优决定。
“AGI 一旦到来就无所不能” ❌ —— 不可计算、NP-hard、哥德尔、信息论这些禁令对任何智能都成立,无论它是人还是机器。

6. 余下的开放问题

不可验证领域(审美、价值、长期决策)的上限,能否通过更好的人类反馈机制或间接验证被推高?
当 AI 接入真实世界实验闭环后,它产生新知识的速度上限由什么决定——是物理实验本身的速度?
“对齐”是不是认识论上限的一个特例:我们能不能把”我们想要什么”表达成一个可验证的信号?

参考概念锚点

scaling laws · Chinchilla 最优 · 模型崩溃(model collapse) · 自我对弈(self-play) · No Free Lunch 定理 · PAC 可学习性 · 停机问题 · P vs NP · 哥德尔不完备性 · 香农信息论 · 兰道尔极限 · 布雷默曼极限 · 贝肯斯坦界