前六篇谈 AI 的风险与安全;这一篇掉头看能力本身——2026 年,AI 科技的前沿在哪里。
一句话抓住这两年的总变化:
“智能”的来源、形态、计量单位,同时变了: 来源从”预训练堆参数”转向”后训练 + 推理时思考”; 形态从”会答话的模型”转向”会做事、会研究、能具身的系统”; 计量从”benchmark 多准”转向”能自主干多久、多复杂”。
五条线索,正好对应这场变化的五个面。
线索一:智能的新来源——从”预训练”,到”思考时计算”
过去十年靠”模型更大、数据更多”;2025 年这条路撞上数据墙(高质量人类文本被用尽)。新增长来自两处:后训练(用 RL 教模型推理、自我纠错)和推理时计算(让模型在回答前”想”更久)。
标志是推理模型(o 系列):o3 在 ARC-AGI-2 上拿下 75.7%(此前 SOTA 不到 20%),代价是每题平均烧 5700 万 token。分析预测:到 2030 年,推理算力将占总算力的 75%——相对 2020 年代初”训练主导”的彻底反转。
最深的变化:能力第一次变成可以在推理时”现买”的东西——给它更多思考时间,就更强。这是一根全新的、可调节的杠杆。
线索二:从聊天机器人到智能体——从”答”,到”做”
模型从”被问一句答一句”,变成在执行循环里自主跑很久。
2026 年 4 月,GPT-5.5、Claude Opus 4.7 相继发布,后者 SWE-bench Verified 87.6%、能主动验证自己写的代码。约 50% 的智能体应用集中在软件工程;57.3% 的组织已有智能体在生产环境;Anthropic 用并行的 Claude 智能体造出了一个完整的 C 编译器。
计量单位变了:不再只问”准确率多少”,而问”它能无人监督地自主工作多久”(task horizon)——METR 测到这个时长每 4–7 个月翻一倍(详见 04 · 前沿 AI 风险)。
线索三:从文字到世界——多模态、世界模型、具身
AI 的”感知-行动”边界,从屏幕里的文字,扩张到物理世界与生成式仿真世界。
- 世界模型:Genie 式的可交互生成环境——模型从无标注视频里学出一个可逐帧交互的”世界”,反过来成为机器人的训练场。
- 具身 / 机器人:到 2026 年中,几乎每个大厂都有机器人基础模型。VLA(视觉-语言-动作)模型把”看到什么、被要求做什么、怎么动”合进一次前向;最大突破是跨形态学习——一个模型在多种机器人身体(单臂、双臂、四足、人形)上训练,反而在每种身体上都比专用模型更强。人形机器人开始出现开放基础模型(如 Ψ₀)。
智能正在下凡:离开纯文本,进入像素、动作和物理因果。
线索四:从工具到科学家——AI 进入知识生产
AI 的角色,从”助手”升到”发现者 / 同事”。
2025 年 IMO:Gemini Deep Think 与 OpenAI 实验模型都拿了金牌(35/42,解出 6 题中的 5 题);“AI Scientist”能自动提想法、写代码、跑实验、写论文;科研进入”副驾 → 主驾(co-pilot → lab-pilot)“的转变。最具递归性的一步——AI 开始做 AI 研究,这正是 04 · 前沿 AI 风险 里”自动化 AI 研发”那条风险的能力侧。
但要记住 Stanford 2026 AI Index 的”锯齿状前沿(jagged frontier)“:AI 能拿奥数金牌、解博士级科学题,却只有约 50% 的概率读对模拟时钟。能力是参差的,不是均匀的——别用它的最高分去推断它全面可靠。
线索五:底座——架构、芯片、能源
决定上限的,越来越是算力与电力,而非算法本身。
- 架构:仍全是 Transformer,但**专家混合(MoE)**成主流(万亿参数、稀疏激活,只激活一小部分);出现混血架构(Jamba = Transformer + Mamba + MoE,单卡 256K 上下文);上下文窗口向 100 万 token 推进;扩散式语言模型开始上规模(LLaDA2.0,100B)。
- 算力 / 能源:NVIDIA 推出 Vera Rubin 平台,Rubin 较 Blackwell 推理 token 成本降约 10 倍;黄仁勋称进入”AI 工厂时代”——电力不再只是计算的输入,而是智能的原材料,衡量标准变成”每瓦能产多少 token”。数据中心以吉瓦(GW)为单位扩建,资本开支翻倍、GPU 提前售罄。
瓶颈在转移:从”数据 / 算法”,转向”电力 / 硅”。谁掌握电与芯片,谁就掌握智能产能。
综合:一张能力地图
五条线索其实在说同一件事——AI 正从”一个更大的模型”,变成”一个会思考、会行动、能自我改进、且越来越吃电的系统”。
压成三句:
- 来源:预训练 → 后训练 + 推理时思考(线索一)
- 形态:模型 → 智能体 → 具身 / 科学家(线索二、三、四)
- 底座:算法竞争 → 电力与硅的竞争(线索五)
而这张能力地图,正是 06 · 五条贯穿线索 那张风险地图的引擎:
- 智能体 + task horizon(线索二)→ 失控与”控制”难度的来源;
- AI 做 AI 研究(线索四)→ 智能爆炸 / 快速起飞的引信;
- 推理时计算 + 锯齿前沿(线索一、四)→ 评测为何越来越测不准。
能力沿这五条线索每往前一步,06 那五条风险线索就同步绷紧一分。 能力地图与风险地图,是同一台机器的两面。
来源
- 推理 / 推理时计算:o 系列与 ARC-AGI-2(o3 75.7%);test-time compute 综述;算力反转预测(2030 推理占 75%)
- 智能体:GPT-5.5 / Claude Opus 4.7(SWE-bench 87.6%)发布;METR task horizon;并行智能体造 C 编译器
- AI for science:2025 IMO 金牌(Gemini Deep Think / OpenAI);The AI Scientist;Stanford AI Index 2026(jagged frontier)
- 架构:MoE 综述;Jamba(Transformer+Mamba+MoE);LLaDA2.0 扩散语言模型
- 底座:NVIDIA Vera Rubin / Rubin(GTC 2026);Epoch AI 前沿数据中心;数据中心吉瓦级扩建
相关笔记:01 · AI 能力的上限 · 04 · 前沿 AI 风险 · 05 · 防御前沿 · 06 · 五条贯穿线索 · 08 · AI 学术前沿 · 09 · 中国与世界 AI 对比