2026年AI状态报告

LLM、编码、扩展定律、中国、智能体、GPU与AGI

Lex Fridman Podcast #490 | 嘉宾:Sebastian Raschka & Nathan Lambert | 编译整理:信息动物园 AI Research

📋 执行摘要

核心主题:本报告基于Lex Fridman与两位顶尖AI研究者Sebastian Raschka(《从零构建大语言模型》作者)和Nathan Lambert(Allen Institute for AI后训练负责人)的深度对话,全面分析2026年AI领域的技术现状与未来趋势。

关键发现:中美AI竞赛进入白热化阶段,开源与闭源模型差距缩小,编程AI成为 killer app,扩展定律仍在持续但面临挑战,AGI时间表仍是热门争议话题。

🎯 核心要点

🏆 谁在领先?

中美各有优势:美国在平台和用户体验上领先,中国则在开源权重模型上强势崛起

💻 编程革命

Claude Code和Cursor正在改变软件开发方式,AI成为程序员的标配工具

📊 扩展定律

预训练数据即将耗尽,RL(强化学习)成为新的扩展前沿

🌏 开源浪潮

中国公司(DeepSeek、Kimi、MiniMax等)主导开源模型生态

⚡ 模型对比

Gemini vs ChatGPT vs Claude:各有特色,用户根据场景切换

🔮 AGI展望

短期内不会出现单一赢家,技术差距持续缩小

🌏 中美AI竞赛:谁将胜出?

DeepSeek时刻的影响

2025年1月,中国公司DeepSeek发布的R1模型震惊业界——以 allegedly 更少的计算资源实现了接近或达到SOTA的性能。这一"DeepSeek时刻"标志着中美AI竞赛进入新阶段。

"我认为DeepSeek绝对赢得了开源权重模型工作者的心,因为他们以开放模型形式分享这些模型。"
— Sebastian Raschka

不会有一个明确的赢家

Raschka认为,2026年不会有任何公司拥有其他公司无法获得的技术。研究人员在不同实验室间频繁流动,思想传播非常自由。真正的差异化因素将是:

中国开源模型的崛起

Nathan Lambert指出,中国开源模型生态正在蓬勃发展:

🇨🇳 主要中国开源模型

  • DeepSeek - R1、V3、V3.2,以架构创新著称
  • Kimi K2 Thinking - Moonshot AI,创意写作和软件能力突出
  • MiniMax - 已提交IPO申请,积极拓展西方市场
  • Z.ai (GLM) - 智谱AI,同样寻求IPO
  • Qwen 3 - 阿里巴巴,性能强劲且许可友好
"DeepSeek正在失去其作为中国最杰出开源模型制造商的桂冠,Z.ai的GLM模型、MiniMax的模型以及Moonshot的Kimi K2 Thinking等新模型在最近几个月更加耀眼。"
— Nathan Lambert

为什么中国公司坚持开源?

Lambert分析了中国公司保持开源策略的原因:

  1. 市场准入 - 美国顶尖科技公司因安全顾虑不会购买中国公司的API服务
  2. 影响力扩张 - 开源模型能在美国庞大的AI支出市场中获得影响力
  3. 政府支持 - 政府看到这是在国际上建立技术影响力的途径
  4. 商业现实 - 中国和其他地区用户历史上不愿为软件付费

但Lambert也指出,这种模式难以持续——训练和研究的成本极高,预计未来几年会出现整合。

⚔️ 模型之战:ChatGPT vs Claude vs Gemini vs Grok

2025年的赢家?

Nathan Lambert认为,在消费者聊天机器人领域:

模型 优势 劣势 适用场景
ChatGPT (GPT-5) 品牌认知度、用户习惯、快速响应 有时会犯错、语调问题 日常查询、快速问答
Claude Opus 4.5 代码能力、深度思考、产品体验 速度较慢 编程、深度研究、复杂任务
Gemini 3 长上下文、知识广度、界面友好 发布时营销过度、后续关注度下降 长文档分析、信息查询
Grok 4 实时信息、调试能力 用户使用习惯 调试代码、实时搜索

用户使用模式:用到坏为止

三位嘉宾都提到一个有趣的现象:用户通常会一直使用某个模型,直到它"坏掉"(做出明显错误或愚蠢的回答),然后才会尝试其他选项。

"你用着用着,直到它出问题,直到你有问题,然后你才探索其他选项。我认为这和任何东西一样——我们最喜欢的文本编辑器、操作系统或浏览器。"
— Sebastian Raschka

编程:AI的杀手级应用

编程是目前AI最令人兴奋的应用领域:

🛠️ 主流AI编程工具对比

  • Claude Code - 更agentic,能处理整个项目,体验"温暖且引人入胜"
  • Cursor - IDE集成好,适合查看diff和细节控制
  • Codeium - VS Code插件,轻量级,适合日常使用
  • GPT-5 (Codex) - OpenAI的解决方案,但界面体验较粗糙

Lex Fridman分享了他同时使用Cursor和Claude Code的经验:Cursor适合深入理解代码细节,而Claude Code适合在宏观设计空间思考和指导。

🔓 开源模型生态大爆炸

能数出多少开源模型?

在播客中,嘉宾们尝试即兴列举开源模型,结果惊人:

中国模型:DeepSeek、Kimi、MiniMax、Z.ai、Qwen、Antlang...

西方模型:Mistral AI、Gemma、gpt-oss (OpenAI)、NVIDIA Nemotron、OLMo、SmolLM...

"这很有趣,因为就在几年前,这个名单还很小。2024年基本上只有AI2 (Allen Institute for AI)。现在_open_(完全开源)的公司和项目多了很多。"
— Nathan Lambert

开源 vs 闭源:架构差异

Sebastian Raschka指出,中国开源模型和西方开源模型的一个关键区别:

但这一格局正在改变——Mistral Large 3、Reka AI、NVIDIA都在推出超大规模(400B+参数)的MoE模型。

2025年的 standout 模型

🏆 年度亮点模型

DeepSeek-V3 / R1 / V3.2

  • MLA(多头潜在注意力)机制创新
  • Mixture of Experts架构优化
  • 推理成本大幅降低

Qwen 3

  • 熟悉的架构但性能强劲
  • 许可协议非常友好(无用户数量限制)

gpt-oss (OpenAI)

  • OpenAI自GPT-2以来首个开源模型
  • 原生支持工具调用(tool use)
  • 通过用户GPU运行来扩大分发

🧬 Transformer架构演进

从GPT-2到2026

Sebastian Raschka详细解释了Transformer架构的演进路径:

核心架构组件

  1. Mixture of Experts (MoE)
    • 将单一前馈网络扩展为多个"专家"网络
    • 路由器根据输入选择最相关的专家
    • 在不增加每次前向传播计算量的情况下扩大模型规模
  2. Multi-Head Latent Attention (MLA)
    • DeepSeek的创新
    • 大幅压缩KV缓存大小
    • 使长上下文更经济可行
  3. Group Query Attention (GQA)
    • 多个查询头共享相同的键和值
    • 减少内存使用
  4. Sliding Window Attention
    • 只关注最近的token
    • OLMo 3等模型使用

2025年底的新趋势:线性注意力

Qwen3-neXt等模型开始探索用更便宜的操作替代标准注意力机制:

📈 扩展定律:数据即将耗尽?

预训练的瓶颈

三位嘉宾都提到了一个关键问题:预训练数据即将耗尽。

"数据非常明确地是有限的。接下来怎么办?要么你做某种超级预训练——不同于之前的配方,要么你做RL,要么做其他什么。但既然计算规模已经很大了,某种意义上我们又回到了研究时代。"
— Sebastian Raschka

RL成为新的扩展前沿

强化学习(RL)正在成为新的扩展方向:

三个时代的划分

时代 时间 特征
研究时代 2012-2020 尝试各种想法,算力是瓶颈
扩展时代 2020-2025 "scaling"一词主导,堆数据堆算力
新研究时代 2025+ 数据耗尽,需要根本性创新

🔮 AGI展望与结论

不会有单一赢家

嘉宾们一致认为,AGI(如果实现)不会由单一公司垄断:

技术差距正在缩小

开源模型与闭源顶尖模型的差距持续缩小:

未来几年的关键问题

  1. RL能否成为新的扩展范式?
  2. 中美技术差距会继续缩小吗?
  3. 开源商业模式如何可持续?
  4. Agentic AI何时成为主流?
  5. 编程AI将如何改变软件行业?
"你如何对待编程中的AI?你是在用英语编程,还是在微观管理代码生成并深入理解差异?我认为这是思考编程过程的另一种方式。"
— Lex Fridman

📚 来源与参考资料