目录
1极端协同设计与机架级工程
超越单芯片的思维方式
NVIDIA 的成功长期以来依赖于制造最好的 GPU,这仍然是核心。但黄仁勋将视野扩展到了极端协同设计——这不仅仅是 GPU,还包括 CPU、内存、网络、存储、电源冷却、软件,甚至是机架本身、发布的 Pod,乃至整个数据中心。
极端协同设计的必要性源于:问题不再能装在单台计算机里被单个 GPU 加速。你希望增加 1 万台计算机就能获得 100 万倍的加速,这意味着你必须分解算法、重构它、分割流水线、分割数据、分割模型。
分布式计算的阿姆达尔定律
当你以这种方式分布式地处理问题时,一切都成了障碍。这就是阿姆达尔定律的问题——某部分的加速程度取决于它在总工作量中的占比。如果计算占问题的 50%,而我把计算加速了 100 万倍,那么总体工作负载我只加速了两倍。
因此,不仅要分布式计算,还要以某种方式分割流水线。你还必须解决网络问题,因为所有这些计算机都连接在一起。在 NVIDIA 所做的规模上,分布式计算意味着:CPU 是问题,GPU 是问题,网络是问题,交换是问题。跨所有计算机分配工作负载也是一个问题。
2黄仁勋如何管理 NVIDIA
60 人的直接下属团队
黄仁勋的直接下属有60 人。他不可能与每个人一对一交流,因为这在实践中是不可能的。但这就是 NVIDIA 的组织架构——每一位高级副总裁至少在工程领域有一席之地。他们是内存专家、CPU 专家、光学专家、GPU 专家、架构专家、算法专家……
组织架构即产品
黄仁勋对组织架构有独特的理解:
公司的目标应该是成为生产产出的机器、机制、系统。这个产出是我们喜欢创造的产品。公司的架构还应该反映它所处环境的架构。它几乎直接告诉你应该怎么设计组织。
黄仁勋认为,公司的组织架构应该反映它所生产的产品的架构,以及它所存在的环境的架构。这就是为什么 NVIDIA 的组织结构如此独特——它不是为了管理而管理,而是为了创造而组织。
CUDA 的赌注
黄仁勋分享了 CUDA 早期的艰难决策:
CUDA 增加了 GPU 的成本,完全消耗了公司的毛利润。当时公司市值约 80 亿美元,推出 CUDA 后,黄仁勋意识到它会增加如此多的成本,导致市值跌至约 15 亿美元。但他们坚持了下来, slowly clawed their way back。
3AI 扩展定律
四大扩展定律
黄仁勋概述了四个 AI 扩展定律:
- 预训练扩展定律:更大的模型 + 更多数据 = 更智能的 AI
- 后训练扩展定律:使用合成数据持续优化
- 测试时扩展定律:推理和思考的深度
- 智能体扩展定律:AI 生成更多 AI,形成智能体团队
合成数据的未来
黄仁勋认为,未来训练所需的大部分数据将是合成数据。他指出,我们教给彼此的大部分信息本身就是合成的——它并非来自自然,而是人类创造的。AI 现在能够获取真实数据,增强它,合成生成大量数据。
4AI 扩展的最大障碍
黄仁勋讨论了当前 AI 扩展面临的主要障碍:
电力是一个担忧,但不是唯一的担忧。这就是为什么他们如此努力地推动极端协同设计,以便每年都能将每瓦的 token 吞吐量提高几个数量级。在过去 10 年,摩尔定律本应使计算进步约 100 倍,而 NVIDIA 将计算规模扩展了 100 万倍。
5供应链
黄仁勋详细讨论了供应链的复杂性:
每个机架有 130 万个组件,Vera Rubin 机架有 200 家供应商。黄仁勋亲自拜访供应链合作伙伴,解释业务动态和未来增长,说服他们进行数十亿美元的资本投资。
6内存
三年前,黄仁勋说服了几位 CEO,尽管当时 HBM 内存使用相当稀少,主要用于超级计算机,但这将成为未来数据中心的主流内存。
7能源
黄仁勋提出了一个创新的能源解决方案:
他建议数据中心应该能够优雅地降级——当电网需要时,将功耗降至 80%,通过将工作负载转移到其他地方或降低计算速率来减少能耗。
8Elon 与 Colossus
黄仁勋高度赞扬了 Elon Musk 和 xAI 在孟菲斯建造 Colossus 超级计算机的成就——仅用 4 个月时间,现在已达到 20 万块 GPU 且仍在快速增长。
黄仁勋欣赏 Elon 亲临现场的做法——如果出现问题,他会直接到现场说"给我看看问题"。当个人以如此紧迫的方式行动时,会让其他所有人也以紧迫的方式行动。
9工程与领导力方法
光速思维
黄仁勋介绍了他 30 年前开始的方法论,称为"光速":
第一性原理
他不喜欢渐进式改进的方法。他更喜欢将一切归零,问:"首先,解释为什么最初需要 74 天。如果我们完全从零开始重建,今天可能需要多长时间?"通常令人惊讶的是,可能只需要 6 天。
10中国
黄仁勋最近访问了中国,他分析了中国科技行业成功的原因:
- 全球 50% 的 AI 研究人员是中国人
- 科技行业诞生于移动云时代,擅长软件
- 省份和城市之间存在激烈竞争
- 家庭第一、朋友第二、公司第三的文化
- 开源贡献更多,知识共享快速
11TSMC 与台湾
黄仁勋与 TSMC 有着深厚的关系:
黄仁勋透露,2013 年张忠谋曾邀请他担任 TSMC CEO,但他拒绝了。他谦逊地表示,TSMC 是历史上最重要的公司之一,但他有 NVIDIA 的重要工作要做。
12NVIDIA 的护城河
黄仁勋认为 NVIDIA 最重要的护城河是 CUDA 的安装基础:
如果开发者支持 CUDA,明天它就会好 10 倍。他们只需要平均等待 6 个月。不仅这样,如果他们在 CUDA 上开发,他们能触及数亿台计算机。他们在每个云、每个计算机公司、每个行业、每个国家。
13太空中的 AI 数据中心
黄仁勋讨论了在太空建造 AI 数据中心的可能性:
他更务实的答案是:消除浪费。电网有 40% 的剩余容量闲置,他希望尽可能快地利用这些闲置电力。
14NVIDIA 会值 10 万亿美元吗?
黄仁勋对 NVIDIA 的增长极其乐观:
他认为,计算机过去是仓库,现在是工厂。工厂与公司的收入直接相关。token 正在像 iPhone 一样分层——免费 token、高级 token、中间层 token。有人愿意为每百万 token 支付 1000 美元。
15压力下的领导力
黄仁勋讨论了如何应对巨大的压力:
他分享了应对焦虑的方法:分解问题,然后告诉自己——对于能做的事情,去推理并执行;对于无法控制的,停止为此哭泣。他还强调了"系统性遗忘"的重要性——像 AI 学习一样,知道何时遗忘一些事情。
16电子游戏
黄仁勋对电子游戏充满热情:
他认为 Doom 是最有影响力的游戏,因为它将 PC 从办公自动化工具转变为家庭和游戏玩家的个人电脑。他还喜欢 Skyrim,经常只是为了步行穿越游戏世界。
17AGI 时间线
黄仁勋对 AGI 的定义和时间线有独特看法:
但他也承认,10 万个智能体建造 NVIDIA 的概率是零。他区分了智能和人性——智能是一种功能性能力,而人性是一个更大的词,包括生活经验、对痛苦的容忍、决心。
18编程的未来
黄仁勋认为编程的定义正在改变:
他认为每个木匠、电工、农民、药剂师都应该使用 AI。他相信程序员的数量会增加,因为编程的门槛降低了,更多人能够创造软件。
19意识
黄仁勋讨论了 AI 是否能拥有意识:
他强调应该真正提升的词是人性——性格、人性、同情心、慷慨,这些都是超人的力量。智能将被商品化,但人性不会。
20死亡
黄仁勋谈到了他对死亡的看法:
他 famous for saying he doesn't believe in succession planning(继任规划)。原因是:如果你担心继任规划,你应该做的最重要的事情就是尽可能快速、持续地传递知识。他希望在工作中死去,最好是瞬间死去,没有长期的痛苦。
21写在最后
这场 5 小时的对话揭示了几个核心真理:
- 技术远见比市场分析更重要——CUDA 的押注在 10 年后才显现价值
- 组织架构应该反映产品——不要为了管理而管理
- 极端协同设计是未来——单一优化已经不够了
- 意志力可以战胜短期质疑——华尔街不懂技术,创始人要相信自己的判断
- 智能将被商品化,但人性不会——我们应该庆祝人类更多
参考链接
Lex Fridman Podcast #494: https://lexfridman.com/jensen-huang
YouTube: https://youtube.com/watch?v=vif8NQcjVf0