技术解析 · AI 基础 · 2026年3月

Token 是什么?

AI 时代的文字货币——从乐高积木到集装箱,理解大模型如何处理语言

阅读时间:8 分钟 难度:入门级
← 返回报告列表
当你跟 ChatGPT 说"你好"的时候,它听到的不是"你好"这两个字,而是类似 [24312, 532, 11] 这样的数字序列。这些数字就是 Token。理解 Token,是理解 AI 如何思考的第一步。

1Token 是文字的「乐高积木」

想象你要用乐高搭一座埃菲尔铁塔。你不会直接把一整块铁塔塑料塞进去,而是要用成百上千个标准化的小积木块,一块一块拼起来。

AI 处理文字的方式完全一样:

生活中的类比

中文:"不可思议" → 切成 [不, 可, 思议] 或 [不可, 思议] 几块

英文:"unbelievable" → 切成 [un, believe, able] 三块

关键是:Token 不是字母,也不是单词,而是模型觉得有意义的「片段」

为什么是「片段」而不是字或词?

因为效率和语义。

如果按字母切,"unbelievable" 要切成 12 个字母,太多太碎。如果按单词切,中文没有空格,"为人民服务"是一个词还是五个字?

Token 是模型训练时自动学会的「最优切法」——既不太碎(减少数量),也不太粗(保留语义)。

2Token 是 AI 的「一口量」

想象 AI 是一个吃东西的人。你喂它一句话,它要分好几口咽下:

1
Hello
2
你好
5
不可思议
~0.75
英文/词

关键发现同样的价格,英文能写更多内容。中文用户得省着点喂

中文为什么「更贵」?

这不是歧视,是编码方式的客观结果:

一个形象的比喻:英文像是预制菜(常见词直接打包),中文像是现切食材(每个字都要单独处理)。 AI 工程师的观察

3Token 是「集装箱」

想象文字是要运输的货物:

运输方式 类比 问题
零散小包裹 按字母处理 太细碎,效率极低
大纸箱 按单词处理 形状不规则,有的太大有的太小
标准化集装箱 Token 统一大小,刚好一辆车能装固定数量

为什么这很重要?

上下文窗口 = 卡车的载货量

GPT-4 可能是 128K Token 的大卡车,GPT-3.5 可能只有 4K Token 的小货车。车厢装满了,前面的货物就会被扔下车——这就是为什么长对话会被「遗忘」。

计费方式 = 按集装箱数量收费,不是按货物重量。这就是为什么 API 账单上写的是 "$0.002 / 1K tokens"——这是每千个集装箱的运费

处理速度 = 拆装集装箱需要时间,Token 越多越慢。一篇 5000 Token 的文章比 500 Token 的回复慢得多。

4Token 对用户的实际意义

省钱技巧

避免「失忆」

当你跟 AI 聊了十几轮后,它开始「忘记」你之前说的话——这不是故意,是车厢满了。最早的对话被挤出去了。

实用建议重要信息在对话早期就告诉 AI,别指望它能记住 20 轮前的细节。

理解「思考过程」

有些 AI 会展示「思考链」(Chain of Thought),看到它用了多少 Token 来「思考」,你就能理解:

5一句话总结

Token 是 AI 的「母语」——你说的是人类语言,AI 听到的是 Token 串。就像你跟一个不懂中文的外国朋友说话,他需要在脑子里先把中文翻译成英文再理解一样。
🧩
乐高积木
🍱
一口量
📦
集装箱
💱
货币单位

记住这三个比喻,你就比 90% 的人更懂 AI 了。