工具解析 · AI 自动化 · 2026年3月

agent-browser

用元素编号革命浏览器自动化——Vercel Labs 最新工具的 Token 效率之道

阅读时间:10 分钟 难度:技术入门
← 返回报告列表
当你让 AI 操作浏览器时,传统的指令可能是:「点击那个蓝色的提交按钮,在页面右下角,class 叫 btn-primary」。而 Vercel Labs 的新工具 agent-browser 说:直接 click @e2。这就是 93% Token 节省的秘密。

1问题:浏览器自动化的 Token 噩梦

AI 操作浏览器已经不是一个新鲜话题。从早期的 Selenium 到 Playwright,再到各种「AI Agent」框架,让大模型控制浏览器的技术路径层出不穷。但所有方案都面临同一个瓶颈:描述元素的指令太长了

传统方案的问题

# 方案 A:CSS 选择器(脆弱且冗长) click "button[class='btn primary'][data-testid='submit-form']" # 方案 B:自然语言描述(歧义多) click "the blue submit button at the bottom right of the form" # 方案 C:坐标点击(极易失效) click 1240 680

这些方案各有致命弱点:

核心痛点每次操作都要传输大量描述信息,Token 成本高、延迟大、出错率高。

2解决方案:元素编号系统

agent-browser 的核心创新可以用一句话概括:让 AI 和浏览器说同一种「方言」

工作流程

Step 1
Snapshot agent-browser snapshot → 获取页面无障碍树 + 自动编号(e1, e2, e3...)
Step 2
理解 AI 看到:e1=搜索框, e2=提交按钮, e3=帮助链接
Step 3
执行 AI 发送:click @e2 → 完成操作

实际使用示例

# 1. 打开页面 agent-browser open example.com # 2. 获取带编号的页面快照 agent-browser snapshot # 输出:e1=input[搜索], e2=button[搜索], e3=link[关于我们]... # 3. 用编号操作 - 简洁! agent-browser fill @e1 "AI 浏览器自动化" agent-browser click @e2 # 4. 获取结果 agent-browser get text @e5
93%
Token 节省
<1ms
解析延迟
0
歧义可能
Rust
核心语言

393% Token 节省怎么来的?

方案 指令示例 估算 Token 可靠性
CSS 选择器 button[class='btn primary'][id='submit'] ~25-40 低(易失效)
自然语言 the blue submit button at bottom ~12-20 低(有歧义)
XPath /html/body/div[3]/form/button[2] ~20-35 极低(结构一变就挂)
agent-browser @e2 ~2-3 高(ID 映射稳定)

为什么编号更稳定?

关键在于 ARIA 无障碍树(Accessibility Tree)

传统方案基于视觉 CSS 或 DOM 结构,这些都是「表象」——前端一改就失效。而 agent-browser 基于页面的无障碍树,这是浏览器为屏幕阅读器等辅助技术生成的「语义层」:

ARIA 树是页面对自己「是什么」的诚实描述,而不是「看起来像什么」的表面呈现。 无障碍设计的核心理念

4技术架构:为什么这么快?

Rust 核心 + Node.js 包装

agent-browser 采用分层架构:

性能对比全局安装的 Rust 二进制文件比 npx 路由快 10-100 倍,解析延迟低于 1 毫秒。

Snapshot 设计哲学

传统方案:每次操作都要「看」一眼页面,确认元素位置。

agent-browser:一次 snapshot,获取整张页面的「地图」,后续所有操作基于这张地图。

关键优势减少了 AI 和浏览器之间的往返次数。传统方案需要 N 次「查看-操作」循环,agent-browser 只需要 1 次 snapshot + N 次轻量级指令。

5与 ContextBench 论文的呼应

这篇报告引用的 ContextBench 论文有一个核心发现:复杂的 Agent 脚手架对上下文检索的提升微乎其微——这就是所谓的「痛苦的教训」(The Bitter Lesson)。

agent-browser 的践行

agent-browser 正是这一理念的完美体现:

设计哲学浏览器自动化的「Token」——用最少的信息传递最多的意图。

这和我在 Token 报告中讲的概念形成呼应:就像 AI 把文字切成 Token 来理解,agent-browser 把网页元素切成编号来操作。压缩、标准化、符号化——这是效率的终极形态。

6实际应用与局限性

适合的场景

当前的局限

实用技巧

# 带标注的截图 - 可视化元素编号 agent-browser screenshot --annotate page.png # 多步骤操作 - 减少 snapshot 次数 agent-browser open example.com agent-browser snapshot # 然后连续执行多个操作... # 获取文本内容 agent-browser get text @e5 agent-browser get html @e6

7安装与快速开始

# 安装(推荐全局安装获得最佳性能) npm install -g agent-browser # 下载 Chromium(首次使用) agent-browser install # 基础使用流程 agent-browser open example.com agent-browser snapshot agent-browser click @e2 agent-browser fill @e3 "test@example.com" agent-browser screenshot page.png agent-browser close

相关资源

8一句话总结

agent-browser 把浏览器自动化从「描述视觉」降级为「引用符号」,就像编程语言从汇编升级到高级语言——不是让机器更难理解,而是让人机沟通更高效。

93% 的 Token 节省不是魔法,而是信息压缩的艺术:去掉所有不必要的描述,只保留最精简的引用。这正是 AI 时代工具设计的方向——Context, not control