📰 正文
Vercel 实验室(Vercel Labs)发布全新开源项目 Agent Browser 。该工具是一个为人工智能代理(AI Agents)设计的浏览器自动化命令行工具(CLI),旨在让 AI 模型不仅能理解网页信息,还能直接在网页上执行操作。
Vercel 表示,Agent Browser 的出现,为 AI 代理与真实互联网交互提供了底层执行能力,标志着从“对话式智能”向“行动式智能”迈出了关键一步。
零配置(Zero config):安装即可用,无需手动设置浏览器或依赖。
高性能(Fast Rust CLI):底层用 Rust 实现,运行速度远高于传统 Node/Python 工具。
支持两种模式(Headed / Headless):既可打开可视化浏览器调试,也能在后台静默执行任务。
轻量高效(93% 减少上下文):相比 Playwright MCP,Agent Browser 为 AI 提供更紧凑的数据结构,使交互更高效。
广泛兼容(Compatible with major AI agents):支持 Codex、Claude Code、Gemini、Cursor、Copilot、opencode 等主流 AI 工具,以及任何能运行 Bash 命令的系统。
Agent Browser 是一个为「AI 代理(AI Agents)」设计的浏览器自动化命令行工具。
它的目标是让 AI 能够像人类一样操作网页,而不仅仅是读取网页内容。
它不是给人用的「浏览器」,而是一种让 AI 在网页环境中执行操作的底层接口。
可以理解为:“让 ChatGPT 或 Claude 这样的模型有一双能使用浏览器的手。”
核心能力概览
Agent Browser 是一个命令行工具(CLI)。
它通过简洁的命令让 AI 或脚本直接控制浏览器的行为。
主要功能包括:
AI 专用特性
- Snapshot + Ref 模式
Agent Browser 的设计重点在于让 AI 能稳定、可控地操作浏览器。 项目引入了独特的 Snapshot + Ref 机制:
AI 先执行 snapshot 命令,获取网页的结构化快照(包含所有交互元素);
每个元素拥有唯一引用(例如 @e1, @e2);
如:
@e1 = 登录按钮
@e2 = 邮箱输入框
@e3 = 密码输入框
随后,AI 可通过这些引用精确执行操作:
agent-browser click @e1
agent-browser fill @e2 "user@test.com"
这种方式既避免了传统CSS/XPath选择器的不稳定问题,也更符合AI的“符号化”思维逻辑。 所有结果均可返回为 JSON 格式,方便AI解析和决策,实现“感知—推理—执行”的闭环。
这种方式具有三个特点:
确定性强:不会因页面结构变化出错;
执行快速:无需重新查找DOM;
AI可理解:输出为JSON,方便模型解析。
- JSON 输出模式
所有命令都可以返回结构化数据:
agent-browser get text @e1 --json
输出:
{"success": true, "data": "Submit"}
AI 可以直接读取和解析结果,形成“观察—决策—执行”的闭环。
- Claude / GPT 集成能力
Vercel 提供了 .claude/skills/agent-browser 模板。 这意味着 Claude Code 或 CoWork 可以自动识别并使用 Agent Browser。 开发者无需额外适配,AI 便能执行网页操作。
开发者可直接在 .claude/skills/ 目录中加载该工具,使 Claude 自动具备网页操作能力。
同时,其标准化 CLI 接口和 JSON 输出格式,也便于与 OpenAI、LangChain、LlamaIndex 等生态工具集成。
Vercel Labs 表示,Agent Browser 将成为构建**具备实际执行力的AI工作流(Agent Workflows)**的重要基础设施。
技术架构
Agent Browser 采用双层架构,兼顾性能与可移植性:
┌─────────────────────────────┐
│ Rust CLI 层 │ ← 解析命令,快速响应
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ Node.js 守护进程(Daemon) │ ← 管理 Playwright 浏览实例
└──────────────┬──────────────┘
│
┌──────────────▼──────────────┐
│ 浏览器引擎(Chromium / WebKit)│ ← 执行网页操作
└─────────────────────────────┘
运行逻辑:
用户或AI输入命令;
Rust CLI 解析并传递给 Node.js 守护进程;
守护进程驱动 Playwright 与浏览器交互;
命令执行结果返回给调用者(人或AI)。
优势:
Rust 层高性能(接近原生二进制速度);
Node 层高兼容性(易部署在各种系统);
守护进程常驻(减少浏览器重启开销)。
可以通过以下方式安装:
npm install -g agent-browser
agent-browser install
也支持嵌入式部署,例如在云端函数中:
import { BrowserManager } from "agent-browser";
const browser = new BrowserManager();
await browser.launch({ headless: true });
典型应用场景
AI 办公自动化:AI 自动登录企业系统、下载报表、汇总数据;
网页测试与质量验证:快速替代 Selenium/Playwright 测试脚本;
信息采集与监控:智能识别网页结构,自动提取与比对内容;
多Agent协作:多实例并行操作,实现跨系统任务执行;
安全分析与验证:在隔离环境中模拟用户行为,测试安全风险。
GitHub: