Manus 背后核心技术 Browser Use：使 AI能够让 AI 像人类一样浏览网页并自动执行 Web 任务

📰 正文

X 用户@jianxliao 声称他通过简单地请求 Manus AI 提供其位于“/opt/.manus/”的内部文件，AI 直接提供了这些文件，包括其沙箱运行时代码。他随后列出了几个关键发现：

Manus AI 实际上基于 Claude Sonnet（Anthropic 开发的 AI 模型）。

它集成了 29 种工具，并使用 @browser_use 提供浏览器功能。

它不使用多代理（multi-agent）系统。

@browser_use 的代码被混淆（obfuscated），可能意在隐藏其实现细节。

工具和提示存在“越狱”（jailbreak）现象，暗示可能存在安全漏洞或未授权访问。

Manus 的联合创始人@peakji 随后证实了这一消息，的确是使用了@browser_use 的开源代码

@peakji 还证实他们使用Claude 和不同的 Qwen 微调版本来构建Manus

Browser Use 介绍

使 AI 代理能够让 AI 像人类一样浏览网页并自动执行 Web 任务，例如抓取数据、自动填写表单、执行操作等。

主要功能：

✅ 访问任意网站，并进行交互（比如自动登录、搜索信息、购买商品）。 ✅ 抓取网页数据，整理成有用的格式（比如从电商网站提取商品价格、库存信息）。 ✅ 自动填写表单、提交内容（比如注册账号、填写客户信息）。 ✅ 执行复杂任务（比如读取简历，自动申请多个工作，或在 Google Docs 写信并导出 PDF）。 ✅ 在多个标签页同时操作，提高效率（比如对比多个网站的价格，并生成报告）。

技术特点

视觉+HTML 解析

🧐 AI 不只是“看”网页，还能“理解”网页！

结合计算机视觉（Vision）和 HTML 代码解析，让 AI 代理既能“看懂”网页内容，也能分析网页结构。

比如：

传统爬虫只能抓取文本，而 Browser Use 可以找到真正的交互按钮，比如“加入购物车”或“提交订单”按钮。

AI 不仅能读取内容，还能做出决策，如自动选择航班、预订酒店等。

多标签页管理

📂 支持 AI 同时在多个网页上工作

AI 代理可以同时打开多个标签页，进行复杂任务（比如比价、同步多个网站的数据）。

适用于：

市场分析：同时打开 Amazon、eBay、Walmart，分析同一商品的不同价格。

多任务处理：同时搜索多个工作网站，自动提交申请。

交互式元素追踪

🔍 AI 代理能够精准点击网页上的按钮、输入框，而不是“瞎点”！

记录 AI 点击过的网页元素（XPath），确保每次任务都可以重复执行，不会因网页结构变化而失效。

比如：

你让 AI “每天登录某个网站，检查库存并下单”，Browser Use 能确保 AI 每次都点击正确的按钮，而不是乱点一通。

自定义操作（Custom Actions）

🛠️ 支持 AI 代理执行复杂操作，比如：

保存数据到本地文件（比如 CSV、Excel）

发送数据到数据库

发送通知到 Slack、邮件

请求人工确认（如果遇到特殊情况，AI 代理可以暂停并等待人工指令）。

自动纠错 & 恢复

🔄 AI 代理不会因为一个小错误就崩溃！

内置智能错误处理，AI 代理可以自动恢复操作，避免因网页加载失败、按钮位置变化而影响任务执行。

比如：

遇到验证码？AI 会暂停并等待用户输入，而不会直接崩溃！

遇到页面出错？AI 会自动刷新，重新尝试执行任务！

兼容所有大语言模型（LLM）

🤖 支持各种 AI 模型（LLM），包括：

GPT-4（OpenAI）

Claude 3（Anthropic）

Llama 2（Meta）

DeepSeek、Mistral、Command R+ 等

📈 AI 代理准确率：89%

Browser Use 在 WebVoyager 基准测试的586 个不同类型的网页任务中取得了 89.1% 的任务成功率，超越了其他 Web 代理技术。

🔍 Web 任务成功率

Hugging Face 达到了 100% 的任务完成率，AI 代理在该平台上的操作最为顺畅。

Google Flights、Amazon、GitHub 也取得了 90% 以上的成功率，说明 AI 代理可以很好地适应复杂的网页结构。

即使是表现“最差”的域名（Booking.com）仍然达到了 80%的成功率（该网站的动态内容较多，交互方式复杂。）

示例任务：

将商品添加到购物车，并结账。任务：将杂货项目添加到购物车，并结账。

将 LinkedIn 关注者添加到 Salesforce 客户列表。提示：将我最新的 LinkedIn 关注者添加到 Salesforce 中的潜在客户。

读取简历并自动申请机器学习相关工作，提示：阅读我的简历并寻找机器学习职位，将它们保存到一个文件中，然后在新标签页中开始申请，如果你需要帮助，请问我。

在 Google Docs 写信并导出为 PDF。提示：在 Google Docs 中写一封信给我的爸爸，感谢他所做的一切，并将文档保存为 PDF。

搜索 Hugging Face 上最受欢迎的开源模型。提示：在Hugging Face 上查找具有 cc-by-sa-4.0 许可证的模型，并按最受欢迎排序，保存前 5 个到文件中。

适用场景

✅ Web 自动化任务（电商、CRM、金融等行业） ✅ 数据采集 & 分析（爬虫、市场调研、SEO 分析） ✅ 智能 AI 助手（自动填写表单、搜索信息、执行任务） ✅ 企业级 AI 代理部署（SaaS 平台、客户支持、业务流程优化）

局限性 & 改进方向

部分任务评估有误，需要人工调整：

WebVoyager 评估器（eval model）并不完美，对于某些任务无法正确判断成功/失败。

研究团队手动检查并修正了部分“未知”或“失败”任务的评估结果。

部分任务因数据过期而失败：

例如，机票预订、新闻查询等任务，如果数据过时，可能导致 AI 无法完成。

Cloudflare 防火墙拦截：

在某些网站（如 Amazon、Booking.com）上，AI 代理会被 Cloudflare 拦截。

未来会增加代理轮换（Proxy Rotation），避免 AI 被封锁。

任务 Prompt 可能过于模糊：

研究团队发现，某些任务的 Prompt 可能缺乏明确指示，导致 AI 理解偏差。

GitHub：https://github.com/browser-use/browser-use

网站：https://browser-use.com/

技术报告：https://browser-use.com/posts/sota-technical-report

来源：Manus 背后核心技术 Browser Use：使 AI能够让 AI 像人类一样浏览网页并自动执行 Web 任务

📰 正文#

📰 正文