微软开源 Magentic-UI：一个能自动执行复杂网页任务的智能代理系统 但你可以控制走向

📰 正文

Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构，结合大型语言模型（LLM），可自动执行复杂的网页任务。

它可以：

🧠 自动浏览网页、📁 读取文件、🧑‍💻 写代码，还能和你配合完成任务。

但它不是全自动机器人，它是你和 AI 一起工作的小伙伴，你有最终的控制权，它只负责干活。

所有操作都显示给你看，点击按钮、打开页面、发送信息，都会提前征求你同意。

执行任务时，你可以随时暂停、修改计划、重启流程。

你也可以设置哪些操作必须人工批准。

主要功能：

浏览网页自动点击、填表

写代码、运行结果返回

看文件内容并回答问题

用户可以制定任务步骤，随时修改、暂停

Magentic-UI 有哪些核心亮点？

1️⃣ 协同规划（Co-Planning）

用户输入目标后，系统会生成详细的任务执行步骤（像 todo list）。

用户可以修改这个计划、删减步骤、重新排序，然后确认执行。

📝 举例：你说“帮我查航班”，它会自动生成：

打开航班网站

搜索某时间段的航班

记录票价你可以说：“加一步，过滤只看直飞”。

2️⃣ 协同执行（Co-Tasking）

执行任务时，系统实时汇报它即将做的事（比如：点击哪个按钮、输入什么文字）。

用户可以中途接手操作，也可以把控制权交回系统。

📷 页面会分左右两栏：左边是操作步骤和计划，右边是浏览器画面。

3️⃣ 操作守卫（Action Guards）

所有重要或不可逆操作（如：付款、关闭页面），系统会暂停，询问用户是否批准。

用户可以自定义哪些操作需要询问，甚至可以设置“所有操作都要先征求意见”。

🛡️ 提供了强力的安全保障，避免误操作或被攻击。

4️⃣ 学习计划（Plan Learning）

每次任务完成后，系统会自动学习执行过程，把它保存为“计划模板”。

下次遇到类似任务，系统会自动推荐之前的步骤，节省时间。

📂 所有计划保存在一个“计划库”（Plan Gallery）里，可以重用、修改、定制。

系统架构

Orchestrator 协调四个 AutoGen 代理（WebSurfer、Coder、FileSurfer 和 UserProxy），以处理浏览、编码、文件管理和用户反馈等任务。它的设计充分考虑了用户代理协作，并提供透明、可控的界面。

Magentic-UI 就像一个小团队的组合拳：

Orchestrator（协调器）：核心智能体，由 LLM 驱动，负责任务规划决策、分配子任务、与用户互动。

WebSurfer：网页浏览代理，可自动点击、滚动、访问网页完成指令。

Coder：编程代理，会写 Python 和 Shell 代码，还能运行代码告诉你结果。

FileSurfer：文件处理代理，支持文件定位、格式转换（依赖 MarkItDown）。

UserProxy：用户接口代理，采集用户反馈并进行审批。负责把你的意见传达给其他智能体。

🔒 所有操作都在 Docker 容器中运行，保护用户设备与数据安全。

技术栈与依赖

主要语言：Python（69%），TypeScript（27%），JavaScript

依赖平台：需要 Docker 运行；Windows 下需 WSL2。

模型后端：由 OpenAI GPT-4o驱动，通过 .yaml 可配置 OpenAI/Azure API。

包管理工具：支持 PyPI 安装、也可用 uv 构建与同步依赖。

前端框架：使用 Gatsby + Yarn 构建 UI。

怎么和它互动？

你在网页界面上输入一句话，比如：

“请帮我找出 5 款评价最好的机械键盘，并列出链接和价格。”

它会生成一个计划，例如： 1.

打开亚马逊网站

搜索“机械键盘”

过滤出评价高的产品

记录链接和价格

汇总返回结果

你可以编辑这个计划，比如删掉第3步，或者改为“只看 100 美元以下的产品”。然后点击“开始执行”，它就会自动一条条执行并汇报进展。

实验验证：人类反馈到底有没有用？

微软在 GAIA 基准测试中用“模拟用户”验证了 Magentic-UI 的人类协作优势：

无用户参与时，任务完成率仅 30%；

有智能模拟用户协助时，提升到 42% ~ 52%；

系统只在 10%~18% 的任务中需要求助人类，但效果显著提升。

✅ 结论：即使只偶尔提供人类反馈，也能显著提升智能体表现，且远比全人工操作便宜高效。

GitHub：https://github.com/microsoft/magentic-ui

详细介绍：https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/

来源：微软开源 Magentic-UI：一个能自动执行复杂网页任务的智能代理系统但你可以控制走向

📰 正文#

📰 正文