📰 正文

Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构,结合大型语言模型(LLM),可自动执行复杂的网页任务。

它可以:

🧠 自动浏览网页、📁 读取文件、🧑‍💻 写代码,还能和你配合完成任务。

但它不是全自动机器人,它是你和 AI 一起工作的小伙伴,你有最终的控制权,它只负责干活。

所有操作都显示给你看,点击按钮、打开页面、发送信息,都会提前征求你同意。

执行任务时,你可以随时暂停、修改计划、重启流程。

你也可以设置哪些操作必须人工批准。

主要功能:

浏览网页自动点击、填表

写代码、运行结果返回

看文件内容并回答问题

用户可以制定任务步骤,随时修改、暂停

image

Magentic-UI 有哪些核心亮点?

1️⃣ 协同规划(Co-Planning)

用户输入目标后,系统会生成详细的任务执行步骤(像 todo list)。

用户可以修改这个计划、删减步骤、重新排序,然后确认执行。

📝 举例: 你说“帮我查航班”,它会自动生成:

打开航班网站

搜索某时间段的航班

记录票价 你可以说:“加一步,过滤只看直飞”。


2️⃣ 协同执行(Co-Tasking)

执行任务时,系统实时汇报它即将做的事(比如:点击哪个按钮、输入什么文字)。

用户可以中途接手操作,也可以把控制权交回系统。

📷 页面会分左右两栏:左边是操作步骤和计划,右边是浏览器画面。


3️⃣ 操作守卫(Action Guards)

所有重要或不可逆操作(如:付款、关闭页面),系统会暂停,询问用户是否批准。

用户可以自定义哪些操作需要询问,甚至可以设置“所有操作都要先征求意见”。

🛡️ 提供了强力的安全保障,避免误操作或被攻击。


4️⃣ 学习计划(Plan Learning)

每次任务完成后,系统会自动学习执行过程,把它保存为“计划模板”。

下次遇到类似任务,系统会自动推荐之前的步骤,节省时间。

📂 所有计划保存在一个“计划库”(Plan Gallery)里,可以重用、修改、定制。

image

系统架构

Orchestrator 协调四个 AutoGen 代理(WebSurfer、Coder、FileSurfer 和 UserProxy),以处理浏览、编码、文件管理和用户反馈等任务。它的设计充分考虑了用户代理协作,并提供透明、可控的界面。

image

Magentic-UI 就像一个小团队的组合拳:

Orchestrator(协调器):核心智能体,由 LLM 驱动,负责任务规划决策、分配子任务、与用户互动。

WebSurfer:网页浏览代理,可自动点击、滚动、访问网页完成指令。

Coder:编程代理,会写 Python 和 Shell 代码,还能运行代码告诉你结果。

FileSurfer:文件处理代理,支持文件定位、格式转换(依赖 MarkItDown)。

UserProxy:用户接口代理,采集用户反馈并进行审批。负责把你的意见传达给其他智能体。

image

🔒 所有操作都在 Docker 容器 中运行,保护用户设备与数据安全。

技术栈与依赖

主要语言:Python(69%),TypeScript(27%),JavaScript

依赖平台:需要 Docker 运行;Windows 下需 WSL2。

模型后端:由 OpenAI GPT-4o驱动,通过 .yaml 可配置 OpenAI/Azure API。

包管理工具:支持 PyPI 安装、也可用 uv 构建与同步依赖。

前端框架:使用 Gatsby + Yarn 构建 UI。

怎么和它互动?

你在网页界面上输入一句话,比如:

“请帮我找出 5 款评价最好的机械键盘,并列出链接和价格。”

它会生成一个计划,例如: 1.

打开亚马逊网站

搜索“机械键盘”

过滤出评价高的产品

记录链接和价格

汇总返回结果

你可以编辑这个计划,比如删掉第3步,或者改为“只看 100 美元以下的产品”。然后点击“开始执行”,它就会自动一条条执行并汇报进展。

image

image

image

image

实验验证:人类反馈到底有没有用?

微软在 GAIA 基准测试中用“模拟用户”验证了 Magentic-UI 的人类协作优势:

无用户参与时,任务完成率仅 30%;

有智能模拟用户协助时,提升到 42% ~ 52%;

系统只在 10%~18% 的任务中需要求助人类,但效果显著提升。

image

✅ 结论:即使只偶尔提供人类反馈,也能显著提升智能体表现,且远比全人工操作便宜高效。

GitHub:https://github.com/microsoft/magentic-ui

详细介绍:https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/


来源:微软开源 Magentic-UI:一个能自动执行复杂网页任务的智能代理系统 但你可以控制走向