📰 正文
Magentic-UI 是 Microsoft 研究团队开发的一个面向人类协作的网页智能代理原型系统。它基于多智能体架构,结合大型语言模型(LLM),可自动执行复杂的网页任务。
它可以:
🧠 自动浏览网页、📁 读取文件、🧑💻 写代码,还能和你配合完成任务。
但它不是全自动机器人,它是你和 AI 一起工作的小伙伴,你有最终的控制权,它只负责干活。
所有操作都显示给你看,点击按钮、打开页面、发送信息,都会提前征求你同意。
执行任务时,你可以随时暂停、修改计划、重启流程。
你也可以设置哪些操作必须人工批准。
主要功能:
浏览网页自动点击、填表
写代码、运行结果返回
看文件内容并回答问题
用户可以制定任务步骤,随时修改、暂停
Magentic-UI 有哪些核心亮点?
1️⃣ 协同规划(Co-Planning)
用户输入目标后,系统会生成详细的任务执行步骤(像 todo list)。
用户可以修改这个计划、删减步骤、重新排序,然后确认执行。
📝 举例: 你说“帮我查航班”,它会自动生成:
打开航班网站
搜索某时间段的航班
记录票价 你可以说:“加一步,过滤只看直飞”。
2️⃣ 协同执行(Co-Tasking)
执行任务时,系统实时汇报它即将做的事(比如:点击哪个按钮、输入什么文字)。
用户可以中途接手操作,也可以把控制权交回系统。
📷 页面会分左右两栏:左边是操作步骤和计划,右边是浏览器画面。
3️⃣ 操作守卫(Action Guards)
所有重要或不可逆操作(如:付款、关闭页面),系统会暂停,询问用户是否批准。
用户可以自定义哪些操作需要询问,甚至可以设置“所有操作都要先征求意见”。
🛡️ 提供了强力的安全保障,避免误操作或被攻击。
4️⃣ 学习计划(Plan Learning)
每次任务完成后,系统会自动学习执行过程,把它保存为“计划模板”。
下次遇到类似任务,系统会自动推荐之前的步骤,节省时间。
📂 所有计划保存在一个“计划库”(Plan Gallery)里,可以重用、修改、定制。
系统架构
Orchestrator 协调四个 AutoGen 代理(WebSurfer、Coder、FileSurfer 和 UserProxy),以处理浏览、编码、文件管理和用户反馈等任务。它的设计充分考虑了用户代理协作,并提供透明、可控的界面。
Magentic-UI 就像一个小团队的组合拳:
Orchestrator(协调器):核心智能体,由 LLM 驱动,负责任务规划决策、分配子任务、与用户互动。
WebSurfer:网页浏览代理,可自动点击、滚动、访问网页完成指令。
Coder:编程代理,会写 Python 和 Shell 代码,还能运行代码告诉你结果。
FileSurfer:文件处理代理,支持文件定位、格式转换(依赖 MarkItDown)。
UserProxy:用户接口代理,采集用户反馈并进行审批。负责把你的意见传达给其他智能体。
🔒 所有操作都在 Docker 容器 中运行,保护用户设备与数据安全。
技术栈与依赖
主要语言:Python(69%),TypeScript(27%),JavaScript
依赖平台:需要 Docker 运行;Windows 下需 WSL2。
模型后端:由 OpenAI GPT-4o驱动,通过 .yaml 可配置 OpenAI/Azure API。
包管理工具:支持 PyPI 安装、也可用 uv 构建与同步依赖。
前端框架:使用 Gatsby + Yarn 构建 UI。
怎么和它互动?
你在网页界面上输入一句话,比如:
“请帮我找出 5 款评价最好的机械键盘,并列出链接和价格。”
它会生成一个计划,例如: 1.
打开亚马逊网站
搜索“机械键盘”
过滤出评价高的产品
记录链接和价格
汇总返回结果
你可以编辑这个计划,比如删掉第3步,或者改为“只看 100 美元以下的产品”。然后点击“开始执行”,它就会自动一条条执行并汇报进展。
实验验证:人类反馈到底有没有用?
微软在 GAIA 基准测试中用“模拟用户”验证了 Magentic-UI 的人类协作优势:
无用户参与时,任务完成率仅 30%;
有智能模拟用户协助时,提升到 42% ~ 52%;
系统只在 10%~18% 的任务中需要求助人类,但效果显著提升。
✅ 结论:即使只偶尔提供人类反馈,也能显著提升智能体表现,且远比全人工操作便宜高效。
GitHub:https://github.com/microsoft/magentic-ui
详细介绍:https://www.microsoft.com/en-us/research/blog/magentic-ui-an-experimental-human-centered-web-agent/