📰 正文

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新,V2版本, OmniParser 旨在使任何大语言模型(LLM)能够作为 计算机使用代理,进行 图形用户界面(GUI)自动化。

也就是帮助计算机理解和自动执行图形界面操作的工具,它可以让大型语言模型(如 GPT)识别屏幕上的按钮、图标等可交互元素,从而实现自动化任务。

OmniParser V2 比之前的版本更加精准、快速,尤其在小图标和高分辨率屏幕的识别上表现更好。V2 在速度和功能上相较于 V1 提升了60%,并支持多种操作系统和应用程序图标识别。

普通的 LLM 在执行这些任务时存在一些困难,主要是: 1.

如何识别界面中的可操作元素:例如,界面上的按钮、输入框等。

如何理解界面元素的含义:即,如何理解这些元素的功能,并将这些功能与用户预期的操作匹配。

为了克服这些挑战,OmniParser V2 提供了一种解决方案:它将屏幕截图中的信息从像素(图像的基本单位)转化为结构化数据(例如图标和按钮等元素的定义)。这些结构化数据能够被 LLM 识别和处理,从而使 LLM 可以更智能地理解和预测下一步操作。

OmniParser V2 的目标是将这些强大的语言模型与计算机操作结合起来。通过将 LLM 与 OmniParser 结合,系统可以自动化许多计算机使用任务,像是通过语言指令来控制计算机界面。这样,任何能够运行的 LLM 都能变成一个“计算机使用代理”,能够执行用户的指令,如:

点击、输入、拖拽等操作。

执行一些基于视觉信息的任务(比如读取图标、按钮等)。

简单来说,OmniParser V2 就是让 AI 不仅能理解语言,还能通过理解屏幕上的内容,像人一样去操作电脑,完成任务。

OmniParser V2 的主要改进: 1.

提高精度:与其前身相比,OmniParser V2 在识别 小型可交互元素(如小图标)时的准确性更高。

加快速度:通过减少图标说明模型的图像大小,推理速度比之前快了60%。这意味着,OmniParser V2 在执行任务时能够更快速地响应。

增强数据集:OmniParser V2 使用了更大规模的训练数据,涵盖了更多交互元素的检测和图标功能描述数据,使其能够更好地理解和执行操作。

image

OmniParser V2 与 GPT-4o 配合使用时, 在一个新的高分辨率基准测试中,达到了 39.6%的准确率,这是一个显著的提升,远远超过了 GPT-4o 最初的 0.8% 的表现。这个提升意味着 OmniParser V2 在复杂的屏幕和小图标的识别方面做得更好。

OmniTool:加速实验

为了让开发者和研究人员能够更轻松地进行测试和实验,微软创建了 OmniTool,这是一款集成了 OmniParser 的工具,用户可以通过一个 Docker 容器快速部署和运行。

这些工具支持多种不同的语言模型(如 OpenAI(4o/o1/o3-mini)、DeepSeek(R1)、Qwen(2.5VL)和 Anthropic(Sonnet) 等),可以帮助用户完成从屏幕理解到实际操作执行的所有步骤。

风险与缓解措施:

微软非常重视 人工智能的伦理问题,因此在开发 OmniParser 时,采取了一些措施来减少模型可能带来的偏见。例如,微软确保 图标说明模型 仅从 负责任的数据集 中进行训练,避免模型在图标图像中推断出敏感的个人信息(如种族、宗教等)。此外,微软还鼓励用户只在截图中不包含有害内容时使用该工具。

微软对 OmniTool 进行了威胁建模,确保其安全性。为了保证使用时的安全性,微软提供了沙箱 Docker 容器和相关安全指导,建议在使用过程中由人工监控,以最大限度减少风险。

GitHub:https://github.com/microsoft/OmniParser/tree/master

OmniTool :https://github.com/microsoft/OmniParser/tree/master/omnitool


来源:微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理