微软发布OmniParser V2 将任何大语言模型转变为一个可以与计算机交互的智能代理

📰 正文

微软发布其基于纯视觉的 GUI 代理的屏幕解析工具 OmniParser 的更新，V2版本， OmniParser 旨在使任何大语言模型（LLM）能够作为计算机使用代理，进行图形用户界面（GUI）自动化。

也就是帮助计算机理解和自动执行图形界面操作的工具，它可以让大型语言模型（如 GPT）识别屏幕上的按钮、图标等可交互元素，从而实现自动化任务。

OmniParser V2 比之前的版本更加精准、快速，尤其在小图标和高分辨率屏幕的识别上表现更好。V2 在速度和功能上相较于 V1 提升了60%，并支持多种操作系统和应用程序图标识别。

普通的 LLM 在执行这些任务时存在一些困难，主要是： 1.

如何识别界面中的可操作元素：例如，界面上的按钮、输入框等。

如何理解界面元素的含义：即，如何理解这些元素的功能，并将这些功能与用户预期的操作匹配。

为了克服这些挑战，OmniParser V2 提供了一种解决方案：它将屏幕截图中的信息从像素（图像的基本单位）转化为结构化数据（例如图标和按钮等元素的定义）。这些结构化数据能够被 LLM 识别和处理，从而使 LLM 可以更智能地理解和预测下一步操作。

OmniParser V2 的目标是将这些强大的语言模型与计算机操作结合起来。通过将 LLM 与 OmniParser 结合，系统可以自动化许多计算机使用任务，像是通过语言指令来控制计算机界面。这样，任何能够运行的 LLM 都能变成一个“计算机使用代理”，能够执行用户的指令，如：

点击、输入、拖拽等操作。

执行一些基于视觉信息的任务（比如读取图标、按钮等）。

简单来说，OmniParser V2 就是让 AI 不仅能理解语言，还能通过理解屏幕上的内容，像人一样去操作电脑，完成任务。

OmniParser V2 的主要改进： 1.

提高精度：与其前身相比，OmniParser V2 在识别小型可交互元素（如小图标）时的准确性更高。

加快速度：通过减少图标说明模型的图像大小，推理速度比之前快了60%。这意味着，OmniParser V2 在执行任务时能够更快速地响应。

增强数据集：OmniParser V2 使用了更大规模的训练数据，涵盖了更多交互元素的检测和图标功能描述数据，使其能够更好地理解和执行操作。

OmniParser V2 与 GPT-4o 配合使用时，在一个新的高分辨率基准测试中，达到了 39.6%的准确率，这是一个显著的提升，远远超过了 GPT-4o 最初的 0.8% 的表现。这个提升意味着 OmniParser V2 在复杂的屏幕和小图标的识别方面做得更好。

OmniTool：加速实验

为了让开发者和研究人员能够更轻松地进行测试和实验，微软创建了 OmniTool，这是一款集成了 OmniParser 的工具，用户可以通过一个 Docker 容器快速部署和运行。

这些工具支持多种不同的语言模型（如 OpenAI（4o/o1/o3-mini）、DeepSeek（R1）、Qwen（2.5VL）和 Anthropic（Sonnet）等），可以帮助用户完成从屏幕理解到实际操作执行的所有步骤。

风险与缓解措施：

微软非常重视人工智能的伦理问题，因此在开发 OmniParser 时，采取了一些措施来减少模型可能带来的偏见。例如，微软确保图标说明模型仅从负责任的数据集中进行训练，避免模型在图标图像中推断出敏感的个人信息（如种族、宗教等）。此外，微软还鼓励用户只在截图中不包含有害内容时使用该工具。

微软对 OmniTool 进行了威胁建模，确保其安全性。为了保证使用时的安全性，微软提供了沙箱 Docker 容器和相关安全指导，建议在使用过程中由人工监控，以最大限度减少风险。

GitHub：https://github.com/microsoft/OmniParser/tree/master

OmniTool ：https://github.com/microsoft/OmniParser/tree/master/omnitool