📰 正文

Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。

与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效率,减少你手动修改数据的时间。

image

为什么叫 Data Formulator ?

“Data”(数据)+ “Formulator”(制定者)

它的作用就是:帮你“制定”数据的可视化方案,让你不用自己写复杂代码!

它最大的特点是:结合人工智能(AI)和用户操作,让数据处理更简单、更智能。你可以用拖拽界面 + 文字描述的方式告诉 AI 你想要的结果,它就能帮你自动完成数据转换和可视化。

它是一个 智能数据可视化工具

👉 你只需要告诉 Data Formulator 想要的图表是什么样子,AI 会自动帮你处理数据并生成图表。

支持:

拖拽数据字段(像 PowerPoint 里拖拽元素一样)

用自然语言描述数据转换需求(像和 AI 交流一样)

让 AI 处理数据、生成图表(无需手动写 SQL 或 Python 代码)

支持迭代修改和回溯(可以随时调整而不用重做整个可视化)

适用于数据科学、商业分析、企业数据集成等多个领域。

image

Data Formulator 能做什么?(主要功能)

假如你有一堆杂乱的数据,比如 Excel 表格、JSON 文件、数据库中的数据,但它们的格式不一致,甚至有缺失值或错误数据。如果你需要用这些数据做分析、机器学习或者画图表,你必须先把它们整理干净。

通常,这个数据整理的过程非常麻烦,需要你用 Excel 手动修改,或者写 Python 代码用 Pandas 处理。而 Data Formulator 就是为了帮你自动完成这些琐碎的任务,省去手工操作的麻烦,提高效率!

Data Formulator 提供了数据清洗、转换、格式化和可视化的功能,让数据更容易使用。

🌟 主要功能

image

Data Formulator 的优势

和传统的数据处理工具相比,Data Formulator 主要有以下几个优势:

image

🔹 传统方法:需要用户手动写代码处理数据、调整图表格式 🔹 Data Formulator 2:让 AI 自动处理,你只要 拖拽 + 说出需求,就能得到想要的图表!

image

Data Formulator 的优势

✔ 自动化 → 不用手动操作,减少重复劳动 ✔ 简单易用 → 只需要几行代码就能处理数据,不需要写复杂的脚本 ✔ AI 加持 → 可以让 AI 帮你解析数据、生成新字段,甚至直接画图 ✔ 支持拖拽 UI + 代码操作,适合不同技术水平的用户

这使得它不仅适用于数据科学家,也适用于商业分析师、开发者等人群,大大提高数据处理效率。

详细功能介绍

拖拽+自然语言交互

💡 你不需要写代码,只要: 1.

拖拽数据(比如把“年份”拖到 X 轴,把“销售额”拖到 Y 轴)

用自然语言告诉 AI 你的需求(比如“按国家分组”)

AI 自动生成图表

🔹 示例 1:创建销售趋势图

你拖拽 “年份” → X 轴,“销售额” → Y 轴

AI 立即生成 销售额随时间变化的折线图


AI 自动处理数据转换

💡 你不需要懂数据处理,AI 帮你做! 很多可视化需要对数据进行转换、计算、合并、筛选,但普通用户不会写 SQL 或 Python。Data Formulator 2 的 AI 会自动帮你完成这些数据处理。

🔹 示例 1:计算每年的可再生能源占比 👉 传统方法:

python复制df['Renewable_Percentage'] = df['Renewable_Energy'] / (df['Fossil_Fuel'] + df['Renewable_Energy'] + df['Nuclear'])

👉 Data Formulator 的方法: 📌 你只需要在 Y 轴输入一个新字段 “可再生能源占比”,AI 自动计算并生成数据

🔹 示例 2:按年份分组,计算各国排名

📌 你只需输入 “按年份计算每个国家的可再生能源占比排名” 📌 AI 自动写代码计算,并在图表中展示排名变化


支持迭代修改(Data Threads)

💡 你可以反复修改图表,而不用从头开始! 传统 AI 可视化工具一次性生成图表后,如果你想调整某个细节,必须重新输入所有指令,但 Data Formulator 2 支持 迭代修改和回溯,让你:

回到之前的版本,而不用重做整个可视化

复制现有图表,创建新的分支

修改某个部分,而不影响整体设计

🔹 示例 1:想要只看 CO₂ 排放最多的 5 个国家 📌 你不需要重做整个图表 📌 直接在 现有图表 上输入 “只显示 CO₂ 排放最多的 5 个国家” 📌 AI 只修改筛选条件,其他部分不变

image

🔹 添加全球平均趋势 📌 复制现有图表 → 输入 “添加全球平均趋势” 📌 AI 计算后自动添加到现有图表


代码可视化 & 结果检查

💡 即使你不会编程,也可以查看 AI 的数据转换代码!

AI 生成的数据转换代码,你可以查看、理解 AI 如何处理数据

代码解释模块,帮你理解转换逻辑,即使你不懂编程

🔹 示例:查看 AI 计算国家排名的代码 📌 AI 生成:

python复制df['Rank'] = df.groupby('Year')['Renewable_Percentage'].rank()

📌 你可以点击“查看代码”,了解 AI 处理数据的过程

image


兼容 Vega-Lite 进行高级可视化

💡 专业用户可以调整更复杂的可视化细节

支持多种高级图表(散点图、柱状图、折线图、热力图、箱线图等)

可以微调颜色、排序、图表布局

支持多层可视化(Layered Charts)

Data Formulator 支持多种数据源,包括: ✅ CSV(Excel 表格格式) ✅ JSON(常见的 API 数据格式) ✅ SQL 数据库(MySQL、PostgreSQL、SQLite) ✅ Excel 文件(.xls, .xlsx) ✅ Parquet(大数据文件格式) ✅ 图片(OCR 识别) ✅ 网页文本(智能解析)


总结:为什么要用 Data Formulator?

image

✅ 支持自然语言 & UI 操作 → 不仅可以通过代码,还能用自然语言描述可视化需求 ✅ 支持多个 AI 模型 → 兼容 OpenAI(GPT-4o)、Azure AI、Anthropic Claude、Ollama 及 LiteLLM ✅ 动态数据转换 → 可自动处理数据缺失、清洗、计算等 ✅ 迭代式可视化生成 → 可通过调整数据字段或自然语言提示优化图表 ✅ 支持 Python & Web 运行 → 既可以作为 Python 库运行,也可通过 Web 界面操作

适用于:

📌 商业智能 (BI) → 通过 AI 生成销售、市场趋势等可视化报告 📌 数据分析师 → 让 AI 自动完成数据清理、转换、生成图表 📌 初学者 & 非技术用户 → 不会写代码也可以轻松创建数据可视化 📌 学术研究 → 研究人员可以快速探索数据,并通过 AI 进行数据分析

👉 Data Formulator = AI + 数据处理 + 可视化,一站式解决数据问题! 🚀

GitHub:https://github.com/microsoft/data-formulator

论文:https://arxiv.org/pdf/2408.16119


来源:Data Formulator :微软研究院推出基于人工智能的数据可视化工具 AI 自动帮你处理数据并生成图表