📰 正文
Data Formulator 是微软研究院推出的一个基于人工智能的数据可视化工具,旨在通过结合用户界面的交互和自然语言输入,帮助分析师高效地创建复杂的数据可视化图表。
与大多数基于聊天的AI工具不同,如果你经常需要整理数据、转换数据格式、清理数据中的错误信息,那这个工具就能大幅度提升你的工作效率,减少你手动修改数据的时间。
为什么叫 Data Formulator ?
“Data”(数据)+ “Formulator”(制定者)
它的作用就是:帮你“制定”数据的可视化方案,让你不用自己写复杂代码!
它最大的特点是:结合人工智能(AI)和用户操作,让数据处理更简单、更智能。你可以用拖拽界面 + 文字描述的方式告诉 AI 你想要的结果,它就能帮你自动完成数据转换和可视化。
它是一个 智能数据可视化工具
👉 你只需要告诉 Data Formulator 想要的图表是什么样子,AI 会自动帮你处理数据并生成图表。
支持:
拖拽数据字段(像 PowerPoint 里拖拽元素一样)
用自然语言描述数据转换需求(像和 AI 交流一样)
让 AI 处理数据、生成图表(无需手动写 SQL 或 Python 代码)
支持迭代修改和回溯(可以随时调整而不用重做整个可视化)
适用于数据科学、商业分析、企业数据集成等多个领域。
Data Formulator 能做什么?(主要功能)
假如你有一堆杂乱的数据,比如 Excel 表格、JSON 文件、数据库中的数据,但它们的格式不一致,甚至有缺失值或错误数据。如果你需要用这些数据做分析、机器学习或者画图表,你必须先把它们整理干净。
通常,这个数据整理的过程非常麻烦,需要你用 Excel 手动修改,或者写 Python 代码用 Pandas 处理。而 Data Formulator 就是为了帮你自动完成这些琐碎的任务,省去手工操作的麻烦,提高效率!
Data Formulator 提供了数据清洗、转换、格式化和可视化的功能,让数据更容易使用。
🌟 主要功能
Data Formulator 的优势
和传统的数据处理工具相比,Data Formulator 主要有以下几个优势:
🔹 传统方法:需要用户手动写代码处理数据、调整图表格式 🔹 Data Formulator 2:让 AI 自动处理,你只要 拖拽 + 说出需求,就能得到想要的图表!
Data Formulator 的优势
✔ 自动化 → 不用手动操作,减少重复劳动 ✔ 简单易用 → 只需要几行代码就能处理数据,不需要写复杂的脚本 ✔ AI 加持 → 可以让 AI 帮你解析数据、生成新字段,甚至直接画图 ✔ 支持拖拽 UI + 代码操作,适合不同技术水平的用户
这使得它不仅适用于数据科学家,也适用于商业分析师、开发者等人群,大大提高数据处理效率。
详细功能介绍
拖拽+自然语言交互
💡 你不需要写代码,只要: 1.
拖拽数据(比如把“年份”拖到 X 轴,把“销售额”拖到 Y 轴)
用自然语言告诉 AI 你的需求(比如“按国家分组”)
AI 自动生成图表
🔹 示例 1:创建销售趋势图
你拖拽 “年份” → X 轴,“销售额” → Y 轴
AI 立即生成 销售额随时间变化的折线图
AI 自动处理数据转换
💡 你不需要懂数据处理,AI 帮你做! 很多可视化需要对数据进行转换、计算、合并、筛选,但普通用户不会写 SQL 或 Python。Data Formulator 2 的 AI 会自动帮你完成这些数据处理。
🔹 示例 1:计算每年的可再生能源占比 👉 传统方法:
python复制df['Renewable_Percentage'] = df['Renewable_Energy'] / (df['Fossil_Fuel'] + df['Renewable_Energy'] + df['Nuclear'])
👉 Data Formulator 的方法: 📌 你只需要在 Y 轴输入一个新字段 “可再生能源占比”,AI 自动计算并生成数据
🔹 示例 2:按年份分组,计算各国排名
📌 你只需输入 “按年份计算每个国家的可再生能源占比排名” 📌 AI 自动写代码计算,并在图表中展示排名变化
支持迭代修改(Data Threads)
💡 你可以反复修改图表,而不用从头开始! 传统 AI 可视化工具一次性生成图表后,如果你想调整某个细节,必须重新输入所有指令,但 Data Formulator 2 支持 迭代修改和回溯,让你:
回到之前的版本,而不用重做整个可视化
复制现有图表,创建新的分支
修改某个部分,而不影响整体设计
🔹 示例 1:想要只看 CO₂ 排放最多的 5 个国家 📌 你不需要重做整个图表 📌 直接在 现有图表 上输入 “只显示 CO₂ 排放最多的 5 个国家” 📌 AI 只修改筛选条件,其他部分不变
🔹 添加全球平均趋势 📌 复制现有图表 → 输入 “添加全球平均趋势” 📌 AI 计算后自动添加到现有图表
代码可视化 & 结果检查
💡 即使你不会编程,也可以查看 AI 的数据转换代码!
AI 生成的数据转换代码,你可以查看、理解 AI 如何处理数据
代码解释模块,帮你理解转换逻辑,即使你不懂编程
🔹 示例:查看 AI 计算国家排名的代码 📌 AI 生成:
python复制df['Rank'] = df.groupby('Year')['Renewable_Percentage'].rank()
📌 你可以点击“查看代码”,了解 AI 处理数据的过程
兼容 Vega-Lite 进行高级可视化
💡 专业用户可以调整更复杂的可视化细节
支持多种高级图表(散点图、柱状图、折线图、热力图、箱线图等)
可以微调颜色、排序、图表布局
支持多层可视化(Layered Charts)
Data Formulator 支持多种数据源,包括: ✅ CSV(Excel 表格格式) ✅ JSON(常见的 API 数据格式) ✅ SQL 数据库(MySQL、PostgreSQL、SQLite) ✅ Excel 文件(.xls, .xlsx) ✅ Parquet(大数据文件格式) ✅ 图片(OCR 识别) ✅ 网页文本(智能解析)
总结:为什么要用 Data Formulator?
✅ 支持自然语言 & UI 操作 → 不仅可以通过代码,还能用自然语言描述可视化需求 ✅ 支持多个 AI 模型 → 兼容 OpenAI(GPT-4o)、Azure AI、Anthropic Claude、Ollama 及 LiteLLM ✅ 动态数据转换 → 可自动处理数据缺失、清洗、计算等 ✅ 迭代式可视化生成 → 可通过调整数据字段或自然语言提示优化图表 ✅ 支持 Python & Web 运行 → 既可以作为 Python 库运行,也可通过 Web 界面操作
适用于:
📌 商业智能 (BI) → 通过 AI 生成销售、市场趋势等可视化报告 📌 数据分析师 → 让 AI 自动完成数据清理、转换、生成图表 📌 初学者 & 非技术用户 → 不会写代码也可以轻松创建数据可视化 📌 学术研究 → 研究人员可以快速探索数据,并通过 AI 进行数据分析
👉 Data Formulator = AI + 数据处理 + 可视化,一站式解决数据问题! 🚀
GitHub:https://github.com/microsoft/data-formulator
论文:https://arxiv.org/pdf/2408.16119