提前1个月精准预测超级碗冠军 陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

📰 正文

提前1个月精准预测超级碗冠军。

提前3周预测格莱美最大赢家。

提前15天预测黄金价格，误差 0.08%。

陈天桥旗下新加坡 AI 公司 MiroMind 刚发布的研究型智能体 MiroThinker，实现了以上战果…

跟 GPT 不是一个物种

MiroThinker 跟 GPT、Claude 这类通用聊天模型不一样。它不是用来日常对话的，而是专门做"深度研究"的 AI Agent。

你给它一个复杂问题，它会自己去全网搜资料，看完之后根据搜到的内容再搜下一轮，把不同来源的信息交叉验证，发现矛盾了再查，反复几十甚至上百轮，最后给你一份有理有据的研究报告。

关键区别在于，它不只是"想"，还能"动手"。一次研究任务里，它能像一个真人研究员一样动手去查。一次研究任务里，它最多能连续调用 300 次工具：执行代码、搜索引擎、API 调用、网页爬取、数据分析… 一路搜、一路验证、一路修正，直到答案足够扎实。

整个过程全自动，不需要你一步步指挥。

三个版本怎么选

本次共发布了三个版本：

MiroThinker-1.7：免费开源（Apache 2.0），2350 亿参数，研究能力评分 74.0（BrowseComp 榜单）。开发者可以直接下载部署。

MiroThinker-1.7-mini：更轻量的版本，300 亿参数，也免费开源。中文研究能力在所有同级别开源模型里排第一。算力有限的话优先考虑这个。

MiroThinker-H1：最强版本，闭源。研究能力评分 88.2，在所有 AI 模型里排名第一，不管开源还是闭源都算上。它在 1.7 的基础上加了一套"验证机制"，模型每做一步都会自查对不对，做完整个任务还会回头审查所有证据，确保最终答案是证据最充分的那个。

能做什么

1、全网搜索和信息整合。它会通过 Google 搜索找到相关网页，然后用 Jina 爬虫抓取页面内容，再用一个小模型把长网页里的关键信息提取出来。不是搜一次就完了，而是会根据搜到的内容决定下一步搜什么，反复迭代。一个复杂任务可能要搜几十上百轮，模型始终在判断"我还需要找什么信息"。中英文都能搜，中文研究能力在开源模型里目前最强。

2、写代码和运算。自带一个代码执行沙盒（E2B），可以直接写 Python 代码跑运算，比如处理数据、做统计分析、画图。不只是"说"，还能"算"，遇到需要数据处理的任务不用你手动介入。

3、读文档。支持上传 PDF、Word、PPT、Excel、图片等各种格式的文件，模型可以读取内容然后基于文档做分析。比如你丢一份财报给它，它能帮你提炼关键数据。

4、生成研究报告。做完整个调研过程后，它会把所有发现整合成一份结构化的深度研究报告，支持在线预览和分享。这不是那种一段话的简单回答，而是一份有章节、有引用、有结论的正式报告。

5、金融分析和预测。这是 MiroMind 一直主打的方向。模型能综合各种数据源来做资产价格、宏观经济趋势的推理判断。在金融搜索基准 FinSearchComp 上拿了最高分。

6、科学研究辅助。 H1 在 FrontierScience 系列科学基准上超过了很多闭源大模型，做文献综述、分析实验数据、推导复杂数学问题都能用。

7、事件预测。体育赛事、颁奖典礼、市场走向，它会综合历史数据和当前信息来做概率判断。MiroMind 之前在字节跳动的 FutureX 预测榜单上连续两周拿第一，这块是强项。

预测案例

回到开头提到的三个预测，这三个案例都是事前公开发布、事后可以对照验证的：

黄金价格预测：2月10日预测2月25日金价 $5,185/盎司，实际结果 $5,181，差了 $4，误差 0.08%，提前15天。

超级碗冠军：1月6日判断西雅图海鹰队最可能赢，2月8日海鹰队 29-13 击败爱国者队夺冠，提前1个月命中。

格莱美最大赢家：1月8日预测 Kendrick Lamar 将主导2026格莱美，2月1日他拿下5项大奖成为当晚最大赢家，提前3周。

当然要说清楚，这些是官方挑出来的成功案例，失败的预测不会拿出来展示。但至少能说明这套系统在信息综合和趋势判断上有一定实力。

技术上怎么做到的

MiroMind 的核心观点是：多搜几次不等于搜得好。

现在很多 AI Agent 的做法是疯狂堆搜索次数和工具调用，短期确实能刷分。但如果每一次搜索、每一次判断的质量不高，多搜几次只会越搜越乱。

第一个：先把每一步做好

一般模型训练分三步。MiroThinker 在中间插了一个专门训练"规划、推理、总结"能力的阶段。效果是模型每一步操作都更靠谱，不会搜了一堆资料但最后答案跑偏。

MiroMind 团队的逻辑是：如果每一步质量不行，多跑几步只会错得更离谱。所以先解决"每一步做对"，再提升"能跑多少步"。

第二个：让模型学会自己检查（H1 独有）

H1 在推理过程中有一个检查机制，做两件事：

走一步查一步：每做完一步推理，检查方向对不对。AI 有时候会倾向于选"看起来最合理"的路，但那条路可能是错的，检查员会拉回来

最后全查一遍：所有推理完成后，审查整条证据链，确保最终答案是证据最充分的那个

加了检查机制之后，完成任务用的步骤数反而变少了。因为无效的步骤被过滤掉了，算力集中到了真正有用的环节。

有意思的是，加了这套检查机制后，模型做事的步骤反而变少了。因为没必要的操作被过滤掉了，算力集中在真正有用的步骤上。做得少但做得对。

相比上一代升级了啥

MiroThinker 1.5 是今年1月发的上一代。这次 1.7 的主要变化：参数量从 300 亿拉到 2350 亿，翻了快 8 倍；训练流程加了"中期训练"环节；成绩全面提升；新增了闭源旗舰版 H1。

上一代 1.5 证明了这条路走得通，1.7 把基础打得更扎实，H1 在这个基础上加了验证机制冲到了天花板。

MiroMind 是谁

盛大集团创始人陈天桥创立的 AI 公司。定位很明确：不做通用聊天模型，专攻"发现式智能"。

目标是造一个"通用求解器"，让 AI 通过 300 步推理达到 99% 的确定性。盛大作为背后资本方，承诺长期投入，不追求短期回报。

1.7 发布两天后，公司宣布三位 AI 科学家加入：华盛顿大学副教授杜少雷管推理模型，南洋理工终身教授安波管系统架构，前 Meta FAIR 研究员杨凯峪建可验证 AI 实验室。

怎么用

普通用户直接去 dr.miromind.ai 体验在线版，不用装任何东西。APP 也有，miromind.ai/download 可以下载。

开发者的话，开源模型在 Hugging Face 和 GitHub 都有，支持 SGLang 和 vLLM 部署。整个项目除了模型本身，还开源了 Agent 框架 MiroFlow 和训练数据集 MiroVerse（14.7 万条样本），三件套齐全。

参考链接：

官方博客：https://www.miromind.ai/blog/mirothinker-1.7-h1-towards-heavy-duty-research-agents-via-verification

GitHub：https://github.com/MiroMindAI/MiroThinker

Hugging Face：https://huggingface.co/collections/miromind-ai/mirothinker-17

在线体验：https://dr.miromind.ai/

来源：提前1个月精准预测超级碗冠军陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型

📰 正文#

📰 正文