📰 正文
提前1个月精准预测超级碗冠军。
提前3周预测格莱美最大赢家。
提前15天预测黄金价格,误差 0.08%。
陈天桥旗下新加坡 AI 公司 MiroMind 刚发布的研究型智能体 MiroThinker,实现了以上战果…
跟 GPT 不是一个物种
MiroThinker 跟 GPT、Claude 这类通用聊天模型不一样。它不是用来日常对话的,而是专门做"深度研究"的 AI Agent。
你给它一个复杂问题,它会自己去全网搜资料,看完之后根据搜到的内容再搜下一轮,把不同来源的信息交叉验证,发现矛盾了再查,反复几十甚至上百轮,最后给你一份有理有据的研究报告。
关键区别在于,它不只是"想",还能"动手"。一次研究任务里,它能像一个真人研究员一样动手去查。一次研究任务里,它最多能连续调用 300 次工具:执行代码、搜索引擎、API 调用、网页爬取、数据分析… 一路搜、一路验证、一路修正,直到答案足够扎实。
整个过程全自动,不需要你一步步指挥。
三个版本怎么选
本次共发布了三个版本:
MiroThinker-1.7:免费开源(Apache 2.0),2350 亿参数,研究能力评分 74.0(BrowseComp 榜单)。开发者可以直接下载部署。
MiroThinker-1.7-mini:更轻量的版本,300 亿参数,也免费开源。中文研究能力在所有同级别开源模型里排第一。算力有限的话优先考虑这个。
MiroThinker-H1:最强版本,闭源。研究能力评分 88.2,在所有 AI 模型里排名第一,不管开源还是闭源都算上。它在 1.7 的基础上加了一套"验证机制",模型每做一步都会自查对不对,做完整个任务还会回头审查所有证据,确保最终答案是证据最充分的那个。
能做什么
1、全网搜索和信息整合。 它会通过 Google 搜索找到相关网页,然后用 Jina 爬虫抓取页面内容,再用一个小模型把长网页里的关键信息提取出来。不是搜一次就完了,而是会根据搜到的内容决定下一步搜什么,反复迭代。一个复杂任务可能要搜几十上百轮,模型始终在判断"我还需要找什么信息"。中英文都能搜,中文研究能力在开源模型里目前最强。
2、写代码和运算。 自带一个代码执行沙盒(E2B),可以直接写 Python 代码跑运算,比如处理数据、做统计分析、画图。不只是"说",还能"算",遇到需要数据处理的任务不用你手动介入。
3、读文档。 支持上传 PDF、Word、PPT、Excel、图片等各种格式的文件,模型可以读取内容然后基于文档做分析。比如你丢一份财报给它,它能帮你提炼关键数据。
4、生成研究报告。 做完整个调研过程后,它会把所有发现整合成一份结构化的深度研究报告,支持在线预览和分享。这不是那种一段话的简单回答,而是一份有章节、有引用、有结论的正式报告。
5、金融分析和预测。 这是 MiroMind 一直主打的方向。模型能综合各种数据源来做资产价格、宏观经济趋势的推理判断。在金融搜索基准 FinSearchComp 上拿了最高分。
6、科学研究辅助。 H1 在 FrontierScience 系列科学基准上超过了很多闭源大模型,做文献综述、分析实验数据、推导复杂数学问题都能用。
7、事件预测。 体育赛事、颁奖典礼、市场走向,它会综合历史数据和当前信息来做概率判断。MiroMind 之前在字节跳动的 FutureX 预测榜单上连续两周拿第一,这块是强项。
预测案例
回到开头提到的三个预测,这三个案例都是事前公开发布、事后可以对照验证的:
黄金价格预测:2月10日预测2月25日金价 $5,185/盎司,实际结果 $5,181,差了 $4,误差 0.08%,提前15天。
超级碗冠军:1月6日判断西雅图海鹰队最可能赢,2月8日海鹰队 29-13 击败爱国者队夺冠,提前1个月命中。
格莱美最大赢家:1月8日预测 Kendrick Lamar 将主导2026格莱美,2月1日他拿下5项大奖成为当晚最大赢家,提前3周。
当然要说清楚,这些是官方挑出来的成功案例,失败的预测不会拿出来展示。但至少能说明这套系统在信息综合和趋势判断上有一定实力。
技术上怎么做到的
MiroMind 的核心观点是:多搜几次不等于搜得好。
现在很多 AI Agent 的做法是疯狂堆搜索次数和工具调用,短期确实能刷分。但如果每一次搜索、每一次判断的质量不高,多搜几次只会越搜越乱。
第一个:先把每一步做好
一般模型训练分三步。MiroThinker 在中间插了一个专门训练"规划、推理、总结"能力的阶段。效果是模型每一步操作都更靠谱,不会搜了一堆资料但最后答案跑偏。
MiroMind 团队的逻辑是:如果每一步质量不行,多跑几步只会错得更离谱。所以先解决"每一步做对",再提升"能跑多少步"。
第二个:让模型学会自己检查(H1 独有)
H1 在推理过程中有一个检查机制,做两件事:
走一步查一步: 每做完一步推理,检查方向对不对。AI 有时候会倾向于选"看起来最合理"的路,但那条路可能是错的,检查员会拉回来
最后全查一遍: 所有推理完成后,审查整条证据链,确保最终答案是证据最充分的那个
加了检查机制之后,完成任务用的步骤数反而变少了。因为无效的步骤被过滤掉了,算力集中到了真正有用的环节。
有意思的是,加了这套检查机制后,模型做事的步骤反而变少了。因为没必要的操作被过滤掉了,算力集中在真正有用的步骤上。做得少但做得对。
相比上一代升级了啥
MiroThinker 1.5 是今年1月发的上一代。这次 1.7 的主要变化:参数量从 300 亿拉到 2350 亿,翻了快 8 倍;训练流程加了"中期训练"环节;成绩全面提升;新增了闭源旗舰版 H1。
上一代 1.5 证明了这条路走得通,1.7 把基础打得更扎实,H1 在这个基础上加了验证机制冲到了天花板。
MiroMind 是谁
盛大集团创始人陈天桥创立的 AI 公司。定位很明确:不做通用聊天模型,专攻"发现式智能"。
目标是造一个"通用求解器",让 AI 通过 300 步推理达到 99% 的确定性。盛大作为背后资本方,承诺长期投入,不追求短期回报。
1.7 发布两天后,公司宣布三位 AI 科学家加入:华盛顿大学副教授杜少雷管推理模型,南洋理工终身教授安波管系统架构,前 Meta FAIR 研究员杨凯峪建可验证 AI 实验室。
怎么用
普通用户直接去 dr.miromind.ai 体验在线版,不用装任何东西。APP 也有,miromind.ai/download 可以下载。
开发者的话,开源模型在 Hugging Face 和 GitHub 都有,支持 SGLang 和 vLLM 部署。整个项目除了模型本身,还开源了 Agent 框架 MiroFlow 和训练数据集 MiroVerse(14.7 万条样本),三件套齐全。
参考链接:
官方博客:https://www.miromind.ai/blog/mirothinker-1.7-h1-towards-heavy-duty-research-agents-via-verification
GitHub:https://github.com/MiroMindAI/MiroThinker
Hugging Face:https://huggingface.co/collections/miromind-ai/mirothinker-17
在线体验:https://dr.miromind.ai/
来源:提前1个月精准预测超级碗冠军 陈天桥旗下 AI 团队发布 MiroThinker-1.7 专注深度研究的 Agent 模型