Meta 刚发了个能模拟人脑的 AI 模型 能预测你脑子是怎么想的

📰 正文

兄弟们，Meta 昨天悄悄扔了个炸弹。

不是聊天机器人，也不是图片生成模型，而是一个能"模拟人脑"的 AI 模型，叫 TRIBE v2（Trimodal Brain Encoder v2）。

简单说就是：给你的大脑做一个"数字双胞胎"，给它看一段视频、听一段播客，它能直接预测你大脑会怎么反应。不是猜，是精确到脑区级别的预测。

🧠 具体是个什么东西？

神经科学做了几十年实验，一直面对一个很现实的问题：想研究大脑怎么处理信息，就得找真人躺进 fMRI 机器里扫描，一个实验就是几个月，成本高，样本少，结论还经常只能解释一小块脑区。

每个实验都需要重新采集脑数据（如 fMRI）

导致：

成本高（设备昂贵）

时间长（数月级别）

难以规模化

数据难以跨实验整合

Meta 的 FAIR 团队开源的 TRIBE v2，相当于：给人脑的神经活动做了一个 AI 模型，输入视频、声音或文字，它能预测你大脑 7 万个体素（可以理解为大脑的"像素点"）分别会怎么响应。研究者不用再每次都找真人做实验，在电脑上跑一遍就行。

这个方向有个专门的术语叫 in silico neuroscience，也就是"在硅片上做神经科学"，用计算机模拟来代替真人实验。

TRIBE v2 能预测人脑对几乎所有视觉和听觉刺激的响应。你看电影、听播客、看图片、读文字，它都能预测你脑子里哪些区域会亮起来，活动强度有多大。

底层技术用的是 Transformer 架构（对，跟 ChatGPT 同一个技术框架），输入端接了三个模态：

视觉：V-JEPA 2

音频：Wav2Vec2-BERT（来自 Seamless）

语言：Llama 3.2

三路信号融合之后，映射到大脑的 fMRI 活动模式上。

训练数据来自 1000 多小时的 fMRI 记录，涉及 700 多名健康志愿者，他们在扫描仪里看电影、听播客、看图片、读文本，各种日常刺激都覆盖了。

🔥 到底牛在哪？

先说几个硬指标。

分辨率暴涨 70 倍。之前的版本只能覆盖大约 1000 个脑体素（voxel），现在直接拉到约 70000 个。这意味着从"看个大概"变成了"看得清细节"，能区分你听到耳语和听到巨响时大脑反应的微妙差别。

零样本预测。不需要重新训练，就能预测它从未见过的个体的大脑反应，效果比之前的方法提升了 2-3 倍。之前的模型都是"定制款"，给每个人训练一遍才能用。现在是通用的，新人来了直接能预测。

跨语言泛化。模型没学过的语言，它也能预测大脑对该语言的反应，不用重新校准。

比真实扫描还"干净"。有时候模型生成的预测信号甚至比真实 fMRI 扫描还干净，因为 fMRI 本身噪声很大，而模型能过滤掉这些噪声。

🔬 这玩意能干啥？

核心应用场景是 Meta 提出的"计算机模拟神经科学"（in-silico neuroscience）。

打个比方：航空工程师设计飞机，不用每次都造一架真飞机去吹风洞，用计算机模拟就行。现在神经科学家也一样，不需要每次实验都找真人受试者，用 TRIBE v2 就能快速测试关于大脑功能的假设。

这对几个方向影响很大：

神经疾病研究加速。想研究阿尔茨海默症、癫痫、失语症这些疾病对大脑的影响，以前要招大量患者做 fMRI 扫描，耗时耗力。有了数字大脑模型，可以先用模拟跑一遍，缩小研究范围再做临床验证。

反哺 AI 系统设计。 Meta 明确说了，要用脑科学的洞察来指导 AI 系统的改进。搞清楚人脑怎么处理多模态信息，能帮助设计更好的 AI 架构。

BCI（脑机接口）铺路。虽然 TRIBE v2 本身不是脑机接口产品，但底层研究能直接为 Meta Reality Labs 的 AR/VR 产品提供支撑，比如预测用户感知来优化体验。

📦 开源情况

论文、模型权重和代码都以 CC BY-NC 协议开源了，非商业用途随便用。

模型：huggingface.co/facebook/tribev2

代码：github.com/facebookresearch/tribev2

论文：ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/

Demo：aidemos.atmeta.com/tribev2

离"理解大脑"还有多远

这个工作确实很扎实，但离"用 AI 理解大脑"还差得远。

fMRI 本身就有天花板。它测的是血氧水平变化，时间分辨率在秒级，空间分辨率在毫米级，能捕捉到的只是大脑活动的一个粗略轮廓。神经元层面发生了什么，fMRI 看不到。TRIBE v2 再怎么精准，也是在这个框框里做优化。

另外，CC BY-NC 4.0 意味着不能商用。对学术研究来说没问题，但如果有人想基于这个做临床产品或者脑机接口应用，需要另外谈授权。

还有一个根本性的限制：这个模型预测的是"典型大脑"的平均响应，对于研究个体差异、研究病理状态下的脑活动，目前的能力还有限。论文里也承认，对少数被试的预测效果明显不如多数被试。

不过话说回来，Meta 在脑科学 + AI 交叉领域的布局确实越来越认真了。从去年的 MEG 脑成像解码，到语音大脑活动研究，再到现在的 TRIBE v2，这条线一直没断。这是一个有持续投入的研究方向。

对神经科学研究者来说，TRIBE v2 是一个实打实有用的工具。它不会取代真人实验，但能大幅降低实验设计阶段的试错成本，加速假设验证的迭代速度。这个价值已经足够实在了。

总结

TRIBE v2 的意义不在于"Meta 能读你的脑子"，而在于神经科学研究的范式可能要变了。

以前是：招人，扫脑，分析数据，发论文，一个实验搞几个月。以后可能变成：先用数字大脑模拟跑一遍，筛出最有价值的假设，再用真人验证，效率完全不一样。

而且这是 Meta 在 AI 领域不走"聊天机器人"路线的一个典型动作。别人在卷对话能力的时候，Meta 在搞 V-JEPA、搞 TRIBE、搞脑科学基础模型。你可以说它不务正业，但也可以说它在布一盘更大的棋。

项目地址：https://aidemos.atmeta.com/tribev2/

来源：Meta 刚发了个能"模拟人脑"的 AI 模型" 能预测你脑子是怎么想的

📰 正文#

📰 正文