📰 正文
兄弟们,Meta 昨天悄悄扔了个炸弹。
不是聊天机器人,也不是图片生成模型,而是一个能"模拟人脑"的 AI 模型,叫 TRIBE v2(Trimodal Brain Encoder v2)。
简单说就是:给你的大脑做一个"数字双胞胎",给它看一段视频、听一段播客,它能直接预测你大脑会怎么反应。不是猜,是精确到脑区级别的预测。
🧠 具体是个什么东西?
神经科学做了几十年实验,一直面对一个很现实的问题:想研究大脑怎么处理信息,就得找真人躺进 fMRI 机器里扫描,一个实验就是几个月,成本高,样本少,结论还经常只能解释一小块脑区。
每个实验都需要重新采集脑数据(如 fMRI)
导致:
成本高(设备昂贵)
时间长(数月级别)
难以规模化
数据难以跨实验整合
Meta 的 FAIR 团队开源的 TRIBE v2,相当于:给人脑的神经活动做了一个 AI 模型,输入视频、声音或文字,它能预测你大脑 7 万个体素(可以理解为大脑的"像素点")分别会怎么响应。研究者不用再每次都找真人做实验,在电脑上跑一遍就行。
这个方向有个专门的术语叫 in silico neuroscience,也就是"在硅片上做神经科学",用计算机模拟来代替真人实验。
TRIBE v2 能预测人脑对几乎所有视觉和听觉刺激的响应。你看电影、听播客、看图片、读文字,它都能预测你脑子里哪些区域会亮起来,活动强度有多大。
底层技术用的是 Transformer 架构(对,跟 ChatGPT 同一个技术框架),输入端接了三个模态:
视觉:V-JEPA 2
音频:Wav2Vec2-BERT(来自 Seamless)
语言:Llama 3.2
三路信号融合之后,映射到大脑的 fMRI 活动模式上。
训练数据来自 1000 多小时的 fMRI 记录,涉及 700 多名健康志愿者,他们在扫描仪里看电影、听播客、看图片、读文本,各种日常刺激都覆盖了。
🔥 到底牛在哪?
先说几个硬指标。
分辨率暴涨 70 倍。 之前的版本只能覆盖大约 1000 个脑体素(voxel),现在直接拉到约 70000 个。这意味着从"看个大概"变成了"看得清细节",能区分你听到耳语和听到巨响时大脑反应的微妙差别。
零样本预测。 不需要重新训练,就能预测它从未见过的个体的大脑反应,效果比之前的方法提升了 2-3 倍。之前的模型都是"定制款",给每个人训练一遍才能用。现在是通用的,新人来了直接能预测。
跨语言泛化。 模型没学过的语言,它也能预测大脑对该语言的反应,不用重新校准。
比真实扫描还"干净"。 有时候模型生成的预测信号甚至比真实 fMRI 扫描还干净,因为 fMRI 本身噪声很大,而模型能过滤掉这些噪声。
🔬 这玩意能干啥?
核心应用场景是 Meta 提出的"计算机模拟神经科学"(in-silico neuroscience)。
打个比方:航空工程师设计飞机,不用每次都造一架真飞机去吹风洞,用计算机模拟就行。现在神经科学家也一样,不需要每次实验都找真人受试者,用 TRIBE v2 就能快速测试关于大脑功能的假设。
这对几个方向影响很大:
神经疾病研究加速。 想研究阿尔茨海默症、癫痫、失语症这些疾病对大脑的影响,以前要招大量患者做 fMRI 扫描,耗时耗力。有了数字大脑模型,可以先用模拟跑一遍,缩小研究范围再做临床验证。
反哺 AI 系统设计。 Meta 明确说了,要用脑科学的洞察来指导 AI 系统的改进。搞清楚人脑怎么处理多模态信息,能帮助设计更好的 AI 架构。
BCI(脑机接口)铺路。 虽然 TRIBE v2 本身不是脑机接口产品,但底层研究能直接为 Meta Reality Labs 的 AR/VR 产品提供支撑,比如预测用户感知来优化体验。
📦 开源情况
论文、模型权重和代码都以 CC BY-NC 协议开源了,非商业用途随便用。
模型:huggingface.co/facebook/tribev2
代码:github.com/facebookresearch/tribev2
论文:ai.meta.com/research/publications/a-foundation-model-of-vision-audition-and-language-for-in-silico-neuroscience/
Demo:aidemos.atmeta.com/tribev2
离"理解大脑"还有多远
这个工作确实很扎实,但离"用 AI 理解大脑"还差得远。
fMRI 本身就有天花板。它测的是血氧水平变化,时间分辨率在秒级,空间分辨率在毫米级,能捕捉到的只是大脑活动的一个粗略轮廓。神经元层面发生了什么,fMRI 看不到。TRIBE v2 再怎么精准,也是在这个框框里做优化。
另外,CC BY-NC 4.0 意味着不能商用。对学术研究来说没问题,但如果有人想基于这个做临床产品或者脑机接口应用,需要另外谈授权。
还有一个根本性的限制:这个模型预测的是"典型大脑"的平均响应,对于研究个体差异、研究病理状态下的脑活动,目前的能力还有限。论文里也承认,对少数被试的预测效果明显不如多数被试。
不过话说回来,Meta 在脑科学 + AI 交叉领域的布局确实越来越认真了。从去年的 MEG 脑成像解码,到语音大脑活动研究,再到现在的 TRIBE v2,这条线一直没断。这是一个有持续投入的研究方向。
对神经科学研究者来说,TRIBE v2 是一个实打实有用的工具。它不会取代真人实验,但能大幅降低实验设计阶段的试错成本,加速假设验证的迭代速度。这个价值已经足够实在了。
总结
TRIBE v2 的意义不在于"Meta 能读你的脑子",而在于神经科学研究的范式可能要变了。
以前是:招人,扫脑,分析数据,发论文,一个实验搞几个月。以后可能变成:先用数字大脑模拟跑一遍,筛出最有价值的假设,再用真人验证,效率完全不一样。
而且这是 Meta 在 AI 领域不走"聊天机器人"路线的一个典型动作。别人在卷对话能力的时候,Meta 在搞 V-JEPA、搞 TRIBE、搞脑科学基础模型。你可以说它不务正业,但也可以说它在布一盘更大的棋。
项目地址:https://aidemos.atmeta.com/tribev2/