📰 正文
美国生命科学公司 Tahoe Bio 发布了一款新的人工智能模型:Tahoe-x1(简称 Tx1)。
它是一个拥有 30亿参数(3B) 的大型基础模型(foundation model), 目标是让 AI 能够理解 基因、细胞和药物之间的关系。
简单来说,Tahoe-x1 想要让 AI “学会生物学的语言” —— 像 ChatGPT 理解人类语言那样, 它要理解一个细胞在不同条件下的反应、 理解药物会怎样改变基因的表达、 甚至推断某个药物是否对特定癌症有效。
这个模型的推出,标志着人工智能正式进入细胞与生命系统的建模阶段。
为什么要做 Tahoe-x1?
在语言、图像和蛋白质研究领域,AI 模型已经非常成功。 GPT 系列能理解人类语言, AlphaFold 能预测蛋白质结构。
这些成果背后的规律很清楚:
模型越大、数据越多、计算越强,性能就越好。 这被称为 “规模定律(Scaling Law)”。
但是,在细胞生物学里,这个规律一直行不通。
原因有两个: 1.
数据不够 单细胞实验成本高、数量少、噪声大, 很难像语言或图像那样积累成海量训练数据。
算力不够 一个细胞的数据维度可能上万(每个基因都是一个特征), 普通 GPU 无法处理这种超高维的大规模数据。
这意味着,以前的生物模型要么太小、要么太慢, 根本无法做到像 GPT 一样的大规模学习。
Tahoe Bio 希望解决这两个难题。
从数据到模型:Tahoe 的两步走
Tahoe Bio 的策略非常清晰:先打好数据基础,再训练大模型。
第一步:建数据基座 —— Tahoe-100M
2024 年,Tahoe 发布了 Tahoe-100M, 这是目前世界上最大的单细胞扰动(perturbation)数据集。
它包含:
1亿个单细胞样本;
50种癌症模型;
1100种药物或基因干预。
这相当于给 AI 提供了一个前所未有的“生物语料库”。 如果说语言模型靠互联网文本学语言, 那么 Tahoe-x1 就是靠这些细胞数据学会“生命的表达方式”。
第二步:建模型 —— Tahoe-x1
有了庞大的数据,Tahoe 团队开始打造一个能真正“理解细胞”的 AI 模型。
他们的目标很直接:
“用大模型的方法,训练出一个能理解细胞反应的智能系统。”
于是,Tahoe-x1 诞生了。 它不仅能在基因层面识别生物规律, 还能在系统层面预测细胞对药物的反应。
Tahoe-x1 有什么特别的?
Tahoe-x1 的特别之处,不仅在于它大,更在于它聪明地大。 它借鉴了 GPT 的训练经验,但做了很多适应生物数据的改进。
1️⃣ 高效训练——“让显卡喘口气”
生物数据维度太高,传统算法根本训练不动。 Tahoe 团队引入了一整套高效训练方案,包括:
FlashAttention v2:一种更快、更省显存的注意力算法;
FSDP(Fully Sharded Data Parallelism):能把模型拆成多个部分分布在不同 GPU 上;
Streaming Dataset:数据不再一次性读入,而是流式加载;
混合精度训练(FP16/BF16):在不损失准确度的前提下节省内存。
这些改进让 Tahoe-x1 比以往的细胞建模框架快 3~30倍, 并且能在主流硬件上完成训练。
2️⃣ 模型架构——为“细胞理解”重写注意力机制
在语言模型里,一个句子可能只有几十个词; 但在细胞模型里,一个样本可能有几万个基因。
普通 Transformer 计算这样的大矩阵几乎是不可能的。
Tahoe 团队为此重新写了模型的注意力机制(attention layer):
在早期版本中,用 Triton 优化的矩阵掩码技巧 来节省内存;
在最终版本中,采用 改良版 FlashAttention v2,速度更快,结构更简单。
这使得 Tahoe-x1 成为第一个能在单细胞层面使用完整 Transformer 架构的模型。
五、Tahoe-x1 能做什么?
Tahoe-x1 并不是一个单一任务模型,而是一个能适应多种生物问题的基础系统。 研究团队通过多个实验验证了它的能力。
🧬 1. 找出关键基因(Gene Essentiality)
它能预测哪些基因对癌症细胞的生存最关键。 测试结果显示,Tahoe-x1 在 DepMap 数据集上超过了所有已有模型, 能够识别不同癌症亚型中的“核心驱动基因”。
👉 意义:为新药靶点的发现提供高效工具。
🧫 2. 识别癌症信号通路(Oncogenic Programs)
模型能自动捕捉肿瘤发展中活跃的分子通路, 比如哪些基因在癌变过程中协同激活。
在 MSigDB 数据库测试中,Tahoe-x1 表现最好, 能准确还原“癌变标志通路(hallmark programs)”。
👉 意义:帮助科学家理解肿瘤发生的机制。
💊 3. 预测药物反应(Drug Response Prediction)
Tahoe-x1 可以预测未见过的细胞类型或患者样本对药物的反应。 这种能力被称为 zero-shot generalization, 即模型能“类比”新的生物场景。
这为 虚拟临床试验(in silico trials) 打开了可能性—— 在计算机中模拟药物反应,而不必在实验室中反复试验。
👉 意义:减少药物研发成本,加快新药发现。
Tahoe-x1 完全开源
Tahoe 团队公开了:
模型权重
训练与评估代码;
全套实验流程和基准任务;
论文:https://www.biorxiv.org/content/10.1101/2025.10.23.683759v1
以及一个 Hugging Face 互动工具 —— 上传自己的单细胞数据即可生成嵌入可视化。