Tahoe-x1 (Tx1)：能够理解 基因、细胞和药物之间关系的AI模型

📰 正文

美国生命科学公司 Tahoe Bio 发布了一款新的人工智能模型：Tahoe-x1（简称 Tx1）。

它是一个拥有 30亿参数（3B）的大型基础模型（foundation model），目标是让 AI 能够理解基因、细胞和药物之间的关系。

简单来说，Tahoe-x1 想要让 AI “学会生物学的语言” —— 像 ChatGPT 理解人类语言那样，它要理解一个细胞在不同条件下的反应、理解药物会怎样改变基因的表达、甚至推断某个药物是否对特定癌症有效。

这个模型的推出，标志着人工智能正式进入细胞与生命系统的建模阶段。

为什么要做 Tahoe-x1？

在语言、图像和蛋白质研究领域，AI 模型已经非常成功。 GPT 系列能理解人类语言， AlphaFold 能预测蛋白质结构。

这些成果背后的规律很清楚：

模型越大、数据越多、计算越强，性能就越好。这被称为 “规模定律（Scaling Law）”。

但是，在细胞生物学里，这个规律一直行不通。

原因有两个： 1.

数据不够单细胞实验成本高、数量少、噪声大，很难像语言或图像那样积累成海量训练数据。

算力不够一个细胞的数据维度可能上万（每个基因都是一个特征），普通 GPU 无法处理这种超高维的大规模数据。

这意味着，以前的生物模型要么太小、要么太慢，根本无法做到像 GPT 一样的大规模学习。

Tahoe Bio 希望解决这两个难题。

从数据到模型：Tahoe 的两步走

Tahoe Bio 的策略非常清晰：先打好数据基础，再训练大模型。

第一步：建数据基座 —— Tahoe-100M

2024 年，Tahoe 发布了 Tahoe-100M，这是目前世界上最大的单细胞扰动（perturbation）数据集。

它包含：

1亿个单细胞样本；

50种癌症模型；

1100种药物或基因干预。

这相当于给 AI 提供了一个前所未有的“生物语料库”。如果说语言模型靠互联网文本学语言，那么 Tahoe-x1 就是靠这些细胞数据学会“生命的表达方式”。

第二步：建模型 —— Tahoe-x1

有了庞大的数据，Tahoe 团队开始打造一个能真正“理解细胞”的 AI 模型。

他们的目标很直接：

“用大模型的方法，训练出一个能理解细胞反应的智能系统。”

于是，Tahoe-x1 诞生了。它不仅能在基因层面识别生物规律，还能在系统层面预测细胞对药物的反应。

Tahoe-x1 有什么特别的？

Tahoe-x1 的特别之处，不仅在于它大，更在于它聪明地大。它借鉴了 GPT 的训练经验，但做了很多适应生物数据的改进。

1️⃣ 高效训练——“让显卡喘口气”

生物数据维度太高，传统算法根本训练不动。 Tahoe 团队引入了一整套高效训练方案，包括：

FlashAttention v2：一种更快、更省显存的注意力算法；

FSDP（Fully Sharded Data Parallelism）：能把模型拆成多个部分分布在不同 GPU 上；

Streaming Dataset：数据不再一次性读入，而是流式加载；

混合精度训练（FP16/BF16）：在不损失准确度的前提下节省内存。

这些改进让 Tahoe-x1 比以往的细胞建模框架快 3～30倍，并且能在主流硬件上完成训练。

2️⃣ 模型架构——为“细胞理解”重写注意力机制

在语言模型里，一个句子可能只有几十个词；但在细胞模型里，一个样本可能有几万个基因。

普通 Transformer 计算这样的大矩阵几乎是不可能的。

Tahoe 团队为此重新写了模型的注意力机制（attention layer）：

在早期版本中，用 Triton 优化的矩阵掩码技巧来节省内存；

在最终版本中，采用改良版 FlashAttention v2，速度更快，结构更简单。

这使得 Tahoe-x1 成为第一个能在单细胞层面使用完整 Transformer 架构的模型。

五、Tahoe-x1 能做什么？

Tahoe-x1 并不是一个单一任务模型，而是一个能适应多种生物问题的基础系统。研究团队通过多个实验验证了它的能力。

🧬 1. 找出关键基因（Gene Essentiality）

它能预测哪些基因对癌症细胞的生存最关键。测试结果显示，Tahoe-x1 在 DepMap 数据集上超过了所有已有模型，能够识别不同癌症亚型中的“核心驱动基因”。

👉 意义：为新药靶点的发现提供高效工具。

🧫 2. 识别癌症信号通路（Oncogenic Programs）

模型能自动捕捉肿瘤发展中活跃的分子通路，比如哪些基因在癌变过程中协同激活。

在 MSigDB 数据库测试中，Tahoe-x1 表现最好，能准确还原“癌变标志通路（hallmark programs）”。

👉 意义：帮助科学家理解肿瘤发生的机制。

💊 3. 预测药物反应（Drug Response Prediction）

Tahoe-x1 可以预测未见过的细胞类型或患者样本对药物的反应。这种能力被称为 zero-shot generalization，即模型能“类比”新的生物场景。

这为虚拟临床试验（in silico trials）打开了可能性—— 在计算机中模拟药物反应，而不必在实验室中反复试验。

👉 意义：减少药物研发成本，加快新药发现。

Tahoe-x1 完全开源

Tahoe 团队公开了：

模型权重

训练与评估代码；

全套实验流程和基准任务；

论文：https://www.biorxiv.org/content/10.1101/2025.10.23.683759v1

以及一个 Hugging Face 互动工具 —— 上传自己的单细胞数据即可生成嵌入可视化。

来源：Tahoe-x1 (Tx1)：能够理解基因、细胞和药物之间关系的AI模型

📰 正文#

📰 正文