Google 与 耶鲁大学 利用 Gemma 模型自动生成并验证了一个此前未被人类发现的癌症治疗假说

📰 正文

Google 与耶鲁大学（Yale University）的研究团队，利用最新的 Gemma 家族模型（Gemma AI），成功地：

通过 AI 的“细胞语言理解能力”，自动生成并验证了一个此前未被人类发现的癌症治疗假说。

换句话说—— AI 第一次在分子生物学层面“提出新科学理论”，并在实验室中被证实正确。

这说明：人工智能不仅能理解生物系统，还能提出真正的科学创新假设——并在实验中被证实为真。

这是 AI 从“语言理解”跨越到“生命理解”的历史性时刻。

C2S-Scale 27B 是什么？

Google 推出的新模型全名是：

Cell2Sentence-Scale 27B（简称 C2S-Scale 27B）

这是一种用于**单细胞生物学分析（single-cell analysis）**的基础模型，基于 Gemma 系列的开放模型（Gemma open family）构建。

其规模达到 270 亿参数（27B parameters），是目前全球最大的单细胞分析 AI 模型之一。

它要解决的问题：

现代癌症研究中，最大挑战之一是：

人体内每个细胞的行为模式极为复杂；

细胞在不同免疫环境下的反应差异极大；

实验验证周期漫长，成本高昂。

C2S-Scale 27B 的目标是：

“让 AI 理解细胞语言”—— 让模型像理解自然语言一样，理解基因、蛋白质、信号分子的关系与语义模式。

例如，人类能读懂句子“病毒让免疫系统活跃”；模型则能“读懂”细胞表达序列“IFN ↑ → MHC-I ↑ → T-cell 激活”的隐含逻辑。

科学目标：让“冷肿瘤”变“热”

癌症免疫疗法的关键前提是：让人体免疫系统“看见”并“识别”肿瘤。

但很多肿瘤是所谓的冷肿瘤（cold tumors）：

它们不会主动显示抗原信号；

免疫系统无法检测到它们；

因此免疫疗法（如 PD-1 抑制剂）往往无效。

研究目标是：

找到让“冷肿瘤变热”的药物，即增强“抗原呈递（antigen presentation）”——让癌细胞展示自身信号，从而被免疫细胞识别。

AI 推理任务：寻找“条件性免疫放大剂”

团队给 C2S-Scale 模型布置了一个极具挑战性的科学任务：

找出一种药物，它在特定免疫条件下才能增强抗原呈递，而在无免疫信号时不起作用。

这类药物被称为 Conditional Amplifier（条件放大剂）。这种选择性非常难以在实验室手动筛查，因为：

需要多维度的上下文信息；

药物效应往往取决于复杂的细胞—免疫系统交互；

小模型（如几亿参数）无法捕捉这些非线性条件关系。

因此，这是一道只有“具备语义推理能力的大模型”才能解答的问题。

实验设计：双上下文虚拟筛选（Dual-Context Virtual Screen）

研究团队构建了两个不同的“虚拟环境”，让模型在其中“思考”：

C2S-Scale 在这两种情境中对 4,000 多种药物进行虚拟筛选，并预测哪些药物能只在免疫阳性环境下增强抗原呈递。

这就像让 AI 判断： “哪种药物只在免疫系统已经部分被激活时才会协同放大信号，而不是乱放大。”

AI 的关键发现：Silmitasertib 药物的意外新用途

模型的预测结果极具突破性。

它指出了一种老药：

Silmitasertib（又名 CX-4945） ——一种 CK2 激酶抑制剂（CK2 kinase inhibitor）

该药物过去已用于部分癌症治疗研究，但从未被报道与抗原呈递或免疫放大直接相关。

模型预测结论：

在“免疫阳性环境”中（存在少量干扰素信号）： Silmitasertib 会显著增强抗原呈递（MHC-I）；

在“免疫中性环境”中：几乎无任何作用。

这是一种条件性放大效应（conditional synergy）—— 一种“只在合适条件下工作”的智能药理模式。

换句话说，模型推断出：

这是一种能让冷肿瘤“被免疫系统看到”的药物组合新策略。

实验验证：AI 预测被实验证实

科学假说的价值在于能否被验证。团队将模型的预测带入实验室，在真实的人类细胞中进行测试。

实验采用的细胞类型为：

人类神经内分泌细胞（human neuroendocrine cells）

重要的是，这类细胞在模型训练中从未出现过，因此实验结果能检验模型的泛化与真实理解能力。

实验设计与结果：

这说明：

模型的“条件增强假说”完全正确；

这种组合让“冷细胞”变“热”，增强了免疫识别信号；

实验证实 AI 确实能提出新的、有效的生物学机制假设。

科学意义：AI 生成假说 → 实验验证 → 新疗法方向

这次研究的重要性远超“发现一个药物组合”。

它证明：

AI 可以通过规模化语义推理，提出科学家从未假设过的机制性理论。

具体科学意义包括：

AI 具备“上下文生物推理能力” 它不仅记忆生物知识，还能理解免疫环境的语义条件，例如“IFN 存在但不足 → 寻找能协同激活的药物”。

AI 生成的假说具有实验可验证性不只是“语言上的猜想”，而是能指导真实实验。这使 AI 从“分析助手”变为“假说共创者（Hypothesis Generator）”。

提供一种新型药物开发模式传统药物筛选：先实验后理论。新模式：AI 先理论假设，再实验验证，效率提升数十倍。

展示“模型规模律”在生物领域的突破就像语言模型规模变大后能“理解语义”，生物模型规模变大后也能“理解细胞语义”。

后续研究与开放资源

该研究目前仍处于早期验证阶段（preclinical）。

耶鲁团队正在进一步探索该机制的分子基础；

同时测试模型生成的其他假设在不同免疫环境下的效果；

如果后续验证顺利，可能推动新型癌症联合免疫疗法（combination immunotherapy）的开发。

论文：https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2

模型下载：https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B

GitHub：https://github.com/vandijklab/cell2sentence

来源：Google 与耶鲁大学利用 Gemma 模型自动生成并验证了一个此前未被人类发现的癌症治疗假说

📰 正文#

📰 正文