📰 正文

Google 与耶鲁大学(Yale University)的研究团队,利用最新的 Gemma 家族模型(Gemma AI),成功地:

通过 AI 的“细胞语言理解能力”, 自动生成并验证了一个此前未被人类发现的癌症治疗假说。

换句话说—— AI 第一次在分子生物学层面“提出新科学理论”,并在实验室中被证实正确。

这说明: 人工智能不仅能理解生物系统,还能提出真正的科学创新假设——并在实验中被证实为真。

这是 AI 从“语言理解”跨越到“生命理解”的历史性时刻。

C2S-Scale 27B 是什么?

Google 推出的新模型全名是:

Cell2Sentence-Scale 27B(简称 C2S-Scale 27B)

这是一种用于**单细胞生物学分析(single-cell analysis)**的基础模型, 基于 Gemma 系列的开放模型(Gemma open family) 构建。

其规模达到 270 亿参数(27B parameters), 是目前全球最大的单细胞分析 AI 模型之一。

image


它要解决的问题:

现代癌症研究中,最大挑战之一是:

人体内每个细胞的行为模式极为复杂;

细胞在不同免疫环境下的反应差异极大;

实验验证周期漫长,成本高昂。

C2S-Scale 27B 的目标是:

“让 AI 理解细胞语言”—— 让模型像理解自然语言一样,理解基因、蛋白质、信号分子的关系与语义模式。

例如,人类能读懂句子“病毒让免疫系统活跃”; 模型则能“读懂”细胞表达序列“IFN ↑ → MHC-I ↑ → T-cell 激活”的隐含逻辑。


科学目标:让“冷肿瘤”变“热”

image

癌症免疫疗法的关键前提是: 让人体免疫系统“看见”并“识别”肿瘤。

但很多肿瘤是所谓的 冷肿瘤(cold tumors):

它们不会主动显示抗原信号;

免疫系统无法检测到它们;

因此免疫疗法(如 PD-1 抑制剂)往往无效。

研究目标是:

找到让“冷肿瘤变热”的药物, 即增强“抗原呈递(antigen presentation)”——让癌细胞展示自身信号,从而被免疫细胞识别。


AI 推理任务:寻找“条件性免疫放大剂”

团队给 C2S-Scale 模型布置了一个极具挑战性的科学任务:

找出一种药物,它在特定免疫条件下才能增强抗原呈递, 而在无免疫信号时不起作用。

这类药物被称为 Conditional Amplifier(条件放大剂)。 这种选择性非常难以在实验室手动筛查,因为:

需要多维度的上下文信息;

药物效应往往取决于复杂的细胞—免疫系统交互;

小模型(如几亿参数)无法捕捉这些非线性条件关系。

因此,这是一道只有“具备语义推理能力的大模型”才能解答的问题。

image


实验设计:双上下文虚拟筛选(Dual-Context Virtual Screen)

研究团队构建了两个不同的“虚拟环境”,让模型在其中“思考”:

image

image

C2S-Scale 在这两种情境中对 4,000 多种药物 进行虚拟筛选, 并预测哪些药物能只在免疫阳性环境下增强抗原呈递。

这就像让 AI 判断: “哪种药物只在免疫系统已经部分被激活时才会协同放大信号,而不是乱放大。”

AI 的关键发现:Silmitasertib 药物的意外新用途

模型的预测结果极具突破性。

它指出了一种老药:

Silmitasertib(又名 CX-4945) ——一种 CK2 激酶抑制剂(CK2 kinase inhibitor)

该药物过去已用于部分癌症治疗研究,但从未被报道与抗原呈递或免疫放大直接相关。

模型预测结论:

在“免疫阳性环境”中(存在少量干扰素信号): Silmitasertib 会显著增强抗原呈递(MHC-I);

在“免疫中性环境”中: 几乎无任何作用。

这是一种 条件性放大效应(conditional synergy)—— 一种“只在合适条件下工作”的智能药理模式。

换句话说,模型推断出:

这是一种能让冷肿瘤“被免疫系统看到”的药物组合新策略。


实验验证:AI 预测被实验证实

image

科学假说的价值在于能否被验证。 团队将模型的预测带入实验室,在真实的人类细胞中进行测试。

实验采用的细胞类型为:

人类神经内分泌细胞(human neuroendocrine cells)

重要的是,这类细胞在模型训练中从未出现过, 因此实验结果能检验模型的泛化与真实理解能力。


实验设计与结果:

image

这说明:

模型的“条件增强假说”完全正确;

这种组合让“冷细胞”变“热”,增强了免疫识别信号;

实验证实 AI 确实能提出 新的、有效的生物学机制假设。

科学意义:AI 生成假说 → 实验验证 → 新疗法方向

这次研究的重要性远超“发现一个药物组合”。

它证明:

AI 可以通过规模化语义推理,提出科学家从未假设过的机制性理论。


具体科学意义包括:

AI 具备“上下文生物推理能力” 它不仅记忆生物知识,还能理解免疫环境的语义条件, 例如“IFN 存在但不足 → 寻找能协同激活的药物”。

AI 生成的假说具有实验可验证性 不只是“语言上的猜想”,而是能指导真实实验。 这使 AI 从“分析助手”变为“假说共创者(Hypothesis Generator)”。

提供一种新型药物开发模式 传统药物筛选:先实验后理论。 新模式:AI 先理论假设,再实验验证,效率提升数十倍。

展示“模型规模律”在生物领域的突破 就像语言模型规模变大后能“理解语义”, 生物模型规模变大后也能“理解细胞语义”。


后续研究与开放资源

该研究目前仍处于早期验证阶段(preclinical)。

耶鲁团队正在进一步探索该机制的分子基础;

同时测试模型生成的其他假设在不同免疫环境下的效果;

如果后续验证顺利,可能推动新型癌症联合免疫疗法(combination immunotherapy) 的开发。

论文:https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2

模型下载:https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B

GitHub:https://github.com/vandijklab/cell2sentence


来源:Google 与 耶鲁大学 利用 Gemma 模型自动生成并验证了一个此前未被人类发现的癌症治疗假说