📰 正文

SakanaAI 发布一一种革命性的 AI 架构,允许模型在推理时动态调整权重,打破传统模型静态的局限性。

Transformer² 是什么?

Transformer² 是一种新型的自适应大语言模型(LLM)框架,旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调整模型的一小部分关键参数(称为“奇异值”),快速高效适应新任务。从而在计算效率和性能表现上实现显著提升。

就像大脑在不同任务(如数学与写作)中激活不同区域,Transformer² 使用模块化的“专家向量”对特定任务进行调整。

Transformer² 在不同任务上采用了一种模块化和动态适配的方法。训练时生成多个“专家”,推理时根据任务需求动态选择对应的“专家”进行任务处理。这种设计提升了模型的任务适应性和计算效率。

image

实时学习:在推理过程中动态调整模型权重,不再局限于静态模型架构。

高效微调:通过选择性权重更新和奇异值微调(SVF),实现高效且精确的动态调整。

跨领域适应:不仅适用于语言任务,还可用于视觉任务,展示了强大的通用性。

人类认知模拟:类似于人脑根据任务激活特定区域,Transformer² 激活特定“专家向量”来优化任务处理。

解决的问题

传统微调的高成本和低效率

问题:现有的微调方法需要大量计算资源和时间,并且需要重新训练以适应每个新任务。

解决方案:Transformer² 通过SVF方法仅调整权重矩阵的奇异值,大幅降低参数量和计算需求。

静态模型的适应性差

问题:传统模型在应对未知任务时无法灵活调整,表现不佳。

解决方案:Transformer² 的双通道机制可以动态观察任务需求并适配任务特定的“专家向量(expert vector)”,从而优化表现。

多任务间干扰

问题:在多任务微调时容易出现任务间干扰,导致模型性能下降。

解决方案:通过模块化设计,Transformer² 能够根据任务动态组合预训练的专家向量,实现任务间的资源共享和互不干扰。

任务迁移与扩展能力不足

问题:现有模型在跨领域任务上的迁移能力有限,需为每个任务单独训练。

解决方案:Transformer² 支持预训练专家模块的迁移,可以在不同模型架构间共享知识,减少重复训练的需求。

image

Transformer² 的主要功能

动态自适应

自动分析任务需求,调整模型参数,让每次运行都高效精准。

任务专家模块

为每种任务(如数学、代码或逻辑推理)提供专门优化的“专家模块”,提高任务处理能力。

高效微调技术

只调整关键参数,减少计算资源消耗,同时避免过拟合。

三种适应方式

提示适应:根据问题的提示内容分类并选择对应专家。

分类器适应:用AI分类器自动识别任务并调整模型。

混合适应:结合多个专家模块,处理复杂或跨领域任务。

跨模型共享

在不同AI模型间共享任务专家模块,减少重复训练的工作。

Transformer² 的技术方法

双遍系统

第一遍:分析任务(如数学、编程、推理等),理解查询内容。

第二遍:动态更新特定模型权重以适应任务。

选择性权重更新

在推理时只调整与任务相关的权重,提高效率,避免传统微调的高成本。

奇异值微调(SVF)

类似“外科手术”般的精确调整,只对模型权重矩阵中的关键部分进行修改。

image

核心技术 1.

奇异值微调(SVF)

是什么:通过调整模型的“核心部分”(权重矩阵中的奇异值),实现快速适应新任务。

怎么做: 1.

把模型的参数分解成几个“模块”。

调整这些模块中的关键部分,让它更适合当前任务。

优点:

调整的内容很少,所以速度快、计算量低。

模块化设计,每个模块负责不同任务,比如数学、编程、推理等。

image


双通道任务适配

第一步:任务分析

先判断输入任务是数学、编程还是推理等。

使用方法:

提示适配:通过提示(如“这是数学问题”)引导模型分类。

分类器适配:用专门的分类器自动识别任务。

混合适配:结合多个任务模块,处理复杂问题。

第二步:动态调整

根据任务需求,加载或组合适合的“专家模块”。

调整模型参数以生成更精准的答案。

image


任务专家模块

每种任务(如数学、编程)都有专属的“专家”模块。

这些模块可以动态组合,用来处理跨领域或复杂任务。

专家模块经过强化学习训练,可以不断优化。


强化学习(RL)优化

是什么:让模型通过试错学习,找到解决问题的最佳方法。

怎么用:

通过强化学习优化每个任务模块,让它更擅长特定任务。

比如模型在数学任务中,回答正确就“奖励”,回答错了就“修正”。

优点:

不需要太多训练数据,小数据集也能有效果。

确保任务模块独立,不互相干扰。


三种任务适应方式

提示适配

通过特殊提示让模型自己分类任务,比如“数学”、“编程”。

适用场景:分类明确的简单任务。

分类器适配

用一个专门的分类器判断任务类型并选择合适模块。

适用场景:任务种类多或复杂的情况。

混合适配

动态组合多个模块,处理跨领域任务,比如涉及编程和数学的题目。

适用场景:复杂任务或跨领域问题。


优势总结

快速高效:只调整关键参数,计算成本低。

模块化设计:任务模块独立,可以灵活组合。

适应性强:能实时分析任务并调整,适应性远超传统模型。

知识共享:任务模块可以在不同模型之间共享,节省训练时间。


举例理解

比如你问模型一个数学问题,它会: 1.

分析问题是“数学任务”;

启用数学模块,调整参数优化表现;

给出答案。

如果问题很复杂,比如“涉及数学推理和编程”,它会: 1.

分析任务需要两种能力;

动态组合“数学模块”和“编程模块”;

协同处理后输出答案。

Transformer² 就是通过这种动态调整和组合,成为一个灵活又高效的“任务专家”。

Transformer² 的实验结果

  1. 实验目标

评估 Transformer² 在多种任务上的表现,包括数学(GSM8K)、编程(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和视觉问答(TextVQA、OKVQA)。


  1. 关键对比

Transformer² 的表现与传统方法(如 LoRA)进行了对比,主要关注以下方面:

任务适应性:在未见过的任务上的表现。

参数效率:所需参数量和计算资源。

性能提升:任务准确率或完成率。

image


  1. 主要结果

(1)任务性能提升

在多个任务中,Transformer² 超越了 LoRA,尤其在数学和编程任务上表现突出。

数学任务(如 GSM8K)中,Transformer² 的强化学习方法更擅长优化复杂任务,而 LoRA 由于依赖完整答案训练,受限较多。

编程任务(如 MBPP-Pro)中,Transformer² 展现了对代码生成和逻辑推理任务的强大适应性。

示例结果(归一化分数):

任务LoRA 分数Transformer² 分数GSM8K (数学)70%85%HumanEval (编程)65%80%ARC-Challenge (推理)60%75%

image


(2)视觉问答任务

Transformer² 在视觉任务(如 TextVQA、OKVQA)中表现出色,能够灵活结合语言和图像信息。

与传统方法相比,它能够动态适配权重,处理更复杂的场景和多模态输入。

image


(3)少样本学习和任务迁移

在未见过的任务(如 MATH、HumanEval、ARC-Challenge)上,Transformer² 显著优于 LoRA,尤其在少样本学习场景。

Transformer² 可以通过动态组合专家模块(如数学和逻辑推理模块),实现跨任务的性能提升。例如:

MATH 任务:数学问题不仅使用数学专家模块,还结合了逻辑和编程模块,表现超预期。

知识迁移:在不同模型间(如从 Llama 到 Mistral)迁移专家模块,仍能显著提升性能。


  1. 参数效率

Transformer² 的 SVF 方法仅调整关键奇异值,参数量远少于 LoRA。

即使参数量减少数倍,任务性能依然大幅提升。


  1. 总结

卓越的任务适应性:在数学、编程、推理和视觉问答等任务中,表现显著优于传统方法。

少样本学习能力强:在小数据集或新任务上表现出色,显示出良好的泛化能力。

高效的参数利用:通过调整少量参数,实现了更低的计算成本和更高的性能。

实验结果表明,Transformer² 是处理多任务和复杂任务的强大工具,为动态自适应 AI 的发展提供了强有力的支持。

GitHub:https://github.com/SakanaAI/self-adaptive-llms 论文:https://arxiv.org/pdf/2501.06252 官方介绍:https://sakana.ai/transformer-squared/


来源:SakanaAI 发布一种革命性的AI模型架构:Transformer² 动态激活特定“专家”来针对特定任务