📰 正文
SakanaAI 发布一一种革命性的 AI 架构,允许模型在推理时动态调整权重,打破传统模型静态的局限性。
Transformer² 是什么?
Transformer² 是一种新型的自适应大语言模型(LLM)框架,旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调整模型的一小部分关键参数(称为“奇异值”),快速高效适应新任务。从而在计算效率和性能表现上实现显著提升。
就像大脑在不同任务(如数学与写作)中激活不同区域,Transformer² 使用模块化的“专家向量”对特定任务进行调整。
Transformer² 在不同任务上采用了一种模块化和动态适配的方法。训练时生成多个“专家”,推理时根据任务需求动态选择对应的“专家”进行任务处理。这种设计提升了模型的任务适应性和计算效率。
实时学习:在推理过程中动态调整模型权重,不再局限于静态模型架构。
高效微调:通过选择性权重更新和奇异值微调(SVF),实现高效且精确的动态调整。
跨领域适应:不仅适用于语言任务,还可用于视觉任务,展示了强大的通用性。
人类认知模拟:类似于人脑根据任务激活特定区域,Transformer² 激活特定“专家向量”来优化任务处理。
解决的问题
传统微调的高成本和低效率
问题:现有的微调方法需要大量计算资源和时间,并且需要重新训练以适应每个新任务。
解决方案:Transformer² 通过SVF方法仅调整权重矩阵的奇异值,大幅降低参数量和计算需求。
静态模型的适应性差
问题:传统模型在应对未知任务时无法灵活调整,表现不佳。
解决方案:Transformer² 的双通道机制可以动态观察任务需求并适配任务特定的“专家向量(expert vector)”,从而优化表现。
多任务间干扰
问题:在多任务微调时容易出现任务间干扰,导致模型性能下降。
解决方案:通过模块化设计,Transformer² 能够根据任务动态组合预训练的专家向量,实现任务间的资源共享和互不干扰。
任务迁移与扩展能力不足
问题:现有模型在跨领域任务上的迁移能力有限,需为每个任务单独训练。
解决方案:Transformer² 支持预训练专家模块的迁移,可以在不同模型架构间共享知识,减少重复训练的需求。
Transformer² 的主要功能
动态自适应
自动分析任务需求,调整模型参数,让每次运行都高效精准。
任务专家模块
为每种任务(如数学、代码或逻辑推理)提供专门优化的“专家模块”,提高任务处理能力。
高效微调技术
只调整关键参数,减少计算资源消耗,同时避免过拟合。
三种适应方式
提示适应:根据问题的提示内容分类并选择对应专家。
分类器适应:用AI分类器自动识别任务并调整模型。
混合适应:结合多个专家模块,处理复杂或跨领域任务。
跨模型共享
在不同AI模型间共享任务专家模块,减少重复训练的工作。
Transformer² 的技术方法
双遍系统
第一遍:分析任务(如数学、编程、推理等),理解查询内容。
第二遍:动态更新特定模型权重以适应任务。
选择性权重更新
在推理时只调整与任务相关的权重,提高效率,避免传统微调的高成本。
奇异值微调(SVF)
类似“外科手术”般的精确调整,只对模型权重矩阵中的关键部分进行修改。
核心技术 1.
奇异值微调(SVF)
是什么:通过调整模型的“核心部分”(权重矩阵中的奇异值),实现快速适应新任务。
怎么做: 1.
把模型的参数分解成几个“模块”。
调整这些模块中的关键部分,让它更适合当前任务。
优点:
调整的内容很少,所以速度快、计算量低。
模块化设计,每个模块负责不同任务,比如数学、编程、推理等。
双通道任务适配
第一步:任务分析
先判断输入任务是数学、编程还是推理等。
使用方法:
提示适配:通过提示(如“这是数学问题”)引导模型分类。
分类器适配:用专门的分类器自动识别任务。
混合适配:结合多个任务模块,处理复杂问题。
第二步:动态调整
根据任务需求,加载或组合适合的“专家模块”。
调整模型参数以生成更精准的答案。
任务专家模块
每种任务(如数学、编程)都有专属的“专家”模块。
这些模块可以动态组合,用来处理跨领域或复杂任务。
专家模块经过强化学习训练,可以不断优化。
强化学习(RL)优化
是什么:让模型通过试错学习,找到解决问题的最佳方法。
怎么用:
通过强化学习优化每个任务模块,让它更擅长特定任务。
比如模型在数学任务中,回答正确就“奖励”,回答错了就“修正”。
优点:
不需要太多训练数据,小数据集也能有效果。
确保任务模块独立,不互相干扰。
三种任务适应方式
提示适配
通过特殊提示让模型自己分类任务,比如“数学”、“编程”。
适用场景:分类明确的简单任务。
分类器适配
用一个专门的分类器判断任务类型并选择合适模块。
适用场景:任务种类多或复杂的情况。
混合适配
动态组合多个模块,处理跨领域任务,比如涉及编程和数学的题目。
适用场景:复杂任务或跨领域问题。
优势总结
快速高效:只调整关键参数,计算成本低。
模块化设计:任务模块独立,可以灵活组合。
适应性强:能实时分析任务并调整,适应性远超传统模型。
知识共享:任务模块可以在不同模型之间共享,节省训练时间。
举例理解
比如你问模型一个数学问题,它会: 1.
分析问题是“数学任务”;
启用数学模块,调整参数优化表现;
给出答案。
如果问题很复杂,比如“涉及数学推理和编程”,它会: 1.
分析任务需要两种能力;
动态组合“数学模块”和“编程模块”;
协同处理后输出答案。
Transformer² 就是通过这种动态调整和组合,成为一个灵活又高效的“任务专家”。
Transformer² 的实验结果
- 实验目标
评估 Transformer² 在多种任务上的表现,包括数学(GSM8K)、编程(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和视觉问答(TextVQA、OKVQA)。
- 关键对比
Transformer² 的表现与传统方法(如 LoRA)进行了对比,主要关注以下方面:
任务适应性:在未见过的任务上的表现。
参数效率:所需参数量和计算资源。
性能提升:任务准确率或完成率。
- 主要结果
(1)任务性能提升
在多个任务中,Transformer² 超越了 LoRA,尤其在数学和编程任务上表现突出。
数学任务(如 GSM8K)中,Transformer² 的强化学习方法更擅长优化复杂任务,而 LoRA 由于依赖完整答案训练,受限较多。
编程任务(如 MBPP-Pro)中,Transformer² 展现了对代码生成和逻辑推理任务的强大适应性。
示例结果(归一化分数):
任务LoRA 分数Transformer² 分数GSM8K (数学)70%85%HumanEval (编程)65%80%ARC-Challenge (推理)60%75%
(2)视觉问答任务
Transformer² 在视觉任务(如 TextVQA、OKVQA)中表现出色,能够灵活结合语言和图像信息。
与传统方法相比,它能够动态适配权重,处理更复杂的场景和多模态输入。
(3)少样本学习和任务迁移
在未见过的任务(如 MATH、HumanEval、ARC-Challenge)上,Transformer² 显著优于 LoRA,尤其在少样本学习场景。
Transformer² 可以通过动态组合专家模块(如数学和逻辑推理模块),实现跨任务的性能提升。例如:
MATH 任务:数学问题不仅使用数学专家模块,还结合了逻辑和编程模块,表现超预期。
知识迁移:在不同模型间(如从 Llama 到 Mistral)迁移专家模块,仍能显著提升性能。
- 参数效率
Transformer² 的 SVF 方法仅调整关键奇异值,参数量远少于 LoRA。
即使参数量减少数倍,任务性能依然大幅提升。
- 总结
卓越的任务适应性:在数学、编程、推理和视觉问答等任务中,表现显著优于传统方法。
少样本学习能力强:在小数据集或新任务上表现出色,显示出良好的泛化能力。
高效的参数利用:通过调整少量参数,实现了更低的计算成本和更高的性能。
实验结果表明,Transformer² 是处理多任务和复杂任务的强大工具,为动态自适应 AI 的发展提供了强有力的支持。
GitHub:https://github.com/SakanaAI/self-adaptive-llms 论文:https://arxiv.org/pdf/2501.06252 官方介绍:https://sakana.ai/transformer-squared/