SakanaAI 发布一种革命性的AI模型架构：Transformer² 动态激活特定“专家”来针对特定任务

📰 正文

SakanaAI 发布一一种革命性的 AI 架构，允许模型在推理时动态调整权重，打破传统模型静态的局限性。

Transformer² 是什么？

Transformer² 是一种新型的自适应大语言模型（LLM）框架，旨在解决传统微调方法中存在的效率低下和适应性差的问题。其核心创新在于通过只调整模型的一小部分关键参数（称为“奇异值”），快速高效适应新任务。从而在计算效率和性能表现上实现显著提升。

就像大脑在不同任务（如数学与写作）中激活不同区域，Transformer² 使用模块化的“专家向量”对特定任务进行调整。

Transformer² 在不同任务上采用了一种模块化和动态适配的方法。训练时生成多个“专家”，推理时根据任务需求动态选择对应的“专家”进行任务处理。这种设计提升了模型的任务适应性和计算效率。

实时学习：在推理过程中动态调整模型权重，不再局限于静态模型架构。

高效微调：通过选择性权重更新和奇异值微调（SVF），实现高效且精确的动态调整。

跨领域适应：不仅适用于语言任务，还可用于视觉任务，展示了强大的通用性。

人类认知模拟：类似于人脑根据任务激活特定区域，Transformer² 激活特定“专家向量”来优化任务处理。

解决的问题

传统微调的高成本和低效率

问题：现有的微调方法需要大量计算资源和时间，并且需要重新训练以适应每个新任务。

解决方案：Transformer² 通过SVF方法仅调整权重矩阵的奇异值，大幅降低参数量和计算需求。

静态模型的适应性差

问题：传统模型在应对未知任务时无法灵活调整，表现不佳。

解决方案：Transformer² 的双通道机制可以动态观察任务需求并适配任务特定的“专家向量（expert vector）”，从而优化表现。

多任务间干扰

问题：在多任务微调时容易出现任务间干扰，导致模型性能下降。

解决方案：通过模块化设计，Transformer² 能够根据任务动态组合预训练的专家向量，实现任务间的资源共享和互不干扰。

任务迁移与扩展能力不足

问题：现有模型在跨领域任务上的迁移能力有限，需为每个任务单独训练。

解决方案：Transformer² 支持预训练专家模块的迁移，可以在不同模型架构间共享知识，减少重复训练的需求。

Transformer² 的主要功能

动态自适应

自动分析任务需求，调整模型参数，让每次运行都高效精准。

任务专家模块

为每种任务（如数学、代码或逻辑推理）提供专门优化的“专家模块”，提高任务处理能力。

高效微调技术

只调整关键参数，减少计算资源消耗，同时避免过拟合。

三种适应方式

提示适应：根据问题的提示内容分类并选择对应专家。

分类器适应：用AI分类器自动识别任务并调整模型。

混合适应：结合多个专家模块，处理复杂或跨领域任务。

跨模型共享

在不同AI模型间共享任务专家模块，减少重复训练的工作。

Transformer² 的技术方法

双遍系统

第一遍：分析任务（如数学、编程、推理等），理解查询内容。

第二遍：动态更新特定模型权重以适应任务。

选择性权重更新

在推理时只调整与任务相关的权重，提高效率，避免传统微调的高成本。

奇异值微调（SVF）

类似“外科手术”般的精确调整，只对模型权重矩阵中的关键部分进行修改。

核心技术 1.

奇异值微调（SVF）

是什么：通过调整模型的“核心部分”（权重矩阵中的奇异值），实现快速适应新任务。

怎么做： 1.

把模型的参数分解成几个“模块”。

调整这些模块中的关键部分，让它更适合当前任务。

优点：

调整的内容很少，所以速度快、计算量低。

模块化设计，每个模块负责不同任务，比如数学、编程、推理等。

双通道任务适配

第一步：任务分析

先判断输入任务是数学、编程还是推理等。

使用方法：

提示适配：通过提示（如“这是数学问题”）引导模型分类。

分类器适配：用专门的分类器自动识别任务。

混合适配：结合多个任务模块，处理复杂问题。

第二步：动态调整

根据任务需求，加载或组合适合的“专家模块”。

调整模型参数以生成更精准的答案。

任务专家模块

每种任务（如数学、编程）都有专属的“专家”模块。

这些模块可以动态组合，用来处理跨领域或复杂任务。

专家模块经过强化学习训练，可以不断优化。

强化学习（RL）优化

是什么：让模型通过试错学习，找到解决问题的最佳方法。

怎么用：

通过强化学习优化每个任务模块，让它更擅长特定任务。

比如模型在数学任务中，回答正确就“奖励”，回答错了就“修正”。

优点：

不需要太多训练数据，小数据集也能有效果。

确保任务模块独立，不互相干扰。

三种任务适应方式

提示适配

通过特殊提示让模型自己分类任务，比如“数学”、“编程”。

适用场景：分类明确的简单任务。

分类器适配

用一个专门的分类器判断任务类型并选择合适模块。

适用场景：任务种类多或复杂的情况。

混合适配

动态组合多个模块，处理跨领域任务，比如涉及编程和数学的题目。

适用场景：复杂任务或跨领域问题。

优势总结

快速高效：只调整关键参数，计算成本低。

模块化设计：任务模块独立，可以灵活组合。

适应性强：能实时分析任务并调整，适应性远超传统模型。

知识共享：任务模块可以在不同模型之间共享，节省训练时间。

举例理解

比如你问模型一个数学问题，它会： 1.

分析问题是“数学任务”；

启用数学模块，调整参数优化表现；

给出答案。

如果问题很复杂，比如“涉及数学推理和编程”，它会： 1.

分析任务需要两种能力；

动态组合“数学模块”和“编程模块”；

协同处理后输出答案。

Transformer² 就是通过这种动态调整和组合，成为一个灵活又高效的“任务专家”。

Transformer² 的实验结果

实验目标

评估 Transformer² 在多种任务上的表现，包括数学（GSM8K）、编程（MBPP-Pro、HumanEval）、推理（ARC-Easy、ARC-Challenge）和视觉问答（TextVQA、OKVQA）。

关键对比

Transformer² 的表现与传统方法（如 LoRA）进行了对比，主要关注以下方面：

任务适应性：在未见过的任务上的表现。

参数效率：所需参数量和计算资源。

性能提升：任务准确率或完成率。

主要结果

（1）任务性能提升

在多个任务中，Transformer² 超越了 LoRA，尤其在数学和编程任务上表现突出。

数学任务（如 GSM8K）中，Transformer² 的强化学习方法更擅长优化复杂任务，而 LoRA 由于依赖完整答案训练，受限较多。

编程任务（如 MBPP-Pro）中，Transformer² 展现了对代码生成和逻辑推理任务的强大适应性。

示例结果（归一化分数）：

任务LoRA 分数Transformer² 分数GSM8K (数学)70%85%HumanEval (编程)65%80%ARC-Challenge (推理)60%75%

（2）视觉问答任务

Transformer² 在视觉任务（如 TextVQA、OKVQA）中表现出色，能够灵活结合语言和图像信息。

与传统方法相比，它能够动态适配权重，处理更复杂的场景和多模态输入。

（3）少样本学习和任务迁移

在未见过的任务（如 MATH、HumanEval、ARC-Challenge）上，Transformer² 显著优于 LoRA，尤其在少样本学习场景。

Transformer² 可以通过动态组合专家模块（如数学和逻辑推理模块），实现跨任务的性能提升。例如：

MATH 任务：数学问题不仅使用数学专家模块，还结合了逻辑和编程模块，表现超预期。

知识迁移：在不同模型间（如从 Llama 到 Mistral）迁移专家模块，仍能显著提升性能。

参数效率

Transformer² 的 SVF 方法仅调整关键奇异值，参数量远少于 LoRA。

即使参数量减少数倍，任务性能依然大幅提升。

总结

卓越的任务适应性：在数学、编程、推理和视觉问答等任务中，表现显著优于传统方法。

少样本学习能力强：在小数据集或新任务上表现出色，显示出良好的泛化能力。

高效的参数利用：通过调整少量参数，实现了更低的计算成本和更高的性能。

实验结果表明，Transformer² 是处理多任务和复杂任务的强大工具，为动态自适应 AI 的发展提供了强有力的支持。

GitHub：https://github.com/SakanaAI/self-adaptive-llms 论文：https://arxiv.org/pdf/2501.06252 官方介绍：https://sakana.ai/transformer-squared/

来源：SakanaAI 发布一种革命性的AI模型架构：Transformer² 动态激活特定“专家”来针对特定任务

📰 正文#

📰 正文