革命新架构掀翻 Transformer：无限上下文处理，2 万亿 token 碾压 Llama 2

Transformer 王座即将被取而代之！Meta、USC、CMU 和 UCSD 联合提出了革命性新架构 Megalodon，能够处理无限上下文，在 2 万亿 token 训练任务中，性能超越 Llama2-7B 实现了非凡的效率。

继 Mamba 之后，又一敢于挑战 Transformer 的架构诞生了！

来自 Meta、南加州大学（USC）、CMU 和 UCSD 的研究人员提出了全新的神经网络架构 ——Megalodon（巨齿鲨）。

这是专为有效处理「无限上下文」长度的 LLM 预训练，以及推理而设计的架构。

论文地址：https://arxiv.org/ abs / 2404.08801

我们都知道，Transformer 架构个在处理长上下文时，会受到二次复杂度，以及长度外推能力弱的限制。

尽管已有次二次方解决方案（诸如线性注意力，状态空间模型），但它们在预训练效率，甚至下游任务的准确率上，通常还不及 Transformer。

Megalodon 的出现，就是为了解决无限处理上下文的难题。

同时，它可以同时实现高效训练（减少通信和计算量），以及高效推理（保持恒定的 KV 缓存）。

值得一提的是，在与 Llama 2 的直接比较中，Megalodon 在处理 70 亿参数和 2 万亿训练 token 的任务上，不仅训练更高效，而且准确率也超过了 Transformer。

具体来说，Megalodon 的训练损失为 1.70，位于 Llama2-7B（1.75）和 13B（1.67）之间。

这一改变范式的创新代表着 AI 领域的巨大飞跃，Megalodon 开启了计算效率和性能的新时代。

GPT-3 发布以来最大里程碑

网友表示，先是谷歌，又是 Meta，无限上下文离我们更进一步，LLM 将会释放出无限潜力。

还有人认为「无限上下文长度，绝对是游戏规则的改变者」！

更有甚者，初创公司 CEO 称，「这是自 GPT-3 发布以来最大的里程碑，但却没有任何动静？！

Megalodon 就相当于是 AGI 的基础」。

「Meta 的 Megalodon 是一项突破性进展，对 AGI 具有重要意义。它的无限上下文长度模拟了人类的认知，实现了无缝任务切换」。

论文作者 Hao Zhang 表示，这是一种全新替代 Transformer 的架构。

论文作者 Beidi Chen 称，「注意力虽好，但你不需要完整的注意力机制」！

普林斯顿助理教授 Tri Dao 表示，「将 SSM / RNN / EMA 与注意力相结合是获得更高质量、更长上下文和更快推理的方法！Griffin、Jamba、Zamba 和现在的 Megalodon 都是很好的例子」。

革命性架构，训练更稳定

那么，Megalodon 架构采用了怎样的设计，才能取得如此优异的表现？

据介绍，它基于 MEGA 架构进行了改进，并新增了多个技术组件。

首先，复杂指数移动平均（CEMA）组件是一种全新技术，扩展了 MEGA 中使用的多维阻尼指数移动平均方法到复数域，可以增强模型处理复杂数据的能力。

其次，研究人员提出了一种创新的归一化技术 ——「时间步归一化层」。

它将传统的组归一化技术扩展到自回归序列建模任务中，允许模型在处理序列数据时，进行有效的归一化。

以往，「层归一化」（Layer Normalization）与 Transformer 相结合性能，虽令人印象深刻。

但很明显，层归一化并不能直接减少时间步长或顺序维度的内部协变量偏移。

另外，「组归一化」（Group Normalization）虽比「层归一化」在 CV 任务中获得改进，但它却无法直接应用于 Transformer 的自回归序列建模，因未来信息会通过时间步维度的均值和方差泄漏。

如下图所示，c 展示了 Megalodon 架构中，层标准化和时间步标准化的方法。

最后，研究人员为了增强大规模 LLM 预训练的稳定性，提出了将归一化注意力，和带有两跳残差的预归一化相结合的配置。

这种配置可以优化模型的学习过程，提高训练的稳定性。

下图 3 中，a 是 Megalodon 的完整框架草图。

中间和右边两张图分别介绍了，预归一化和带有两跳残差预归一化的配置。

2T token 训练，性能超越 Llama2-7B

在具体实验评估中，研究人员将 Megalodon 扩展到 70 亿参数规模，并将其应用于 2 万亿 token 的大规模 LLM 预训练中。

此外，作者还在中 / 小参数规模的序列建模基准上进行了实验，包括 Long Range Arena (LRA) 、Speech Commands 上的原始语音分类、ImageNet-1K 上的图像分类，以及 WikiText-103 和 PG19 上的语言建模。

结果显示，在这些任务中，Megalodon 在各种数据模式下的表现明显优于所有最先进的基线模型。

数据学习效率

通过训练损失图以及多个 benchmark 的结果可以看出，Megalodon 比 Transformer 在 7B 参数下有更好的数据学习效率。

计算效率

针对不同的 4K 和 32K 上下文长度，Megalodon 这一架构的预训练的计算效率也是非常强的。

学术基准上短上下文评估

具体来说，研究人员在短上下文（4K token）的标准学术基准上，对 Megalodon 与 Llama 2，以及开源基础模型进行了比较。

在相同的 2 万亿 token 训练后，Megalodon-7B 的表现明显优于 Llama2-7B。

长上下文评估

针对不同长上下文困惑度，证明了 Megalodon 可以利用很长的上下文进行下一个 token 预测的能力。

图 5 显示了，验证数据集在 4K 到 2M 各种上下文长度下的困惑度（PPL）。

在 Scroll 数据集中的长上下文 QA 任务中，Megalodon 在 NaQA 上获得最佳 F1，并与 Llama 2 Long 相竞争。

中等规模基准评估

在 Long Range Arena（LRA）的测试中，新架构显著缩小了分块注意力和全注意力之间的性能差距。

其他评测集，如原始语音分类、ImageNet-1K、WikiText-103 和 PG-19 的结果如下：

一些感想

这里 quote 一下这项研究原作者的一些感悟和经历：

这个工作从有想法到最终完成，经历了近两年的时间。期间经历数次失败，也学习到了很多大规模预训练时代正确做科研的方法。

通过这个项目，研究者们也体会到了在大模型时代做新的模型架构时要注意的问题。总结来说：

对于两个不同模型架构的比较必须要在数据完全相同的条件下才有说服力。当数据不同的时候，哪怕不同的比例很小（<10%)，最后的结果也可能有明显的差别。包括 training loss 和下游任务的结果，都受到训练数据的很大影响。

对于不同的架构，一定要在模型得到充分训练的条件下的比较才有意义。例如对于 7B 大小的模型，2T 的训练数据几乎是基本要求。有的模型可能在数据少的时候表现的很好，但是数据规模增大后反而落后其他模型。因此，对于大模型架构的比较，结果有说服力的前提是充分的训练。

对于架构差别很大的模型，传统的基于 flops 的 scaling law 的比较意义在降低。原因是两个不同架构的模型，即使有相同的 flops，他们的实际速度可能差几倍。这个和架构算法本身是不是适合在最先进的 GPU 上计算有很大的关系。因此，真正贴合实际的比较方法是像本文中那样分成数据学习效率和计算效率两个方面。但是这样在实际中对于研究员的工程能力有很高的要求。在大模型时代，新算法的开发已经和系统等方面高度结合在一起。

参考资料：