Attention Residuals 残差进化史

type

Post

status

Published

date

Mar 20, 2026

slug

test-n

summary

一、从原始的残差开始：

ResNet 引入残差链接方式，解决深层神经网络中的梯度消失/爆炸和网络退化问题，使得训练极深的网络成为可能。

其中，为层网络输入, 为层网络操作，其输出维度为；

残差链接组成定义：

残差分支：

恒等变换分支：

这里我们换另外一种写法，它能让我们看出更深刻的东西。

先记，那么有，约定，

我们把一步步展开：

那么易得，把每一层的残差贡献 都累加起来，最终等价于从输入到当前层所有 y 的等权和。

于是它可以等价地写成

即从的视角看，Residuals是将 等权求和

作为 的输入来得到 ，

那么一个自然的推广就是换成加权求和：

是因为恒等变换, 如果我们想打破恒等变换机制，引入可学习参数呢？

这便是AttnRes的萌芽。上式还给多加了两个约束，我们先来讨论一下它们的必要性：

1、约束保证了同一个对不同层的贡献始终是同向的，避免出现一层想要增大而另一层却想要缩小的不一致性，直觉上对模型的学习更加友好； 2、我们用的是带 In Norm 的，会对输入先做 ，由于 对 都恒成立，所以加权平均和加权求和完全等价，约束不会降低表达力。

二、多缩放分支残差链接（Scalars-Connection，SC）

其中，为缩放因子参数向量，是可学习的；

为变换分支数量，变换即是一种缩放变换。

SC 方式能到了三个目的：

缩放变换 -> 破坏恒等分支

单变换分支 -> 多变换分支

a 参数 -> 变换分支可学习

后续的讨论的 HC 和 mHC 都是在扩增“学习参数”和丰富“计算方式”。

三、超级连接 HC（Hyper-Connections）和 mHC

HC 中：

其中，

经典选择是。简单来说：

状态变量扩大到倍，输入到前，

用一个矩阵将它变回倍，

输出后再用将它变回倍，

最后跟 调节过的 相加。

如果不限定的形式，那么像Post Norm、Highway都是HC的特例。

类似地记，

那么，

约定，

那么它也可以展开成

，

其中 定义为

。

进一步约定 ，我们就可以写出:

注意每一个都是 矩阵，相当于一个标量，

HC其实相当于“旋转90度”的DeltaNet。

实践中，三个 矩阵由 激活的简单线性层计算而来，

这导致连乘起来的 有爆炸或坍缩的风险，

也无法保证的非负性。

后来mHC做了改进，

它先将三个都改为 Sigmoid 激活，

保证了非负，然后交替归一化 使其满足双随机性，

由双随机矩阵对乘法的封闭性保证 的稳定，

最后实验也验证了这些改动的有效性。

不过，也有一些新实验如《你的deepseek mHC可能不需要"m"》显示直接设为单位阵就足够好了。

四、Attention Residuals（block）

注意力残差用基于 Softmax 的注意力机制取代固定的层与层之间的残差累加，

让模型每一层都能根据输入内容，通过学习到的权重有选择性地聚合之前所有层的表示。

block 内部的层还是原始的残差链接，block 间使用 attention