type
Post
status
Published
date
Mar 20, 2026
slug
test-n
summary
tags
llm
算法
category
LLM
icon
password
最近 Kimi 的新工作 Attention Residuals 非常火啊,读了几篇解读。
下面以苏剑林老师的回答为主:https://zhuanlan.zhihu.com/p/2017980131965150919
正好跟前面 DeepSeek 的 mHC 在这里做一下总结
一、从原始的残差开始:
ResNet 引入残差链接方式,解决深层神经网络中的梯度消失/爆炸和网络退化问题,使得训练极深的网络成为可能。
其中, 为 层网络输入, 为 层网络操作,其输出维度为;
残差链接组成定义:
- 残差分支:
- 恒等变换分支:
这里我们换另外一种写法,它能让我们看出更深刻的东西。
先记 ,那么有,约定 ,
我们把 一步步展开:
- ...
那么易得 ,把每一层的残差贡献 都累加起来,最终 等价于从输入到当前层所有 y 的等权和。
于是它可以等价地写成
即从 的视角看,Residuals是将 等权求和
作为 的输入来得到 ,
那么一个自然的推广就是换成加权求和:
是因为恒等变换, 如果我们想打破恒等变换机制,引入可学习参数 呢?
这便是AttnRes的萌芽。上式还给 多加了两个约束,我们先来讨论一下它们的必要性:
1、约束保证了同一个对不同层的贡献始终是同向的,避免出现一层想要增大而另一层却想要缩小的不一致性,直觉上对模型的学习更加友好; 2、我们用的是带 In Norm 的,会对输入先做 , 由于 对 都恒成立,所以加权平均和加权求和完全等价,约束不会降低表达力。
二、多缩放分支残差链接(Scalars-Connection,SC)
- 其中, 为缩放因子参数向量,是可学习的;
- 为变换分支数量, 变换即是一种缩放变换。
SC 方式能到了三个目的:
- 缩放变换 -> 破坏恒等分支
- 单变换分支 -> 多变换分支
- a 参数 -> 变换分支可学习
后续的讨论的 HC 和 mHC 都是在扩增“学习参数”和丰富“计算方式”。
三、超级连接 HC(Hyper-Connections)和 mHC
HC 中:
其中 ,
经典选择是。简单来说:
状态变量扩大到 倍,输入到 前,
用一个 矩阵将它变回 倍,
输出后再用 将它变回 倍,
最后跟 调节过的 相加。
如果不限定的形式,那么像Post Norm、Highway都是HC的特例。
类似地记 ,
那么,
约定,
那么它也可以展开成
,
其中 定义为
。
进一步约定 ,我们就可以写出:
注意每一个 都是 矩阵,相当于一个标量,
HC其实相当于“旋转90度”的DeltaNet。
实践中,三个 矩阵由 激活的简单线性层计算而来,
这导致连乘起来的 有爆炸或坍缩的风险,
也无法保证 的非负性。
后来mHC做了改进,
它先将三个 都改为 Sigmoid 激活,
保证了 非负,然后交替归一化 使其满足双随机性,
由双随机矩阵对乘法的封闭性保证 的稳定,
最后实验也验证了这些改动的有效性。
不过,也有一些新实验如《你的deepseek mHC可能不需要"m"》显示 直接设为单位阵就足够好了。
四、Attention Residuals(block)

注意力残差用基于 Softmax 的注意力机制取代固定的层与层之间的残差累加,
让模型每一层都能根据输入内容,通过学习到的权重有选择性地聚合之前所有层的表示。

block 内部的层还是原始的残差链接,block 间使用 attention
- 作者:SimonSun
- 链接:https://simonsun.xyz//article/test-n
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。
相关文章
.png?table=collection&id=cb472e47-cf59-4081-bd5f-899a844344db&t=cb472e47-cf59-4081-bd5f-899a844344db)






