残差连接的数学视角(一):mHC
Residual Connection
残差连接我们都知道:
其中 $x_l$ 表示输入 $l$ 层的 hidden state,$W_l$ 表示第 $l$ 层的权重。
最早看到对于残差连接的理解,就是保证回传的梯度不会消失,因为:
我们可以看成,梯度也有一个类似的残差流。或者说:
这里的 $\prod_{i = l}^{L-1} (I + \frac{\partial \mathcal{F}_i}{\partial x_i})$ 不会像 $\prod_{i = l}^{L-1} \frac{\partial \mathcal{F}_i}{\partial x_i}$ 一样快速坍缩,因此保住了梯度。这种保梯度的观点当然没错,ResNet 本身可能也就是这个观点。
Hyper Connection
在架构大炼金中,简单的 residual connection 也没有幸免,迎来了自己的升级版:
这里,hidden state $x_l$ 的维度从 $C$ 被扩展为了 $n \times C$。 $\mathcal{H}_l^{\text{res}}\in \mathbb{R}^{n \times n}$ 负责混合残差流的 $x_l$ 的 $n$ 个通道;$\mathcal{H}_l^{\text{pre}}$ 和 $\mathcal{H}_l^{\text{post}}$ 则扮演了类似与 MLP 的 up/down projection 的作用。总而言之,是一种廉价的增加复杂度的方法,以及又一次缺乏数学约束的炼金。
当我们展开 HC,自然会看到它的问题:
(这里的连乘都默认递降,$\prod_{i=l}^{L-1} \mathcal{H}_l := \mathcal{H}_{L-1} \mathcal{H}_{L-2} \cdots \mathcal{H}_l$)
显然,梯度中的 $I$ 会变成 $\prod_{i=l}^{L-1} \mathcal{H}_l^{\text{res}}$,再没有显式结构能够阻止坍缩,会导致训练的不稳定。
事实上,HC 这块有很多变体,但我没有深入了解,仅当成一个整体用于抛砖引玉。下一篇文章在介绍 AttnRes 时,其中会有详细的对比。
Manifold-Constrained Hyper-Connections (mHC)
为了解决这个问题,mHC 就对 $\mathcal{H}_l^{\text{res}}$ 加了一个流形约束,希望保住残差连接本身保梯度的性质,或者我更喜欢说,保住 LLM 喜欢的那个偏置。mHC 将算子约束为双随机矩阵,满足:
其构成的流形 $\mathcal{M}^{\text{res}}$ 被称为 Birkhoff 多面体。当通道数 n=1 时,这里的条件退化为 $\mathcal{H}_l^{\text{res}} = 1$, 与 $\mathcal{H}_l^{\text{res}}=I_n$ 保持一致。
这一双随机矩阵约束被视为是比 $\mathcal{H}_l^{\text{res}}=I_n$ 更好的。文中的 Section 4.1 提到的第三个性质中就道出了这一选择的数学本质:“置换矩阵的凸组合”。
置换矩阵
想象 mHC 中有 3 条通道,置换操作允许我们交换这 3 条通道的信息:
置换矩阵构成一个群,称为对称群 $S_n$。显然, 它是正交群 $O_n$ 的离散子群,因为 $P^TP=I$ 总成立,只不过,你没办法交换 0.5 个通道,置换群 $S_n$ 是不连续的。
Birkhoff-von Neumann Theorem
显然,我们不光需要置换矩阵,更需要一种类似通道信息混合的操作,执行非单一置换矩阵的“软交换”,就好像是我们想把第一个通道的 0.3 交换到第二个通道去,0.4 交换到第三个通道去。
根据 Birkhoff-von Neumann 定理,这种置换矩阵的凸组合,就构成了双随机矩阵;置换矩阵的凸包,就构成了双随机矩阵流形,即 Birkhoff 多面体。
从数学角度来看,双随机流形构成了一个半群,因为它不存在逆元,我们没法从通道混合后的分离出原来的输入。举个很直观的例子,对于:
这两个输入,经过双随机矩阵
后,
也就是说,我们根据结果没法分辨输入是 $x$ 还是 $y$ 了。这里的双随机矩阵 $A$ 不可逆。其实哪怕可逆也不行,逆并不一定也是一个双随机矩阵。事实上,当且仅当 $A\in \mathcal{M}$ 是置换矩阵时,才有 $A^{-1} \in \mathcal{M}$。
可以这样直观理解:半群和信息的单向流动是相契合的,通道信息混合本身就是一种熵增操作。
mHC 的做法
mHC 的 $\mathcal{H}_l^{\text{res}}$ 一开始是经过一个无约束的线性投影生成的
有点麻烦,我直接贴论文吧:
原论文 Section 4.2
在 mHC 中,这里采用了Sinkhorn-Knopp 算法,将生成的无约束的 $\tilde{\mathcal{H}}_l^{\text{res}}$ 再投影为一个双随机矩阵。这是一个迭代算法,mHC 采用了 20 步。尽管进行了kernel优化,但总体而言,mHC 引入了 6.7% 的时间延迟。
Semi group 的困境
正如我们在从李群的视角看 ROPE 旋转位置编码那篇blog中提到的,正交群的旋转矩阵 $R(t)$ 是由 反对称矩阵 $X$ 通过矩阵指数生成的:$R = e^{tX}$。不禁要问,我们能找到双随机矩阵流形的生成元 $Q: \mathcal{H}=e^{tQ}$ 吗?
答案是有的,而且这个 $Q$ 意外的简单,是 Markov 转移速率矩阵,满足:
对 $ \mathcal{H}\textbf{1} = \textbf{1}, \textbf{1}^T\mathcal{H}=\textbf{1}^T$ 代入后求导即可
既然我们已经知道了双随机矩阵 $\mathcal{H}$ 的生成元是 $Q$,我们直接让模型不要输出 $\mathcal{H}$ 而是生成 $Q$ 不就可以了吗?再通过矩阵指数得到 $\mathcal{H}$ 即可:
然而,这里的 $\mathcal{H}$ 不是群而是半群,整个 $\mathcal{M}$ 是一个凸包而不是一个光滑流形,因此我们没有办法用生成元法生成所有双随机矩阵,事实上有相当一部分 $\mathcal{H}$ 没有办法生成,是很难受的一个点。
mHC 的变体
目前已经能找到一些 mHC 的变体,太卷了。
mHC-lite
ArXiv: mHC-lite: You Don’t Need 20 Sinkhorn-Knopp Iterations
它的想法是,与其把一个随机矩阵投到 Birkhoff 凸包内,不如我们将这个凸包的所有顶点作为一个基底,也就是所有的 $n!$ 种置换矩阵,然后直接学一个坐标 $a_k$,使得
最后这一步用一个 softmax 来解决。
这个问题在我看来有以下两个缺陷:
基底的数量是 $n!$。尽管在 mHC 的 setting 下,$n=4$ 是可以接受的,但是会无法 scaling 更大的 $n$
过参数化。一个 $n \times n$ 的双随机矩阵,它的真实自由度其实只有 $(n-1)^2$,因为确定了前 $n-1$ 行和列,最后一行和一列就自动确定了。这里的问题是,mHC-lite 要求输出 $n!$ 个坐标参数,但实际的自由度只有 $(n-1)^2$。还是同样的问题,当 $n=4$ 时差距不严重,只是 $(4-1)^2=9$ 和 $4!=24$。但如果 $n=8$ 则有 $(8-1)^2 = 49$ 与 $8!=40320$ 的巨大差距。参数完全冗余。
KromHC
ArXiv: KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices
一篇有些偷换概念的文章。它们选了一个带 Kronecker 乘法结构的子半群作为目标,认为可以通过学习一组小双随机矩阵的参数,再 kronecker 积乘起来得到一个大的双随机矩阵。
说的更具体一点,以 $n=8$ 为例,由于 $8 = 2 \times 2 \times 2$,就可以构造 3 个小的双随机矩阵 $U_i$,每个都是 $S_2$ 的凸组合,最后令 $\mathcal{H}^{\text{res}} = U_3 \otimes U_2 \otimes U_1$
显然,这里只能得到一个 $\mathcal{M}$ 的子集,并非所有的双随机矩阵都有这样的 Kronecker 积乘法结构。它的自由度只有 $3 \times (2-1)^2 = 3 \ll (8-1)^2 = 49$。至于这种结构偏置 LLM 是否接受,就是另话了。直觉上来看,这种约束似乎过强了。
sHC
ArXiv: Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections
好文章。
流程
原来 mHC 的双随机矩阵约束满足:
而 sHC 抛弃了最后的非负约束,替换为:
这样的话,由于矩阵乘积满足
并且,又因为 $\textbf{1}$ 是特征向量,所以 $|\mathcal{H}_1\mathcal{H}_2|_{\text{op}} \geq 1$,所以有:
所以这个约束矩阵集合对乘法封闭。它实际上比 mHC 范围更大。
具体的求法比较复杂。作者定义
则:
其中 $\mathcal{H}^{\text{disp}} \in \mathbb{Z}_n$
接下来的关键一步是,由于 $|\mathcal{H}^{\text{res}}|_{\text{op}} = \max(|J|_{\text{op}}, |\mathcal{H}^{\text{disp}}|_{\text{op}})$,而 $|J|_{\text{op}}=1$,所以:
把约束转换到了 $\mathbb{Z}$ 空间上,太天才了。
然后对 $\mathcal{H}^{\text{disp}}$ 做 SVD,令:
$\mathcal{H}^{\text{disp}}$ 的行空间和列空间都必须落在 $\textbf{1}^\perp$ 这个 $(n-1)$-维子空间里。于是作者固定了一个 $\textbf{1}^\perp$ 的正交基 $U_Z \in \mathbb{R}^{n \times (n-1)}$,写成:
其中
是正交矩阵。最终:
只要 $\Sigma$ 的奇异值都落在 $[-1, 1]$ 内,就有:
数学本质
我们可以将 $J$ 视作 $J = uu^T, u:= \frac{1}{\sqrt{n}} \textbf{1}$,因为:
所以 $\text{span}\{u\}$ 是一个 $\mathcal{H}$ 的不变子空间。又因为:
任取 $x \in u^\perp$,即 $u^Tx = 0$,则:
所以 $\mathcal{H}x \in u^\perp$,$u^\perp$ 也是 $\mathcal{H}$ 的不变子空间,所以我们有
比起 mHC 的通道混合,sHC 更像是把空间分解成了 $\mathbb{R}^n = \text{span}\{\textbf{1}\} \oplus \textbf{1}^\perp$,前半部分做恒等映射,后半部分做谱约束的变换。
sHC 的全部自由度,都在后半部分 $(n-1) \times (n-1)$ 的谱范数约束的单位球内。
在这种视角下,$\mathcal{H}$ 对乘法封闭是很自然的,因为
而 $|M_1M_2| \leq |M_1||M_2| \leq 1$,所以 $\mathcal{H}_1\mathcal{H}_2$ 自然仍满足约束。
考虑 sHC 的约束实际上等价于考虑这个 $M$。同样是 $(n-1)^2$ 的自由度,这当然不是巧合,我觉得 sHC 找到的数学结构其实已经很本质了。
半群与最大子群
事实上,更准确地说,我们可以将任意 $M$ 视作极分解:
其中 $Q = UV^T \in O(n-1)$ 是正交部分;而
是一个对称半正定矩阵,并且由于 $|M|_{\text{op}} \le 1$,它满足
这里,$Q$ 可以理解为纯旋转的可逆部分,而 $P$ 则代表了不可逆的收缩部分。也就是说,sHC 在 $\textbf{1}^\perp$ 上允许的并不是任意线性变换,而是一个正交变换之后再接一个收缩算子。从这个角度看,sHC 的约束实际上把残差流分成了两部分:
- 一个可逆、守范数的“群”部分;
- 一个不可逆、带耗散的“半群”部分。
这和 mHC 的情况很不一样。sHC 其实已经把问题从“如何在 Birkhoff 多面体里找一个好点”,转化成了“如何在一个收缩半群里找一个好算子”。它不再依赖 Birkhoff 多面体这种有棱有角的凸几何,而是等价于在 $(n-1)$-维空间上考虑
这个算子范数球。
当然,半群终究不是群。它虽然有一个很自然的最大子群,如果我们进一步要求 $M$ 可逆且 $M^{-1}$ 仍在球内,那么由于
$M$ 的所有奇异值都只能等于 1,所以 $M$ 必须是一个正交矩阵。相当于我们在找:
但大部分元素仍然是不可逆的,残差流混合天然是半群而非群这个麻烦仍然存在。不过,我觉得 sHC 能告诉我们,约束未必非得来自双随机矩阵,也可以来自更本质的谱稳定结构,就已经足够好了。我很喜欢。
Conclusion
回顾这些 mHC 变体,它们其实都是在考虑该选择什么样的代数结构作为 Residual Stream 中多条通道之间的动态混合的约束。如果我们按照可行解空间从大到小排序,那会是 sHC > mHC/mHC-lite > KromHC。
我还是一贯的观点,这些工作其实很难说谁好谁坏,主要还是看 LLM 更喜欢那种代数偏置,而 LLM 的偏好目前来说似乎是缺乏第一性的探测方法的。因此,对于各种方法本质代数结构的捕捉,并进行分类整理,我觉得是一件很重要的事情,是我们为数不多总结 LLM 偏置的方法之一。
下一篇可能想介绍一下 Kimi 的 AttnRes。和 mHC 这种在单层内横向执行混合的方法不同,AttnRes 是在深度上纵向进行混合,两者是相对比较正交的,同样是很精彩的工作。
How to site
1 | @misc{zhang2026residual, |










