Residual Connection

残差连接我们都知道：

$x_{l+1} = x_l + \mathcal{F}(x_l， \mathcal{W}_l)$

其中 $x_l$ 表示输入 $l$ 层的 hidden state，$W_l$ 表示第 $l$ 层的权重。

最早看到对于残差连接的理解，就是保证回传的梯度不会消失，因为：

$\begin{aligned} \frac{\partial x_{l+1}}{\partial x_l} &= I + \frac{\partial \mathcal{F}(x_l, \mathcal{W}_l)}{\partial x_l} \\ \frac{\partial \mathcal{L}}{\partial x_l} &= \frac{\partial \mathcal{L}}{\partial x_{l+1}} \frac{\partial x_{l+1}}{\partial x_{l}} \\ &= \frac{\partial \mathcal{L}}{\partial x_{l+1}} (I + \frac{\partial \mathcal{F}_l}{\partial x_l}) \end{aligned}$

我们可以看成，梯度也有一个类似的残差流。或者说：

$\frac{\partial \mathcal{L}}{\partial x_l} = \frac{\partial \mathcal{L}}{\partial x_{L}}\prod_{i = l}^{L-1} (I + \frac{\partial \mathcal{F}_i}{\partial x_i})$

这里的 $\prod_{i = l}^{L-1} (I + \frac{\partial \mathcal{F}_i}{\partial x_i})$ 不会像 $\prod_{i = l}^{L-1} \frac{\partial \mathcal{F}_i}{\partial x_i}$ 一样快速坍缩，因此保住了梯度。这种保梯度的观点当然没错，ResNet 本身可能也就是这个观点。

Hyper Connection

在架构大炼金中，简单的 residual connection 也没有幸免，迎来了自己的升级版：

$x_{l+1} = \mathcal{H}_l^{\text{res}}x_l + \mathcal{H}_l^{\text{post}} \mathcal{F}(\mathcal{H}_l^{\text{pre}}x_l, \mathcal{W}_l)$

这里，hidden state $x_l$ 的维度从 $C$ 被扩展为了 $n \times C$。 $\mathcal{H}_l^{\text{res}}\in \mathbb{R}^{n \times n}$ 负责混合残差流的 $x_l$ 的 $n$ 个通道；$\mathcal{H}_l^{\text{pre}}$ 和 $\mathcal{H}_l^{\text{post}}$ 则扮演了类似与 MLP 的 up/down projection 的作用。总而言之，是一种廉价的增加复杂度的方法，以及又一次缺乏数学约束的炼金。

当我们展开 HC，自然会看到它的问题：

$x_L = (\prod_{i=l}^{L-1} \mathcal{H}_l^{\text{res}})x_l + \sum_{i=1}^{L-1} (\prod_{j=i+1}^{L-1} \mathcal{H}_j^{\text{res}}) \mathcal{H}_i^{\text{post}} \mathcal{F}(\mathcal{H_i^{\text{pre}}x_i, \mathcal{W}_i})$

（这里的连乘都默认递降，$\prod_{i=l}^{L-1} \mathcal{H}_l := \mathcal{H}_{L-1} \mathcal{H}_{L-2} \cdots \mathcal{H}_l$）

显然，梯度中的 $I$ 会变成 $\prod_{i=l}^{L-1} \mathcal{H}_l^{\text{res}}$，再没有显式结构能够阻止坍缩，会导致训练的不稳定。

事实上，HC 这块有很多变体，但我没有深入了解，仅当成一个整体用于抛砖引玉。下一篇文章在介绍 AttnRes 时，其中会有详细的对比。

Manifold-Constrained Hyper-Connections (mHC)

为了解决这个问题，mHC 就对 $\mathcal{H}_l^{\text{res}}$ 加了一个流形约束，希望保住残差连接本身保梯度的性质，或者我更喜欢说，保住 LLM 喜欢的那个偏置。mHC 将算子约束为双随机矩阵，满足：

$\mathcal{H}_l^{\text{res}} \textbf{1}_n = \textbf{1}_n, \, \textbf{1}_n^T \mathcal{H}_l^{\text{res}} = \textbf{1}_n^T, \, \mathcal{H}_l^{\text{res}} \geq 0$

其构成的流形 $\mathcal{M}^{\text{res}}$ 被称为 Birkhoff 多面体。当通道数 n=1 时，这里的条件退化为 $\mathcal{H}_l^{\text{res}} = 1$，与 $\mathcal{H}_l^{\text{res}}=I_n$ 保持一致。

这一双随机矩阵约束被视为是比 $\mathcal{H}_l^{\text{res}}=I_n$ 更好的。文中的 Section 4.1 提到的第三个性质中就道出了这一选择的数学本质：“置换矩阵的凸组合”。

置换矩阵

想象 mHC 中有 3 条通道，置换操作允许我们交换这 3 条通道的信息：

$P = \begin{pmatrix} 0 & 1 & 0 \\ 1 & 0 & 0 \\ 0 & 0 & 1 \end{pmatrix}$

置换矩阵构成一个群，称为对称群 $S_n$。显然，它是正交群 $O_n$ 的离散子群，因为 $P^TP=I$ 总成立，只不过，你没办法交换 0.5 个通道，置换群 $S_n$ 是不连续的。

Birkhoff-von Neumann Theorem

显然，我们不光需要置换矩阵，更需要一种类似通道信息混合的操作，执行非单一置换矩阵的“软交换”，就好像是我们想把第一个通道的 0.3 交换到第二个通道去，0.4 交换到第三个通道去。

根据 Birkhoff-von Neumann 定理，这种置换矩阵的凸组合，就构成了双随机矩阵；置换矩阵的凸包，就构成了双随机矩阵流形，即 Birkhoff 多面体。

从数学角度来看，双随机流形构成了一个半群，因为它不存在逆元，我们没法从通道混合后的分离出原来的输入。举个很直观的例子，对于：

$x= \begin{pmatrix}1\\0\end{pmatrix}, \qquad y= \begin{pmatrix}0\\1\end{pmatrix}$

这两个输入，经过双随机矩阵

$A= \begin{pmatrix} \frac12&\frac12\\ \frac12&\frac12 \end{pmatrix}$

后，

$Ax=Ay= \begin{pmatrix} \frac12\\ \frac12 \end{pmatrix}$

也就是说，我们根据结果没法分辨输入是 $x$ 还是 $y$ 了。这里的双随机矩阵 $A$ 不可逆。其实哪怕可逆也不行，逆并不一定也是一个双随机矩阵。事实上，当且仅当 $A\in \mathcal{M}$ 是置换矩阵时，才有 $A^{-1} \in \mathcal{M}$。

可以这样直观理解：半群和信息的单向流动是相契合的，通道信息混合本身就是一种熵增操作。

mHC 的做法

mHC 的 $\mathcal{H}_l^{\text{res}}$ 一开始是经过一个无约束的线性投影生成的

$\tilde{\mathcal{H}}_l^{\text{res}} = \alpha_l^{\text{res}} \cdot \text{mat}(\vec{x}_l' \phi_l^{\text{res}}) + b_l^{\text{res}}$

有点麻烦，我直接贴论文吧：

原论文 Section 4.2

在 mHC 中，这里采用了Sinkhorn-Knopp 算法，将生成的无约束的 $\tilde{\mathcal{H}}_l^{\text{res}}$ 再投影为一个双随机矩阵。这是一个迭代算法，mHC 采用了 20 步。尽管进行了kernel优化，但总体而言，mHC 引入了 6.7% 的时间延迟。

Semi group 的困境

正如我们在从李群的视角看 ROPE 旋转位置编码那篇blog中提到的，正交群的旋转矩阵 $R(t)$ 是由反对称矩阵 $X$ 通过矩阵指数生成的：$R = e^{tX}$。不禁要问，我们能找到双随机矩阵流形的生成元 $Q: \mathcal{H}=e^{tQ}$ 吗？

答案是有的，而且这个 $Q$ 意外的简单，是 Markov 转移速率矩阵，满足：

$Q\textbf{1} = \textbf{1}Q = 0$

对 $ \mathcal{H}\textbf{1} = \textbf{1}, \textbf{1}^T\mathcal{H}=\textbf{1}^T$ 代入后求导即可

既然我们已经知道了双随机矩阵 $\mathcal{H}$ 的生成元是 $Q$，我们直接让模型不要输出 $\mathcal{H}$ 而是生成 $Q$ 不就可以了吗？再通过矩阵指数得到 $\mathcal{H}$ 即可：

$\mathcal{H} = e^{tQ} = I + tQ + \frac{1}{2!}(tQ)^2 + \frac{1}{3!}(tQ)^3 + \cdots$

然而，这里的 $\mathcal{H}$ 不是群而是半群，整个 $\mathcal{M}$ 是一个凸包而不是一个光滑流形，因此我们没有办法用生成元法生成所有双随机矩阵，事实上有相当一部分 $\mathcal{H}$ 没有办法生成，是很难受的一个点。

mHC 的变体

目前已经能找到一些 mHC 的变体，太卷了。

mHC-lite

ArXiv: mHC-lite: You Don’t Need 20 Sinkhorn-Knopp Iterations

它的想法是，与其把一个随机矩阵投到 Birkhoff 凸包内，不如我们将这个凸包的所有顶点作为一个基底，也就是所有的 $n!$ 种置换矩阵，然后直接学一个坐标 $a_k$，使得

$\mathcal{H}^{\text{res}} = \sum_{i=1}^{n!}a_i P_i，\quad a_i \geq 0, \quad \sum_i a_i = 1$

最后这一步用一个 softmax 来解决。

这个问题在我看来有以下两个缺陷：

基底的数量是 $n!$。尽管在 mHC 的 setting 下，$n=4$ 是可以接受的，但是会无法 scaling 更大的 $n$
过参数化。一个 $n \times n$ 的双随机矩阵，它的真实自由度其实只有 $(n-1)^2$，因为确定了前 $n-1$ 行和列，最后一行和一列就自动确定了。这里的问题是，mHC-lite 要求输出 $n!$ 个坐标参数，但实际的自由度只有 $(n-1)^2$。还是同样的问题，当 $n=4$ 时差距不严重，只是 $(4-1)^2=9$ 和 $4!=24$。但如果 $n=8$ 则有 $(8-1)^2 = 49$ 与 $8!=40320$ 的巨大差距。参数完全冗余。

KromHC

ArXiv: KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices

一篇有些偷换概念的文章。它们选了一个带 Kronecker 乘法结构的子半群作为目标，认为可以通过学习一组小双随机矩阵的参数，再 kronecker 积乘起来得到一个大的双随机矩阵。

说的更具体一点，以 $n=8$ 为例，由于 $8 = 2 \times 2 \times 2$，就可以构造 3 个小的双随机矩阵 $U_i$，每个都是 $S_2$ 的凸组合，最后令 $\mathcal{H}^{\text{res}} = U_3 \otimes U_2 \otimes U_1$

显然，这里只能得到一个 $\mathcal{M}$ 的子集，并非所有的双随机矩阵都有这样的 Kronecker 积乘法结构。它的自由度只有 $3 \times (2-1)^2 = 3 \ll (8-1)^2 = 49$。至于这种结构偏置 LLM 是否接受，就是另话了。直觉上来看，这种约束似乎过强了。

sHC

ArXiv: Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections

好文章。

流程

原来 mHC 的双随机矩阵约束满足：

$\mathcal{H}_l^{\text{res}} \textbf{1}_n = \textbf{1}_n, \, \textbf{1}_n^T \mathcal{H}_l^{\text{res}} = \textbf{1}_n^T, \, \mathcal{H}_l^{\text{res}} \geq 0$

而 sHC 抛弃了最后的非负约束，替换为：

$\mathcal{H}_l^{\text{res}} \textbf{1}_n = \textbf{1}_n, \, \textbf{1}_n^T \mathcal{H}_l^{\text{res}} = \textbf{1}_n^T, \, \|\mathcal{H}_l^{\text{res}}\|_{\text{op}} = 1$

这样的话，由于矩阵乘积满足

$\|\mathcal{H}_1\mathcal{H}_2\|_{\text{op}} \leq \|\mathcal{H}_1\|_{\text{op}}\|\mathcal{H}_2\|_{\text{op}} =1$

并且，又因为 $\textbf{1}$ 是特征向量，所以 $\lVert \mathcal{H}_1\mathcal{H}_2\rVert_{\text{op}} \geq 1$，所以有：

$\|\mathcal{H}_1\mathcal{H}_2\|_{\text{op}} = 1$

所以这个约束矩阵集合对乘法封闭。它实际上比 mHC 范围更大。

具体的求法比较复杂。作者定义

$J = \frac{1}{n} \textbf{1} \textbf{1}^T, \quad \mathbb{Z}_n = \{\mathcal{H} \in \mathbb{R}^{n \times n}: \mathcal{H}\textbf{1} = 0, \textbf{1}^T \mathcal{H} = 0\}$

则：

$\mathcal{H}^{\text{res}} = J + \mathcal{H}^{\text{disp}}$

其中 $\mathcal{H}^{\text{disp}} \in \mathbb{Z}_n$

接下来的关键一步是，由于 $\lVert \mathcal{H}^{\text{res}} \rVert_{\text{op}} = \max(\lVert J \rVert_{\text{op}}, \lVert \mathcal{H}^{\text{disp}}\rVert_{\text{op}})$，而 $\lVert J\rVert_{\text{op}}=1$，所以：

$\|\mathcal{H}^{\text{res}}\|_{\text{op}} = 1 \Longleftrightarrow \|\mathcal{H}^{\text{disp}}\|_{\text{op}} \leq 1$

把约束转换到了 $\mathbb{Z}$ 空间上，太天才了。

然后对 $\mathcal{H}^{\text{disp}}$ 做 SVD，令：

$\mathcal{H}^{\text{disp}} = U\Sigma V^T$

$\mathcal{H}^{\text{disp}}$ 的行空间和列空间都必须落在 $\textbf{1}^\perp$ 这个 $(n-1)$-维子空间里。于是作者固定了一个 $\textbf{1}^\perp$ 的正交基 $U_Z \in \mathbb{R}^{n \times (n-1)}$，写成：

$U = U_ZU_{\text{core}}, \quad V = U_Z V_{\text{core}}$

其中

$U_{\text{core}}, V_{\text{core}} \in \mathbb{R}^{(n-1) \times (n-1)}$

是正交矩阵。最终：

$\mathcal{H}^{\text{disp}} = (U_ZU_{\text{core}})\Sigma( U_Z V_{\text{core}})^T$

只要 $\Sigma$ 的奇异值都落在 $[-1, 1]$ 内，就有:

$\|\mathcal{H}^{\text{disp}}\|_{\text{op}} \leq 1$

数学本质

我们可以将 $J$ 视作 $J = uu^T, u:= \frac{1}{\sqrt{n}} \textbf{1}$，因为：

$\mathcal{H} \textbf{1} = \textbf{1} \Longleftrightarrow \mathcal{H} u = u$

所以 $\text{span}\{u\}$ 是一个 $\mathcal{H}$ 的不变子空间。又因为：

$\textbf{1}^T \mathcal{H} = \textbf{1}^T \Longleftrightarrow \mathcal{H}^T u = u$

任取 $x \in u^\perp$，即 $u^Tx = 0$，则：

$u^T(\mathcal{H}x) = (\mathcal{H}^Tu)^Tx = u^Tx = 0$

所以 $\mathcal{H}x \in u^\perp$，$u^\perp$ 也是 $\mathcal{H}$ 的不变子空间，所以我们有

$\mathcal{H} \sim \begin{pmatrix} 1 & 0 \\ 0 & M \end{pmatrix}$

比起 mHC 的通道混合，sHC 更像是把空间分解成了 $\mathbb{R}^n = \text{span}\{\textbf{1}\} \oplus \textbf{1}^\perp$，前半部分做恒等映射，后半部分做谱约束的变换。

sHC 的全部自由度，都在后半部分 $(n-1) \times (n-1)$ 的谱范数约束的单位球内。

在这种视角下，$\mathcal{H}$ 对乘法封闭是很自然的，因为

$\mathcal{H}_1\mathcal{H}_2 \sim \begin{pmatrix} 1 & 0 \\ 0 & M_1M_2 \end{pmatrix}$

而 $\lVert M_1M_2\rVert \leq \lVert M_1\rVert \lVert M_2\rVert \leq 1$，所以 $\mathcal{H}_1\mathcal{H}_2$ 自然仍满足约束。

考虑 sHC 的约束实际上等价于考虑这个 $M$。同样是 $(n-1)^2$ 的自由度，这当然不是巧合，我觉得 sHC 找到的数学结构其实已经很本质了。

半群与最大子群

事实上，更准确地说，我们可以将任意 $M$ 视作极分解：

$M = QP$

其中 $Q = UV^T \in O(n-1)$ 是正交部分；而

$P = V\Sigma V^T$

是一个对称半正定矩阵，并且由于 $\lVert M\rVert_{\text{op}} \le 1$，它满足

$0 \preceq P \preceq I$

这里，$Q$ 可以理解为纯旋转的可逆部分，而 $P$ 则代表了不可逆的收缩部分。也就是说，sHC 在 $\textbf{1}^\perp$ 上允许的并不是任意线性变换，而是一个正交变换之后再接一个收缩算子。从这个角度看，sHC 的约束实际上把残差流分成了两部分：

一个可逆、守范数的“群”部分；
一个不可逆、带耗散的“半群”部分。

这和 mHC 的情况很不一样。sHC 其实已经把问题从“如何在 Birkhoff 多面体里找一个好点”，转化成了“如何在一个收缩半群里找一个好算子”。它不再依赖 Birkhoff 多面体这种有棱有角的凸几何，而是等价于在 $(n-1)$-维空间上考虑

$\{M\in \mathbb{R}^{(n-1)\times(n-1)}: \|M\|_{\text{op}}\le 1\}$

这个算子范数球。
当然，半群终究不是群。它虽然有一个很自然的最大子群，如果我们进一步要求 $M$ 可逆且 $M^{-1}$ 仍在球内，那么由于

$\|M\|_{\text{op}} \leq 1, \quad \|M^{-1}\|_{\text{op}} \leq 1$

$M$ 的所有奇异值都只能等于 1，所以 $M$ 必须是一个正交矩阵。相当于我们在找：

$\mathcal{H} \sim\left\{ \begin{pmatrix} 1 & 0\\ 0 & Q \end{pmatrix} : Q\in O(n-1) \right\},$

但大部分元素仍然是不可逆的，残差流混合天然是半群而非群这个麻烦仍然存在。不过，我觉得 sHC 能告诉我们，约束未必非得来自双随机矩阵，也可以来自更本质的谱稳定结构，就已经足够好了。我很喜欢。

Conclusion

回顾这些 mHC 变体，它们其实都是在考虑该选择什么样的代数结构作为 Residual Stream 中多条通道之间的动态混合的约束。如果我们按照可行解空间从大到小排序，那会是 sHC > mHC/mHC-lite > KromHC。

我还是一贯的观点，这些工作其实很难说谁好谁坏，主要还是看 LLM 更喜欢哪种代数偏置，而 LLM 的偏好目前来说似乎是缺乏第一性的探测方法的。因此，对于各种方法本质代数结构的捕捉，并进行分类整理，我觉得是一件很重要的事情，是我们为数不多总结 LLM 偏置的方法之一。

下一篇可能想介绍一下 Kimi 的 AttnRes。和 mHC 这种在单层内横向执行混合的方法不同，AttnRes 是在深度上纵向进行混合，两者是相对比较正交的，但同样是很精彩的工作。

How to site

@misc{zhang2026residual,
  author={Yechen Zhang},
  title={残差连接的数学视角（一）：mHC},
  year={2026},
  month={April},
  url={\url{https://anti-entrophic.github.io/posts/10060.html}}
}