Muon 为何优于 Adam：一个曲率视角

Shuche Wang^1,∗ Fengzhuo Zhang^2,∗,† Jiaxiang Li³ Dirk Bergemann² Zhuoran Yang²
¹新加坡国立大学 ²耶鲁大学 ³明尼苏达大学

2026 年 5 月 6 日
arXiv:2606.04662v1 [cs.LG]　∗ 同等贡献　† 项目负责人

摘要

在大语言模型（LLM）训练中，Muon 相比 Adam 把训练效率提升了约两倍，但这一优势在局部几何层面的来源仍不清楚。本文首次尝试从曲率视角来揭示 Muon 相对 Adam 的优越性。第一，我们对训练景观（landscape）做二阶 Taylor 近似，并证明在验证损失相同的条件下，Muon 取得的单步损失下降量大于 Adam。两种优化器的一阶增益相当，但 Muon 始终承受更小的二阶曲率惩罚。第二，我们把曲率惩罚分解为更新范数的平方与归一化方向锐度（Normalized Directional Sharpness, NDS）。我们发现 Muon 与 Adam 的更新范数相当，因此 Muon 更小的曲率惩罚是由更低的 NDS、而非更小的更新尺度所驱动。第三，我们研究训练数据与模型结构如何塑造 Muon 的 NDS 优势。利用具有受控不平衡度的 Zipf-概率上下文无关文法（PCFG）数据，我们表明数据不平衡会放大 Muon 相对 Adam 的 NDS 优势。一个层内 / 跨层的分解进一步表明，在训练的中后期，Muon 更低的 NDS 主要由更小的层内曲率维持。在实证证据之外，我们分析了具有异质曲率、且梯度向高曲率模态对齐的程式化二次问题（stylized quadratic problem）。我们证明，Muon 通过在各曲率组之间均衡更新能量，取得比 GD 更小的平均 NDS；当曲率异质性足够强时，这也会在相同步数后带来更低的局部二次损失。

1引言

Muon 已成为大语言模型（LLM）预训练中 Adam 的一个强有力替代方案（Jordan 等，2024b）。它通过对梯度动量矩阵进行谱归一化来利用参数的矩阵结构，等效地把动量矩阵的非零奇异值全部设为同一尺度。这种矩阵感知（matrix-aware）的设计使得 Muon 在各种模型规模下、于 LLM 预训练中取得相对 Adam 约 2× 的加速（Liu 等，2025b；Jordan 等，2024a；Shah 等，2025）。近期一些工作尝试从联想记忆（associative memory）与数据长尾性（data long-tailedness）的角度来解释 Muon 相对 Adam 的优势（Wang 等，2025b；Vasudeva 等，2025b）。

与已有的关于 Muon 优越性的机理性解释不同，我们首次尝试从优化景观的视角来理解 Muon 相对 Adam 的优势。具体而言，我们提出以下问题：

什么样的景观性质支撑了 Muon 相对 Adam 的优势？
诸如训练数据与模型结构等预训练因素，如何影响这一性质？

为回答第一个问题，我们通过对训练损失做二阶 Taylor 展开来分析 Muon 与 Adam 的单步损失下降量。我们发现该展开能够精确地预测实际的损失下降量，并揭示出：尽管两种优化器取得的一阶（梯度对齐）增益相当，Muon 承受的曲率惩罚却小得多。也就是说，Muon 更大的实际损失下降量，主要由其更小的二阶曲率代价所驱动。我们进一步把曲率惩罚分解为来自更新范数与归一化方向锐度（NDS）的贡献，表明 Muon 更小的曲率惩罚源自更低的 NDS——NDS 由更新方向决定，而非由更小的更新范数决定。因此，我们的分析将更低的 NDS 识别为 Muon 相对 Adam 优越性的主要贡献者。

为回答第二个问题，我们考察训练数据与模型结构如何促成 Muon 更小的 NDS。受 Wang 等（2025b）与 Vasudeva 等（2025b）的启发，我们首先通过在由 Zipf-概率上下文无关文法（PCFG）生成、且具有受控不平衡度的合成数据上训练，来检验数据不平衡的作用。我们发现：随着数据集变得更加不平衡，Muon 相对 Adam 的 NDS 优势变得更大。在数据视角之外，我们进而转向模型结构视角，把 NDS 分解为层内与跨层两部分贡献。该分解表明：Muon 的跨层贡献在训练过程中迅速下降，因而在预训练的中后期，其更小的 NDS 主要由更小的层内 NDS 维持。

为从理论上理解这些观察，我们在程式化二次优化问题上研究 Muon 的行为，这些问题被设计为镜像 LLM 训练的景观特征。在这些问题上，Adam 与 GD 在 NDS 和损失下降上经验性地表现相近，因此为简化起见我们将分析聚焦于 GD 与 Muon。在异质曲率、且梯度与高曲率方向对齐的条件下，我们证明 Muon 的平均 NDS 小于 GD，原因在于其更新在高曲率与低曲率方向之间更为均衡。此外，当曲率异质性足够强时，Muon 在相同步数后取得比 GD 更低的损失。这些结果为我们的主要实证发现提供了理论支撑。

综合实证与理论发现，我们刻画了 Muon 相对 Adam 优势背后的一个具体机制：

Muon 取得的单步损失下降量大于 Adam，因为它经过谱归一化的更新方向具有更低的 NDS，从而承受更小的二阶曲率代价。

2相关工作

Muon 与结构化矩阵更新。近期工作从实证、算法与几何等角度研究 Muon。Jordan 等（2024b）首次确立了 Muon 在矩阵值参数上的增益，而 Shah 等（2025）、Liu 等（2025b）、Sato 等（2025）、Li 与 Hong（2025）、Kim 与 Oh（2026）、Si 等（2025）则考察了其实际行为、可扩展性、收敛性质与算法变体。一条后续研究主线探究 Muon 的正交化更新隐式优化的是何种几何，相关工作如 Chen 等（2025）、Ma 等（2026）、Shulgin 等（2025）、Kim 与 Oh（2026）。另一条主线研究如何让正交化的矩阵更新在实际训练系统中更廉价、更可扩展或更鲁棒，包括分布式、周期化、低秩、自适应、联邦、量化以及长尾等变体，如 Ahn 等（2025）、Khaled 等（2025）、Si 等（2025）、He 等（2025）、Li 等（2025）、Liu 等（2025a）、Zhang 等（2026a,b）、Liu 等（2026）、Cheng 等（2026）。由于 Muon 的实际实现依赖于近似的极分解（polar）或 Newton–Schulz 映射，关于更快正交化的工作——包括 Grishina 等（2025）、Hu 等（2026）、Boissin 等（2025）——也与之密切相关。在更宏观的层面上，Bernstein 与 Newhouse（2024b）、Kovalev（2025）、Pethick 等（2025）、Lau 等（2025）、An 等（2025）、Wen 等（2025）把 Muon 及相关的正交化或结构化更新置于一个更大的几何族之中。这种更广的结构化更新视角也将 Muon 与 Bernstein 与 Newhouse（2024a）、Pethick 等（2025）、Lau 等（2025）、An 等（2025），以及矩阵感知或块感知的预条件方法 Vyas 等（2024）、Shazeer 与 Stern（2018）、Anil 等（2020）、Martens 与 Grosse（2015）、Gupta 等（2018）联系起来。还有一条主线致力于理解并解释 Muon 为何优于 Adam，如 Wang 等（2025b）、Li 等（2026）、Kim 等（2026）、Vasudeva 等（2025a）、Qi 等（2026）。我们的结果也与 Wang 等（2025b）以记忆为中心的解释互补，后者把 Muon 的优势归因于在重尾分布下对尾端联想记忆更均衡的学习。然而，我们识别出的是一种局部曲率机制：在同一迭代点上，沿其矩阵更新方向，Muon 所付出的方向锐度惩罚可以小于 Adam。

Adam 与自适应优化。我们的比较也与关于 Adam 及自适应梯度方法的大量文献相关，这些文献肇始于（Kingma 与 Ba，2014；Duchi 等，2011）。该领域涵盖解耦正则化与收敛理论，如 Loshchilov 与 Hutter（2019）、Reddi 等（2019）、Chen 等（2019）、Zhou 等（2018）、Défossez 等（2020）、Guo 等（2021）、Li 等（2023）、Zhang 等（2022）、Zou 等（2019）、Liu 等（2019）、Zhuang 等（2020）、Zhang 等（2024b）。其他工作考察自适应方法为何在语言建模、不平衡数据与 Transformer 训练中表现得不同于 SGD 或谱梯度方法（Kunstner 等，2024；Vasudeva 等，2025a；Pan 与 Li，2023；Zhang 等，2024a）。本文不分析 Adam 的收敛性，而是将其用作基线，并把它沿其矩阵更新方向所遭遇的曲率与相应的 Muon 更新进行比较。

锐度、曲率与优化几何。大量文献研究锐度（sharpness）与曲率在深度学习优化与泛化中的作用。早期工作把大批量训练、极小值几何与泛化联系起来，同时也指出朴素的锐度概念可能对参数化敏感；这一主线包括 Keskar 等（2016）、Dinh 等（2017）、Li 等（2018）、Izmailov 等（2018）。另一条主线把锐度作为一种训练动力学或算法设计量来研究，包括锐度感知最小化（SAM）及其高效变体（Cohen 等，2021；Foret 等，2020；Kwon 等，2021；Andriushchenko 等，2023；Wen 等，2023；Du 等，2021，2022）。与本文设置更接近的是，近期关于 Transformer 与 LLM 的研究把曲率异质性与优化行为联系起来，包括 Zhang 等（2024a）、Wang 等（2025a）、Pan 与 Li（2023）、Kalra 等（2026）。这些工作主要分析全局锐度、平坦性或曲率感知训练规则；而我们采取一种局部、依赖于优化器的视角：由于 Muon 与 Adam 在同一参数点上诱导出不同的更新矩阵，我们比较沿各自更新方向的 Hessian 曲率，从而解释为何即使一阶增益相近，优化器之间的差距仍出现在二阶项中。

3预备知识

本节介绍 Adam 与 Muon 优化器的细节，并确立全文使用的记号。

Adam 在过去十年中一直是训练 LLM 的默认优化器（Kingma 与 Ba，2014）。它利用随机梯度一阶矩与二阶矩的指数滑动平均，按坐标对参数更新进行归一化。对矩阵参数 \(W_t^{\text{Adam}}\in\mathbb{R}^{m\times n}\)，记 \(G_t^{\text{Adam}}=\nabla_W L_{D_t}(W_t^{\text{Adam}})\) 为在小批量 \(D_t\subseteq D\) 上的梯度，其中 \(L_{D_t}\) 是 \(D_t\) 上的经验训练损失。Adam 维护如下状态：

\[ M_t=\beta_1 M_{t-1}+(1-\beta_1)G_t^{\text{Adam}},\qquad V_t=\beta_2 V_{t-1}+(1-\beta_2)(G_t^{\text{Adam}}\odot G_t^{\text{Adam}}), \]

它们分别估计随机梯度的一阶矩与逐元素二阶矩。这里 \(\beta_1,\beta_2\in[0,1)\) 为超参数，\(\odot\) 表示 Hadamard（逐元素）积。在偏差修正 \(M_t'=M_t/(1-\beta_1^t)\)、\(V_t'=V_t/(1-\beta_2^t)\) 之后，Adam 使用更新方向 \(Z_t^{\text{Adam}}=\eta_t M_t'/(\sqrt{V_t'}+\epsilon)\)，并按 \(W_{t+1}^{\text{Adam}}=W_t^{\text{Adam}}-Z_t^{\text{Adam}}\) 更新参数，其中开方与除法均逐元素进行。

Muon 是一种显式利用矩阵梯度谱结构的矩阵参数优化器（Jordan 等，2024b）。这种矩阵结构感知的设计已被证明在大规模 LLM 预训练中优于 Adam（Liu 等，2025b）。对矩阵参数 \(W_t^{\text{Muon}}\in\mathbb{R}^{m\times n}\)，记 \(G_t^{\text{Muon}}=\nabla_W L_{D_t}(W_t^{\text{Muon}})\) 为在小批量 \(D_t\subseteq D\) 上的梯度。Muon 维护一个动量累加器 \(B_t=\mu B_{t-1}+G_t^{\text{Muon}}\)，其中 \(B_0=0\)、\(\mu\in[0,1)\)。给定奇异值分解 \(B_t=U_tS_tV_t^\top\)，Muon 通过设 \(O_t=U_tV_t^\top\) 对动量矩阵进行谱归一化，并按 \(W_{t+1}^{\text{Muon}}=W_t^{\text{Muon}}-Z_t^{\text{Muon}}\) 更新参数，其中 \(Z_t^{\text{Muon}}=\eta_t O_t\)。

在实践中，\(O_t\) 可由少量 Newton–Schulz 迭代高效地近似，而无需精确计算奇异值分解。所得更新具有尺度不变性：把 \(B_t\) 乘以任意正标量都不会改变更新方向 \(Z_t^{\text{Muon}}\)。

记号。对正整数 \(N\)，记 \([N]=\{1,\dots,N\}\)。对矩阵 \(A,B\in\mathbb{R}^{m\times n}\)，定义 Frobenius 内积及其对应范数为 \(\langle A,B\rangle=\operatorname{tr}(A^\top B)\)，\(\|A\|_F=\sqrt{\langle A,A\rangle}\)。全文中 \(L_D\) 表示 \(D\) 上的经验训练损失，并假设它在所关注区域内二次连续可微。\(W\) 表示矩阵参数，\(G=\nabla_W L_D(W)\) 表示梯度，\(H=\nabla_W^2 L_D(W):\mathbb{R}^{m\times n}\to\mathbb{R}^{m\times n}\) 表示作用于矩阵扰动的 Hessian 算子。对任意矩阵扰动 \(Z\in\mathbb{R}^{m\times n}\)，定义 \(H[Z]=\frac{d}{d\epsilon}\nabla_W L_D(W+\epsilon Z)\big|_{\epsilon=0}\)。我们用 \(\operatorname{mat}(H)\in\mathbb{R}^{mn\times mn}\) 表示 \(H\) 在向量化下的矩阵表示，即 \(\operatorname{vec}(H[Z])=\operatorname{mat}(H)\operatorname{vec}(Z)\)。对向量 \(x=(x_1,\dots,x_d)\)，\(\operatorname{Diag}(x_1,\dots,x_d)\) 表示以 \(x_1,\dots,x_d\) 为对角元的 \(d\times d\) 对角矩阵。

4主要结果

本节给出从曲率视角刻画 Muon 相对 Adam 优势的主要实证发现。在 4.1 节中，我们表明 Muon 取得比 Adam 更大的单步损失下降，并且这一优势由更小的二阶曲率惩罚驱动，而非由更大的一阶增益驱动。在 4.2 节中，我们分解曲率惩罚，并将更低的 NDS 识别为 Muon 更小曲率代价的来源。在 4.3 节中，我们考察数据集不平衡如何放大两种优化器之间的 NDS 差距。最后在 4.4 节中，我们把 NDS 分解为层内与跨层两部分贡献，以理解不同层如何贡献于 Muon 的曲率优势。

4.1Muon 承受的二阶曲率惩罚小于 Adam

为从曲率视角研究 Muon 相对 Adam 的优越性，我们从单步优化进展的局部分解出发。具体而言，对参数矩阵 \(W\) 与一次更新 \(Z\)，小批量 \(D\) 上的经验损失下降 \(\Delta_D(W,Z)=L_D(W)-L_D(W-Z)\) 可近似为

\[ \Delta_D(W,Z)\approx \langle G,Z\rangle-\tfrac12\langle Z,H[Z]\rangle = I^{(1)}_D(W,Z)-I^{(2)}_D(W,Z). \tag{4.1}\]

该式将损失下降 \(\Delta_D(W,Z)\) 分解为一阶下降 \(I^{(1)}_D(W,Z)=\langle G,Z\rangle\) 与曲率惩罚 \(I^{(2)}_D(W,Z)=\tfrac12\langle Z,H[Z]\rangle\)。一阶项度量沿更新方向移动所带来的损失减少，而曲率惩罚刻画抵消这一减少的二阶损失增加。我们把 (4.1) 式右端称为预测损失下降，把左端 \(\Delta_D(W,Z)\) 称为实际损失下降。

图 1：沿 Muon 与 Adam 更新方向的单步优化进展分解。面板 (a) 比较预测单步损失下降 \(I^{(1)}_{D_t}(W_t,Z_t)-I^{(2)}_{D_t}(W_t,Z_t)\) 与实际单步损失下降 \(\Delta_{D_t}(W_t,Z_t)\)。面板 (b) 报告一阶下降 \(I^{(1)}_{D_t}(W_t,Z_t)\)，面板 (c) 报告曲率惩罚 \(I^{(2)}_{D_t}(W_t,Z_t)\)。结果表明 Muon 与 Adam 取得相近的一阶下降，而 Muon 承受更小的曲率惩罚。

实验设置。为评估 (4.1) 式的近似是否能解释 Muon 相对 Adam 的优势，我们在如下设置下计算 \(\Delta_D(W,Z)\)、\(I^{(1)}_D\) 与 \(I^{(2)}_D\)。我们在 FineWeb 数据集（Penedo 等，2024）上训练一个 124M 参数的 NanoGPT 模型。我们强调这一规模，是因为在已有的关于 LLM 预训练曲率的研究中，124M 参数已属于所考虑的最大模型规模之一（Zhang 等，2024a；Dong 等，2025），因为基于 Hessian 的计算量随参数维度二次增长。对 Adam 与 Muon，我们均通过网格搜索选取最优学习率。完整实验细节见附录 A。在 Muon 轨迹的第 \(t\) 步，给定训练批量 \(D_t\)、当前参数 \(W_t^{\text{Muon}}\) 与更新方向 \(Z_t^{\text{Muon}}\)，我们计算 \(\Delta_{D_t}(W_t^{\text{Muon}},Z_t^{\text{Muon}})\)、\(I^{(1)}_{D_t}(W_t^{\text{Muon}},Z_t^{\text{Muon}})\) 与 \(I^{(2)}_{D_t}(W_t^{\text{Muon}},Z_t^{\text{Muon}})\)。我们沿 Adam 自身的优化轨迹、用其对应的参数更新计算相同的量。由于在相同训练步数下 Muon 达到的损失低于 Adam，为公平比较，我们在验证损失对齐（matched validation loss）而非相同训练步数下比较两种优化器。

实验发现。在图 1(a) 中，我们对 \(\text{opt}\in\{\text{Muon, Adam}\}\) 绘制了在相同验证损失水平下的预测损失下降 \(I^{(1)}_{D_t}(W_t^{\text{opt}},Z_t^{\text{opt}})-I^{(2)}_{D_t}(W_t^{\text{opt}},Z_t^{\text{opt}})\) 与实际损失下降 \(\Delta_{D_t}(W_t^{\text{opt}},Z_t^{\text{opt}})\)。在各验证损失水平上，Muon 取得比 Adam 更大的实际损失下降，与其更优的训练效率一致。对 Adam，预测损失下降与实际损失下降高度吻合；对 Muon，预测损失下降略小于实际损失下降。因此，以下分析在 (4.1) 式的二阶近似内解释 Muon 相对 Adam 的优势，同时也保留了更高阶效应可能进一步促成 Muon 优势的可能性。

在图 1(b) 与 1(c) 中，我们报告了在相同验证损失水平下 Adam 与 Muon 的一阶下降与曲率惩罚。如图 1(b) 所示，Adam 与 Muon 在整个优化过程中具有相当的一阶下降——两条曲线在所有验证损失值上都维持在相近水平，尽管 Adam 在不同随机种子间表现出更高的波动性。相反，图 1(c) 显示曲率项存在明显差距：Adam 的曲线（蓝）始终位于 Muon 的曲线（橙）之上，表明 Muon 沿其更新方向承受的 Hessian 二次型惩罚显著更小。结合图 1(a)，这些结果表明 Muon 更大的单步损失下降主要由更小的二阶曲率惩罚驱动，而非由更大的一阶增益驱动。由此得到我们的第一条观察。

观察 1在验证损失对齐下，Muon 取得比 Adam 更大的单步损失下降。该差距主要源于更小的二阶曲率代价。

4.2Muon 更小的曲率惩罚来自其更新方向

观察 1 表明 Muon 在单步损失下降上的优势主要由其更小的二阶曲率代价解释。注意曲率惩罚 \(I^{(2)}_D(W,Z)=\tfrac12\langle Z,H[Z]\rangle\) 同时依赖于更新的尺度与沿其方向的曲率。我们现在追问：Muon 更小的曲率代价究竟是因为它迈出更小的步长，还是因为其更新方向遭遇更小的曲率？为分离更新方向与更新尺度的影响，我们通过归一化掉尺度来度量局部二次型的曲率。具体而言，沿用 Pan 与 Li（2023），我们将沿一个非零更新 \(Z\) 的归一化方向锐度（NDS）定义为

\[ S_F(W;Z)=\langle Z,H[Z]\rangle\big/\|Z\|_F^2. \tag{4.2}\]

有了该定义，曲率惩罚分解为 \(I^{(2)}_D(W,Z)=\tfrac12\|Z\|_F^2\cdot S_F(W;Z)\)，因此更小的曲率代价只能来自更小的更新范数或更低的 NDS。于是我们考察 Muon 更小的曲率惩罚究竟是由更小的更新范数还是由更低的 NDS 驱动。

与 4.1 节类似，我们在相同验证损失水平下绘制更新范数与 NDS。为计算 Adam 与 Muon 之间的比值，我们在相邻检查点之间对取值做线性插值，因为两种优化器在某一记录步未必恰好达到相同的验证损失。我们在附录 B 中还报告了在相同训练步数下的相应比值，结论一致。

图 2：Muon 与 Adam 之间的 NDS 与更新范数比较。面板 (a) 绘制 Muon 与 Adam 的 NDS。面板 (b) 绘制两者的更新范数。面板 (c) 报告曲率惩罚、NDS 与更新 Frobenius 范数平方的 Adam-对-Muon 比值。Muon 与 Adam 的更新范数相近，而 Muon 的 NDS 小于 Adam；此外，NDS 的 Adam-对-Muon 比值与曲率惩罚的比值高度吻合。

实验发现。在图 2(a) 与 2(b) 中，我们绘制了按验证损失对齐的 \(\|Z_t\|_F\) 与 \(S_F\)。如图 2(a) 所示，Adam 的曲线（蓝）始终位于 Muon 的曲线（橙）之上，表明在整个训练过程中 Muon 的 NDS 都低于 Adam。相反，图 2(b) 显示两种优化器的更新范数相当：两条曲线在所有验证损失水平上都近乎平坦且彼此接近。图 2(c) 通过绘制 Adam-对-Muon 比值定量确认了这一分解：更新尺度 \(\|Z_t\|_F^2\) 比值（绿色点线）保持接近 1，而曲率惩罚 \(I^{(2)}_{D_t}\) 比值（暗红实线）与 NDS \(S_F\) 比值（青色虚线）彼此紧密跟随，平均 NDS 比值为 1.76。这表明曲率惩罚差距几乎完全由 NDS 差距、而非更新尺度差异所解释。于是我们得到以下结论。

观察 2Muon 与 Adam 的更新范数相当，因此 Muon 更小的曲率惩罚由其显著更小的 NDS 驱动。

4.3数据集不平衡拉大 Adam 与 Muon 之间的 NDS 差距

已有工作表明，训练数据的尾部结构与不平衡可以通过两种方式与优化器行为产生强烈交互。第一，对神经网络的 Hessian 分析表明，Hessian 谱对数据混合分布高度敏感（Sagun 等，2017；Papyan，2018）。第二，近期研究发现 Muon 尤其能在重尾数据上优于 Adam（Wang 等，2025b；Vasudeva 等，2025b）。受这些发现启发，我们研究数据集不平衡是否会放大上文识别出的归一化方向锐度差距。

图 3：不同不平衡水平（\(s=0,0.5,1\)）对 NDS 的影响。面板 (a) 报告轨迹平均 NDS，以 Muon 在 \(s=0\) 处的取值归一化，对应三种不平衡水平。面板 (b) 报告相同设置下 Adam–Muon 的 NDS 差距。结果表明：随着数据变得更不平衡，Muon 相对 Adam 在 NDS 上的优势变得更大。

实验设置：数据生成。为研究数据不平衡如何影响 NDS，我们用 Zipf-PCFG 构造合成训练数据，从而可以显式控制不平衡程度。具体而言，我们实例化一个带主题 \(k\in[K]\) 的 Zipf-PCFG，并把词表 \(\mathcal V\) 划分为 \(C\) 个词元类 \(\mathcal V_1,\dots,\mathcal V_C\)，使得 \(\mathcal V=\cup_{c=1}^{C}\mathcal V_c\)。不同的词元类对应于不同的句子成分，如名词、形容词、动词。每个主题 \(k\) 在每个词元类 \(c\) 内有其自身的偏好分布。例如主题 \(k=\)“食物”会给与进食相关的动词赋予更高的概率。给定主题 \(k\) 与词元类 \(c\)，记 \(\phi_{k,c}(j)\) 为词元 \(j\in\mathcal V_c\) 的基础概率。为引入可控的不平衡，我们按 \(\phi_{k,c}(j)\) 的降序对 \(\mathcal V_c\) 中的词元排序，并记词元 \(j\) 的秩为 \(r(j,c,k)\)，其中最可能的词元秩为 1，且 \(r(j,c,k)\in\{1,\dots,|\mathcal V_c|\}\)。在不平衡水平 \(s\) 下，我们从与 \(r(j,c,k)^{-s}\phi_{k,c}(j)\) 成比例的重加权分布中采样词元。随后我们在不平衡水平 \(s\in\{0,0.5,1\}\) 下生成的数据集上训练一个 9M 参数的 NanoGPT 模型（4 层、4 个注意力头、模型维度 256），共训练 10{,}000 步，对 Adam 与 Muon 均用网格搜索选取学习率。更多实验细节见附录 A。

度量：轨迹平均 NDS。为沿整条训练轨迹评估 NDS，对每个优化器 \(\text{opt}\in\{\text{Muon, Adam}\}\)，我们将不平衡水平 \(s\) 下的轨迹平均 NDS 定义为

\[ \bar S_{\text{opt}}(s)=\sum_{t\in T}S_F\!\left(W^{\text{opt},s}_t;Z^{\text{opt},s}_t\right)\big/|T|, \]

其中 \(T\) 表示训练步集合，\(s\in\{0,0.5,1\}\) 是不平衡水平，\(W^{\text{opt},s}_t\) 与 \(Z^{\text{opt},s}_t\) 表示优化器 \(\text{opt}\) 在不平衡水平 \(s\)、第 \(t\) 步诱导的参数与更新。为突出 Adam 与 Muon 的差异，我们用 Muon 在 \(s=0\) 处的取值对 \(\bar S_{\text{opt}}(s)\) 归一化：\(\widetilde S_{\text{opt}}(s)=\bar S_{\text{opt}}(s)/\bar S_{\text{Muon}}(0)\)。我们进一步把不平衡水平 \(s\) 下的归一化锐度差距定义为 \(\Delta(s)=\widetilde S_{\text{Adam}}(s)-\widetilde S_{\text{Muon}}(s)\)。

实验发现。在图 3(a) 中，我们对 Zipf 指数 \(s\in\{0,0.5,1\}\) 绘制归一化的轨迹平均 NDS \(\widetilde S_{\text{opt}}(s)\)。如图所示，两种优化器的 NDS 都随不平衡单调增加，但该效应对 Adam 远为强烈：随着 \(s\) 从 0 增至 1，Adam 的归一化 NDS 从 1.63 升至 2.38，而 Muon 仅从 1.00 升至 1.25。两条曲线之间不断扩大的阴影区域反映了差距的增长。此外，图 3(b) 直接量化了该差距：\(\Delta(s)\) 从 \(s=0\) 处的 0.63 单调拉大到 \(s=1\) 处的 1.13，随着数据变得更不平衡而扩大了 1.8×。我们将这一观察总结如下。

观察 3提高数据集的不平衡水平不仅会放大 Muon 与 Adam 各自的 NDS，还会拉大二者之间的 NDS 差距。

4.4Muon 的 NDS 日益向层内 Hessian 块转移

观察 2 在全体模型参数上确立了 Muon 与 Adam 之间的归一化方向锐度差距。在本节中，我们研究不同层如何贡献于这一差距。

实验设置：层内 / 跨层分解。考虑一个具有 \(L\) 层的模型，其第 \(t\) 步的全部参数为 \(W_t=(W_{t,1},\dots,W_{t,L})\)，其中 \(W_{t,\ell}\in\mathbb{R}^{m_\ell\times n_\ell}\) 表示第 \(\ell\) 层的权重矩阵。相应的更新分解为 \(Z_t=(Z_{t,1},\dots,Z_{t,L})\)，其中 \(Z_{t,\ell}\in\mathbb{R}^{m_\ell\times n_\ell}\) 是优化器对第 \(\ell\) 层产生的更新。Hessian 算子 \(H\) 同样可分解为逐层的块：对层 \(\ell,\ell'\in[L]\)，记 \(H_{\ell\ell'}\) 为把第 \(\ell'\) 层的扰动映射到第 \(\ell\) 层所产生二阶效应的块。按定义，对角块 \(H_{\ell\ell}\) 刻画层内曲率，而非对角块 \(H_{\ell\ell'}\)（\(\ell\neq\ell'\)）刻画跨层交互。

这种块结构使我们能够把 NDS 分解为层内与跨层两部分贡献：\(S_F(W_t;Z_t)=S_F^{\text{within}}(W_t;Z_t)+S_F^{\text{cross}}(W_t;Z_t)\)，其中

\[ S_F^{\text{within}}(W_t;Z_t)=\sum_{\ell=1}^{L}\langle Z_{t,\ell},H_{\ell\ell}[Z_{t,\ell}]\rangle\big/\|Z_t\|_F^2,\qquad S_F^{\text{cross}}(W_t;Z_t)=\sum_{\ell\neq\ell'}\langle Z_{t,\ell},H_{\ell\ell'}[Z_{t,\ell'}]\rangle\big/\|Z_t\|_F^2. \]

直观地说，\(S_F^{\text{within}}\) 度量当每层的更新只与其自身的 Hessian 块交互时所遭遇的曲率，而 \(S_F^{\text{cross}}\) 刻画由不同层之间更新交互所产生的额外曲率。我们进一步定义相对层内贡献为 \(\rho_t^{\text{within}}=S_F^{\text{within}}(W_t;Z_t)/S_F(W_t;Z_t)\)。

图 4：训练过程中方向锐度的层内 / 跨层分解。面板 (a) 报告 Muon 与 Adam 的 \(S_F(W_t;Z_t)\) 的层内与跨层分量。面板 (b) 报告层内占比。结果表明：对 Muon 而言，层内分量在训练过程中占据方向锐度中越来越大的份额。

实验发现。图 4(a) 在与 4.1 节相同的实验设置下绘制 Adam（蓝）与 Muon（橙）的 \(S_F^{\text{within}}\)（实线）与 \(S_F^{\text{cross}}\)（虚线）。四条曲线都随训练下降，且 Muon 的两个分量始终都小于 Adam：Muon 的曲线（橙）在整个过程中都位于 Adam 的曲线（蓝）之下。对 Adam，蓝色实线与虚线以相当的速率下降，两个分量之间的比值大致保持稳定。然而对 Muon，橙色虚线（\(S_F^{\text{cross}}\)）的下降远快于橙色实线（\(S_F^{\text{within}}\)），因此 Muon 的两条曲线在训练中趋于汇合。这表明，随着训练推进，层内分量在 Muon 的 NDS 中越来越占主导。

图 4(b) 通过绘制层内占比 \(\rho_t^{\text{within}}\) 量化了这一趋势。Muon 的曲线（橙）从训练早期约 14% 陡升至训练后期约 44%，其层内份额几乎翻了三倍。相比之下，Adam 的曲线（蓝）在 30% 上下波动，仅有从约 27% 到约 34% 的温和上升。这凸显了 Muon 较小的 \(S_F^{\text{within}}\) 在训练中后期对维持全模型低 NDS 的重要性，而 Adam 在层内与跨层贡献之间维持着相对稳定的平衡。此外，附录 C 表明层内 Adam–Muon 锐度差距在各层之间分布并不均匀，几乎全部差距集中在最浅层与最深层。

观察 4在训练过程中，Muon 的方向锐度日益向层内 Hessian 块转移，而 Adam 的锐度构成保持相对稳定。Muon 的层内与跨层分量都小于 Adam。

5结构化矩阵块二次模型的案例研究

第 4 节确立了：Muon 由于更低的 NDS 而取得比 Adam 更大的单步损失下降（观察 1–2）；数据不平衡会放大这一差距（观察 3）；并且随着训练推进，Muon 的 NDS 优势日益集中于层内 Hessian 块（观察 4）。在本节中，我们为这些实证发现提供理论依据。由于观察 4 表明层内曲率成为 Muon NDS 优势的主导分量，我们隔离出单个权重矩阵，并在一个二次模型上研究该块内的局部曲率，比较由不同优化器诱导的更新方向所遭遇的曲率。

5.1结构化二次模型

受 (4.1) 式二阶 Taylor 近似的启发，我们聚焦于 LLM 预训练中一次优化步附近的局部二次景观。给定固定参数 \(W_0\in\mathbb{R}^{d_1\times d_2}\)、其梯度 \(G=\nabla L(W_0)\) 与 Hessian 算子 \(H=\nabla^2 L(W_0)\)，我们考虑关于一次更新 \(Y\in\mathbb{R}^{d_1\times d_2}\) 的如下二次模型：

\[ \mathcal Q(Y)=L(W_0)-\langle G,Y\rangle+\tfrac12\langle Y,H[Y]\rangle. \tag{5.1}\]

为使该模型能代表 LLM 预训练，我们对梯度与 Hessian 结构施加四条假设。每条假设都在真实预训练动力学中得到了经验验证：我们在下文给出文中的验证图，更多细节见附录 D。我们从对 Hessian 的一个分解开始。

假设 5.1（Hessian 的低 Kronecker 秩性）。矩阵块上的局部 Hessian 算子 \(H\) 具有较小的 Kronecker 秩。具体而言，设 \(\operatorname{mat}(H)\in\mathbb{R}^{d_1d_2\times d_1d_2}\) 为 \(H\) 在向量化下的矩阵表示。则存在一个整数 \(r\ll\min\{d_1^2,d_2^2\}\)、对称矩阵 \(A_k\in\mathbb{R}^{d_1\times d_1}\) 与 \(B_k\in\mathbb{R}^{d_2\times d_2}\)，使得 \(\operatorname{mat}(H)=\sum_{k=1}^{r}B_k^\top\otimes A_k\)，其中 \(\otimes\) 表示 Kronecker 积。

该假设表明 Hessian 矩阵可由秩为 \(r\) 的低 Kronecker 秩近似来逼近。它受 K-FAC（Martens 与 Grosse，2015；George 等，2018）工作的启发，后者表明 Fisher 矩阵可由 Kronecker 结构的曲率因子有效逼近。由于在标准条件下 Fisher 矩阵与 Hessian 密切相关（Wang 与 Wu，2023），这些结果提示 Kronecker 结构也能为 Hessian 曲率提供有用的近似。我们进一步在使用 Muon 的 LLM 预训练中验证该假设。设 \(H_r\in\mathbb{R}^{d_1d_2\times d_1d_2}\) 为 \(\operatorname{mat}(H)\) 在 Frobenius 范数下的最优秩-\(r\) Kronecker 近似。图 5(a) 把四个注意力矩阵（\(W_Q,W_K,W_V,W_O\)）的可解释 Frobenius 能量 \(\xi(r)=\|H_r\|_F^2/\|\operatorname{mat}(H)\|_F^2\) 绘制为 Kronecker 秩 \(r\) 的函数。四条曲线都在小 \(r\) 处陡升并迅速饱和：\(W_K\) 与 \(W_V\) 在 \(r\approx 3\text{–}5\) 时越过 \(\xi(r)=0.8\) 阈值，而 \(W_Q\) 与 \(W_O\) 在 \(r\approx 7\text{–}9\) 时达到。图 5(b) 以热图形式可视化 \(W_V\) 的完整 Hessian \(\operatorname{mat}(H)\)、其秩-4 Kronecker 近似 \(H_4\) 以及残差 \(\operatorname{mat}(H)-H_4\)。该近似捕捉了原始 Hessian 中可见的主导块结构，而残差整体微弱，确认大部分能量在低秩处即被捕获。这些结果支持假设 5.1。

图 5：对假设 5.1 的经验支持。面板 (a) 报告四个注意力矩阵的 Hessian 被低秩 Kronecker 近似所解释的 Frobenius 能量占比 \(\xi(r)\)。面板 (b) 可视化 \(W_V\) 的 Hessian、其秩-4 Kronecker 近似以及残差误差。结果表明注意力矩阵的 Hessian 可由低秩 Kronecker 积很好地逼近。

假设 5.2（同时对角化）。考虑假设 5.1 中的秩-\(r\) Kronecker 分解 \(\{(A_k,B_k)\}_{k=1}^{r}\)。假设 \(\{A_k\}_{k=1}^{r}\) 与 \(\{B_k\}_{k=1}^{r}\) 可分别被正交矩阵 \(U\in\mathbb{R}^{d_1\times d_1}\) 与 \(V\in\mathbb{R}^{d_2\times d_2}\) 同时正交对角化。即对任意 \(k=1,\dots,r\)，有 \(A_k=U\operatorname{Diag}(a_k^{(1)},\dots,a_k^{(d_1)})U^\top\)，\(B_k=V\operatorname{Diag}(b_k^{(1)},\dots,b_k^{(d_2)})V^\top\)。

该假设表明 Hessian \(H\) 的 Kronecker 因子 \(\{A_k\}_{k=1}^{r}\) 与 \(\{B_k\}_{k=1}^{r}\) 近似共享公共的正交特征基。为在经验上验证该假设，我们对 \(\{A_k\}_{k=1}^{r}\) 与 \(\{B_k\}_{k=1}^{r}\) 计算同时对角化得分 \(\eta_{\mathrm{sd}}(\{X_k\}_{k=1}^{r})=\max_{Q^\top Q=I}\sum_{k=1}^{r}\|\operatorname{Diag}(Q^\top X_kQ)\|_F^2\big/\sum_{k=1}^{r}\|X_k\|_F^2\)。其中对正交 \(Q\) 的最大化用特征矩阵联合近似对角化（JADE）Jacobi 扫描算法（Cardoso 与 Souloumiac，1993）近似求解；细节见附录 D.2。\(\eta_{\mathrm{sd}}\) 取值越大（上限为 1），表示一个公共正交基通过其对角分量捕获了这些矩阵更多的总能量。图 6(a) 以柱状图报告平均 \(\eta_{\mathrm{sd}}\) 得分：\(\{A_k\}\) 达到 0.892，\(\{B_k\}\) 达到 0.845，二者都接近最大值 1.0。这些高得分表明，单一共享正交基捕获了每个因子族绝大部分的能量，支持假设 5.2。

有了假设 5.2 给出的共享特征基，我们定义刻画 Hessian 沿每个联合特征模态的配对曲率。回忆 \(\{A_k\}\) 与 \(\{B_k\}\) 是 Hessian 分解（假设 5.1）中的 Kronecker 因子，而 \(a_k^{(i)},b_k^{(i)}\) 是它们在共享基 \(U\) 与 \(V\) 下（假设 5.2）的相应特征值。设 \(d'=\min\{d_1,d_2\}\)。对 \(i\in[d']\)，记 \(w_i\) 为 \(\sum_{k=1}^{r}a_k^{(i')}b_k^{(i')}\)（\(i'\in[d']\)）中第 \(i\) 大的值。我们随后对正的 \(w_i\) 假定异质性。

假设 5.3（曲率异质性）。假设在 \(i\in[d']\) 的 \(w_i\) 中恰有 \(q\) 个为正，且这些正曲率具有两级结构：\(w_i=w_H\)（\(i\in[m]\)）、\(w_i=w_L\)（\(i\in\{m+1,\dots,q\}\)），其中 \(w_H\gt w_L\) 且 \(\alpha=m/q\lt 1/2\)。

该假设表明 Hessian 的正配对曲率是异质的。我们采用两级结构仅是为简化计算；同样的直觉可推广到更一般的异质谱。图 6(b) 以对数尺度绘制（在各注意力参数上平均的）正配对曲率 \(w_i\)。柱状图揭示出强烈的长尾分布：前几个曲率约在 \(10^{-2}\) 量级，而尾部降至 \(10^{-8}\)，跨越六个数量级以上，\(w_1/w_{88}\approx 2.59\times 10^6\)。在 \(|w_i|\) 的前 128 个值中，有 88 个为正。此外，条件 \(\alpha\lt 1/2\) 要求高曲率模态的比例相对较小，这与图中长尾模式一致：只有前几个指标承载着比其余高出数个数量级的曲率。这些观察支持假设 5.3。

图 6：对假设 5.2–5.4 的经验支持。面板 (a) 给出 \(\{A_k\}_{k=1}^{r}\) 与 \(\{B_k\}_{k=1}^{r}\) 的同时对角化得分 \(\eta_{\mathrm{sd}}\) 的平均值。面板 (b) 给出正曲率的取值。面板 (c) 给出累积梯度能量比 \(\zeta(i)\)。这些结果支持 Hessian 分解中诸矩阵的近似同时对角化，以及梯度与 Hessian 谱中顶部特征值对应的特征向量之间的对齐。

我们现在定义在正曲率子空间中将 Hessian 对角化的秩一基矩阵。设 \(u_i\in\mathbb{R}^{d_1}\) 与 \(v_i\in\mathbb{R}^{d_2}\) 分别表示假设 5.2 中共享特征基 \(U\) 与 \(V\) 的第 \(i\) 列。设 \(\pi(i)\) 表示在 \(\{w_{i'}=\sum_{k=1}^{r}a_k^{(i')}b_k^{(i')}:i'\in[d']\}\) 中第 \(i\) 大配对曲率的指标。我们对 \(i\in[q]\) 定义秩一矩阵 \(M_i=u_{\pi(i)}v_{\pi(i)}^\top\in\mathbb{R}^{d_1\times d_2}\)，它代表 Hessian 的第 \(i\) 个曲率特征模态。由于 \(U\) 与 \(V\) 正交，矩阵族 \(\{M_i\}_{i=1}^{q}\) 在 Frobenius 内积下是标准正交的，且 Hessian 对它们作用为对角形式：\(H[M_i]\approx w_iM_i\)。

图 7：面板 (a) 报告 NDS 比值，面板 (b) 报告损失下降比值。结果表明：在满足假设 5.1–5.4 的二次问题上，GD 与 Adam 在 NDS 与损失下降两方面表现相近。

假设 5.4（梯度对齐）。梯度 \(G\) 位于 \(\{M_i\}_{i=1}^{q}\) 张成的子空间中，即 \(G=\sum_{i=1}^{q}\sigma_iM_i\)，其中 \(\sigma_i=\langle G,M_i\rangle\)。此外，系数 \(\sigma_i\) 具有与假设 5.3 相同的两组结构：\(\sigma_i=\sigma_H\)（\(i\in[m]\)）、\(\sigma_i=\sigma_L\)（\(i\in\{m+1,\dots,q\}\)），其中 \(\sigma_H\gt \sigma_L\)。

该假设表明梯度大体位于 Hessian 的顶部曲率子空间中。此类梯度–Hessian 对齐已在深度学习中被广泛研究（Gur-Ari 等，2018；Fort 与 Ganguli，2019）。为验证该假设，我们定义 \(\mathcal M_i\) 为 \(\{M_j\}_{j=1}^{i}\)（\(i\in[q]\)）张成的子空间，并记 \(\Pi_{\mathcal M_i}\) 为到该子空间的投影。图 6(c) 把累积梯度能量比 \(\zeta(i)=\|\Pi_{\mathcal M_i}G\|_F^2/\|G\|_F^2\) 绘制为所纳入曲率方向数目的函数。该曲线陡升：到指标 \(i\approx 30\)（约为 \(q=88\) 个正曲率方向的三分之一），累积能量 \(\zeta\) 已超过 0.8，并在整个正曲率子空间处达到 \(\zeta(q)=0.871\)。这确认梯度强烈对齐于顶部曲率方向。

综合起来，假设 5.1–5.4 把局部二次模型约化为正曲率子空间上的一个低维近似，其中 \(H[M_i]\approx w_iM_i\)、\(G\approx\sum_{i=1}^{q}\sigma_iM_i\)。这里配对秩一模态 \(M_i\) 具有正的、异质的曲率 \(w_i\)，且更高曲率的模态往往承载更大的梯度能量。

我们接下来分析 Muon 在优化该二次问题时的优势。尽管第 4 节在经验上把 Muon 与 Adam 比较，但 Adam 的按坐标归一化在上述活跃模态框架内不容许闭式分析。然而在这些程式化二次问题上，Adam 的行为与 GD 相近，而与 Muon 差异显著。图 7 确认了这一点：Adam 与 GD 的平均 NDS 与损失下降彼此之间远比它们各自与 Muon 之间更为接近。因此，为简化分析，我们在理论上聚焦于 GD 与 Muon。具体而言，它们按如下方式更新参数 \(Y\)：

GD 用梯度更新参数，即 \(Y^{\text{GD}}_{t+1}=Y^{\text{GD}}_t-\eta^{\text{GD}}_t\nabla\mathcal Q(Y^{\text{GD}}_t)=Y^{\text{GD}}_t+\eta^{\text{GD}}_tZ^{\text{GD}}_t\)。
在动量设为 0 时，Muon 用谱归一化梯度更新参数：\(Y^{\text{Muon}}_{t+1}=Y^{\text{Muon}}_t-\eta^{\text{Muon}}_t\,\mathrm{spec}(\nabla\mathcal Q(Y^{\text{Muon}}_t))=Y^{\text{Muon}}_t+\eta^{\text{Muon}}_tZ^{\text{Muon}}_t\)，其中对 \(G=U\Sigma V^\top\) 有 \(\mathrm{spec}(G)=UV^\top\)，它把 \(G\) 的所有非零奇异值 \(\Sigma\) 归一化为 1。

5.2理论结果

不失一般性，两种优化器都初始化于 0，并使用精确线搜索步长以保证公平比较。具体而言，对每个 \(\text{opt}\in\{\text{Muon, GD}\}\)，\(\eta^{\text{opt}}_t\) 取为 \(\arg\max_{\eta\geq 0}\{\mathcal Q(Y^{\text{opt}}_t)-\mathcal Q(Y^{\text{opt}}_t+\eta Z^{\text{opt}}_t)\}\)。沿用 (4.2) 式，我们定义逐步 NDS 为 \(S_F(Z^{\text{opt}}_t)=\langle Z^{\text{opt}}_t,H[Z^{\text{opt}}_t]\rangle/\|Z^{\text{opt}}_t\|_F^2\)，定义有限时域平均 NDS 为 \(\bar S^{\text{opt}}_T=T^{-1}\sum_{t=0}^{T-1}S_F(Z^{\text{opt}}_t)\)。

定理 5.5。设 \(\alpha=m/q\) 表示高曲率组的相对规模，设 \(\rho=w_H/w_L\gt 1\) 表示曲率比。在假设 5.1–5.4 下，以下结论成立。

Muon 的 NDS 更小。对每个有限时域 \(T\geq 1\)，Muon 的有限时域平均 NDS 小于 GD，即 \(\bar S^{\text{Muon}}_T\lt \bar S^{\text{GD}}_T\)。
Muon 的损失下降更大。若 \(\rho+1\gt 1/\alpha\gt 1+\sigma_H/\sigma_L\)，则对每个有限时域 \(T\geq 1\)，Muon 取得比 GD 更低的损失，即 \(\mathcal Q(Y^{\text{Muon}}_T)\lt \mathcal Q(Y^{\text{GD}}_T)\)。

定理 5.5 给出两个结果。第一，它表明对任意有限时域 Muon 的平均 NDS 都小于 GD，为观察 2 提供理论支撑。第二，在曲率异质性足够强的条件下——具体地，当曲率比满足 \(\rho\gt 1/\alpha-1\) 且高曲率组足够小、使得 \(\alpha\lt \sigma_L/(\sigma_L+\sigma_H)\) 时——Muon 取得比 GD 更大的累积损失下降，支撑观察 1。条件 \(\rho\gt 1/\alpha-1\) 要求最大的曲率值远大于其余值，这与已有工作中观察到的 Hessian 特征值离群点一致（Sagun 等，2017；Fort 与 Ganguli，2019）。条件 \(\alpha\lt 1/(1+\sigma_H/\sigma_L)\) 要求高曲率组占正曲率子空间足够小的比例，这与实践中观察到的离群曲率方向占比很小一致（Sagun 等，2017）。

两个结果背后的关键机制是：Muon 的谱归一化在所有正交曲率特征模态上均衡更新幅度，把能量均匀分配于高曲率与低曲率方向之间。相反，GD 的更新与梯度成正比，从而（依据假设 5.4）把更多能量集中于高曲率方向。这种集中导致 GD 承受更大的方向锐度，并且当曲率异质性足够强时，带来更大的曲率惩罚，从而抵消其一阶增益。

我们还要指出，我们的曲率视角有助于解释为何某些 Muon 变体能提升训练效率。Zhu 等（2026）的近期工作通过增大 Muon 朝向平坦 Hessian 方向的更新分量来增强 Muon，从而带来进一步的效率增益。这一发现得到我们分析的支持：把更新朝更平坦方向偏移应当降低 NDS，从而降低曲率惩罚，并有可能增大单步损失下降。

5.3证明梗概

我们勾勒定理 5.5 背后的主要思路；完整代数推导见附录 E。在假设 5.1–5.4 下，局部二次模型在标准正交秩一模态 \(\{M_i\}_{i=1}^{q}\) 的张成空间上对角化。在此基下，有 \(G=\sum_{i=1}^{q}\sigma_iM_i\)、\(H[M_i]=w_iM_i\)，因而对任意 \(Y=\sum_i y_iM_i\)，二次模型分解为标量分量：

\[ \mathcal Q(Y)=L(W_0)-\sum_{i=1}^{q}\sigma_iy_i+\frac12\sum_{i=1}^{q}w_iy_i^2. \]

这里 \(w_i\) 是模态 \(M_i\) 的曲率，\(\sigma_i\) 是该模态上的梯度系数，\(y_i\) 是更新 \(Y\) 的坐标。两组结构意味着前 \(m\) 个模态具有曲率 \(w_H\) 与梯度系数 \(\sigma_H\)，其余 \(q-m\) 个模态具有曲率 \(w_L\) 与系数 \(\sigma_L\)。我们记 \(\alpha=m/q\) 为高曲率模态的比例，且 \(w_H\gt w_L\)、\(\sigma_H\gt \sigma_L\)。

于是，动力学完全由残差梯度系数 \(r^{\text{opt}}_{i,t}=\sigma_i-w_iy^{\text{opt}}_{i,t}\) 刻画，其中 \(\text{opt}\in\{\text{Muon, GD}\}\)、\(Y^{\text{opt}}_t=\sum_i y^{\text{opt}}_{i,t}M_i\)。在该坐标系中，Muon 与 GD 的区别一目了然。由于 \(M_i\) 是配对的奇异方向，谱归一化把残差 \(\sum_i r^{\text{Muon}}_{i,t}M_i\) 映射为

\[ Z^{\text{Muon}}_t=\sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i, \]

因此 Muon 对每个活跃模态赋予相同的幅度。GD 则使用

\[ Z^{\text{GD}}_t=\sum_{i=1}^{q}r^{\text{GD}}_{i,t}M_i, \]

因此其更新能量与当前残差能量成正比。这正是核心机制：Muon 消除了各模态之间的幅度不平衡，而 GD 则继承了这种不平衡。

NDS 比较。Muon 的等幅更新诱导出一个固定的曲率平均：

\[ S_F(Z^{\text{Muon}}_t)=\alpha w_H+(1-\alpha)w_L, \]

其中 \(\alpha\) 表示（在假设 5.3 下）更新方向落入高曲率子空间的比例。GD 的 NDS 则是一个按残差能量加权的平均：

\[ S_F(Z^{\text{GD}}_t)=P^{\text{GD}}_t w_H+(1-P^{\text{GD}}_t)w_L,\qquad P^{\text{GD}}_t=\frac{\sum_{i=1}^{m}(r^{\text{GD}}_{i,t})^2}{\sum_{i=1}^{q}(r^{\text{GD}}_{i,t})^2}. \]

这里 \(P^{\text{GD}}_t\) 是 GD 在第 \(t\) 步落在高曲率组中的残差能量比例。由于 \(\sigma_H\gt \sigma_L\)，GD 起初在高曲率组中的残差能量比仅由组规模比例所暗示的更多：

\[ P^{\text{GD}}_0=p=\frac{m\sigma_H^2}{m\sigma_H^2+(q-m)\sigma_L^2}\gt \alpha. \]

GD 的更新随后使其在高曲率组上过冲、在低曲率组上欠冲，从而产生递推 \(P^{\text{GD}}_{t+1}=1-P^{\text{GD}}_t\)（命题 E.2）。因此 GD 的时间平均高曲率权重始终大于 \(\alpha\)，而 Muon 总是恰好把 \(\alpha\) 比例的更新能量分配给高曲率组。由于 \(w_H\gt w_L\)，这给出对每个有限时域 \(T\) 都成立的 \(\bar S^{\text{Muon}}_T\lt \bar S^{\text{GD}}_T\)，其中 \(\bar S^{\text{opt}}_T=T^{-1}\sum_{t=0}^{T-1}S_F(Z^{\text{opt}}_t)\)。

损失比较。同样的残差视角给出终端间隙

\[ \Phi^{\text{opt}}_t=\mathcal Q(Y^{\text{opt}}_t)-\mathcal Q(Y^\star)=\frac12\sum_{i=1}^{q}\frac{(r^{\text{opt}}_{i,t})^2}{w_i}. \]

这里 \(Y^\star\) 是 \(\mathcal Q\) 在活跃模态子空间中的极小点，\(\Phi^{\text{opt}}_t\) 是优化器 \(\text{opt}\in\{\text{GD, Muon}\}\) 在 \(t\) 步后的次优性。由两组对称性，所有高曲率模态共享一个公共残差 \(r^{\text{Muon}}_{H,t}\)，所有低曲率模态共享一个公共残差 \(r^{\text{Muon}}_{L,t}\)。Muon 的等幅步长使两个标度后的残差 \(|r^{\text{Muon}}_{H,t}|/w_H\) 与 \(|r^{\text{Muon}}_{L,t}|/w_L\) 以如下速率彼此收缩：

\[ \Gamma=\frac{|mw_H-(q-m)w_L|}{mw_H+(q-m)w_L}. \]

这一形式来自 Muon 的更新规则。Muon 把两个曲率组都拉向同一加权平均，剩余的间隙等于旧间隙乘以总曲率权重 \(mw_H\) 与 \((q-m)w_L\) 之间的归一化不平衡，即得 \(\Gamma\)。相比之下，GD 在两个曲率组之间交替分配其残差能量；其收缩由两步因子 \(R=C(P^{\text{GD}}_0)C(1-P^{\text{GD}}_0)\) 支配，其中 \(C(\cdot)\) 定义为

\[ C(x)=\frac{(w_H-w_L)^2 x(1-x)}{(w_L+(w_H-w_L)x)^2}. \]

为得到该表达式，设 GD 当前的高曲率残差能量比为 \(x\)。沿残差方向的精确线搜索给出

\[ \eta^{\text{GD}}_t=\frac{1}{w_L+(w_H-w_L)x}, \]

即残差加权平均曲率的倒数。高曲率残差被乘以 \(1-\eta^{\text{GD}}_t w_H\)，低曲率残差被乘以 \(1-\eta^{\text{GD}}_t w_L\)。把这两个因子平方、并以权重 \(x\) 与 \(1-x\) 求平均，恰好给出 \(C(x)\)。因此 \(C(x)\) 是在能量比 \(x\) 处 GD 的单步残差能量收缩因子，而 \(R\) 是 GD 在交替对 \(P^{\text{GD}}_0\) 与 \(1-P^{\text{GD}}_0\) 上的两步收缩因子。基于这些分析，我们可以证明

\[ \Phi^{\text{Muon}}_T=\Phi^{\text{Muon}}_1\,\Gamma^{2(T-1)},\qquad \Phi^{\text{GD}}_T=\Phi^{\text{GD}}_1\,R^{(T-1)/2}. \]

在条件 \(\rho+1\gt 1/\alpha\gt 1+\sigma_H/\sigma_L\)（其中 \(\rho=w_H/w_L\) 为曲率比）下，Muon 既有更小的首步间隙 \(\Phi^{\text{Muon}}_1\lt \Phi^{\text{GD}}_1\)，又有更快的后续收缩 \(\Gamma^2\lt \sqrt R\)（命题 E.5 与 E.6）。把这两个不等式结合，即得对所有 \(T\geq 1\) 有 \(\mathcal Q(Y^{\text{Muon}}_T)\lt \mathcal Q(Y^{\text{GD}}_T)\)。

总体而言，证明形式化了一个简单的直觉：当梯度偏向于少数尖锐模态时，GD 会跟随这种偏向，反复在高曲率方向上花费过多的更新能量；而 Muon 的谱归一化把更新均匀地铺展到各活跃奇异模态上，从而降低方向锐度，并在尖锐与平坦方向之间取得更均衡的进展。

6结论

本文首次尝试从曲率视角理解 Muon 相对 Adam 的优越性。我们表明 Muon 更低的 NDS 降低了其曲率惩罚，从而带来比 Adam 更大的单步损失下降。我们进一步表明，这一 NDS 优势受到数据不平衡与模型中逐层交互的塑造。我们还给出了一个二次模型分析，在理论上确立了 Muon 在 NDS 与单步损失下降上的优势。本文的一个局限是我们聚焦于因果（causal）LLM；我们把在其他模型类别（如扩散模型）上验证这些洞见留作未来工作。

参考文献

Ahn, K., Xu, B., Abreu, N., Fan, Y., Magakyan, G., Sharma, P., Zhan, Z. and Langford, J. (2025). Dion: Distributed orthonormalized updates. arXiv preprint arXiv:2504.05295.

An, K., Liu, Y., Pan, R., Ren, Y., Ma, S., Goldfarb, D. and Zhang, T. (2025). Asgo: Adaptive structured gradient optimization. arXiv preprint arXiv:2503.20762.

Andriushchenko, M., Croce, F., Müller, M., Hein, M. and Flammarion, N. (2023). A modern look at the relationship between sharpness and generalization. arXiv preprint arXiv:2302.07011.

Anil, R., Gupta, V., Koren, T., Regan, K. and Singer, Y. (2020). Scalable second order optimization for deep learning. arXiv preprint arXiv:2002.09018.

Bernstein, J. and Newhouse, L. (2024a). Modular duality in deep learning. arXiv preprint arXiv:2410.21265.

Bernstein, J. and Newhouse, L. (2024b). Old optimizer, new norm: An anthology. arXiv preprint arXiv:2409.20325.

Boissin, T., Massena, T., Mamalet, F. and Serrurier, M. (2025). Turbo-muon: Accelerating orthogonality-based optimization with pre-conditioning. arXiv preprint arXiv:2512.04632.

Cardoso, J.-F. and Souloumiac, A. (1993). Blind beamforming for non-gaussian signals. In IEE proceedings F (radar and signal processing), vol. 140. IET.

Cardoso, J.-F. and Souloumiac, A. (1996). Jacobi angles for simultaneous diagonalization. SIAM journal on matrix analysis and applications, 17 161–164.

Chen, L., Li, J. and Liu, Q. (2025). Muon optimizes under spectral norm constraints. arXiv preprint arXiv:2506.15054.

Chen, X., Liu, S., Sun, R. and Hong, M. (2019). On the convergence of a class of adam-type algorithms for non-convex optimization. In International Conference on Learning Representations.

Cheng, P., Zang, J., Li, Q., Ma, L., Cui, Y., Zhang, Y., Chen, B., Jian, M. and Tong, W. (2026). Trasmuon: Trust-region adaptive scaling for orthogonalized momentum optimizers. arXiv preprint arXiv:2602.13498.

Cohen, J. M., Kaur, S., Li, Y., Kolter, J. Z. and Talwalkar, A. (2021). Gradient descent on neural networks typically occurs at the edge of stability. arXiv preprint arXiv:2103.00065.

Défossez, A., Bottou, L., Bach, F. and Usunier, N. (2020). A simple convergence proof of adam and adagrad. arXiv preprint arXiv:2003.02395.

Dinh, L., Pascanu, R., Bengio, S. and Bengio, Y. (2017). Sharp minima can generalize for deep nets. In International Conference on Machine Learning. PMLR.

Dong, Z., Zhang, Y., Yao, J. and Sun, R. (2025). Towards quantifying the hessian structure of neural networks. arXiv preprint arXiv:2505.02809.

Du, J., Yan, H., Feng, J., Zhou, J. T., Zhen, L., Goh, R. S. M. and Tan, V. Y. (2021). Efficient sharpness-aware minimization for improved training of neural networks. arXiv preprint arXiv:2110.03141.

Du, J., Zhou, D., Feng, J., Tan, V. and Zhou, J. T. (2022). Sharpness-aware training for free. Advances in Neural Information Processing Systems, 35 23439–23451.

Duchi, J., Hazan, E. and Singer, Y. (2011). Adaptive subgradient methods for online learning and stochastic optimization. Journal of machine learning research, 12.

Foret, P., Kleiner, A., Mobahi, H. and Neyshabur, B. (2020). Sharpness-aware minimization for efficiently improving generalization. arXiv preprint arXiv:2010.01412.

Fort, S. and Ganguli, S. (2019). Emergent properties of the local geometry of neural loss landscapes. arXiv preprint arXiv:1910.05929.

George, T., Laurent, C., Bouthillier, X., Ballas, N. and Vincent, P. (2018). Fast approximate natural gradient descent in a kronecker factored eigenbasis. Advances in neural information processing systems, 31.

Grishina, E., Smirnov, M. and Rakhuba, M. (2025). Accelerating newton-schulz iteration for orthogonalization via chebyshev-type polynomials. arXiv preprint arXiv:2506.10935.

Guo, Z., Xu, Y., Yin, W., Jin, R. and Yang, T. (2021). A novel convergence analysis for algorithms of the adam family. arXiv preprint arXiv:2112.03459.

Gupta, V., Koren, T. and Singer, Y. (2018). Shampoo: Preconditioned stochastic tensor optimization. In International Conference on Machine Learning. PMLR.

Gur-Ari, G., Roberts, D. A. and Dyer, E. (2018). Gradient descent happens in a tiny subspace. arXiv preprint arXiv:1812.04754.

He, C., Deng, Z. and Lu, Z. (2025). Low-rank orthogonalization for large-scale matrix optimization with applications to foundation model training. arXiv preprint arXiv:2509.11983.

Hu, C., Zhao, Q., Li, Y., Zhou, M. and Li, X. (2026). Unso: Unified newton schulz orthogonalization. arXiv preprint arXiv:2602.02500.

Izmailov, P., Podoprikhin, D., Garipov, T., Vetrov, D. and Wilson, A. G. (2018). Averaging weights leads to wider optima and better generalization. arXiv preprint arXiv:1803.05407.

Jordan, K., Bernstein, J., Rappazzo, B., @fernbear.bsky.social, Vlado, B., Jiacheng, Y., Cesista, F., Koszarsky, B. and @Grad62304977 (2024a). modded-nanogpt: Speedrunning the nanogpt baseline.

Jordan, K., Jin, Y., Boza, V., Jiacheng, Y., Cecista, F., Newhouse, L. and Bernstein, J. (2024b). Muon: An optimizer for hidden layers in neural networks, 2024.

Kalra, D. S., Gagnon-Audet, J.-C., Gromov, A., Mediratta, I., Niu, K., Miller, A. H. and Shvartsman, M. (2026). A scalable measure of loss landscape curvature for analyzing the training dynamics of llms. arXiv preprint arXiv:2601.16979.

Keskar, N. S., Mudigere, D., Nocedal, J., Smelyanskiy, M. and Tang, P. T. P. (2016). On large-batch training for deep learning: Generalization gap and sharp minima. arXiv preprint arXiv:1609.04836.

Khaled, A., Ozkara, K., Yu, T., Hong, M. and Park, Y. (2025). Muonbp: Faster muon via block-periodic orthogonalization. arXiv preprint arXiv:2510.16981.

Kim, G. Y. and Oh, M.-h. (2026). Convergence of muon with newton-schulz. arXiv preprint arXiv:2601.19156.

Kim, J., Nichani, E., Wu, D., Bietti, A. and Lee, J. D. (2026). Sharp capacity scaling of spectral optimizers in learning associative memory. arXiv preprint arXiv:2603.26554.

Kingma, D. P. and Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980.

Kovalev, D. (2025). Understanding gradient orthogonalization for deep learning via non-euclidean trust-region optimization. arXiv preprint arXiv:2503.12645.

Kunstner, F., Milligan, A., Yadav, R., Schmidt, M. and Bietti, A. (2024). Heavy-tailed class imbalance and why adam outperforms gradient descent on language models. Advances in Neural Information Processing Systems, 37 30106–30148.

Kwon, J., Kim, J., Park, H. and Choi, I. K. (2021). Asam: Adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks. In International conference on machine learning. PMLR.

Lau, T. T.-K., Long, Q. and Su, W. (2025). Polargrad: A class of matrix-gradient optimizers from a unifying preconditioning perspective. arXiv preprint arXiv:2505.21799.

Li, B., Wang, K., Zhong, H., Lu, P. and Wang, L. (2026). Muon in associative memory learning: Training dynamics and scaling laws. arXiv preprint arXiv:2602.05725.

Li, H., Rakhlin, A. and Jadbabaie, A. (2023). Convergence of adam under relaxed assumptions. Advances in Neural Information Processing Systems, 36 52166–52196.

Li, H., Xu, Z., Taylor, G., Studer, C. and Goldstein, T. (2018). Visualizing the loss landscape of neural nets. Advances in neural information processing systems, 31.

Li, J. and Hong, M. (2025). A note on the convergence of muon and further. arXiv e-prints arXiv–2502.

Li, Z., Liu, L., Liang, C., Chen, W. and Zhao, T. (2025). Normuon: Making muon more efficient and scalable. arXiv preprint arXiv:2510.05491.

Liu, J., Shang, F., Zhou, J., Liu, H., Liu, Y. and Liu, J. (2025a). Fedmuon: Accelerating federated learning with matrix orthogonalization. arXiv preprint arXiv:2510.27403.

Liu, J., Su, J., Yao, X., Jiang, Z., Lai, G., Du, Y., Qin, Y., Xu, W., Lu, E., Yan, J. et al. (2025b). Muon is scalable for llm training. arXiv preprint arXiv:2502.16982.

Liu, L., Jiang, H., He, P., Chen, W., Liu, X., Gao, J. and Han, J. (2019). On the variance of the adaptive learning rate and beyond. arXiv preprint arXiv:1908.03265.

Liu, Z., Zhang, R., Wang, Z., Zhao, Y., Su, Y., Yang, Z. and Zhang, Z. (2026). Muon 2: Boosting muon via adaptive second-moment preconditioning. arXiv preprint arXiv:2604.09967.

Loshchilov, I. and Hutter, F. (2019). Decoupled weight decay regularization. In International Conference on Learning Representations.

Ma, J., Huang, Y., Chi, Y. and Chen, Y. (2026). Preconditioning benefits of spectral orthogonalization in muon. arXiv preprint arXiv:2601.13474.

Martens, J. and Grosse, R. (2015). Optimizing neural networks with kronecker-factored approximate curvature. In International conference on machine learning. PMLR.

Pan, Y. and Li, Y. (2023). Toward understanding why adam converges faster than sgd for transformers. arXiv preprint arXiv:2306.00204.

Papyan, V. (2018). The full spectrum of deepnet hessians at scale: Dynamics with sgd training and sample size. arXiv preprint arXiv:1811.07062.

Penedo, G., Kydlíček, H., Lozhkov, A., Mitchell, M., Raffel, C., Von Werra, L., Wolf, T. et al. (2024). The fineweb datasets: Decanting the web for the finest text data at scale. Advances in Neural Information Processing Systems, 37 30811–30849.

Pethick, T., Xie, W., Antonakopoulos, K., Zhu, Z., Silveti-Falls, A. and Cevher, V. (2025). Training deep learning models with norm-constrained lmos. arXiv preprint arXiv:2502.07529.

Qi, X., Chen, M., Ye, J., He, Y. and Xiao, R. (2026). Delving into muon and beyond: Deep analysis and extensions. arXiv preprint arXiv:2602.04669.

Reddi, S. J., Kale, S. and Kumar, S. (2019). On the convergence of adam and beyond. arXiv preprint arXiv:1904.09237.

Sagun, L., Evci, U., Guney, V. U., Dauphin, Y. and Bottou, L. (2017). Empirical analysis of the hessian of over-parametrized neural networks. arXiv preprint arXiv:1706.04454.

Sato, N., Naganuma, H. and Iiduka, H. (2025). Analysis of muon's convergence and critical batch size. arXiv preprint arXiv:2507.01598.

Shah, I., Polloreno, A. M., Stratos, K., Monk, P., Chaluvaraju, A., Hojel, A., Ma, A., Thomas, A., Tanwer, A., Shah, D. J. et al. (2025). Practical efficiency of muon for pretraining. arXiv preprint arXiv:2505.02222.

Shazeer, N. and Stern, M. (2018). Adafactor: Adaptive learning rates with sublinear memory cost. In International conference on machine learning. PMLR.

Shulgin, E., AlRashed, S., Orabona, F. and Richtárik, P. (2025). Beyond the ideal: Analyzing the inexact muon update. arXiv preprint arXiv:2510.19933.

Si, C., Zhang, D. and Shen, W. (2025). Adamuon: Adaptive muon optimizer. arXiv preprint arXiv:2507.11005.

Van Loan, C. F. and Pitsianis, N. (1993). Approximation with kronecker products. In Linear algebra for large scale and real-time applications. Springer, 293–314.

Vasudeva, B., Deora, P. and Thrampoulidis, C. (2025a). On generalization of spectral gradient descent: A case study on imbalanced data. In High-dimensional Learning Dynamics 2025.

Vasudeva, B., Deora, P., Zhao, Y., Sharan, V. and Thrampoulidis, C. (2025b). How muon's spectral design benefits generalization: A study on imbalanced data. arXiv preprint arXiv:2510.22980.

Vyas, N., Morwani, D., Zhao, R., Kwun, M., Shapira, I., Brandfonbrener, D., Janson, L. and Kakade, S. (2024). Soap: Improving and stabilizing shampoo using adam. arXiv preprint arXiv:2409.11321.

Wang, J., Wang, M., Zhou, Z., Yan, J., Wu, L. et al. (2025a). The sharpness disparity principle in transformers for accelerating language model pre-training. arXiv preprint arXiv:2502.19002.

Wang, M. and Wu, L. (2023). A theoretical analysis of noise geometry in stochastic gradient descent. arXiv preprint arXiv:2310.00692.

Wang, S., Zhang, F., Li, J., Du, C., Du, C., Pang, T., Yang, Z., Hong, M. and Tan, V. Y. (2025b). Muon outperforms adam in tail-end associative memory learning. arXiv preprint arXiv:2509.26030.

Wen, K., Hall, D., Ma, T. and Liang, P. (2025). Fantastic pretraining optimizers and where to find them. arXiv preprint arXiv:2509.02046.

Wen, K., Li, Z. and Ma, T. (2023). Sharpness minimization algorithms do not only minimize sharpness to achieve better generalization. Advances in Neural Information Processing Systems, 36 1024–1035.

Zhang, R., Zhao, Y., Liu, Z., Wang, Z., Li, D., Su, Y., Liu, S. and Zhang, Z. (2026a). Teon: Tensorized orthonormalization beyond layer-wise muon for large language model pre-training. arXiv preprint arXiv:2601.23261.

Zhang, R., Zhao, Y., Liu, Z., Wang, Z. and Zhang, Z. (2026b). Muon+: Towards better muon via one additional normalization step. arXiv preprint arXiv:2602.21545.

Zhang, Y., Chen, C., Ding, T., Li, Z., Sun, R. and Luo, Z. (2024a). Why transformers need adam: A hessian perspective. Advances in neural information processing systems, 37 131786–131823.

Zhang, Y., Chen, C., Li, Z., Ding, T., Wu, C., Kingma, D. P., Ye, Y., Luo, Z.-Q. and Sun, R. (2024b). Adam-mini: Use fewer learning rates to gain more. arXiv preprint arXiv:2406.16793.

Zhang, Y., Chen, C., Shi, N., Sun, R. and Luo, Z.-Q. (2022). Adam can converge without any modification on update rules. Advances in neural information processing systems, 35 28386–28399.

Zhou, D., Chen, J., Cao, Y., Yang, Z. and Gu, Q. (2018). On the convergence of adaptive gradient methods for nonconvex optimization. arXiv preprint arXiv:1808.05671.

Zhu, S., Hu, R., Wang, M., Sun, M., Wang, X., Yuan, K. and Wen, Z. (2026). Accelerating llm pre-training through flat-direction dynamics enhancement. arXiv preprint arXiv:2602.22681.

Zhuang, J., Tang, T., Ding, Y., Tatikonda, S. C., Dvornek, N., Papademetris, X. and Duncan, J. (2020). Adabelief optimizer: Adapting stepsizes by the belief in observed gradients. Advances in neural information processing systems, 33 18795–18806.

Zou, F., Shen, L., Jie, Z., Zhang, W. and Liu, W. (2019). A sufficient condition for convergences of adam and rmsprop. In Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition.

A实验细节

A.1FineWeb 正文实验

我们使用一个 124M 参数的 NanoGPT 模型，含 12 个 Transformer 层、12 个注意力头、隐藏维度 768。词表大小为 50{,}257（GPT-2 分词器）。训练在 FineWeb-10B 上进行，序列长度为 1024（Penedo 等，2024）。对 Muon，我们将其应用于除词元嵌入与语言模型头之外的所有矩阵参数，动量 \(\mu=0.95\)、无权重衰减。动量系数在前 300 步从 0.85 线性预热到 0.95，Newton–Schulz 正交化使用 5 次迭代。嵌入层、lm head 以及所有标量或一维参数由 Adam 优化，\(\beta_1=0.8\)、\(\beta_2=0.95\)。对 Adam 基线，所有参数（包括注意力与 MLP 矩阵）均由 Adam 优化，\(\beta_1=0.8\)、\(\beta_2=0.95\)。对 Adam 与 Muon，学习率均从 \(\{1,2,5\}\times\{10^{-1},10^{-2},10^{-3},10^{-4}\}\) 中通过网格搜索选取。我们以 Modded-NanoGPT 作为代码基（Jordan 等，2024a）。

方向锐度每 500 步通过 Hessian–向量积计算一次。我们在 4 张 80 GB 显存的 A100 上进行实验。

A.2Zipf-PCFG 数据集构造与 4.3 节实验细节

A.2.1数据集构造

4.3 节使用的数据集是一个带潜在主题结构与显式语法约束的合成 Zipf-PCFG 语料。

词表。词表 \(\mathcal V\) 含 4{,}411 个词元，划分为 \(C=20\) 个语法类（第 4{,}412 个槽位为 EOS 词元），即 \(\mathcal V=\cup_{c=1}^{C}\mathcal V_c\)。各类规模固定为 \(|N_{\text{anim}}|=700\)、\(|N_{\text{inanim}}|=1200\)、\(|V_{\text{intrans}}|=380\)、\(|V_{\text{trans}}|=570\)、\(|V_{\text{clause}}|=280\)、\(|V_{\text{dative}}|=190\)、\(|V_{\text{modal}}|=10\)、\(|V_{\text{neg}}|=5\)、\(|\text{Adj}_{\text{grad}}|=380\)、\(|\text{Adj}_{\text{nongrad}}|=330\)、\(|\text{Adv}_{\text{deg}}|=20\)、\(|\text{Adv}_{\text{manner}}|=280\)、\(|P|=25\)、\(|\text{Det}_{\text{def}}|=|\text{Det}_{\text{indef}}|=|\text{Comp}|=|\text{Coord}|=|\text{Punc}|=5\)、\(|\text{Num}_{\text{sg}}|=|\text{Num}_{\text{pl}}|=8\)。每个类都有其自身的内部 Zipf 秩。

潜在主题。我们实例化 \(K=30\) 个潜在主题。对每个主题 \(k\) 与每个类 \(c\)，我们通过对 \(\mathrm{Gamma}(\alpha_\phi,1)\)（\(\alpha_\phi=0.3\)）归一化抽取一个逐主题亲和度 \(\phi_{k,c}\in\Delta^{|c|-1}\)，使亲和度在类内词元上稀疏。主题先验为 \(\pi\sim\mathrm{Dirichlet}(\alpha_\pi=1.0)\)。文档在一个转移矩阵满足 \(T_{kk}=0.85\)、\(T_{k\ell}=0.15/(K-1)\)（\(\ell\neq k\)）的 Markov 链下在主题间漂移，从而在每篇文档内提供强烈的主题持续性。

词元发射。在词元类 \(c\) 与主题 \(k\) 内，每个词元 \(j\in\mathcal V_c\) 有一个基础的、与主题相关的概率 \(\phi_{k,c}(j)\)。我们按 \(\phi_{k,c}(j)\) 的降序对 \(\mathcal V_c\) 中词元排序，并记词元 \(j\) 的秩为 \(r(j,c,k)\)。在不平衡水平 \(s\) 下，词元从重加权分布中采样：

\[ P_s(j\mid c,k)=\frac{r(j,c,k)^{-s}\phi_{k,c}(j)}{\sum_{j'\in\mathcal V_c}r(j',c,k)^{-s}\phi_{k,c}(j')},\qquad j\in\mathcal V_c. \]

因此，当 \(s=0\) 时词元发射仅由主题相关的基础分布 \(\phi_{k,c}\) 支配；增大 \(s\) 会把概率质量进一步集中到秩更高的词元上，从而产生更重尾的类条件词元分布。

语法结构。我们从一个以起始符 \(\bar S\) 为根的 PCFG 中采样句子。沿用标准语言学记号，NP 表示名词短语，VP 表示动词短语，CP 表示补语短语（从句补足语），CP_fronted 表示前置从句补足语，RelAdv 表示关系副词从句，Coord 表示并列连词。七条产生式为：\(\bar S\to\) NP VP（概率 0.55）、NP VP CP（0.12）、\(\bar S\) Coord \(\bar S\)（0.08）、CP_fronted NP VP（0.08）、NP Modal-VP（0.07）、NP Neg-VP（0.05）、NP VP RelAdv（0.05）。每个 VP 在四种动词次范畴框架（不及物、及物、从句、双宾）之一下生成，并遵守：(i) 主语与动词之间显式的数一致（每个名词被赋予固定的单/复数特征，约 40% 为复数）；(ii) 选择限制，动物名词优先作施事（偏好 5×）、无生命名词优先作受事（偏好 3×）；(iii) 角色一致（一个从句的施事与受事必须不同）；(iv) 否定与情态的辖域跟踪。递归深度上限为 14。

文档与分词。每个样本是一篇多句文档，通过在上述 HMM 下于主题间漂移并反复采样句子得到。文档被展平为单一词元流，映射到整数词表，并拼接为二进制训练分片。训练与验证的 Zipf 指数可以独立设定。主比较把验证分布固定在 \(s=0\)（此时基于秩的 Zipf 偏置被移除，词元发射仅由主题相关的基础分布 \(\phi_{k,c}\) 支配），然后改变训练指数 \(s\in\{0,0.5,1\}\)，从而隔离训练不平衡对优化器行为的影响。

A.2.2实验设置

与 FineWeb 实验不同，考虑到任务难度降低，我们使用一个 9M 参数的 NanoGPT 模型，含 4 个 Transformer 层、4 个注意力头、模型维度 256。词表大小为 4{,}412（合成 Zipf–PCFG 分词器）。训练使用 Zipf–PCFG 语料，序列长度 1{,}024、梯度累积 8，得到每步有效批量 8{,}192 词元。验证使用 2{,}457{,}600 个词元、序列长度 1{,}024。总训练为 10{,}000 个优化步。我们比较两种优化器。对 Muon，我们将其应用于所有注意力矩阵（\(W_Q,W_K,W_V,W_O\)）与所有 MLP 矩阵（\(W_{\text{in}},W_{\text{out}}\)），学习率 \(5\times 10^{-3}\)、动量 \(\mu=0.95\)、Newton–Schulz 正交化 5 次迭代。嵌入、lm head 与所有标量（1D）参数由 Adam 优化，学习率 \(1\times 10^{-2}\)、\(\beta_1=0.8\)、\(\beta_2=0.95\)。对 Adam，所有参数（包括注意力与 MLP 矩阵）均由 Adam 优化，学习率 \(1\times 10^{-2}\)、\(\beta_1=0.8\)、\(\beta_2=0.95\)。

B对 4.2 节的补充实验结果

本节通过展示沿训练步的锐度比较以及相应的曲率惩罚、NDS 与更新范数比值，对 4.2 节的主要 NDS 比较结果加以补充。该结果与观察 2 的结论一致。

图 8：沿 Muon 与 Adam 训练步的 NDS 及相应比值比较。面板 (a)：锐度比较。面板 (b)：曲率惩罚、NDS 与更新 Frobenius 范数平方的 Adam/Muon 比值。

图 8(a) 表明，Muon 在整条训练轨迹上都维持着比 Adam 更小的 NDS，差距从训练早期一直持续到后期。图 8(b) 报告沿训练步的曲率惩罚、NDS 与更新范数平方的 Adam-对-Muon 比值。更新范数比值保持接近 1，确认两种优化器在每一步都具有相当的更新范数。相反，NDS 比值始终远大于 1，沿轨迹的均值为 2.94。曲率惩罚比值与 NDS 比值紧密跟随，进一步印证观察 2：Muon 更小的曲率惩罚由更低的 NDS、而非更小的更新范数驱动。

我们注意到，在相同训练步下的平均 NDS 比值（2.94）大于 4.2 节中报告的相同验证损失下的比值（1.76）。这是因为在相同训练步下 Muon 达到比 Adam 更低的验证损失，按步对齐实际上是在把处于更先进优化阶段的 Muon 与处于较落后阶段的 Adam 相比，从而放大了表面上的差距。正文中的相同验证损失比较给出了对逐步曲率差异的评估，而这里按步对齐的比较则确认了观察 2 的定性结论对对齐方式的选择是稳健的。

C逐层 NDS 贡献

为补充观察 4 中的锐度比较，图 9 把方向锐度分解为对 12 个 Transformer 层、优化器 \(\text{opt}\in\{\text{Muon, Adam}\}\) 的逐层贡献 \(S_F^{(\ell,\text{opt})}=\langle Z^{\text{opt}}_\ell,H_{\ell\ell}[Z^{\text{opt}}_\ell]\rangle/\|Z^{\text{opt}}\|_F^2\)。面板 (a) 表明两种优化器在不同深度上累积层内曲率的方式并不一致。面板 (b) 报告每层在总的 Adam–Muon 层内差距中所占的份额 \(\Delta S_F^{(\ell)}/\sum_{\ell=1}^{12}\Delta S_F^{(\ell)}\)，其中 \(\Delta S_F^{(\ell)}=S_F^{(\ell,\text{Adam})}-S_F^{(\ell,\text{Muon})}\)。

图 9：Adam–Muon 层内锐度差距在 12 个 Transformer 层上的逐层定位。面板 (a) 绘制两种优化器更新的逐层 NDS 贡献 \(S_F^{(\ell)}\)。面板 (b) 报告份额比 \(\Delta S_F^{(\ell)}/\sum_\ell\Delta S_F^{(\ell)}\)。

从图 9 可见，该差距在深度上高度局部化。具体而言，Muon 与 Adam 之间约 70% 的层内 NDS 差距来自两个边界层 L1 与 L12，约 28% 来自深层 L8–L11，而仅约 2% 来自中间层 L2–L7。差距集中于 L1 与 L12，与这两个边界层最直接地分别与词元嵌入及输出 logits 交互这一事实一致——在那里数据分布对局部曲率有最直接的影响。

D第 5 节的经验验证细节

本附录描述第 5 节中每张验证图背后的实验设置、数据来源与计算流程。所有实验都使用附录 A 中在 Zipf-PCFG 数据集上、以 Muon 优化器训练得到的最终检查点。块 Hessian 是对四个注意力矩阵 \(W_Q,W_K,W_V,W_O\in\mathbb{R}^{256\times256}\) 计算的，每个稠密 Hessian \(\operatorname{mat}(H)\in\mathbb{R}^{256^2\times256^2}=\mathbb{R}^{65536\times65536}\)。

D.1有效低 Kronecker 秩块 Hessian（假设 5.1）

设 \(\operatorname{mat}(H)\in\mathbb{R}^{d_1d_2\times d_1d_2}\) 为某一注意力块的稠密 Hessian，按 Van Loan 重排（Van Loan 与 Pitsianis，1993）整形为矩阵 \(R(\operatorname{mat}(H))\in\mathbb{R}^{d_1^2\times d_2^2}\)，对其做 SVD \(R(\operatorname{mat}(H))=\sum_k s_k\operatorname{vec}(A_k)\operatorname{vec}(B_k)^\top\) 即得 Frobenius 范数下的最优秩-\(r\) Kronecker 近似 \(H_r=\sum_{k=1}^{r}B_k^\top\otimes A_k\)。我们对 \(65536\times65536\) 的重排矩阵用随机化 SVD 计算 \(R(\operatorname{mat}(H))\)，并报告 Frobenius 能量比

\[ \xi(r)=\|H_r\|_F^2\big/\|\operatorname{mat}(H)\|_F^2. \]

图 5 对四个注意力矩阵各绘制 \(r=1,\dots,30\) 的 \(\xi(r)\)。我们观察到 \(W_Q,W_K,W_V,W_O\) 分别有 \(\xi(4)=0.75,0.95,0.87,0.71\)。图 5 的面板 (b) 在 \(W_V\) 上可视化残差热图 \(\operatorname{mat}(H)-H_4\)，确认残差小且近似对角，与假设 5.1 一致。稠密 Hessian 是一个 65{,}536 × 65{,}536 矩阵，过大而无法直接绘制。我们因此通过对列指标做均值池化来可视化其 \(i\)–\(i'\) 行侧结构：\(P[i,i']=\frac{1}{d_2^2}\sum_{j,j'=1}^{d_2}\big|H[(i,j),(i',j')]\big|\in\mathbb{R}^{d_1\times d_1}=\mathbb{R}^{256\times256}\)，它保留了由 A 侧 Kronecker 因子 \(\{A_k\}\)（假设 5.1）所捕获的行侧耦合。对 \(H_4\) 与 \(\operatorname{mat}(H)-H_4\) 施加相同的均值池化，即得三张热图。图 10–12 给出 \(W_Q,W_K,W_O\) 的相应热图，它们在秩-4 Kronecker 近似下都表现出类似的小残差。

图10 — 图 10：\(W_Q\) 的 Hessian、秩-4 Kronecker 近似与残差。

图11 — 图 11：\(W_K\) 的 Hessian、秩-4 Kronecker 近似与残差。

图12 — 图 12：\(W_O\) 的 Hessian、秩-4 Kronecker 近似与残差。

D.2同时对角化（假设 5.2）

我们在注意力块上、用 Kronecker 秩 \(r=4\) 验证该假设。这一选择在近似质量与计算可行性之间取得平衡：在 \(r=4\) 处，Kronecker 近似已对四个注意力矩阵中的三个捕获了 \(\xi(4)\geq 0.87\) 的 Frobenius 能量（附录 D.1），同时把矩阵对的数目保持得足够小以保证可靠的 JADE 联合对角化。对矩阵族 \(\{X_k\}_{k=1}^{r}\)，我们计算

\[ \eta_{\mathrm{sd}}(\{X_k\}_{k=1}^{r})=\max_{Q^\top Q=I}\frac{\sum_{k=1}^{r}\sum_i(e_i^\top Q^\top X_kQ\,e_i)^2}{\sum_{k=1}^{r}\|X_k\|_F^2}. \]

该最大化用 JADE Jacobi 扫描算法（Cardoso 与 Souloumiac，1993，1996）运行 20 个扫描来近似。JADE 算法通过求解一个联合近似对角化问题来估计正交解混矩阵。给定一组对称矩阵 \(\mathcal C=\{C_1,\dots,C_K\}\)（\(C_k\in\mathbb{R}^{d\times d}\)），目标是找到正交矩阵 \(V\in\mathbb{R}^{d\times d}\)，使得变换后的矩阵 \(V^\top C_kV\)（\(k=1,\dots,K\)）尽可能对角。这可表述为最小化总的非对角能量

\[ \min_{V\in\mathbb O(d)}\sum_{k=1}^{K}\big\|V^\top C_kV-\operatorname{diag}(V^\top C_kV)\big\|_F^2, \]

其中 \(\operatorname{diag}(A)\) 表示由 \(A\) 对角元素构成的矩阵，\(\mathbb O(d)\) 表示所有 \(d\times d\) 酉矩阵之集。Jacobi 扫描过程通过施加一系列成对旋转来近似最小化该目标。对每个坐标对 \((p,q)\in[d]\times[d]\)，它选取一个在维度 \(p\) 与 \(q\) 上旋转坐标、并带有最优角 \(\theta\) 的旋转矩阵 \(G_{pq}(\theta)\)，以降低变换后矩阵的联合非对角能量，并更新

\[ C_k\leftarrow G_{pq}(\theta)^\top C_kG_{pq}(\theta),\qquad V\leftarrow VG_{pq}(\theta). \]

一个完整的扫描遍历所有对 \(1\leq p\lt q\leq d\)，反复扫描逐步使 \(\mathcal C\) 中的矩阵越来越接近对角。

设 \(U\) 与 \(V\) 分别表示 \(\{A_k\}_{k=1}^{4}\) 与 \(\{B_k\}_{k=1}^{4}\) 的 JADE 最优正交矩阵，使得 \(A_k\approx U\operatorname{Diag}(a_k^{(1)},\dots,a_k^{(d_1)})U^\top\)、\(B_k\approx V\operatorname{Diag}(b_k^{(1)},\dots,b_k^{(d_2)})V^\top\)。我们得到 \(\eta_{\mathrm{sd}}(\{A_k\}_{k=1}^{4})=0.892\) 与 \(\eta_{\mathrm{sd}}(\{B_k\}_{k=1}^{4})=0.845\)，即如图 6(a) 所示仅约 11–15% 的平方 Frobenius 能量残留在非对角处。

D.3曲率异质性（假设 5.3）

用附录 D.2 得到的 JADE 对齐的 \(U,V\)，我们构造 \(w_i=\sum_{k=1}^{4}a_k^{(i)}b_k^{(i)}\) 并按 \(|w_i|\) 排序。我们只考虑 \(|w_i|\) 的前 128 个值，因为其余项幅度可忽略（第 128 大的 \(|w_i|\) 小于 \(|w_1|\) 的 \(10^{-6}\)）。在 \(|w_i|\) 的前 128 个值中，如图 6(b) 所示有 \(q=88\) 个为正；它们的谱强烈异质，\(w_1/w_{88}\approx 2.59\times 10^6\)，其中 \(w_1\) 单独就占据正模态迹的很大一部分。

D.4梯度对齐（假设 5.4）

设 \(u_i\in\mathbb{R}^{d_1}\) 与 \(v_i\in\mathbb{R}^{d_2}\) 分别表示假设 5.2 中 \(U\) 与 \(V\) 的第 \(i\) 列。设 \(\pi(i)\) 表示 \(\{\sum_{k=1}^{r}a_k^{(j)}b_k^{(j)}:j\in[d']\}\)（其中 \(d'=\min(d_1,d_2)\)）中第 \(i\) 大配对曲率的指标。我们对 \(i\in[q]\) 定义 \(M_i=u_{\pi(i)}v_{\pi(i)}^\top\)。由于 \(U,V\) 为正交矩阵，矩阵族 \(\{M_i\}_{i=1}^{q}\) 在 Frobenius 内积下标准正交。为验证该假设，我们定义 \(\mathcal M_i\) 为 \(\{M_j\}_{j=1}^{i}\)（\(i\in[q]\)）张成的子空间，记 \(\Pi_{\mathcal M_i}\) 为到该子空间的投影，并定义累积能量比 \(\zeta(i)=\|\Pi_{\mathcal M_i}G\|_F^2/\|G\|_F^2\)。我们在与附录 D.1–D.3 相同的检查点与稠密 Hessian 上计算 \(\zeta(i)\) 及下述配对对角分解。

我们首先用相同的批量与种子重跑生成稠密 Hessian 的同一次前向/反向传播，并把参数矩阵上的梯度展平为 \(g\in\mathbb{R}^{d_1d_2}\)。为计算 \(\zeta(i)\)，我们把 \(g\) 投影到 \(\{\operatorname{vec}(M_1),\dots,\operatorname{vec}(M_i)\}\) 张成的子空间上，其中 \(M_i\) 是上面定义的基于 JADE 的秩一模态。我们还计算 \(\operatorname{mat}(H)\) 的前 \(q=88\) 个正特征对 \((\lambda_i,\psi_i)\)，并验证由此得到的累积能量比近乎相同，确认基于 JADE 的模态接近真实的 Hessian 特征向量。图 6(c) 把 \(\zeta(i)\) 绘制为 \(i\) 的函数；在 \(i=q=88\) 处我们得到 \(\zeta(q)=0.871\)，因此活跃子空间捕获了 87.1% 的梯度 Frobenius 能量。

对假设 5.4 的正文诊断支持梯度能量大部分位于正的行/列子空间中，\(\zeta(q)=0.871\)。然而这并不蕴含更强的配对对角形式 \(G=U_q\Sigma V_q^\top\)（其中 \(\Sigma\) 对角）；后者将要求假设 5.3 下的 JADE 基系数 \(\Gamma=U^\top GV\) 集中在元素 \(\Gamma_{ii}\) 上。因此我们检查与锐度相关的 Hessian 二次型是否仍由配对对角的正分量所决定。在假设 5.3 下，设 \(\Gamma=U^\top GV\)、\(\Gamma_{ij}=\gamma_{ij}\)、\(\Lambda_{ij}=\sum_{k=1}^{r}a_k^{(i)}b_k^{(j)}\)。在该配对基下，梯度范数与 Hessian 二次型变为

\[ \langle G,H[G]\rangle=\sum_{i,j}\Lambda_{ij}\gamma_{ij}^2,\qquad \|G\|_F^2=\sum_{i,j}\gamma_{ij}^2. \]

设 \(\mathcal A=\{i:w_i\gt 0\}\)、\(w_i=\Lambda_{ii}\) 表示假设 5.3 中的正集。我们把两个和都划分为三段：(A) 预期的配对对角分量（\(i=j,\,i\in\mathcal A\)）；(B) 非对角分量（\(i\neq j\)）；(C) 非正对角分量（\(i=j,\,i\notin\mathcal A\)）。由于段 (C) 的贡献约为 0%，我们在表 1 中只报告前两组。

表 1：Hessian 二次型分解
段	\(\langle G,H[G]\rangle\) 中的份额
(A) 预期配对对角	88.0%
(B) 偏离配对对角	12.0%

表 1 表明 Hessian 由配对对角的正分量主导：它占 \(\langle G,H[G]\rangle\) 的 88.0%，而偏离配对对角的分量仅占 12.0%。因此，尽管在 JADE 基下 \(G\) 并非恰好配对对角，但梯度对齐方向的曲率代价仍主要由同一配对对角机制所控制。这表明我们理论中所用的结构化二次模型是一个合理的理想化。

D.5结构化二次模型下 GD vs. Adam vs. Muon 的合成实验

图 7 中的合成实验在满足假设 5.1–5.4 的结构化二次模型的随机实例上，量化了 Muon、Adam、GD 的 NDS 比值与最优步二次模型下降比值。每个实例由 \((d_1,d_2,q,\alpha_w,\alpha_\sigma)\) 参数化，默认值为 \(d_1=d_2=256\)、\(q=88\)、\(\alpha_w=1.3\)、\(\alpha_\sigma=0.5\)。我们采样两个随机正交矩阵 \(U\in\mathbb{R}^{d_1\times d_1}\) 与 \(V\in\mathbb{R}^{d_2\times d_2}\)，并构造曲率–梯度对为 \(w_i\propto i^{-\alpha_w}\)、\(\sigma_i=w_i^{\alpha_\sigma}\)（\(i\in[q]\)），且 \(w_i=0\)（\(i\gt q\)）。因此仅有 \(q=88\) 个模态携带正曲率，与附录 D.3 中经验观察到的有效维度相匹配。幂律谱推广了假设 5.3 中的异质性性质。

三种优化器都初始化于 \(Y_0=0\)，并使用第 5 节所述的精确线搜索步长。图 7(a) 报告以 GD 取值归一化的 NDS 比值。Muon 取得的 NDS 约为 GD 的 \(1/11\)（0.09×），而 Adam 的 NDS 约为 GD 的一半（0.50×）。图 7(b) 报告损失下降比值。Muon 取得比 GD 大 5.60× 的损失下降，而 Adam 相对 GD 的优势较小（1.22×）。值得注意的是，Adam 与 GD 表现出相近的 NDS 与损失下降轮廓，这佐证了我们在第 5 节中把理论聚焦于 GD–Muon 比较的合理性。

E定理 5.5 的证明

假设 5.1–5.4 把局部二次模型

\[ \mathcal Q(Y)=L(W_0)-\langle G,Y\rangle+\tfrac12\langle Y,H[Y]\rangle \]

约化为正曲率子空间上的一个低维模型。具体而言，梯度与 Hessian 沿配对秩一模态 \(\{M_i\}_{i=1}^{q}\) 被同时表示为

\[ G=\sum_{i=1}^{q}\sigma_iM_i,\qquad H[M_i]=w_iM_i. \]

这里模态 \(M_i\) 具有正且异质的曲率 \(w_i\)，且高曲率模态往往携带更大的梯度能量，这由假设 5.1、5.2 与 5.4 所形式化。我们称该张成空间为正模态子空间。在假设 5.3 的两组轮廓下，正曲率取如下形式

\[ w_i=w_H\ (i=1,\dots,m),\qquad w_i=w_L\ (i=m+1,\dots,q), \]

其中 \(w_H\gt w_L\gt 0\)。类似地，\(G=\sum_{i=1}^{q}\sigma_iM_i\) 中的系数遵循相同的分组：

\[ \sigma_i=\sigma_H\ (i=1,\dots,m),\qquad \sigma_i=\sigma_L\ (i=m+1,\dots,q), \]

其中 \(\sigma_H\gt \sigma_L\gt 0\)，如假设 5.4 所规定。为方便起见，定义

\[ \alpha=\frac{m}{q},\quad \beta=1-\alpha=1-\frac{m}{q},\quad \rho=\frac{w_H}{w_L}\gt 1,\quad \tau=\frac{\sigma_H}{\sigma_L}\gt 1. \]

下文中我们聚焦于非退化情形，即定义归一化更新方向的残差在所考虑的时间区间内始终非零。若某方法更早到达二次极小点，则其次优性为零，比较在自然的停止约定下仍由相同公式给出。证明分三个主要步骤进行：

步骤 1：残差表示与精确线搜索步长。我们在正模态子空间中推导 Muon 与 GD 的残差动力学，并建立精确线搜索步长。
步骤 2：锐度比较。利用残差表示，我们计算 Muon 与 GD 的 NDS，并比较其沿轨迹的平均锐度。
步骤 3：损失下降比较。我们通过计算精确线搜索更新与两种方法的次优性，分析时间区间上的累积损失下降，给出其总损失下降的闭式比较。

步骤 1：残差表示与精确线搜索步长

我们首先证明对 \(\text{opt}\in\{\text{Muon},\text{GD}\}\)，所有迭代 \(Y^{\text{opt}}_t\) 与残差 \(G-H[Y^{\text{opt}}_t]\) 都保持在正模态子空间内，从而动力学可由标量残差系数追踪。具体地，设 \(\mathcal M_q=\operatorname{span}(\{M_i\}_{i=1}^{q})\)。对每个 \(\text{opt}\) 及每个 \(t=0,\dots,T\)，我们将证明

参数 \(Y_t\) 与残差 \(G-H[Y^{\text{opt}}_t]\) 都属于 \(\mathcal M_q\)，即 \(Y^{\text{opt}}_t\in\mathcal M_q\)、\(G-H[Y^{\text{opt}}_t]\in\mathcal M_q\)；
对每个 \(t=0,\dots,T-1\)，更新增量满足 \(\eta^{\text{opt}}_t Z^{\text{opt}}_t\in\mathcal M_q\)。

我们对 \(t\) 作归纳。当 \(t=0\) 时 \(Y^{\text{opt}}_0=0\in\mathcal M_q\)。由于 \(G=\sum_{i=1}^{q}\sigma_iM_i\in\mathcal M_q\)，亦有 \(G-H[Y^{\text{opt}}_0]=G\in\mathcal M_q\)。设 \(Y^{\text{opt}}_t\in\mathcal M_q\)（\(t\ge0\)）。则存在系数 \(y^{\text{opt}}_{i,t}\) 使得 \(Y^{\text{opt}}_t=\sum_{i=1}^{q}y^{\text{opt}}_{i,t}M_i\)。利用 \(H[M_i]=w_iM_i\)，得 \(H[Y^{\text{opt}}_t]=\sum_{i=1}^{q}w_iy^{\text{opt}}_{i,t}M_i\)，因此

\[ G-H[Y^{\text{opt}}_t]=\sum_{i=1}^{q}\big(\sigma_i-w_iy^{\text{opt}}_{i,t}\big)M_i=\sum_{i=1}^{q}r^{\text{opt}}_{i,t}M_i\in\mathcal M_q. \]

对 Muon，更新方向是残差的谱符号，形如 \(Z^{\text{Muon}}_t=\sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i\in\mathcal M_q\)；对 GD，更新方向即残差本身 \(Z^{\text{GD}}_t=\sum_{i=1}^{q}r^{\text{GD}}_{i,t}M_i\in\mathcal M_q\)。因此两种情形下都有 \(\eta^{\text{opt}}_t Z^{\text{opt}}_t\in\mathcal M_q\)、\(Y^{\text{opt}}_{t+1}=Y^{\text{opt}}_t+\eta^{\text{opt}}_t Z^{\text{opt}}_t\in\mathcal M_q\)。归纳完成。于是，记 \(Y^{\text{opt}}_t=\sum_{i=1}^{q}y^{\text{opt}}_{i,t}M_i\) 并定义逐模态残差 \(r^{\text{opt}}_{i,t}=\sigma_i-w_iy^{\text{opt}}_{i,t}\)，便得 \(G-H[Y^{\text{opt}}_t]=\sum_{i=1}^{q}r^{\text{opt}}_{i,t}M_i\)，其中 \(r^{\text{opt}}_{i,t}\) 是沿模态 \(M_i\) 的稳态残差。

有了上述残差表示，我们陈述精确线搜索步长的引理，它在后续证明中被大量使用。

引理 E.1（精确线搜索步长）。设 \(R_t=G-H[Y_t]\) 表示第 \(t\) 步的残差。对任意方向 \(Z\)，局部二次模型满足

\[ \mathcal Q(Y_t+\eta Z)=\mathcal Q(Y_t)-\eta\langle R_t,Z\rangle+\frac{\eta^2}{2}\langle Z,H[Z]\rangle. \]

则最优步长为

\[ \eta_t(Z)=\max\!\left(\frac{\langle R_t,Z\rangle}{\langle Z,H[Z]\rangle},\,0\right). \]

证明见附录 F.1。

步骤 2：锐度比较

我们现在用残差表示比较 Muon 与 GD 的 NDS。关键观察是：Muon 的更新方向对所有模态 \(M_i\) 等权赋值，与其残差幅度无关；而 GD 的方向集中于当前携带更多残差能量的那一组。我们依次计算两种优化器的 NDS，再比较其沿轨迹的平均值。

Muon 的 NDS。由 \(Z^{\text{Muon}}_t\) 的定义，其更新方向为 \(Z^{\text{Muon}}_t=\sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i\)。由于模态 \(M_i\) 在 Frobenius 内积下标准正交，即 \(\langle M_i,M_j\rangle=\delta_{ij}\)，且步长非退化，故 \(\|Z^{\text{Muon}}_t\|_F^2=\sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})^2=q\)。又可写 \(H[Z^{\text{Muon}}_t]=\sum_{i=1}^{q}w_i\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i\)，则曲率项为 \(\langle Z^{\text{Muon}}_t,H[Z^{\text{Muon}}_t]\rangle=\sum_{i=1}^{q}w_i=mw_H+(q-m)w_L\)。因此 Muon 的 NDS 为

\[ S_F(Z^{\text{Muon}}_t)=\frac{mw_H+(q-m)w_L}{q}=\alpha w_H+(1-\alpha)w_L. \tag{E.1}\]

Muon 的 NDS 在各步之间恒定，因为谱归一化抹去了所有幅度信息，使 Muon 所见的曲率仅依赖于固定的组结构。相比之下，GD 的 NDS 逐步波动。为追踪这种波动，我们引入高曲率能量份额，它衡量总残差能量中集中于高曲率模态的比例。

GD 的 NDS。NDS 的取值由下述命题给出。

命题 E.2（GD 的 NDS）。对满足 \(G-H[Y^{\text{GD}}_t]=\sum_{i=1}^{q}r^{\text{GD}}_{i,t}M_i\) 的 GD，定义高曲率能量份额

\[ P^{\text{GD}}_t=\frac{\sum_{i=1}^{m}(r^{\text{GD}}_{i,t})^2}{\sum_{i=1}^{q}(r^{\text{GD}}_{i,t})^2}, \]

它衡量高曲率模态所携带的总残差能量比例。则 GD 的 NDS 为

\[ S_F(Z^{\text{GD}}_t)=P^{\text{GD}}_t\,w_H+(1-P^{\text{GD}}_t)\,w_L. \]

此外，\(P^{\text{GD}}_t\) 按 \(P^{\text{GD}}_{t+1}=1-P^{\text{GD}}_t\) 在两个值之间交替，初值为

\[ P^{\text{GD}}_0=p=\frac{m\sigma_H^2}{m\sigma_H^2+(q-m)\sigma_L^2}. \]

特别地，\(S_F(Z^{\text{GD}}_t)\) 在 \(p\,w_H+(1-p)w_L\) 与 \((1-p)w_H+p\,w_L\) 之间振荡。

证明见附录 F.2。下面我们比较 Muon 与 GD 的 NDS。由式 (E.1) 与命题 E.2，平均 NDS 之差为

\[ \bar S^{\text{GD}}_T-\bar S^{\text{Muon}}_T=(\bar p_T-\alpha)(w_H-w_L), \]

其中 \(\bar p_T=T^{-1}\sum_{t=0}^{T-1}P^{\text{GD}}_t\) 为时间平均能量份额。由于 \(P^{\text{GD}}_t\) 在 \(p\) 与 \(1-p\) 之间交替，有

\[ \bar p_T=\begin{cases}\tfrac12,& T\text{ 为偶数},\\[4pt]\tfrac12+\tfrac{p-1}{2T},& T\text{ 为奇数}.\end{cases} \]

由于 \(w_H\gt w_L\)，只需证 \(\bar p_T\gt \alpha\)。条件 \(\sigma_H\gt \sigma_L\) 蕴含 \(p\gt \alpha\)。若 \(T\) 为偶数，\(\bar p_T=1/2\gt \alpha\)。若 \(T=2N+1\) 为奇数，则 \(\bar p_T=(N+p)/(2N+1)\)，且

\[ \bar p_T-\alpha=\frac{N(1-2\alpha)+(p-\alpha)}{2N+1}\gt 0, \]

因为 \(\alpha\lt 1/2\) 且 \(p\gt \alpha\)。这证明了 \(\bar S^{\text{Muon}}_T\lt \bar S^{\text{GD}}_T\)。

步骤 3：损失下降比较

我们现在转向累积损失下降。策略是把终端目标间隙表达为共同的残差形式，分别为 Muon 与 GD 推导其闭式，然后证明 Muon 在每个时间区间上都有更小的间隙。下文分析

\[ \Phi^{\text{Muon}}_t=\mathcal Q(Y^{\text{Muon}}_t)-\mathcal Q(Y^\star),\qquad \Phi^{\text{GD}}_t=\mathcal Q(Y^{\text{GD}}_t)-\mathcal Q(Y^\star), \]

其中 \(Y^\star=\arg\min_{Y\in\mathcal M_q}\mathcal Q(Y)\) 是损失在子空间 \(\mathcal M_q\) 内的极小点。我们先为每种优化器推导残差动力学，从 Muon 开始。

命题 E.3（Muon 次优性）。设 \(d_0=|\sigma_H/w_H-\sigma_L/w_L|\) 表示两组缩放残差的初始间隙，并设

\[ \Gamma=\frac{|a-b|}{a+b}=\frac{|mw_H-(q-m)w_L|}{mw_H+(q-m)w_L} \]

为两组之间的归一化曲率失衡，其中 \(a=mw_H\)、\(b=(q-m)w_L\)。对每个 \(T\ge1\)，Muon 的次优性为

\[ \Phi^{\text{Muon}}_T=\mathcal Q(Y^{\text{Muon}}_T)-\mathcal Q(Y^\star)=\frac{ab}{2(a+b)}\Gamma^{2(T-1)}d_0^2. \]

证明见附录 F.3。此结果表明 Muon 以线性速率收敛到 \(Y^\star\)：单步优化以系数 \(\Gamma^{2}\) 乘性地减小次优性。下面转向 GD。与 Muon 不同，GD 的方向正比于残差本身。

命题 E.4（GD 次优性）。设 \(p=m\sigma_H^2/(m\sigma_H^2+(q-m)\sigma_L^2)\) 为初始高曲率能量份额。定义逐步收缩函数

\[ \mathcal C(x)=\frac{(w_H-w_L)^2x(1-x)}{(w_L+(w_H-w_L)x)^2}, \]

它衡量当高曲率份额为 \(x\) 时一步 GD 后保留的总残差能量，并设 \(R=\mathcal C(p)\mathcal C(1-p)\) 为两步收缩因子。则对每个 \(T\ge0\)，GD 的次优性可写为

\[ \Phi^{\text{GD}}_T=\Phi^{\text{GD}}_0\,R^{T/2}, \]

其中初始次优性为

\[ \Phi^{\text{GD}}_0=\frac12\left(\frac{m\sigma_H^2}{w_H}+\frac{(q-m)\sigma_L^2}{w_L}\right). \]

等价地，GD 次优性每步以同一因子 \(\sqrt{R}\) 收缩：\(\Phi^{\text{GD}}_{t+1}=\sqrt{R}\,\Phi^{\text{GD}}_t\)。

证明见附录 F.4。此结果表明 GD 同样线性收敛，单步优化以 \(\sqrt{R}\) 乘性地减小次优性。在两种优化器的次优性均有闭式后，剩下需证 Muon 的间隙在每个时间区间上严格更小。我们分两步实现：

第一步优化后，Muon 的损失低于 GD；
在整个优化过程中，Muon 的乘性系数 \(\Gamma^2\) 小于 GD 的 \(\sqrt{R}\)。

第一步由下述命题实现。

命题 E.5（单步终端间隙比较）。在假设 5.1–5.4 及 \(\rho+1\gt 1/\alpha\gt 1+\sigma_H/\sigma_L\)（其中 \(\rho=w_H/w_L\)）下，有 \(\Phi^{\text{Muon}}_1\lt \Phi^{\text{GD}}_1\)。

证明见附录 F.5，那里我们直接计算第一步优化后的参数并比较次优性。第二步由下述命题实现。

命题 E.6（Muon 在第一步后收缩更快）。在假设 5.1–5.4 及 \(\rho+1\gt 1/\alpha\gt 1+\sigma_H/\sigma_L\)（其中 \(\rho=w_H/w_L\)）下，有 \(\sqrt{R}\gt \Gamma^2\)，其中 \(\Gamma=|mw_H-(q-m)w_L|/(mw_H+(q-m)w_L)\)。

证明见附录 F.6，由直接计算得出。有了这些结果，我们如下证明 Muon 的次优性低于 GD。由命题 E.3 与 E.4，次优性可分解为

\[ \Phi^{\text{Muon}}_T=\Phi^{\text{Muon}}_1\,\Gamma^{2(T-1)},\qquad \Phi^{\text{GD}}_T=\Phi^{\text{GD}}_1\,R^{(T-1)/2}. \]

命题 E.5 给出 \(\Phi^{\text{Muon}}_1\lt \Phi^{\text{GD}}_1\)，命题 E.6 给出 \(\Gamma^2\lt \sqrt{R}\)。因此对每个 \(T\ge1\)，

\[ \Phi^{\text{Muon}}_T=\Phi^{\text{Muon}}_1\,\Gamma^{2(T-1)}\lt \Phi^{\text{GD}}_1\,R^{(T-1)/2}=\Phi^{\text{GD}}_T. \]

由于 \(\Phi^{\text{opt}}_T=\mathcal Q(Y^{\text{opt}}_T)-\mathcal Q(Y^\star)\)，这蕴含 \(\mathcal Q(Y^{\text{Muon}}_T)\lt \mathcal Q(Y^{\text{GD}}_T)\)。至此定理 5.5 证毕。

F支撑命题与引理的证明

F.1引理 E.1 的证明

由二次损失函数 \(\mathcal Q\) 的定义，

\[ \mathcal Q(Y_t+\eta Z)=L(W_0)-\langle G,Y_t+\eta Z\rangle+\tfrac12\langle Y_t+\eta Z,H[Y_t+\eta Z]\rangle. \]

展开线性项得 \(-\langle G,Y_t+\eta Z\rangle=-\langle G,Y_t\rangle-\eta\langle G,Z\rangle\)。由于 \(H\) 在 Frobenius 内积下线性且自伴，二次项展开为

\[ \tfrac12\langle Y_t+\eta Z,H[Y_t+\eta Z]\rangle=\tfrac12\langle Y_t,H[Y_t]\rangle+\eta\langle Z,H[Y_t]\rangle+\frac{\eta^2}{2}\langle Z,H[Z]\rangle. \]

合并并归并 \(\eta\) 的线性项，得

\[ \mathcal Q(Y_t+\eta Z)=\mathcal Q(Y_t)-\eta\langle G-H[Y_t],Z\rangle+\frac{\eta^2}{2}\langle Z,H[Z]\rangle=\mathcal Q(Y_t)-\eta\langle R_t,Z\rangle+\frac{\eta^2}{2}\langle Z,H[Z]\rangle. \]

因此沿 \(Z\) 的下降为 \(\mathcal Q(Y_t)-\mathcal Q(Y_t+\eta Z)=\eta\langle R_t,Z\rangle-\tfrac{\eta^2}{2}\langle Z,H[Z]\rangle\)。对 \(\eta\) 最大化逐步下降即得 \(\eta_t(Z)=\max\!\big(\langle R_t,Z\rangle/\langle Z,H[Z]\rangle,\,0\big)\)。引理 E.1 证毕。

F.2命题 E.2 的证明

设 \(A_t=\sum_{i=1}^{m}(r^{\text{GD}}_{i,t})^2\)、\(B_t=\sum_{i=m+1}^{q}(r^{\text{GD}}_{i,t})^2\) 分别表示高、低曲率组的残差能量。记 \(S_t=A_t+B_t\)，则高曲率能量份额为 \(P^{\text{GD}}_t=A_t/S_t\)。

先推导 NDS 表达式。由于 GD 方向与残差本身相同，即 \(Z^{\text{GD}}_t=G-H[Y^{\text{GD}}_t]=\sum_{i=1}^{q}r^{\text{GD}}_{i,t}M_i\)，借助 \(H[M_i]=w_iM_i\) 与 Frobenius 标准正交性 \(\langle M_i,M_j\rangle=\delta_{ij}\)，有

\[ \|Z^{\text{GD}}_t\|_F^2=\sum_{i=1}^{q}(r^{\text{GD}}_{i,t})^2=A_t+B_t=S_t,\qquad \langle Z^{\text{GD}}_t,H[Z^{\text{GD}}_t]\rangle=\sum_{i=1}^{q}w_i(r^{\text{GD}}_{i,t})^2=w_HA_t+w_LB_t. \]

其比值给出 \(S_F(Z^{\text{GD}}_t)=(w_HA_t+w_LB_t)/S_t=w_HP^{\text{GD}}_t+w_L(1-P^{\text{GD}}_t)\)。

接着推导能量份额递推。由引理 E.1，精确线搜索步长为 \(\eta^{\text{GD}}_t=\max\!\big(\langle R^{\text{GD}}_t,Z^{\text{GD}}_t\rangle/\langle Z^{\text{GD}}_t,H[Z^{\text{GD}}_t]\rangle,\,0\big)\)。由于 GD 方向等于残差，分子为 \(\langle R^{\text{GD}}_t,Z^{\text{GD}}_t\rangle=\|R^{\text{GD}}_t\|_F^2=S_t\)，分母为 \(\langle Z^{\text{GD}}_t,H[Z^{\text{GD}}_t]\rangle=S_F(Z^{\text{GD}}_t)\cdot S_t\)，故 \(\eta^{\text{GD}}_t=1/S_F(Z^{\text{GD}}_t)\)。记 \(y_{i,t}=\langle M_i,Y^{\text{GD}}_t\rangle\)，坐标更新为 \(y^{\text{GD}}_{i,t+1}=y^{\text{GD}}_{i,t}+\eta^{\text{GD}}_t r^{\text{GD}}_{i,t}\)，故下一步残差为

\[ r^{\text{GD}}_{i,t+1}=\sigma_i-w_iy^{\text{GD}}_{i,t+1}=r^{\text{GD}}_{i,t}-w_i\eta^{\text{GD}}_t r^{\text{GD}}_{i,t}=r^{\text{GD}}_{i,t}\left(1-\frac{w_i}{S_F(Z^{\text{GD}}_t)}\right). \]

对每组计算收缩因子 \(w_i/S_F(Z^{\text{GD}}_t)\) 得

\[ 1-\frac{w_H}{S_F(Z^{\text{GD}}_t)}=-\frac{(w_H-w_L)(1-P^{\text{GD}}_t)}{S_F(Z^{\text{GD}}_t)},\qquad 1-\frac{w_L}{S_F(Z^{\text{GD}}_t)}=\frac{(w_H-w_L)P^{\text{GD}}_t}{S_F(Z^{\text{GD}}_t)}. \]

符号相反揭示了 GD 的来回振荡机制：它在高曲率模态上过冲（负因子），在低曲率模态上欠冲（正因子），导致能量在两组间交替。组内平方求和得

\[ A_{t+1}=A_t\frac{(w_H-w_L)^2(1-P^{\text{GD}}_t)^2}{S_F(Z^{\text{GD}}_t)^2},\qquad B_{t+1}=B_t\frac{(w_H-w_L)^2(P^{\text{GD}}_t)^2}{S_F(Z^{\text{GD}}_t)^2}. \]

利用 \(A_t=P^{\text{GD}}_tS_t\)、\(B_t=(1-P^{\text{GD}}_t)S_t\)，得

\[ P^{\text{GD}}_{t+1}=\frac{P^{\text{GD}}_t(1-P^{\text{GD}}_t)^2}{P^{\text{GD}}_t(1-P^{\text{GD}}_t)^2+(1-P^{\text{GD}}_t)(P^{\text{GD}}_t)^2}=1-P^{\text{GD}}_t. \]

在初始化处 \(r^{\text{GD}}_{i,0}=\sigma_i\)，故 \(P^{\text{GD}}_0=m\sigma_H^2/(m\sigma_H^2+(q-m)\sigma_L^2)=p\)。交替 \(P^{\text{GD}}_t\in\{p,1-p\}\) 随即给出 \(S_F(Z^{\text{GD}}_t)\) 的所述振荡。命题 E.2 证毕。

F.3命题 E.3 的证明

我们先刻画任意参数 \(Y_t\) 的次优性。

引理 F.1（次优性的残差形式）。设 \(Y^\star=\sum_{i=1}^{q}y^\star_iM_i\)（其中 \(y^\star_i=\sigma_i/w_i\)，\(i\in[q]\)）为 \(\mathcal Q\) 在正子空间内的极小点。对任意迭代 \(Y_t=\sum_{i=1}^{q}y_{i,t}M_i\)（残差系数 \(r_{i,t}=\sigma_i-w_iy_{i,t}\)），次优性为

\[ \Phi_t=\mathcal Q(Y_t)-\mathcal Q(Y^\star)=\frac12\sum_{i=1}^{q}\frac{r_{i,t}^2}{w_i}. \]

证明。在正模态中，\(Y=\sum_{i=1}^{q}y_iM_i\) 的二次损失可写为 \(\mathcal Q(Y)=L(W_0)-\sum_{i=1}^{q}\sigma_iy_i+\tfrac12\sum_{i=1}^{q}w_iy_i^2\)。一阶条件给出 \(y^\star_i=\sigma_i/w_i\)。逐模态配方得

\[ \mathcal Q(Y)-\mathcal Q(Y^\star)=\frac12\sum_{i=1}^{q}w_i\left(y_i-\frac{\sigma_i}{w_i}\right)^2=\frac12\sum_{i=1}^{q}\frac{(\sigma_i-w_iy_i)^2}{w_i}=\frac12\sum_{i=1}^{q}\frac{r_i^2}{w_i}. \]

引理 F.1 证毕。此残差形式使我们能仅通过标量残差系数追踪次优性。接着用下述命题推导 \(r^{\text{Muon}}_{i,t}\) 的动力学。

命题 F.2（Muon 残差动力学）。定义缩放残差 \(c^{\text{Muon}}_{i,t}=|r^{\text{Muon}}_{i,t}|/w_i\)。在假设 5.3 下，存在 \(c_{H,t}\) 与 \(c_{L,t}\) 使得 \(c^{\text{Muon}}_{i,t}=c_{H,t}\)（\(i=1,\dots,m\)）、\(c^{\text{Muon}}_{i,t}=c_{L,t}\)（\(i=m+1,\dots,q\)）。设 \(a=mw_H\)、\(b=(q-m)w_L\)。则 Muon 的精确线搜索步长为

\[ \eta^{\text{Muon}}_t=\frac{ac_{H,t}+bc_{L,t}}{a+b}, \]

且缩放残差按 \(c_{H,t+1}=|c_{H,t}-\eta^{\text{Muon}}_t|\)、\(c_{L,t+1}=|c_{L,t}-\eta^{\text{Muon}}_t|\) 收缩。

证明。对 Muon，更新方向为 \(Z^{\text{Muon}}_t=\sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i\)。因此沿不同模态 \(M_i\) 的更新在假设 5.3 的每组内是对称的，故 \(c^{\text{Muon}}_{i,t}=c_{H,t}\)（\(i=1,\dots,m\)）、\(c^{\text{Muon}}_{i,t}=c_{L,t}\)（\(i=m+1,\dots,q\)）。由精确线搜索恒等式，步长为 \(\eta^{\text{Muon}}_t=\langle R^{\text{Muon}}_t,Z^{\text{Muon}}_t\rangle/\langle Z^{\text{Muon}}_t,H[Z^{\text{Muon}}_t]\rangle\)。分别计算分子分母：分子为

\[ \langle R^{\text{Muon}}_t,Z^{\text{Muon}}_t\rangle=\left\langle\sum_{i=1}^{q}r^{\text{Muon}}_{i,t}M_i,\ \sum_{i=1}^{q}\operatorname{sgn}(r^{\text{Muon}}_{i,t})M_i\right\rangle=\sum_{i=1}^{q}|r^{\text{Muon}}_{i,t}|, \]

分母为 \(\langle Z^{\text{Muon}}_t,H[Z^{\text{Muon}}_t]\rangle=\sum_{i=1}^{q}w_i=a+b\)。故步长可重写为 \(\eta^{\text{Muon}}_t=\sum_{i=1}^{q}|r^{\text{Muon}}_{i,t}|/(a+b)\)。由 \(|r^{\text{Muon}}_{i,t}|=w_ic^{\text{Muon}}_{i,t}\)，得 \(\eta^{\text{Muon}}_t=\sum_{i=1}^{q}w_ic^{\text{Muon}}_{i,t}/(a+b)=(ac_{H,t}+bc_{L,t})/(a+b)\)。残差更新为 \(r^{\text{Muon}}_{i,t+1}=r^{\text{Muon}}_{i,t}-w_i\eta^{\text{Muon}}_t\operatorname{sgn}(r^{\text{Muon}}_{i,t})\)，取绝对值得 \(|r^{\text{Muon}}_{i,t+1}|=\big||r^{\text{Muon}}_{i,t}|-w_i\eta^{\text{Muon}}_t\big|=w_i\big|c^{\text{Muon}}_{i,t}-\eta^{\text{Muon}}_t\big|\)，除以 \(w_i\) 即得 \(c^{\text{Muon}}_{i,t+1}=|c^{\text{Muon}}_{i,t}-\eta^{\text{Muon}}_t|\)。命题 F.2 证毕。

在初始化处 \(c_{H,0}=\sigma_H/w_H\)、\(c_{L,0}=\sigma_L/w_L\)。由于 \(\eta^{\text{Muon}}_0\) 是 \(c_{H,0}\) 与 \(c_{L,0}\) 的凸组合，命题 F.2 给出

\[ c_{H,1}=|c_{H,0}-\eta^{\text{Muon}}_0|=\frac{b}{a+b}|c_{H,0}-c_{L,0}|=\frac{b}{a+b}d_0,\quad c_{L,1}=\frac{a}{a+b}d_0, \]

因此 \(|c_{H,1}-c_{L,1}|=\frac{|a-b|}{a+b}d_0=\Gamma d_0\)。重复该论证，两组间隙在此后每步以 \(\Gamma\) 收缩，对 \(t\ge1\) 得 \(c_{H,t}=\frac{b}{a+b}\Gamma^{t-1}d_0\)、\(c_{L,t}=\frac{a}{a+b}\Gamma^{t-1}d_0\)。由引理 F.1，

\[ \Phi^{\text{Muon}}_T=\frac12\big(mw_Hc_{H,T}^2+(q-m)w_Lc_{L,T}^2\big)=\frac12\big(ac_{H,T}^2+bc_{L,T}^2\big). \]

代入 \(c_{H,T}\)、\(c_{L,T}\) 的闭式，得

\[ \Phi^{\text{Muon}}_T=\frac12\frac{ab^2+ba^2}{(a+b)^2}\Gamma^{2(T-1)}d_0^2=\frac{ab}{2(a+b)}\Gamma^{2(T-1)}d_0^2. \]

命题 E.3 证毕。

F.4命题 E.4 的证明

沿引理 F.1，定义 \(Y^{\text{GD}}_t=\sum_{i=1}^{q}y^{\text{GD}}_{i,t}M_i\)，残差系数 \(r^{\text{GD}}_{i,t}=\sigma_i-w_iy^{\text{GD}}_{i,t}\)。设 \(A_t=\sum_{i=1}^{m}(r^{\text{GD}}_{i,t})^2\)、\(B_t=\sum_{i=m+1}^{q}(r^{\text{GD}}_{i,t})^2\)、\(S_t=A_t+B_t\)、\(P_t=A_t/S_t\)。由命题 E.2，\(P_{t+1}=1-P_t\) 且 \(S_{t+1}=\mathcal C(P_t)S_t\)。由引理 F.1，次优性可写为

\[ \Phi^{\text{GD}}_t=\frac12\left(\frac{A_t}{w_H}+\frac{B_t}{w_L}\right)=\frac{S_t}{2}\left(\frac{P_t}{w_H}+\frac{1-P_t}{w_L}\right). \]

进而

\[ \frac{\Phi^{\text{GD}}_{t+1}}{\Phi^{\text{GD}}_t}=\mathcal C(P_t)\cdot\frac{\frac{1-P_t}{w_H}+\frac{P_t}{w_L}}{\frac{P_t}{w_H}+\frac{1-P_t}{w_L}}. \]

令 \(x=P_t\)，代入 \(\mathcal C(x)\) 得

\[ \mathcal C(x)\frac{\frac{1-x}{w_H}+\frac{x}{w_L}}{\frac{x}{w_H}+\frac{1-x}{w_L}}=\frac{(w_H-w_L)^2x(1-x)}{(w_L+(w_H-w_L)x)(w_H-(w_H-w_L)x)}. \]

最后的表达式在 \(x\mapsto1-x\) 下对称，因此对 \(x=p\) 与 \(x=1-p\) 取相同值，其平方为 \(\mathcal C(p)\mathcal C(1-p)=R\)。故 \(\Phi^{\text{GD}}_{t+1}/\Phi^{\text{GD}}_t=\sqrt{R}\)。由归纳得 \(\Phi^{\text{GD}}_T=\Phi^{\text{GD}}_0R^{T/2}\)。命题 E.4 证毕。

F.5命题 E.5 的证明

由直接计算，

\[ \Phi^{\text{Muon}}_1=\frac{q\sigma_L^2}{2w_L}\cdot\frac{\alpha\beta\rho}{\alpha\rho+\beta}\left(1-\frac{\tau}{\rho}\right)^2,\qquad \Phi^{\text{GD}}_1=\frac{q\sigma_L^2}{2w_L}\cdot\frac{(\rho-1)^2\alpha\beta\tau^2(\beta/\rho+\alpha\tau^2)}{(\alpha\rho\tau^2+\beta)^2}, \]

其中 \(\tau=\sigma_H/\sigma_L\)，\(\alpha=m/q\) 见假设 5.3，\(\beta=1-\alpha\)。经计算，

\[ \Phi^{\text{GD}}_1-\Phi^{\text{Muon}}_1=\frac{q\sigma_L^2\rho(\tau-1)}{2w_L(\alpha\rho\tau^2+\beta)^2\rho(\alpha\rho+\beta)}\cdot\big(2\alpha\rho\tau^2-\alpha\tau^3-\alpha\tau^2+\beta\rho\tau+\beta\rho-2\beta\tau\big). \tag{F.1}\]

由于 \(\rho\gt 0\) 且 \(\tau\gt 1\)，只需证式 (F.1) 右侧第二项为正。将其重写为

\[ 2\alpha\rho\tau^2-\alpha\tau^3-\alpha\tau^2+\beta\rho\tau+\beta\rho-2\beta\tau=\alpha\tau^2(2\rho-\tau-1)+\beta(\rho(\tau+1)-2\tau). \tag{F.2}\]

由 \(1/(1+\rho)\lt \alpha\) 得 \(1\lt \tau\lt \rho\)，于是 \(2\rho-\tau-1\gt \rho-1\gt 0\)，故式 (F.2) 右侧第一项为正。对第二项：若 \(\rho\ge2\)，则 \(\rho(\tau+1)-2\tau=\rho+\tau(\rho-2)\gt 0\)；若 \(1\lt \rho\lt 2\)，则 \(\rho+\tau(\rho-2)\) 关于 \(\tau\) 递减，其在 \(\tau\lt \rho\) 上的下确界大于其在 \(\tau=\rho\) 处的值 \(\rho+\rho(\rho-2)=\rho(\rho-1)\gt 0\)。因此 \(\rho(\tau+1)-2\tau\gt 0\)。故 \(\Phi^{\text{Muon}}_1\lt \Phi^{\text{GD}}_1\)，命题 E.5 证毕。

F.6命题 E.6 的证明

证明分三部分：先把 \(\sqrt{R}\) 化简为 \(p(1-p)\) 的单调函数，再在所设条件下证 \(p(1-p)\gt \alpha(1-\alpha)=\alpha\beta\)，最后验证所得下界超过 \(\Gamma^2\)。

第 1 部分：化简 \(\sqrt{R}\)。用 \(\rho=w_H/w_L\)，把命题 E.4 中的收缩函数 \(\mathcal C(x)\) 重写为

\[ \mathcal C(x)=\frac{(w_H-w_L)^2x(1-x)}{(w_L+(w_H-w_L)x)^2}=\frac{(\rho-1)^2x(1-x)}{(1+(\rho-1)x)^2}, \]

其中分子分母都除以了 \(w_L^2\)。因此

\[ R=\mathcal C(p)\mathcal C(1-p)=\frac{(\rho-1)^4[p(1-p)]^2}{(1+(\rho-1)p)^2(\rho-(\rho-1)p)^2}. \]

取平方根得 \(\sqrt{R}=\frac{(\rho-1)^2p(1-p)}{(1+(\rho-1)p)(\rho-(\rho-1)p)}\)。化简分母 \((1+(\rho-1)p)(\rho-(\rho-1)p)=\rho+(\rho-1)^2p(1-p)\)，代回得

\[ \sqrt{R}=\frac{(\rho-1)^2p(1-p)}{\rho+(\rho-1)^2p(1-p)}=F\big(p(1-p)\big), \]

其中 \(F(v)=(\rho-1)^2v/(\rho+(\rho-1)^2v)\)。由于分子关于 \(v\) 递增、分母也递增但从正常数 \(\rho\) 起步，故 \(F\) 在 \(v\gt 0\) 上严格递增。

第 2 部分：证明 \(p(1-p)\gt \alpha\beta\)。用 \(\alpha,\beta,\rho,\tau\) 表示 \(\Gamma\) 与 \(p\)。对命题 E.3 中的 \(\Gamma\)，用 \(a=mw_H=q\alpha\rho w_L\)、\(b=(q-m)w_L=q\beta w_L\)，得 \(\Gamma=\frac{|a-b|}{a+b}=\frac{\alpha\rho-\beta}{\alpha\rho+\beta}\)（去掉绝对值是因为假设 \(\alpha\gt 1/(1+\rho)\) 蕴含 \(\alpha\rho\gt \beta\)）。对 \(p\)，分子分母同除 \(q\sigma_L^2\) 得 \(p=\frac{\alpha\tau^2}{\alpha\tau^2+\beta}\)。我们证 \(p\in(\alpha,\beta)\)。对下界：\(p-\alpha=\frac{\alpha\tau^2}{\alpha\tau^2+\beta}-\alpha=\frac{\alpha\beta(\tau^2-1)}{\alpha\tau^2+\beta}\gt 0\)（因 \(\tau\gt 1\)）。对上界：\(\beta-p=\frac{\beta^2-\alpha^2\tau^2}{\alpha\tau^2+\beta}=\frac{(\beta-\alpha\tau)(\beta+\alpha\tau)}{\alpha\tau^2+\beta}\gt 0\)（因假设 \(\tau\lt \beta/\alpha\) 确保 \(\beta-\alpha\tau\gt 0\)）。由 \(p\in(\alpha,\beta)\) 及 \(\alpha+\beta=1\)，有 \(p\in(\alpha,1-\alpha)\)。函数 \(v(x)=x(1-x)\) 严格凹且关于 \(x=1/2\) 对称，故在 \((\alpha,1/2]\) 上严格递增，并在区间 \([\alpha,1-\alpha]\) 的端点取最小值 \(v(\alpha)=v(1-\alpha)=\alpha\beta\)。由于 \(p\) 严格落在内部，得 \(p(1-p)\gt \alpha\beta\)。

第 3 部分：验证 \(F(\alpha\beta)\ge\Gamma^2\)。由 \(F\) 严格递增且 \(p(1-p)\gt \alpha\beta\)，有 \(\sqrt{R}=F(p(1-p))\gt F(\alpha\beta)\)。只需再证 \(F(\alpha\beta)\gt \Gamma^2\)。二者之差为

\[ F(\alpha\beta)-\Gamma^2=\frac{\rho\,[2\alpha\beta(\rho-1)-(\alpha\rho-\beta)]\,[2\alpha\beta(\rho-1)+(\alpha\rho-\beta)]}{(\rho+(\rho-1)^2\alpha\beta)(\alpha\rho+\beta)^2}. \]

分母为正。对 \(2\alpha\beta(\rho-1)-(\alpha\rho-\beta)\)，代入 \(\beta=1-\alpha\) 展开得 \(2\alpha(1-\alpha)(\rho-1)-\alpha\rho+(1-\alpha)=(1-2\alpha)(1+\alpha(\rho-1))\gt 0\)（因 \(\alpha\lt 1/2\)、\(\rho\gt 1\)）。另外，\(2\alpha\beta(\rho-1)+(\alpha\rho-\beta)\) 为正，因两项皆正（回忆 \(\alpha\rho\gt \beta\)）。因此 \(F(\alpha\beta)\gt \Gamma^2\)，结合第 2 部分得 \(\sqrt{R}\gt F(\alpha\beta)\gt \Gamma^2\)。命题 E.6 证毕。