arXiv:2605.06548v1 [cs.CL] · 2026年5月7日 · 中文翻译

连续潜空间扩散语言模型(Cola DLM) Continuous Latent Diffusion Language Model

Hongcan Guo1,2,Qinyu Zhao3,†,Yian Zhao1,4,Shen Nie1,5,Rui Zhu1,Qiushan Guo1,Feng Wang1,Tao Yang1,Hengshuang Zhao2,Guoqiang Wei1,Yan Zeng1,✉
1字节跳动 Seed  ·  2香港大学  ·  3澳大利亚国立大学  ·  4北京大学  ·  5中国人民大学
实习期间于字节跳动 Seed 完成此工作  ·  通讯作者
日期:2026年5月8日  ·  通讯:Yan Zeng(zengyan.yanne@bytedance.com)
项目主页:https://hongcanguo.github.io/Cola-DLM/  ·  ★ Seedance 团队研究项目 ★
本文为论文《Continuous Latent Diffusion Language Model》的完整中文译本。译文保留全部数学公式(由 MathJax 渲染)、原始公式编号、全部图表(以原图嵌入)。参考文献条目按学术惯例保留英文原貌。关键术语在首次出现时附注英文原文,以便对照。
摘要

大语言模型在自回归(autoregressive)范式下取得了显著成功,但高质量文本生成未必要绑定到固定的从左到右顺序。现有的替代方案仍难以同时兼顾生成效率、可扩展的表示学习与有效的全局语义建模。我们提出 Cola DLM,一种分层式潜空间扩散语言模型(hierarchical latent diffusion language model),通过分层信息分解来刻画文本生成。Cola DLM 首先用一个文本变分自编码器(Text VAE)学习稳定的"文本—潜变量"映射,随后用一个块因果(block-causal)DiT 在连续潜空间中建模全局语义先验,最后通过条件解码生成文本。从统一的马尔可夫路径(Markov-path)视角来看,其扩散过程执行的是潜空间先验的输运,而非词元级的观测恢复,从而把全局语义组织与局部文本实现分离开来。这一设计带来了更灵活的非自回归归纳偏置,支持在连续空间中进行语义压缩与先验拟合,并可自然推广到其他连续模态。我们的实验涵盖 4 个研究问题、8 个基准、与严格对齐的约 2B 参数自回归与 LLaDA 基线,以及扩展到约 2000 EFLOPs 的缩放曲线;据此我们确定了 Cola DLM 的一组有效整体配置,并验证了其在文本生成上的强缩放行为。综合来看,这些结果确立了"分层连续潜空间先验建模"作为严格词元级语言建模的一种有原则的替代方案:在此范式下,生成质量与缩放行为可能比似然更能反映模型能力,同时也指出了一条在离散文本与连续模态之间走向统一建模的具体路径。

1引言

大语言模型在自回归范式下取得了显著成功 [9, 30, 38, 55, 91]。通过链式法则对离散文本分布进行分解 [6, 22, 39, 45, 60, 102],自回归语言模型推动了大规模预训练、开放式生成与下游迁移的重大进展,并已成为现代语言建模的主导方法 [13, 65, 73, 96, 111]。然而,该范式将生成过程与固定的从左到右顺序紧密耦合,使推理本质上是串行的,并把模型的归纳偏置限制在单一的词元排序之上 [1, 3, 23, 50, 67, 98, 104]。近期在离散与连续的基于扩散的文本建模方面的进展表明:高质量语言生成无需依赖这种固定顺序;语言模型也可以通过更一般的状态演化与去噪路径来定义 [15, 59, 72, 87, 103, 106]。

尽管在自回归、离散扩散与连续扩散方向上已有大量探索 [26, 41, 42, 47, 49, 85, 95, 99],现有方法仍难以同时实现生成效率、可扩展表示与全局语义建模。自回归模型直接参数化词元级条件概率,给出了清晰的训练目标,但其固定的生成顺序带来了固有的串行推理代价,并引入了很强的人工归纳偏置,从而限制了其在更一般生成任务上的表现 [7, 17, 20, 53, 119]。离散扩散语言模型去除了显式的从左到右分解 [25, 35, 36, 110],但它们通常仍在离散词元空间中执行观测恢复,导致多步采样代价高昂,且中间的离散状态并不适合稳定地表示全局语义结构 [40, 62, 86, 90, 94, 115, 116]。连续扩散方法进一步引入了连续表示空间 [28, 81, 89],但大多数现有方法仍把扩散路径用于恢复与词元对齐的表示,而非显式地建模潜空间先验 [21, 29]。因此,当前方法尚未提供一个能系统性地把非自回归生成、连续表示与概率化文本建模结合起来的统一框架。

为弥补这一空白,我们提出 Cola DLM,一种分层式潜空间扩散语言模型。Cola DLM 首先通过一个文本 VAE [8, 46, 51, 83, 100, 112] 学习文本与连续潜变量之间的稳定映射,随后用一个块因果 DiT [4, 11, 12, 57, 66, 75, 76, 108] 在连续潜空间中建模潜先验,最后通过条件解码器生成文本。Cola DLM 的核心思想是:把扩散用于潜空间先验的输运,而非词元级的观测恢复。从统一的马尔可夫路径视角看,该设计把文本生成显式地分解为两个层次:连续潜空间中的全局语义组织,以及通过条件解码实现的局部文本实现。这一分解削弱了固定词元顺序带来的归纳偏置,使连续空间的几何结构可以直接支持语义压缩与先验拟合,并实现更灵活的非自回归生成过程。此外,块因果先验建模在保留块间因果结构的同时,允许每个块内进行更高效的并行计算。立足于分层潜空间建模,Cola DLM 还具有高度模块化的特点,能够自然地扩展到其它潜空间建模组件与其它连续模态 [19, 112]。

基于上述观察,我们从理论与实证两方面系统地研究了连续潜空间中的扩散语言建模。我们的贡献如下:

2相关工作

2.1自回归语言模型

自回归语言模型 [56, 77, 92, 101] 通过链式法则分解离散文本分布,并以词元级最大似然进行训练,是目前应用最广泛的文本建模范式。其局限在于:生成被固定的从左到右顺序所约束,推理本质上是串行的,并且不太适合诸如填空、局部编辑与全局重组等非单调生成任务。相比之下,Cola DLM 首先在连续潜空间中建模全局语义先验,然后进行条件解码,从而缓解词元级排序偏置,并借助块因果 DiT 提升生成效率。

2.2离散扩散语言模型

离散扩散语言模型主要分为两类。第一类基于离散转移核(discrete transition kernels)[2, 10, 88],在离散词元空间中定义前向扰动与反向恢复,并通过多步去噪实现非自回归生成;然而采样通常较慢,且这类方法难以利用连续空间中平滑的语义结构。第二类基于掩码或吸收态(masking / absorbing states)[69, 70, 80, 81, 84, 105, 113, 114, 117, 118],通过逐步把词元映射为掩码或吸收态、再恢复原文来构造训练目标;然而中间状态的信息损失限制了全局语义规划与细粒度控制。相比之下,Cola DLM 把扩散过程移到连续潜空间,在那里可压缩的潜变量承载全局语义,从而把连续空间的可操控性与分层语义建模结合起来。

2.3连续扩散语言模型

连续扩散语言模型大致可分为三类。第一类是与词表对齐的高维连续方法(high-dimensional vocabulary-aligned)[31, 43, 59, 79],直接在 one-hot 向量、logit 单纯形或概率单纯形上进行连续扩散或流(flow)建模,以保持与离散词表的对齐;但其表示维度随词表大小增长,限制了可扩展性。第二类是基于词元嵌入的连续方法(token-embedding-based)[14, 21, 24, 27, 29, 52, 54, 87],先把文本映射到连续嵌入空间,再进行扩散或流建模以提升生成灵活性;但其生成过程本质上仍是对带噪目标表示的恢复,缺乏显式的分层潜变量解释与对文本分布统一的边缘似然视角。第三类是潜空间连续方法(latent-space)[44, 58, 63, 109],先用自编码器或 VAE 把文本压缩到潜空间,再进行扩散建模;这些方法通常依赖于潜空间设计与自回归解码器,并往往把潜空间当作固定表示,而非在分层潜变量框架下进行建模。相比之下,Cola DLM 通过分层潜变量建模显式地把全局语义与局部实现分离,并在一个动态的连续潜空间中学习语义先验,从而更好地在建模灵活性、推理效率与理论可解释性之间取得平衡。

3连续潜空间扩散语言模型

本节首先把 Cola DLM 表述为一个具有严格概率定义的分层潜变量语言模型,并概述其整体工作流程。随后,我们把 Cola DLM 与自回归(AR)模型、离散去噪语言模型以及连续词元空间方法置于一个统一的理论框架中加以比较。详细推导与证明见附录 A、B、C 与 D。

3.1Cola DLM 的理论基础

本小节把 Cola DLM 表述为一个具有严格概率定义的分层潜变量语言模型,并介绍其无条件与条件概率估计量。详细推导与证明见附录 A 与 B。

3.1.1Cola DLM 的理论表述

分层潜变量建模。设 \(x \in \mathcal{X}\) 表示一个离散文本序列,\(z_0 \in \mathbb{R}^d\) 表示其连续潜变量。Cola DLM 的生成模型由一个条件解码器 \(p_\theta(x \mid z_0)\) 与一个潜空间先验 \(p_\psi(z_0)\) 构成:

\[ p(x,z_0)=p_\theta(x\mid z_0)\,p_\psi(z_0),\qquad p(x)=\int p_\theta(x\mid z_0)\,p_\psi(z_0)\,dz_0. \tag{3.1}\]

此处 \(q_\phi(z_0\mid x)\) 仅在训练时用于变分推断,并不属于生成模型本身。

我们用连续流(continuous-flow)先验来建模 \(p_\psi(z_0)\)。设基分布为 \(p_1(z_1)=\mathcal{N}(0,I)\),并设 \(v_\psi(z_t,t)\) 为向量场,则

\[ z_1\sim p_1,\qquad \frac{dz_t}{dt}=v_\psi(z_t,t),\qquad z_0=\Phi^\psi_{0\leftarrow1}(z_1), \tag{3.2}\]

由此诱导出 \(p_\psi=(\Phi^\psi_{0\leftarrow1})_\sharp\, p_1\)。在序列实现中,潜变量进一步被分解为若干块,\(z_0=(z_0^{(1)},\dots,z_0^{(B)})\),并有

\[ p_\psi(z_0)=p_\psi(z_0^{(1)})\prod_{b=2}^{B} p_\psi(z_0^{(b)}\mid z_0^{(<b)}). \tag{3.3}\]

该因子分解直接对应于后文使用的块因果先验学习与逐块推理。

ELBO 与先验学习。由 Jensen 不等式,Cola DLM 的训练下界为

\[ \log p(x)\ge \mathbb{E}_{q_\phi(z_0\mid x)}\big[\log p_\theta(x\mid z_0)+\log p_\psi(z_0)-\log q_\phi(z_0\mid x)\big]=:\mathcal{L}_{\mathrm{ELBO}}(x). \tag{3.4}\]

因此,训练即最大化 \(\mathcal{L}_{\mathrm{ELBO}}(x)\),或等价地最小化 \(-\mathcal{L}_{\mathrm{ELBO}}(x)\)。设聚合后验(aggregated posterior)为 \(\bar q_\phi(z_0)=\int q_\phi(z_0\mid x)\,p_{\mathrm{data}}(x)\,dx\),则期望 ELBO 可写为

\[ \mathbb{E}_{p_{\mathrm{data}}(x)}[\mathcal{L}_{\mathrm{ELBO}}(x)]=\mathbb{E}_{q(x,z_0)}[\log p_\theta(x\mid z_0)]-I_q(X;Z_0)-\KL(\bar q_\phi(z_0)\,\|\,p_\psi(z_0)), \tag{3.5}\]

其中 \(q(x,z_0)=p_{\mathrm{data}}(x)q_\phi(z_0\mid x)\)。该分解表明 Cola DLM 把文本建模分离为三项:条件重建信息压缩先验匹配。当编码器与解码器固定时,先验学习归结为

\[ \max_\psi\ \mathbb{E}_{z_0\sim\bar q_\phi}[\log p_\psi(z_0)]\quad\Longleftrightarrow\quad \min_\psi\ \KL(\bar q_\phi(z_0)\,\|\,p_\psi(z_0)). \tag{3.6}\]

实践中我们并不直接优化密度,而是用流匹配(Flow Matching)学习对应的向量场。对第 \(b\) 块,条件 FM 目标为

\[ \mathcal{L}_{\mathrm{FM}}=\sum_{b=1}^{B}\mathbb{E}_{t,z_0,z_1}\Big\|v_\psi\big(z_t,t;z_0^{(<b)}\big)-u_t(z_0^{(b)},z_1)\Big\|_2^2. \tag{3.7}\]

因此,流匹配在 Cola DLM 中只是先验的求解器,而非模型本身的定义。

小结

Cola DLM 的生成分布由式 (3.1) 的分层因子分解定义:潜先验 \(p_\psi(z_0)\) 生成全局连续语义,解码器 \(p_\theta(x\mid z_0)\) 实现离散文本。编码器 \(q_\phi(z_0\mid x)\) 不属于生成模型,而是一个推断模型,把观测数据分布 \(p_{\mathrm{data}}(x)\) 提升为一个依赖于模型的潜空间联合分布:

\[ q_\phi(x,z_0)=p_{\mathrm{data}}(x)q_\phi(z_0\mid x),\qquad \bar q_\phi(z_0)=\int q_\phi(z_0\mid x)p_{\mathrm{data}}(x)\,dx.\]

因此,虽然 \(p_{\mathrm{data}}(x)\) 固定,但诱导出的潜分布 \(\bar q_\phi\) 并不固定。当表示固定时,先验学习把 \(p_\psi\) 拟合到 \(\bar q_\phi\);而在联合训练下,\(\bar q_\phi\) 与 \(p_\psi\) 共同演化:编码器重塑潜空间数据分布,学到的先验则正则化并组织潜空间。流匹配只是学习这一先验输运的一种实现选择,底层模型始终是一个分层潜变量语言模型。

3.1.2Cola DLM 的概率估计

无条件概率估计。在评估时,我们近似 \(\log p(x)\)。对样本 \(z_0^{(k)}\sim q_\phi(z_0\mid x)\),定义重要性权重

\[ \log w^{(k)}=\log p_\theta(x\mid z_0^{(k)})+\log p_\psi(z_0^{(k)})-\log q_\phi(z_0^{(k)}\mid x). \tag{3.8}\]

先验项 \(\log p_\psi(z_0^{(k)})\) 通过连续归一化流(CNF)的换元公式来计算。具体地,我们求解增广 ODE

\[ \frac{d}{dt}\begin{pmatrix} z_t\\ \ell_t\end{pmatrix}=\begin{pmatrix} v_\psi(z_t,t)\\ \nabla\!\cdot v_\psi(z_t,t)\end{pmatrix},\qquad \begin{pmatrix} z_0\\ \ell_0\end{pmatrix}=\begin{pmatrix} z_0^{(k)}\\ 0\end{pmatrix}, \tag{3.9}\]

从 \(t=0\) 积分到 \(t=1\),得到 \((z_1^{(k)},\ell_1^{(k)})\)。于是

\[ \log p_\psi(z_0^{(k)})=\log p_1(z_1^{(k)})+\ell_1^{(k)}, \tag{3.10}\]

其中 \(p_1\) 为终端基分布。在高维情形下,散度项用 Hutchinson 迹估计量近似:

\[ \nabla\!\cdot v_\psi(z_t,t)=\Tr\!\Big(\frac{\partial v_\psi(z_t,t)}{\partial z_t}\Big)\approx \epsilon^\top \frac{\partial v_\psi(z_t,t)}{\partial z_t}\,\epsilon,\qquad \epsilon\sim\mathcal{N}(0,I), \tag{3.11}\]

其中在一次 ODE 求解过程中固定同一 \(\epsilon\)。由此得到两个标准估计量,即 ELBO 式与 IWAE 式估计量:

\[ \log\hat p_{\mathrm{ELBO},K}(x)=\frac{1}{K}\sum_{k=1}^{K}\log w^{(k)},\qquad \log\hat p_{\mathrm{IWAE},K}(x)=\log\!\Big(\frac{1}{K}\sum_{k=1}^{K}e^{\log w^{(k)}}\Big). \tag{3.12}\]

IWAE 式估计量通常更紧。

条件概率估计。对前缀—响应分解 \(x=(x_{\mathrm{pre}},x_{\mathrm{res}})\),有精确恒等式

\[ \log p(x_{\mathrm{res}}\mid x_{\mathrm{pre}})=\log p(x_{\mathrm{pre}},x_{\mathrm{res}})-\log p(x_{\mathrm{pre}}). \tag{3.13}\]

因此,用同一个无条件估计量分别对联合序列与前缀打分,即得插值估计量:

\[ \log\hat p(x_{\mathrm{res}}\mid x_{\mathrm{pre}})=\log\hat p(x_{\mathrm{pre}},x_{\mathrm{res}})-\log\hat p(x_{\mathrm{pre}}). \tag{3.14}\]

3.2Cola DLM 的工作流程

本节详细描述 Cola DLM 的整体工作流程。如图 1 所示,我们从三个角度加以说明:文本 VAE 的预训练、用文本 DiT 进行先验学习的预训练,以及 Cola DLM 的推理过程。

图 1 Cola DLM 的整体工作流程。对 Cola DLM 训练与推理流程的详细图示。训练阶段一展示文本 VAE 的预训练(含重建损失、BERT 损失与 KL 损失);训练阶段二展示文本 VAE 与文本 DiT 的联合预训练,并辅以梯度控制以稳定优化,其中 DiT 采用专门的块因果机制;推理阶段展示带 KV 缓存的解码过程。

3.2.1文本 VAE 预训练

在第一阶段,我们学习一个稳定的"潜变量—文本"对应关系。编码器把文本映射到潜空间,解码器在潜变量条件下重建原文:

\[ z_0\sim q_\phi(z_0\mid x),\qquad \hat x\sim p_\theta(x\mid z_0). \tag{3.15}\]

本阶段的目标不是学习最终先验,而是在"潜变量所存储的信息"与"解码器所恢复的信息"之间建立稳定的分工。相应目标为

\[ \mathcal{L}_{\mathrm{VAE}}=-\mathbb{E}_{q_\phi(z_0\mid x)}\log p_\theta(x\mid z_0)+\beta\,\KL\big(q_\phi(z_0\mid x)\,\|\,p_{\mathrm{base}}(z_0)\big)+\lambda_{\mathrm{mask}}\mathcal{L}_{\mathrm{mask}}. \tag{3.16}\]

其中 \(\mathcal{L}_{\mathrm{mask}}\) 是图中所示的 BERT 式掩码损失。它防止 VAE 编码器在语义上坍缩、而解码器仅记忆表层文本。在我们的实验中,VAE 不压缩序列长度。为防止信息泄漏并便于后续流式生成,我们的 VAE 编码器与解码器都是严格因果的。

3.2.2用块因果 DiT 进行先验学习

在第二阶段,我们在已稳定的潜空间上学习条件先验。对第 \(b\) 块,可见集合由历史的干净潜变量块与当前的带噪块组成:

\[ \mathcal{V}_b=\big\{\sg(z_0^{(<b)}),\, z_t^{(b)}\big\}, \tag{3.17}\]

其中 \(\sg(\cdot)\) 表示停止梯度(stop-gradient)。该可见性约束在每个块内强制双向注意力、在块间强制因果依赖,与式 (3.3) 一致。在此设计下,先验学习采用一个结合条件流匹配与参考编码器正则项的联合目标:

\[ \begin{aligned} \mathcal{L}_{\mathrm{stage2}}=\ &\lambda_{\mathrm{VAE}}\big(-\mathbb{E}_{q_\phi(z_0\mid x)}\log p_\theta(x\mid z_0)+\beta\mathbb{E}_{q_\phi(z_0\mid x)}\log q_\phi(z_0\mid x)+\lambda_{\mathrm{mask}}\mathcal{L}_{\mathrm{mask}}\big)\\ &+\lambda_{\mathrm{fm}}\mathcal{L}_{\mathrm{FM}}+\lambda_{\mathrm{ref}}\mathbb{E}_{p_{\mathrm{data}}(x)}\KL\big(q_\phi(z_0\mid x)\,\|\,q_\phi^{\mathrm{ref}}(z_0\mid x)\big). \end{aligned} \tag{3.18}\]

第一组保持带正则化潜空间学习的自编码结构,第二项学习块级条件先验,第三项抑制联合训练中的潜空间漂移。

3.2.3推理:前缀编码、逐块生成与条件解码

推理时,模型首先把前缀编码为干净的潜空间条件:

\[ z^{\mathrm{pre}}\sim q_\phi(z^{\mathrm{pre}}\mid x_{\mathrm{pre}}). \tag{3.19}\]

随后逐块生成响应潜变量。每一块都是在历史条件下对一个噪声种子进行输运而得:

\[ \hat z_0^{(b)}=\Phi^\psi_{0\leftarrow1}\big(\epsilon^{(b)};\,z^{\mathrm{pre}},\hat z_0^{(<b)}\big),\qquad \epsilon^{(b)}\sim\mathcal{N}(0,I). \tag{3.20}\]

最后,解码器在前缀与已生成潜变量块的条件下输出文本响应:

\[ \hat x_{\mathrm{res}}\sim p_\theta\big(x_{\mathrm{res}}\mid z^{\mathrm{pre}},\hat z_0^{(1:B)}\big). \tag{3.21}\]
小结

Cola DLM 的工作流程通过两个训练阶段与一个推理阶段实现上述分层概率模型,而非 VAE、DiT 与解码器的机械级联。在阶段一,基先验 \(p_{\mathrm{base}}\) 正则化"潜变量—文本"接口并稳定自编码表示,但它不是最终的生成先验;在阶段二,块因果 DiT 学习最终的潜先验 \(p_\psi(z_0)\),同时 VAE 在重建、掩码与参考正则化下仍可训练。这使先验学习成为潜表示与所学流先验之间一种受控的协同适应。推理时,模型先编码前缀,在潜空间中自回归地生成未来潜块,再通过条件解码器实现响应。

3.3Cola DLM 与现有方法的统一视角

本节在统一的马尔可夫路径视角下,把 Cola DLM 与 AR、LLaDA、Plaid 进行比较,并从理论上刻画 Cola DLM 的具体优势。更详细的分析与证明见附录 C 与 D。

3.3.1统一随机路径视角下的文本建模

为统一比较,设 \(\tau=(S_t)_{t\in T}\) 是状态空间 \(\mathcal{S}\) 上的一个随机过程,具有初始分布 \(\mu_\Theta\)、转移核 \(K_t^\Theta\) 与发射机制 \(e_\Theta(x\mid\tau)\)。一个基于过程的生成模型可写为

\[ p_\Theta(x)=\int e_\Theta(x\mid\tau)\,P_\Theta(d\tau),\qquad P_\Theta(d\tau)=\mu_\Theta(ds_0)\prod_{t>0}K_t^\Theta(ds_t\mid s_{\lt t}). \tag{3.22}\]

这一共同的外层形式并不决定模型的本质。关键区别在于路径的状态空间及其语义角色:一条作用于文本或近乎无损的文本对齐表示上的路径是观测路径,而一条仅用于生成潜先验的路径是先验路径。对 AR 而言,路径就是前缀扩展本身,给出精确的链式分解,但把生成绑定到从左到右的滤波:

\[ p_{\mathrm{AR}}(x)=\prod_{i=1}^{L}p_\eta(x_i\mid x_{\lt i}). \tag{3.23}\]

对 LLaDA 而言,路径是一条离散的"腐蚀—恢复"轨迹,其目标是在离散状态空间中进行观测重建:

\[ q(s_{1:T}\mid x)=q_1(s_1\mid x)\prod_{t=2}^{T}q_t(s_t\mid s_{t-1}),\qquad p_\theta(s_{0:T})=p(s_T)\prod_{t=1}^{T}p_\theta(s_{t-1}\mid s_t). \tag{3.24}\]

因此,LLaDA 削弱了人工设计的从左到右偏置,但仍是在修改观测恢复过程,而非引入显式的分层潜变量。

表 1 统一视角。在统一的马尔可夫路径视角下,各类文本模型的关键差异。列依次为:方法、状态空间、路径角色、生成因子分解、连续性出现之处、是否显式潜变量。AR:前缀词元 / 直接生成路径 / \(\prod_i p(x_i\mid x_{\lt i})\) / 无 / ✗;LLaDA:离散掩码序列 / 离散观测恢复路径 / \(p(s_T)\prod_t p_\theta(s_{t-1}\mid s_t)\) / 离散词元空间 / ✗;Plaid:连续词元对齐表示 / 连续观测恢复路径 / \(p(h_T)\prod_t p_\theta(h_{t-1}\mid h_t)\) / 连续词元空间 / ✗;Cola DLM:压缩潜序列 / 先验输运路径 / \(\int p_\theta(x\mid z_0)p_\psi(z_0)\,dz_0\) / 潜空间 / ✓。

Plaid 进一步把这一恢复过程移到一个连续的、与词元对齐的表示 \(h_0=E(x)\) 上:

\[ q(h_{1:T}\mid h_0)=q_1(h_1\mid h_0)\prod_{t=2}^{T}q_t(h_t\mid h_{t-1}),\qquad p_\theta(h_{0:T})=p(h_T)\prod_{t=1}^{T}p_\theta(h_{t-1}\mid h_t). \tag{3.25}\]

因此其核心目标仍是连续观测恢复,而非分解为先验加条件解码器。相比之下,在 Cola DLM 中,随机路径只输运潜先验:

\[ z_1\sim p_1,\qquad z_0=\Phi^\psi_{0\leftarrow1}(z_1),\qquad x\sim p_\theta(x\mid z_0), \tag{3.26}\]

其边缘分布仍由式 (3.1) 给出。因此,扩散在这里用于学习一个灵活的连续先验,而非对文本施加从左到右的归纳偏置。使用连续路径的理由并非连续建模本身天生更优,而是它能自然刻画潜分布的几何结构。在 Cola DLM 中,连续性出现于 \(p_\psi(z_0)\),而非出现在某条观测恢复轨迹中:

\[ \frac{dz_t}{dt}=v_\psi(z_t,t),\qquad p_\psi=(\Phi^\psi_{0\leftarrow1})_\sharp\,p_1. \tag{3.27}\]

因此,Cola DLM 与 LLaDA 的区别同时体现在状态空间与建模目标上。最后,使用潜变量的理由是显式地把语义结构与词元实现分离。期望 ELBO 的信息分解

\[ \mathbb{E}_{p_{\mathrm{data}}(x)}[\mathcal{L}_{\mathrm{ELBO}}(x)]=\mathbb{E}_{q(x,z_0)}[\log p_\theta(x\mid z_0)]-I_q(X;Z_0)-\KL(\bar q_\phi(z_0)\,\|\,p_\psi(z_0)) \tag{3.28}\]

表明:\(z_0\) 不仅是离散文本的连续替身,更是一个显式的、被边缘化的中间变量——全局语义被压缩进 \(z_0\),而局部词元实现则交由解码器完成。

3.3.2Cola DLM 的理论优势

一个统一判据。设某模型族 \(\mathcal{M}\) 的逼近误差下界为

\[ \mathcal{E}(\mathcal{M}):=\inf_{p\in\mathcal{M}}\KL(p_{\mathrm{data}}(x)\,\|\,p(x)). \tag{3.29}\]

对 AR,其总体风险仅由 \(\mathcal{E}(\mathcal{M}_{\mathrm{AR}})\) 决定。相比之下,Cola DLM 还会引入一个变分推断间隙(inference gap):

\[ G^{\mathrm{ColaDLM}}_{\mathrm{infer}}:=\mathbb{E}_{p_{\mathrm{data}}(x)}\KL\big(q_\phi(z_0\mid x)\,\|\,p_{\theta,\psi}(z_0\mid x)\big). \tag{3.30}\]

因此其总的统计负担为

\[ R^{\mathrm{ColaDLM}}=\mathcal{E}(\mathcal{M}_{\mathrm{ColaDLM}})+\inf_{\phi,\theta,\psi} G^{\mathrm{ColaDLM}}_{\mathrm{infer}}. \tag{3.31}\]
命题 3.1(统一判据)。在总体层面上,Cola DLM 优于某个对照模型,当且仅当其总统计负担更小。以 AR 为例, \[ \mathrm{ColaDLM}\succ\mathrm{AR}\quad\Longleftrightarrow\quad R^{\mathrm{ColaDLM}}<\mathcal{E}(\mathcal{M}_{\mathrm{AR}}). \tag{3.32}\]

率失真与结构化生成。潜空间瓶颈是否有益,取决于数据是否允许一个低速率但信息充分的全局表示。定义表示率失真函数为

\[ D(R):=\inf_{\substack{q(z_0\mid x):\\ I_q(X;Z_0)\le R}}\ \inf_{p_\theta(x\mid z_0)}\ \mathbb{E}_{q(x,z_0)}[-\log p_\theta(x\mid z_0)]. \tag{3.33}\]

若 \(D(R)\) 在较低速率 \(R\) 处已经较小,则数据允许一个低维语义变量,潜空间瓶颈更可能降低总体失配;反之,若高质量重建需要很高的信息率,则激进压缩只会使条件重建更难。这一点可通过结构化生成假设进一步刻画。假设存在一个全局变量 \(G\),使得

\[ p_{\mathrm{data}}(x)=\int p^\star(x\mid g)\,p^\star(g)\,dg,\quad H(X\mid G)\ll H(X),\quad \dim(G)\ll\dim(E(X)), \tag{3.34}\]

则 Cola DLM 的因子分解更贴近真实生成机制:先验建模 \(G\) 的分布,解码器处理条件实现。此时潜空间瓶颈有益而非有害。

三条主导曲线与适用边界。Cola DLM 的适用性最终由三条曲线决定:表示率失真曲线 \(D(R)\)、先验逼近曲线,以及推断间隙曲线 \(G^{\mathrm{ColaDLM}}_{\mathrm{infer}}\)。更紧凑地,

\[ \text{Cola DLM 有优势}\ \Longleftrightarrow\ \big[D(R)\ \text{在低}\ R\ \text{已小}\big]\wedge\big[\mathcal{E}(\mathcal{M}_{\mathrm{ColaDLM}})\ \text{下降}\big]\wedge\big[G^{\mathrm{ColaDLM}}_{\mathrm{infer}}\ \text{可控}\big]. \tag{3.35}\]

因此,Cola DLM 的收益并非仅由扩散或连续性本身所保证,而取决于数据是否呈现"低维全局语义 + 高维局部词元实现"的结构。

小结

Cola DLM 的核心优势不在于去噪本身,而在于把文本建模分离为全局先验与条件实现过程的潜空间分解。

4实验

本节通过实验回答以下研究问题:

4.1实验设置

数据集。训练使用外部开源预训练数据。评估方面,Cola DLM 的内部组件分析(第 4.2、4.3、4.4 节)在从 LAMBADA [74]、MMLU [33] 与 SIQA [82] 测试集随机采样的子集上进行。LAMBADA 是续写基准,其余两个是多选基准。对外部比较(第 4.5 节),我们还在 SQuAD [78]、Story Cloze [68]、OBQA [64]、RACE [48] 与 HellaSwag [107] 的测试集上评估。更多数据集细节见附录 H.1。

基线。在内部组件对比实验(第 4.2、4.3、4.4 节)中,我们指定 Cola DLM 的不同配置。在第 4.5 节的缩放比较中,我们在严格对齐的设置下独立训练自回归与 LLaDA 基线。具体地,自回归与离散扩散模型分别使用 LLaMA [92] 与 LLaDA [70] 的官方建模实现进行随机初始化。细节见附录 H.2。

指标。如第 5.1 节所讨论,估计困惑度(PPL)与 Cola DLM 的实际生成质量之间存在显著失配。此外,已有工作 [32, 34, 61, 97] 指出 PPL 与生成性能并不严格相关。为实现最客观、公平的比较,我们在统一的少样本(few-shot)设置下,对多选与生成任务同时评估所有模型。对多选基准以及如 LAMBADA、SQuAD 等续写任务,准确率由模型输出与真值答案在预定义规则下的严格字符串匹配计算得到。更多评估细节见附录 H.3。

设置。Cola DLM 使用 OLMo 2 [71] 分词器,并以 AdamW 训练。学习率从 \(1\times10^{-6}\) 起步,在前 5{,}000 步线性预热至 \(1.5\times10^{-4}\),随后用余弦调度在 1{,}000{,}000 步衰减到 \(1\times10^{-5}\)。所有评估均使用对应 FLOPs 预算下的检查点,不使用 EMA 权重。Cola DLM 与所有外部基线采用相同的分词器、优化与评估设置。在 Cola DLM 中,VAE 含 500M 参数,DiT 含 1.8B 参数;对自回归与离散扩散基线,嵌入层约 400M 参数、非嵌入主干约 1.8B 参数。因此两类模型族的总规模均保持在约 2B 参数的可比水平。所有方法使用相同随机种子训练,以保证各次运行训练数据一致,最大序列长度设为 512。更多细节见附录 H.4 与 H.5。

4.2Cola DLM 中全局语义结构的证据(RQ1)

本节先给出关于全局语义结构存在性的一条推论,再通过定量考察不同维度、不同时间步平移(timestep shift)下潜空间的性能,提供其存在的有力实证。完整理论推导、证明与技术细节见附录 E。

推论 1

若潜表示是纯局部的且完全可分(separable),则最优时间平移(optimal timeshift)不会随潜维度变化而表现出稳定漂移。因此,若实验中观察到最优时间平移随潜维度系统性地移动,则说明潜空间存在跨维度共享结构;若该现象主要体现在语义类指标上,则进一步支持这些共享结构与高层语义相关。

基于推论 1,本节关注的并非不同潜维度下具体的最优 loc 值,而是最优时间平移的峰值位置是否随潜维度变化呈现稳定、规律的移动。图 2 给出相应实验结果。

图 2 潜空间中全局语义结构的证据。左:随潜维度增大,各任务的最优时间平移峰值系统性右移;右:按指标(LAMBADA、MMLU、SIQA、任务平均)给出的最优 loc 与对应分数,随维度 \(d=16,64,128\) 单调增大。

最优时间平移随潜维度系统性漂移。如图 2 左图所示,任务平均的最优 loc 在 \(d=16\) 时约为 1.0,在 \(d=64\) 时约为 1.7,在 \(d=128\) 时进一步约为 2.3。该趋势清晰且近似单调,直接与"可分"零假设相矛盾。一种更合理的解释是:改变潜维度会改变某种跨维度共享结构的有效噪声标定位置。

4.3Cola DLM 中不同潜空间的分析(RQ2)

本节研究何种潜空间最适合文本生成,围绕潜空间的三个属性展开:维度(dimensionality)、语义重要性(semantic importance)与平滑性(smoothness)。

图 3 固定潜空间与演化潜空间的比较。在任务平均、LAMBADA、MMLU、SIQA 上,与 DiT 联合演化(Joint DiT)且从稳定初始化出发的潜空间,整体优于固定(Fix VAE)潜空间。
图 4 不同训练策略下潜空间的可视化。在稳定初始化上进行联合优化能得到更分散、更少坍缩的潜几何;随机初始化(All Scratch)与小维度则更易坍缩。
表 2 117 EFLOPs 下潜空间维度的影响。在相同计算预算下比较 All Scratch 模型,维度从 16 增至 128 整体改善下游性能,但增益仅为部分性的。

更大的潜维度能改善潜空间质量与下游性能,但仅为部分改善。表 2 表明,在相同计算预算下,增大维度可带来一致但有限的提升。

更大的潜维度部分缓解了潜空间坍缩,但并未完全解决。图 4 显示,把维度从 16 增至 128 使潜空间更少坍缩、更分散;但所得几何仍明显不如带稳定初始化的 Joint DiT 结构化。这说明增大维度有益,却不能单独替代恰当的潜空间形成过程。

潜维度的影响不仅是几何的,也是动力学的。图 2 显示,最优时间平移随潜维度增大系统性地移向更大的 loc。这意味着增大潜维度不只是扩大了空间,还改变了语义信息被最佳恢复的去噪尺度。因此,高维潜空间的收益不仅取决于更好的几何,也取决于恰当的噪声标定。

总体而言,表 2、图 4 与图 2 呈现出一致图景:增大潜维度可提升潜空间质量与下游性能,但增益仅为部分性,其充分发挥仍依赖恰当的训练动力学与时间平移标定。

图 5 Joint DiT 设置下潜空间语义平滑性的作用。加入 BERT 式损失持续改善性能,在潜空间被主动更新(lr = 1)时增益更大;这表明语义平滑性有利于潜空间质量,尤其在与 DiT 联合演化时。
表 3 不同 VAE logSNR 设置下的性能。VAE logSNR 强烈影响下游性能。可学习设置整体最佳,固定 logSNR = 1.5 是最强的固定替代方案。

潜空间的语义重要性。如图 5 所示,本小节全部结果均在 Joint DiT 设置下取得:VAE 从预训练权重初始化并与 DiT 联合优化。我们进一步比较在 VAE 训练中是否加入 BERT 式损失(鼓励潜空间保留更平滑的局部语义)。这里报告的 lr 表示 VAE 相对 DiT 的学习率比值。结果表明,这种语义平滑性对下游性能很重要,尤其在允许潜空间更主动演化时。

当潜空间被主动更新时,加入 BERT 损失持续改善性能。当 VAE 学习率比值为 1 时,BERT 损失在几乎整个训练区间给出最佳整体结果(见图 5),并取得最佳最终性能,说明鼓励掩码词元可恢复性使潜空间在下游预测上更有语义价值。

强潜空间演化只有在语义引导下才有效。当比值为 0.01 时,加入 BERT 损失增益有限;而当比值增至 1 时其优势变得清晰稳定。同时,单纯增大 VAE 更新强度而不加 BERT 损失,并不能可靠地改善性能。这表明:仅有可训练性不够;当潜空间更主动演化时,其更新还必须被约束向更平滑的语义组织。

这些结果说明潜空间应当紧凑但语义充分,与式 (3.5)、(3.35) 一致;BERT 式损失有助于在瓶颈下保留有用语义。

潜空间的平滑性。表 3 在两个计算预算下比较不同 VAE logSNR 设置。结果表明 VAE logSNR 是潜空间平滑性与下游性能的重要因素。在当前设置下,学习 VAE logSNR 整体最佳,固定为 1.5 是最具竞争力的固定替代方案。VAE logSNR 公式见附录 H.7。(❶)可学习 logSNR 在两个预算下均取得最佳任务平均;(❷)固定为 1.5 紧随其后,并在 SIQA 上一致最佳;(❸)当前结果偏向可学习设置,但固定设置仍有进一步研究空间。

4.4Cola DLM 中扩散过程的消融(RQ3)

4.4.1训练阶段

图 6 DiT 块大小的影响。适中的块大小(尤其是 16)取得最佳整体性能。

块大小(block size)。如图 6 所示,块大小是关键的训练超参数。过小的块限制了块内并行与双向上下文,过大的块则削弱了块间因果结构;适中的块大小(约 16)在各任务上取得最佳整体平衡。

图 7 噪声调度消融。在所有任务上,loc = 1 给出最强的整体性能,尤其在与 DiT 联合演化时。
图 8 不同训练检查点下的噪声调度比较。在两个检查点处,loc = 1.0 都取得最佳任务平均与最均衡的整体表现,说明偏好的调度位置在训练过程中是稳定的。
推论 2

若调度位置平移了 logSNR 曲线,则它也平移了 DiT 在去噪过程中所见的有效语义信息区间。因此,最佳噪声调度应是其 logSNR 轨迹与潜空间及待恢复语义尺度最佳对齐者,而非某个普适固定的时间步参数化。

当前设置下,适中的调度位置(loc ≈ 1.0)给出最佳整体性能。图 8 显示 loc = 1.0 在 30K 与 40K 检查点都取得最高任务平均,在三任务上也最佳或接近最佳,MMLU 与 SIQA 上增益尤为明显。从附录 G 发展的信息论视角看,这表明 loc = 1.0 把去噪轨迹置于更适合语义恢复的有效 logSNR 区间,而过小或过大的平移都会使模型偏离该区间。

恰当的噪声标定对 Joint DiT 尤其重要。图 7 进一步显示,loc = 1 的 Joint DiT 是最强的可训练设置,而 loc = 0 或均匀调度的 Joint DiT 始终明显更弱。这说明:只有当去噪 logSNR 轨迹与演化潜空间的语义结构对齐时,联合潜空间演化才变得有效。

噪声调度的作用应通过语义信息标定来理解,而非孤立的超参数效应。附录 E 进一步暗示:调度位置、潜维度与 VAE logSNR 都作用于同一核心对象,即语义变量沿扩散时间的有效互信息曲线。由此可解释为何不同潜维度、不同 VAE 平滑设置、乃至不同 DiT 块大小不必共享相同的最优调度。

4.4.2推理阶段

图 9 推理期超参数的影响。(a) 增加去噪步数在早期带来明显增益但很快饱和;(b) 适中的 CFG 取得最佳整体性能。

去噪步数。如图 9a,所有结果均在 Joint DiT 设置下取得(VAE 从预训练初始化,VAE 与 DiT 以相同学习率联合优化)。(❶)从 1–2 步增至 4–8 步时,所有任务显著改善,LAMBADA 增益尤大,说明极少步数不足以稳定恢复语义;(❷)约 16–32 步后任务平均趋于平坦,额外步数边际增益很小。

无分类器引导(CFG)。CFG 是重要的推理超参数。当 CFG 过大时性能开始下降,超过约 10 后尤其明显,在 20、60 等极大值处变得严重,说明过强引导会扭曲而非改善去噪轨迹。整体而言(图 9b),适中的 CFG 给出最佳折衷,弱引导与过强引导都导致更差结果。

4.5缩放性能比较(RQ4)

本节在前述调参实验所确定的最佳配置下,比较 Cola DLM 与严格对齐的 AR、LLaDA 基线的缩放行为。具体地,Cola DLM 使用潜维度 \(d=16\)、块大小 16、VAE/DiT 学习率比为 1 的联合训练、BERT 损失,以及 loc = 1 的 logit-normal 训练噪声调度;推理时使用 16 个去噪步与 CFG = 7。AR 与 LLaDA 基线在规模上对齐,非嵌入主干控制在 1.8B 参数,LLaDA 推理时去噪长度等于生成长度。

图 10 统一少样本生成评估协议下的整体缩放性能。在八个基准与任务平均上,Cola DLM 展现出强劲的缩放动力学,最终取得最佳平均性能。需要指出,某些多选任务上较低的绝对准确率是严格生成式评估范式的预期结果;但底层缩放趋势被稳健保留。这表明连续潜空间先验建模具有显著缩放潜力,使当前性能成为对其真实能力的保守度量。

值得注意,图 10 中绝对分数较低主要出现在多选基准上。这是因为为公平比较,所有模型都在统一的少样本生成式协议下评估,而非标准的基于似然的分类:LAMBADA 与 SQuAD 作为生成任务评估,其余基准虽为多选但也被纳入少样本生成。如第 5.1 节所述,似然估计可能与 Cola DLM 的实际生成质量显著失配。因此,尽管多选任务的绝对值低于常规判别式评估,相对缩放趋势在这一完全对齐的协议下仍然有信息量且公平。

Cola DLM 呈现出最强的整体缩放趋势之一。在任务平均上,Cola DLM 随计算预算稳定提升并取得最佳最终性能。AR 在较小预算下仍有竞争力,LLaDA 也有明显早期增益,但 Cola DLM 的曲线在高算力区持续上扬。

Cola DLM 的缩放优势在重推理、强全局语义任务上尤为明显。在 MMLU、RACE、Story Cloze、OBQA 上,Cola DLM 保持强劲上升趋势,并在宽广算力区取得最佳或接近最佳,说明连续潜空间先验建模非常适合依赖全局语义组织与整体答案形成的任务。

在生成任务上,Cola DLM 也展现出令人鼓舞的缩放行为。在 LAMBADA 与 SQuAD 上,缩放趋势在统一生成评估协议下保持清晰;SQuAD 随规模增益尤其明显,Cola DLM 最终超过 AR 并接近 LLaDA 的强性能区。

当前结果是对 Cola DLM 缩放潜力的保守估计。本次比较在相对保守的配置下进行;早期消融已表明把潜维度从 16 增至 128 可提升语义容量,logSNR 分析也表明当前设置仍有缩放空间。因此图 10 应被视为"Cola DLM 在受限设置下已能良好缩放"的证据,而非其能力上界。

总体而言,图 10 支持一致结论:在严格对齐的比较与统一生成评估协议下,Cola DLM 展现出与强 AR、扩散基线完全可比的缩放行为,并在若干任务上已显示出尤为令人鼓舞的后期增益。结合潜空间设计上仍存的优化空间,这些结果为"连续潜空间先验建模是语言建模一个有前景的缩放方向"提供了支持性证据。

5讨论

本节进一步考察 Cola DLM 的若干附加性质与扩展。我们聚焦于似然导向的估计与生成质量之间的结构性差距,分析首生成块中不同的条件化与填充(padding)策略对块因果 Cola DLM 的影响,并初步探索基于 VAE 的文本压缩以加速生成。最后,我们指出 Cola DLM 与其它连续模态结合的更广阔潜力。

5.1似然导向估计与生成质量之间的结构性差距

本节研究连续潜空间语言模型中的一个核心现象:当似然导向的 PPL 仍然很差时,生成质量却可能已相当不错。关键原因在于这两个指标针对不同的性质。生成只要求先验质量到达语义上"解码器有效"的区域;而似然导向的估计还额外要求在真值目标的后验邻域附近有精确的局部概率标定。

图 11 似然导向估计与生成质量失配的局部视图。上:代表性真值词元周围的局部潜几何;下:对应的先验密度景观。高解码器探针成功率与高后验命中率,与剧烈变化的先验命中率和密度对齐形成对比。因此,良好生成依赖于覆盖"解码器有效"区域,而似然估计还要求在真值后验附近有精确局部标定。

设 \(x=(x_{\mathrm{pre}},x_{\mathrm{res}})\),其中 \(x_{\mathrm{pre}}\) 为前缀、\(x_{\mathrm{res}}\) 为响应,\(c\) 表示前缀诱导的条件信息。精确条件边缘为

\[ p(x_{\mathrm{res}}\mid c)=\int p_\theta(x_{\mathrm{res}}\mid z,c)\,p_\psi(z\mid c)\,dz, \tag{5.1}\]

而实际可获取的量是局部得分

\[ S_{\mathrm{resp}}(x)=\mathbb{E}_{q_\phi(z\mid x,c)}\big[\log p_\theta(x_{\mathrm{res}}\mid z,c)+\log p_\psi(z\mid c)-\log q_\phi(z\mid x,c)\big]. \tag{5.2}\]

这两个量之间的失配是我们分析的起点。

表 4 直接训练与固定 VAE logSNR 设置下的词元级比较。对相同目标词元,更低的似然导出 PPL 未必带来更好的生成。该词元级证据进一步印证似然导向估计与生成质量之间的结构性差距。
推论 3

在连续潜空间语言模型中,良好的生成与良好的似然导向估计并不等价。生成取决于先验是否到达语义有效的潜区域,而似然导向估计还额外取决于真值后验邻域附近的局部密度标定。

图 11 与表 4 直接支持这一区分。在图 11 中,解码器探针成功率与后验命中率始终很高,说明解码器能在后验邻域内可靠恢复真值词元;然而先验命中率剧烈变化,表明主要问题不是解码器失败,而是真值潜区域附近的先验错位。表 4 在词元级呈现同样模式:对 at,似然导出 PPL 从 \(1.15\times10^6\) 显著改善到 641.57 再到 245.36,但生成词元却从 on 退化为 in 再到一个逗号。类似地,对 her,固定 VAE logSNR 下更小的似然导出 PPL 也未能恢复正确词元。因此,更低的似然导出 PPL 未必意味着更好的生成。

推论 4

在 Cola DLM 中,生成质量更多与潜空间的语义平滑性相关,而似然导向 PPL 更多对由 VAE logSNR 塑造的概率空间平滑性敏感。由于这两种平滑性不同,生成与 PPL 不必对齐。

因此,表 4 中固定 VAE logSNR 的设置应被理解为改变了潜概率空间的平滑性,而非仅仅调一个超参数。更低的 VAE logSNR 对应更平坦的局部密度景观,倾向于减少逐点密度失配、改善似然导出 PPL;但这种平滑也可能模糊局部语义结构,使模型偏向通用却语义次优的续写(如 inthewent)。相反,直接训练的似然导出 PPL 差得多,却有时能保留更恰当的语义行为,例如正确生成 her

小结

在 Cola DLM 中,生成质量主要反映潜空间的语义平滑性,而似然导向 PPL 更多对由 VAE logSNR 塑造的潜概率空间平滑性敏感。因此更好的生成未必意味着更好的 PPL,反之亦然。

5.2首生成块中的条件化与填充策略

在首生成块中,输入同时包含已知的提示潜变量与待生成的未知潜变量。图 12 给出处理这一混合区域的四种代表性策略。部分重绘(partial repaint)在已知区域注入与时间步匹配的带噪引导,其中 \(t\) 控制重绘重复次数、\(m\) 控制接受此类引导的去噪轨迹比例;干净条件重绘(clean condition repaint)则在整个去噪过程中把已知区域固定为干净引导;而左/右填充(left/right padding)不显式重绘已知区域,仅改变其相对于生成区域的位置布局。值得注意,在随机长度设置下,上述所有条件化模式都保持训练与推理的严格一致。

图 12 首生成块的不同条件化与填充策略。首生成块是同时包含已知提示潜变量与待生成未知潜变量的混合区域。干净条件重绘在整个去噪过程把已知区域固定为稳定条件;部分重绘只在部分轨迹注入时间步匹配的带噪引导;左/右填充则在不显式重绘修正的情况下改变已知区域的布局。
表 5 首块条件化策略的影响。干净条件重绘表现最佳,表明对首块的混合去噪而言,强而持久的条件化最优;部分重绘弱得多,减小 \(m\) 使性能退化,增大 \(t\) 无稳定增益;左右填充优于部分重绘但仍逊于干净条件化。

如表 5,干净条件重绘在所有任务上一致取得最佳。相比之下,部分重绘明显更弱,减小 \(m\) 通常进一步恶化性能,说明缩短被引导部分会使已知区域更难保持;把重绘重复次数从 \(t=1\) 增到 \(t=3\) 也不带来稳定增益,说明重复的早期修正无法弥补弱条件化。左右填充常强于多数部分重绘设置(因其避免显式重新加噪已知区域),但仍明显低于干净条件重绘,说明仅靠位置布局不足:填充未能在整个去噪过程提供稳定条件,且可能进一步使块因果注意力模式复杂化。总体而言,首生成块的关键挑战是在生成剩余未知部分的同时保持提示条件区域;对此混合去噪问题,强而持久的条件化比部分带噪修正或位置布局更有效。更多细节见附录 I.1。

5.3潜空间的压缩

本节讨论在 VAE 中压缩文本序列是否对 Cola DLM 有益。我们训练两个潜维度相同(\(d=128\))但 patch 大小不同的文本 VAE:\(p_1\) 把每个词元映射为一个潜变量,\(p_2\) 把每两个词元压缩为一个潜变量。其余设置同第 4.5 节。

表 6 不同样本标签与 VAE patch 大小下的性能。patch 大小为 2 整体偏弱,但该差距主要来自 Prompt Len Mod1(不可整除长度)情形;在 Prompt Len Mod0 上,patch 大小为 2 反而具有竞争力甚至超过大小为 1。这说明弱点源于边界错位,而非潜压缩本身。
推论 5

patch 大小为 2 的弱点主要不是压缩本身造成的,而是来自"提示长度不能被 patch 大小整除"这一边界情形。一旦潜分组与文本序列良好对齐,压缩反而可能变得有益。

整体上 \(p_2\) 远逊于 \(p_1\);但按奇偶切分可见,该差距几乎完全由 Prompt Len Mod1 造成。对奇数长度提示,\(p_2\) 在所有任务上几近崩溃;而在 Prompt Len Mod0(即 patch 规则所见的偶数长度情形)上,\(p_2\) 变得有竞争力,平均甚至略超 \(p_1\)。这说明当前失败不是对潜压缩本身的否定,而是对"不能稳健处理不可整除序列边界的压缩方案"的否定。原因很可能是:在 patch 大小为 2 时,奇数长度提示在压缩中必然涉及填充或不完整词元组;若该边界模式未被恰当学习,压缩后的提示潜变量会发生语义偏移。在 Cola DLM 中此问题尤为严重,因为提示潜变量是后续逐块先验生成的干净条件,而非弱辅助表示;一旦提示侧潜变量偏置,误差会经去噪传播并最终损害条件解码,这自然解释了 Mod1 上近乎为零的性能。

相比之下,Mod0 的结果令人鼓舞:当潜分组语义有效时,把两个词元压缩为一个潜变量未必损害生成,甚至可能有所帮助。这与 Cola DLM 的核心思想一致——潜空间并非用于保留词元对齐的恢复路径,而是为全局语义组织提供更低速率的表示,由解码器处理局部实现。从效率角度看,潜压缩也具吸引力:在相同 DiT 块大小下,一个去噪块解码后对应 patch 大小 × 块大小个文本词元;块大小为 16 时,patch 大小 1 每块覆盖 16 个词元,而 patch 大小 2 覆盖 32 个。若能解决边界问题,更大的 patch 大小可能同时改善语义抽象与生成效率。

小结

表 6 表明潜压缩是 Cola DLM 一个有前景的方向;其当前局限主要来自对不可整除序列边界的不稳定处理,而对齐的偶数长度情形已表明压缩潜变量能同时支持更强的语义抽象与更快的生成。

5.4VAE 潜空间重建的鲁棒性

我们进一步从重建角度分析 VAE 潜空间的鲁棒性。如图 13 所示,VAE 在 \(t=0\) 取得近乎完美的重建,说明所学的"潜变量—文本"映射保持高度忠实、不坍缩。此外,重建准确率在整个低噪区都很高,在 \(t=250\) 仍约为 0.92,之后在更重噪声下才更明显地退化。这些结果表明,VAE 学到的潜空间不只是脆弱的压缩码,而是一种稳定、可广泛使用的文本中间表示。特别地,这种优雅退化(graceful degradation)模式表明语义信息不会被小幅或中等扰动骤然破坏,进一步支持"Cola DLM 中 VAE 潜空间足够鲁棒,可作为后续先验建模的语义接口"这一观点。

图 13 VAE 潜空间重建的鲁棒性。VAE 在低噪声下保持近乎完美重建,在更强扰动下优雅退化,表明"潜变量—文本"映射稳定。\(t=0\) 时 acc = 0.9998;\(t=250\)(25% 噪声)为甜点区,acc ≈ 0.92;约 \(t=385\) 仍保留约 50% 准确率。

5.5迈向与图像模态的统一

Cola DLM 一个更广泛的含义是:它在离散文本与连续多模态建模之间提供了一座自然的桥梁。统一建模的关键并不仅仅是把文本与图像放入一个主干,而是把异构观测映射到一个共享的连续潜交互空间,使高层语义可以在共同的动力学下组织。Cola DLM 的自然扩展沿用与纯文本设置相同的概率分解。设 \(x_{\mathrm{text}}\) 与 \(x_{\mathrm{img}}\) 分别表示文本与图像观测,其模态专属潜变量在共享的块因果 MMDiT 先验下联合建模。该图像分支采用下采样因子 16、64 个潜通道,为视觉内容提供紧凑而富表达力的潜空间。共享的块因果 MMDiT 先验同时作用于文本块与图像潜变量,支持模态内处理与跨模态交互,从而在统一框架内实现文本续写、图像条件文本生成与文本生成图像。训练时我们在内部图文对上联合优化这些任务(文本生成图像任务先在 256 分辨率上训练 80k 步、全局批量约 3k,再在 640 分辨率上续训 10k 步、全局批量约 1k;图像条件文本生成采用相同批量配置、训练约 50k 步)。更多结果见附录 I.2。

图 14 统一文本—图像建模的初步定性示例。左:纯文本续写;以及在统一原型下由描述性提示生成的图像等示例。

这些结果应主要被理解为可行性的定性证据。由于当前原型仍处于训练早期,且实验仅限于在内部 256 与 640 分辨率数据上进行适度预训练,未经大量高质量数据清洗或监督微调,本节目标不是给出成熟的多模态系统,而是表明 Cola DLM 的分层潜先验表述能自然超越纯文本生成。更广泛地,这些发现表明:把全局潜空间组织与模态专属实现解耦,可能提供一条结构清晰、可扩展的、通往更原生统一生成模型的路径。

小结

这些初步结果表明 Cola DLM 能自然扩展到统一的文本—图像建模:一个共享的块因果先验组织全局与跨模态语义,模态专属解码器处理最终实现。尽管仍处早期且为定性,该原型已显示出从语言生成通往原生多模态生成建模的可期桥梁。

6局限与未来展望

尽管本文已为 Cola DLM 在连续潜空间中进行文本生成的可行性、竞争力与可期缩放潜力提供了初步证据,我们仍把它视为进一步探索的起点而非终点。其一,在规模与评估层面:当前结果揭示了令人鼓舞的趋势,但实验仍在相对受控的规模下进行,主要用于厘清框架的关键性质;因此,在更大模型、更长训练与更充足算力下进一步考察其上界是自然且重要的。其二,在模型设计层面:我们的分析表明,文本 VAE 的训练策略、文本压缩方案、潜维度选择、潜空间语义平滑性,以及 VAE logSNR、DiT 块大小与噪声调度的联合标定,都会影响潜空间的语义组织与最终生成质量——特别是,实验表明更强的潜表示通常需要更对齐的噪声标定,说明仍有大量优化空间。其三,在框架层面:Cola DLM 的主要价值不仅在于去噪过程本身,而在于把文本生成分解为全局语义先验建模与局部文本实现。这为探索更强的潜模块(如 AE [5] 与 RAE [112])以及更灵活的先验学习方法(如基于漂移模型 [19] 的连续先验分布匹配)打开了大门。更广泛地,沿着统一连续潜空间建模的思路,该框架还可扩展到图像等连续模态,进一步推进统一生成。

7结论

总之,本文提出 Cola DLM,一种分层连续潜空间扩散语言模型,它把文本生成分解为潜空间中的全局语义先验建模与通过条件解码实现的局部文本实现,从而为严格词元级语言建模提供了一种有原则的替代方案。在整个研究中,理论分析与实验一致表明文本生成可受益于分层信息分解:我们发现潜空间中存在共享全局语义结构的证据,确定了潜空间形成与扩散建模的有效设计选择,并表明在严格对齐的比较下 Cola DLM 展现出强生成质量与令人鼓舞的缩放行为。更广泛地,我们的结果表明:对这一类模型而言,面向生成的评估与缩放趋势可能比单独的似然更有信息量;同时,连续潜空间表述也为在离散文本与连续模态之间走向更原生的统一建模提供了一条具体路径。

8后记:研究目标与意义

从更宽广的视角看,本研究不仅关心为文本生成提出一种替代性架构,更试图厘清一幅关于学习的更一般图景——在这幅图景中,表示(representation)、目标(objective)与环境(environment)必须被联合理解。由此,本工作的三个主题彼此紧密相连而非各自独立:第一个主题关心文本应如何被表示与生成;第二个主题关心何种目标与评估标准才真正与这样的表示相一致;第三个主题关心——若目标是更一般的多模态智能——模型最终应在何种环境中学习。

一个有用的出发点,是把学习本身形式化为一个模型—环境交互系统。设环境为

\[\mathcal{E} = (\Omega, \mathcal{O}, \mathcal{A}, \mathcal{T}, \mathcal{F}, \mathcal{G}),\tag{8.1}\]

其中 \(\Omega\) 为环境状态空间,\(\mathcal{O}\) 为观测空间,\(\mathcal{A}\) 为动作或输出空间,\(\mathcal{T}\) 为状态转移机制,\(\mathcal{F}\) 为反馈生成机制,\(\mathcal{G}\) 为将反馈转化为优化信号的规则。值得强调的是,这里的"环境"取广义之意:它不仅包含外部世界,也包含呈现给模型的数据分布、任务格式、监督协议,乃至把反馈转化为梯度的损失规则。

记模型为 \(\mathcal{M}_\theta\),其内部状态空间为 \(\mathcal{H}\),状态更新映射为 \(\mathcal{U}_\theta\),策略或生成映射为 \(\Pi_\theta\)。在交互步 \(t\),闭环系统可写为

\begin{align} o_t &\sim P_{\mathcal{E}}(\cdot \mid \omega_t), \tag{8.2}\\ h_t &= \mathcal{U}_\theta(h_{t-1}, o_t), \tag{8.3}\\ a_t &\sim \Pi_\theta(\cdot \mid h_t), \tag{8.4}\\ \xi_t &\sim \mathcal{F}(\cdot \mid \omega_t, o_t, a_t), \tag{8.5}\\ \omega_{t+1} &\sim \mathcal{T}(\cdot \mid \omega_t, o_t, a_t, \xi_t), \tag{8.6}\\ \ell_t &= \mathcal{G}(\omega_t, o_t, a_t, \xi_t). \tag{8.7} \end{align}

于是整体学习目标为

\[J(\theta; \mathcal{E}) = \mathbb{E}_{\tau \sim P(\tau \mid \theta, \mathcal{E})}\!\left[\sum_{t=1}^{T} \gamma^{t-1} \ell_t\right],\tag{8.8}\]

其中 \(\tau\) 表示一条完整的交互轨迹,\(\gamma\) 为折扣因子。

这一形式化直接表明:学习从来不是单纯关于模型结构的孤立问题,而是由三个因素共同决定的——其一,模型在其中吸收并组织信息的状态空间;其二,环境据以定义"改进"的反馈类型;其三,生成观测、转移与反馈的真实结构。在本文中,这三个方面恰好对应贯穿全文的三个主题:文本应如何被表示、哪些指标与真实学习目标相一致,以及统一模型最终意在进入何种环境。

8.1重新思考文本建模范式:从系统中的状态空间到分层文本生成

从系统层面看,文本建模的核心问题不仅在于采用何种生成顺序,更在于文本应以何种状态在学习系统中被表示。主流自回归语言模型把状态紧密绑定到表层词元前缀,因此其生成写作

\[p_{\mathrm{AR}}(x) = \prod_{t=1}^{n} p_\theta(x_t \mid x_{\lt t}).\tag{8.9}\]

这一分解极为有效,但它本质上对应一个很强的建模假设:全局语义与局部实现都通过同一条词元级条件链传播。换言之,它假定表层字符串本身即是最自然、最首要的状态空间。

本文所探索的路线,则从状态空间这一层面重新审视文本生成。如果文本确实蕴含一个低维却足够有用的全局语义结构,那么更自然的做法并非把整个生成负担都压在词元级链式分解上,而是显式引入潜变量,将高层语义组织与局部文本实现分开建模。相应地,Cola DLM 的核心分解为

\[p(x, z_0) = p_\theta(x \mid z_0)\, p_\psi(z_0), \qquad p(x) = \int p_\theta(x \mid z_0)\, p_\psi(z_0)\, dz_0,\tag{8.10}\]

其中 \(z_0\) 为连续潜变量,\(p_\psi(z_0)\) 为潜先验,\(p_\theta(x \mid z_0)\) 为条件解码器。这里关键的改变不仅是引入潜变量,更是重新定义了系统中"状态"的角色:路径不再直接作用于观测恢复,而是先在潜空间中组织全局语义,再由解码器执行局部文本实现。

这一点可通过平均 ELBO 的信息分解被紧凑地陈述。令

\[q(x, z_0) := p_{\mathrm{data}}(x)\, q_\phi(z_0 \mid x),\tag{8.11}\]

\[\mathbb{E}_{p_{\mathrm{data}}(x)}[\mathcal{L}_{\mathrm{ELBO}}(x)] = \mathbb{E}_{q(x, z_0)}[\log p_\theta(x \mid z_0)] - I_q(X; Z_0) - \mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_\psi(z_0)\right),\tag{8.12}\]

其中 \(\bar{q}_\phi(z_0)\) 为聚合后验(aggregated posterior)。该分解表明,分层潜空间建模把文本问题拆解为三个相互耦合却在分析上可区分的成分:条件实现、信息压缩、先验匹配。因此潜变量并非仅是离散词元的连续替身,而是一个显式的中间状态,借由它可将全局语义组织与局部文本实现分离开来、各自单独建模。

由此视角看,压缩也须被重新审视。已有工作强调压缩与智能之间的联系 [37],而近期在图像与视频上更贴近原始数据形态的生成探索(如像素空间建模 [19])进一步表明:压缩不应等同于有害的信息删除。关键问题不在于是否保留了每一处局部细节,而在于模型能否抽取并组织出真正有效且可泛化的结构性信息。如果文本确实容许一种高层语义与低层实现相对可分的分层结构,那么以信息层级重新诠释文本生成,便不只是方法的改变,而是对文本建模本身的一次理论重估。

因此,本文的第一个主题并非否定自回归,而是指出:自回归只占据了设计空间中一个自洽的、而非唯一的角落。如果数据中确实存在低维全局语义与高维局部实现之间的层级关系,那么先在潜状态中组织语义、再经条件解码实现文本,可能更接近真实的生成机制。文本生成因此不应仅被理解为离散字符串上的下一词元拟合,而应更一般地被视为"信息如何被分层地表示、压缩与组织"这一系统性问题。

8.2理解离散文本的连续延拓:从目标失配到评估侧重的转移

一旦系统的状态空间改变,目标层面的问题也随之改变。对传统自回归语言模型而言,训练目标与评估量天然高度一致:极大似然训练直接对应于在文本上的概率拟合,故似然与困惑度具有清晰而稳定的解释。然而在分层连续潜空间模型中,实际的训练路径已不再是直接的词元级极大似然,而是由重建、潜先验学习与表示正则共同构成的分层目标。

这可由 ELBO 与真实边际似然之间的关系看出:

\[-\mathcal{L}_{\mathrm{ELBO}}(x) = -\log p_{\theta,\psi}(x) + \mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, p_{\theta,\psi}(z_0 \mid x)\right).\tag{8.13}\]

这表明:即便在 ELBO 层面,训练目标也已被一个变分推断间隙(inference gap)与真实对数似然分隔开来。此外,在 Cola DLM 的实际训练中,模型须联合学习潜重建、连续先验拟合与表示稳定化;被优化的量因此不是经典意义上单一的词元级似然。

正因如此,这种失配不应被解读为"学习失败",而应被视为"模型在学习不同东西"的证据。对于直接拟合离散分布的自回归模型及其他范式,似然与困惑度仍极具信息量,因为它们与训练目标天然对齐;而对分层连续潜空间模型,核心问题已不再是局部离散分布是否被尽可能锐利地拟合,而是高层语义结构是否被有效组织、潜先验是否被良好学习,以及最终生成是否满足真实任务要求。

从系统性建模的角度看,这一现象其实在预期之中:当状态空间从表层词元扩展到分层潜变量时,优化目标相应地从"对局部离散分布的精确拟合"转向"高层语义结构的组织、稳定的潜先验学习与真实生成目标的满足"。对这条路线而言,面向生成的指标往往比困惑度更贴合模型实际被训练去做的事。更重要的是,模型潜力常常在缩放行为中比在任何单一静态似然值中体现得更清晰:真正要紧的是,随着模型规模、数据与算力的增加,能力是否持续稳定地提升,而非在某个逐点指标下的局部拟合是否更优。

这也可与本文理论分析中所发展的三条主导曲线视角相联系。对 Cola DLM 而言,这条路线的适用性并非由单一似然值决定,而取决于三个条件是否同时成立:表示的率失真曲线在相对较低的码率下已然有利、潜先验的逼近误差持续下降、推断间隙保持可控。换言之,这条路线的优势并非由潜变量或基于流的建模本身自动保证;它取决于数据是否真正蕴含可压缩的全局语义结构,以及模型能否稳定地学习、拟合并实现该结构。

因此,本文的第二个主题不仅是"困惑度不足",而是:一旦表示与目标已经改变,评估语言本身也必须改变。对这一类模型而言,生成质量与缩放行为往往比传统困惑度更贴近模型的真实能力与长期潜力。

8.3探索统一模型:模型—环境交互与多模态统一的价值

若再次回到式 (8.1) 与式 (8.8) 的模型—环境形式化,第三个主题便更显自然。统一模型的重要性,并不仅在于把多种模态放入单一参数化网络,而在于改变模型在其中学习的环境结构。在真实世界中,观测、转移与反馈通常并非跨模态独立生成,而往往由一个共享的潜状态联合决定。一个更一般的学习系统因此需要的,不是一组并列摆放的孤立模态接口,而是能够进入同一交互状态、共享同一动力学约束的统一表示。

这与两种更宽广的智能观密切相关。一种有影响力的观点把智能理解为跨任务技能的集合 [16]:在此观点下,系统之所以更有能力,是因为它能在更多领域、更多样的监督与交互形式下解决问题。近期大语言模型的发展部分体现了这一倾向,一个代表性例子是能在命令行环境中运作的代码智能体——在这类环境里,观测空间、动作空间与反馈机制与离散符号表示异常契合,交互轨迹易于记录、正确性常可直接验证,故能提供稠密而精确的学习信号。另一种更接近世界模型视角的观点则认为,智能在于获得关于世界结构与动力学的内部模型;近期关于世界模型的工作 [93] 朝此方向努力,试图学习更丰富的环境动力学,从而支持更强的泛化与更真实的交互。从这一视角看,问题不仅是模型能解决多少任务,而是它是否在一个结构足够丰富、能诱导出正确抽象的环境中学习。环境因此成为核心:模型只能内化它在所遇观测、转移与反馈中真实存在的规律。

这也可被更形式地写出。设第 \(t\) 步的观测为多模态的,

\[o_t = \left(o_t^{(1)}, o_t^{(2)}, \ldots, o_t^{(M)}\right), \qquad o_t^{(m)} \in \mathcal{O}^{(m)},\tag{8.14}\]

并设存在一个联合潜状态

\[z_t = \Phi\!\left(o_t^{(1)}, \ldots, o_t^{(M)}\right),\tag{8.15}\]

使得反馈与转移主要依赖于该联合状态,而非各模态的边际分解:

\[\xi_t, \omega_{t+1} \sim p\!\left(\xi_t, \omega_{t+1} \mid z_t, a_t\right).\tag{8.16}\]

若真实环境动力学满足

\[p(\xi_t, \omega_{t+1} \mid o_t, a_t) \neq \prod_{m=1}^{M} p_m\!\left(\xi_t^{(m)}, \omega_{t+1}^{(m)} \mid o_t^{(m)}, a_t^{(m)}\right),\tag{8.17}\]

则学习问题在跨模态上是结构不可分的。此时,把每个模态当作独立通道、仅在表层加以组合,通常是不充分的。统一模型的理论意义正在于此:环境本身在式 (8.17) 的意义下不可分——决定有用反馈的规律是联合规律,而非定义在各模态边际分布上的规律。

这阐明了为何多模态统一不只是工程上的便利。其目的并非单纯用一个主干处理多种数据类型,而是让模型在一个观测、转移与监督结构更忠实反映真实世界耦合规律的环境中学习。在这样的环境里,输入与输出都可能是多模态的;有用的反馈可能依赖于不同模态如何联合地相互约束;而所学的内部状态理应反映这些联合约束。

这也解释了为何文本长期以来是统一模型中最困难的一环。图像与视频天然运作于连续空间,而文本则是典型的离散模态。若要让它们进入共同的交互状态、共享潜动力学,便立刻产生严重的表示失配——这正是近期统一模型研究反复指出的核心障碍之一 [18]。在此意义上,Cola DLM 的意义不仅在于又提出一个文本生成器,更在于提供了一个让离散文本能进入连续潜空间的自然接口。

若离散文本通过

\[z^{\mathrm{text}} \sim q_\phi(z \mid x^{\mathrm{text}}), \qquad x^{\mathrm{text}} \sim p_\eta(x \mid z^{\mathrm{text}})\tag{8.18}\]

被映射为连续潜变量,则文本便获得了一个与其他连续模态兼容的接口。于是可定义一个统一交互状态

\[\tilde{z}_t = \Psi\!\left(z_t^{\mathrm{text}}, z_t^{\mathrm{img}}, z_t^{\mathrm{vid}}, \ldots\right),\tag{8.19}\]

并在这一层面进行状态演化、决策与反馈建模。式 (8.18)–(8.19) 形式化地说明了为何 Cola DLM 的意义可能超越文本生成本身:它的作用不仅是经由一条不同路径生成文本,更是提供一座桥梁,让一个本质上离散的模态得以参与连续多模态交互状态——换言之,它降低了那种否则会阻碍文本自然进入共享连续环境的结构失配。

这正是为何 Cola DLM 更广泛的意义,通过模型—环境交互来理解要优于仅凭单模态基准。若把学习视为在更丰富、更真实环境中对式 (8.8) 的优化,则统一模型之所以重要,是因为它们扩展了模型可在其中学习的环境;而若文本要充分参与这样的环境,那么式 (8.18) 那样的桥梁便尤为可贵。在此意义上,Cola DLM 不仅是一种替代性的文本生成器,更可被理解为一种使离散文本与连续多模态学习系统相对齐的候选机制。

8.4统一视角下的三个主题

综上,本文的三个主题并非彼此分离的补充性讨论,而是同一系统性问题的三种体现。第一个关乎表示层面:文本应完全在词元表层建模,还是可以在一个独立的潜状态中组织更高层的语义。第二个关乎目标层面:一旦模型经由潜输运、重建与正则而非直接的词元级极大似然来训练,哪些指标仍真正与学习问题相一致。第三个关乎环境层面:若学习终究是模型—环境交互,那么未来模型应栖身于何种环境,又需要何种表示接口才能让不同模态在其中相互兼容。

从这一视角看,自回归语言建模占据了设计空间中一个自洽的角落:表示与表层词元紧密绑定,训练目标是直接的似然最大化,环境则在很大程度上是符号化、以文本为中心的。本工作所探索的路线同时改变了这三项假设:它为文本引入分层潜变量表示,从而改变了表示假设;它使优化偏离直接的词元级似然,从而削弱了困惑度的核心解释角色;它为离散文本提供了连续接口,从而使文本可能更兼容于那些更自然地以连续潜空间表达的多模态环境。

因此,我们希望本工作的贡献不仅是一条可行的文本生成替代路径,更是一种更系统的思考方式——它把表示、目标对齐与环境设计联合纳入考量。更广泛地,我们希望它能鼓励未来研究不再把文本、图像、视频等模态视为必须各自解决的孤立领域,而视之为一个更大学习系统的组成部分;在这个系统中,统一表示、统一目标与统一环境,可能会日益成为通往更一般多模态智能的核心。

参考文献

按学术惯例,参考文献条目保留英文原貌,未作翻译。

[1] PS Aishwarya, Pranav Ajit Nair, Yashas Samaga BL, Toby James Boyd, Sanjiv Kumar, Prateek Jain, and Praneeth Netrapalli. Tandem transformers for inference efficient llms. In Forty-first International Conference on Machine Learning, 2024.

[2] Jacob Austin, Daniel D Johnson, Jonathan Ho, Daniel Tarlow, and Rianne Van Den Berg. Structured denoising diffusion models in discrete state-spaces. Advances in neural information processing systems, 34:17981–17993, 2021.

[3] Gregor Bachmann and Vaishnavh Nagarajan. The pitfalls of next-token prediction. arXiv preprint arXiv:2403.06963, 2024.

[4] Hmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, and Varun Jampani. Block cascading: Training free acceleration of block-causal video models. arXiv preprint arXiv:2511.20426, 2025.

[5] Dor Bank, Noam Koenigstein, and Raja Giryes. Autoencoders. Machine learning for data science handbook: data mining and knowledge discovery handbook, pages 353–374, 2023.

[6] Loïc Barrault, Paul-Ambroise Duquenne, Maha Elbayad, Artyom Kozhevnikov, Belen Alastruey, Pierre Andrews, Mariano Coria, Guillaume Couairon, Marta R Costa-jussà, David Dale, et al. Large concept models: Language modeling in a sentence representation space. arXiv preprint arXiv:2412.08821, 2024.

[7] Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, and Owain Evans. The reversal curse: Llms trained on" a is b" fail to learn" b is a". arXiv preprint arXiv:2309.12288, 2023.

[8] Samuel Bowman, Luke Vilnis, Oriol Vinyals, Andrew Dai, Rafal Jozefowicz, and Samy Bengio. Generating sentences from a continuous space. In Proceedings of the 20th SIGNLL conference on computational natural language learning, pages 10–21, 2016.

[9] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems, 33:1877–1901, 2020.

[10] Andrew Campbell, Joe Benton, Valentin De Bortoli, Thomas Rainforth, George Deligiannidis, and Arnaud Doucet. A continuous time framework for discrete denoising models. Advances in Neural Information Processing Systems, 35:28266–28279, 2022.

[11] Ricardo Cannizzaro, Jonathan Routley, and Lars Kunze. Towards a causal probabilistic framework for prediction, action-selection & explanations for robot block-stacking tasks. arXiv preprint arXiv:2308.06203, 2023.

[12] Keshigeyan Chandrasegaran, Michael Poli, Daniel Y Fu, Dongjun Kim, Lea M Hadzic, Manling Li, Agrim Gupta, Stefano Massaroli, Azalia Mirhoseini, Juan Carlos Niebles, et al. Exploring diffusion transformer designs via grafting. arXiv preprint arXiv:2506.05340, 2025.

[13] Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, et al. A survey on evaluation of large language models. ACM transactions on intelligent systems and technology, 15(3):1–45, 2024.

[14] Jiaao Chen, Aston Zhang, Mu Li, Alex Smola, and Diyi Yang. A cheaper and better diffusion language model with soft-masked noise. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 4765–4775, 2023.

[15] Tianqi Chen, Shujian Zhang, and Mingyuan Zhou. Dlm-one: Diffusion language models for one-step sequence generation. arXiv preprint arXiv:2506.00290, 2025.

[16] François Chollet. On the measure of intelligence. arXiv preprint arXiv:1911.01547, 2019.

[17] Murtaza Dalal, Alexander C Li, and Rohan Taori. Autoregressive models: What are they good for? arXiv preprint arXiv:1910.07737, 2019.

[18] Chaorui Deng, Deyao Zhu, Kunchang Li, Chenhui Gou, Feng Li, Zeyu Wang, Shu Zhong, Weihao Yu, Xiaonan Nie, Ziang Song, et al. Emerging properties in unified multimodal pretraining. arXiv preprint arXiv:2505.14683, 2025.

[19] Mingyang Deng, He Li, Tianhong Li, Yilun Du, and Kaiming He. Generative modeling via drifting. arXiv preprint arXiv:2602.04770, 2026.

[20] Justin Deschenaux and Caglar Gulcehre. Promises, outlooks and challenges of diffusion language modeling. arXiv preprint arXiv:2406.11473, 2024.

[21] Sander Dieleman, Laurent Sartran, Arman Roshannai, Nikolay Savinov, Yaroslav Ganin, Pierre H Richemond, Arnaud Doucet, Robin Strudel, Chris Dyer, Conor Durkan, et al. Continuous diffusion for categorical data. arXiv preprint arXiv:2211.15089, 2022.

[22] Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang, and Jie Tang. Glm: General language model pretraining with autoregressive blank infilling. In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 320–335, 2022.

[23] Yichao Fu, Peter Bailis, Ion Stoica, and Hao Zhang. Break the sequential dependency of llm inference using lookahead decoding. arXiv preprint arXiv:2402.02057, 2024.

[24] Zhujin Gao, Junliang Guo, Xu Tan, Yongxin Zhu, Fang Zhang, Jiang Bian, and Linli Xu. Empowering diffusion models on the embedding space for text generation. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), pages 4664–4683, 2024.

[25] Itai Gat, Tal Remez, Neta Shaul, Felix Kreuk, Ricky TQ Chen, Gabriel Synnaeve, Yossi Adi, and Yaron Lipman. Discrete flow matching. Advances in Neural Information Processing Systems, 37:133345–133385, 2024.

[26] Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, and Fatih Porikli. Skip to the good part: Representation structure & inference-time layer skipping in diffusion vs. autoregressive llms. arXiv preprint arXiv:2603.07475, 2026.

[27] Shansan Gong, Mukai Li, Jiangtao Feng, Zhiyong Wu, and LingPeng Kong. Diffuseq: Sequence to sequence text generation with diffusion models. arXiv preprint arXiv:2210.08933, 2022.

[28] Shansan Gong, Shivam Agarwal, Yizhe Zhang, Jiacheng Ye, Lin Zheng, Mukai Li, Chenxin An, Peilin Zhao, Wei Bi, Jiawei Han, et al. Scaling diffusion language models via adaptation from autoregressive models. arXiv preprint arXiv:2410.17891, 2024.

[29] Ishaan Gulrajani and Tatsunori B Hashimoto. Likelihood-based diffusion language models. Advances in Neural Information Processing Systems, 36:16693–16715, 2023.

[30] Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Peiyi Wang, Qihao Zhu, Runxin Xu, Ruoyu Zhang, Shirong Ma, Xiao Bi, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948, 2025.

[31] Xiaochuang Han, Sachin Kumar, and Yulia Tsvetkov. Ssd-lm: Semi-autoregressive simplex-based diffusion language model for text generation and modular control. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11575–11596, 2023.

[32] Tatsunori B Hashimoto, Hugh Zhang, and Percy Liang. Unifying human and statistical evaluation for natural language generation. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1689–1701, 2019.

[33] Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, and Jacob Steinhardt. Measuring massive multitask language understanding. arXiv preprint arXiv:2009.03300, 2020.

[34] Ari Holtzman, Jan Buys, Li Du, Maxwell Forbes, and Yejin Choi. The curious case of neural text degeneration. arXiv preprint arXiv:1904.09751, 2019.

[35] Emiel Hoogeboom, Alexey A Gritsenko, Jasmijn Bastings, Ben Poole, Rianne van den Berg, and Tim Salimans. Autoregressive diffusion models. arXiv preprint arXiv:2110.02037, 2021.

[36] Emiel Hoogeboom, Didrik Nielsen, Priyank Jaini, Patrick Forré, and Max Welling. Argmax flows and multinomial diffusion: Learning categorical distributions. Advances in neural information processing systems, 34:12454–12465, 2021.

[37] Yuzhen Huang, Jinghan Zhang, Zifei Shan, and Junxian He. Compression represents intelligence linearly. arXiv preprint arXiv:2404.09937, 2024.

[38] Aaron Hurst, Adam Lerer, Adam P Goucher, Adam Perelman, Aditya Ramesh, Aidan Clark, AJ Ostrow, Akila Welihinda, Alan Hayes, Alec Radford, et al. Gpt-4o system card. arXiv preprint arXiv:2410.21276, 2024.

[39] DeLesley Hutchins, Imanol Schlag, Yuhuai Wu, Ethan Dyer, and Behnam Neyshabur. Block-recurrent trans- formers. Advances in neural information processing systems, 35:33248–33261, 2022.

[40] Eric Jang, Shixiang Gu, and Ben Poole. Categorical reparameterization with gumbel-softmax. arXiv preprint arXiv:1611.01144, 2016.

[41] Daniel Jarrett, Miruna Pislar, Michiel A Bakker, Michael Henry Tessler, Raphael Köster, Jan Balaguer, Romuald Elie, Christopher Summerfield, and Andrea Tacchetti. Language agents as digital representatives in collective decision-making. arXiv preprint arXiv:2502.09369, 2025.

[42] Sullam Jeoung, Yubin Ge, Haohan Wang, and Jana Diesner. Examining alignment of large language models through representative heuristics: the case of political stereotypes. arXiv preprint arXiv:2501.14294, 2025.

[43] Jaehyeong Jo and Sung Ju Hwang. Continuous diffusion model for language modeling. arXiv preprint arXiv:2502.11564, 2025.

[44] Haoqiang Kang, Yizhe Zhang, Nikki Lijing Kuang, Nicklas Majamaki, Navdeep Jaitly, Yi-An Ma, and Lianhui Qin. Ladir: Latent diffusion enhances llms for text reasoning. arXiv preprint arXiv:2510.04573, 2025.

[45] Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and François Fleuret. Transformers are rnns: Fast autoregressive transformers with linear attention. In International conference on machine learning, pages 5156–5165. PMLR, 2020.

[46] Diederik P Kingma and Max Welling. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114, 2013.

[47] Preethi Lahoti, Nicholas Blumm, Xiao Ma, Raghavendra Kotikalapudi, Sahitya Potluri, Qijun Tan, Hansa Srinivasan, Ben Packer, Ahmad Beirami, Alex Beutel, et al. Improving diversity of demographic representation in large language models via collective-critiques and self-voting. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 10383–10405, 2023.

[48] Guokun Lai, Qizhe Xie, Hanxiao Liu, Yiming Yang, and Eduard Hovy. Race: Large-scale reading comprehension dataset from examinations. In Proceedings of the 2017 conference on empirical methods in natural language processing, pages 785–794, 2017.

[49] Bocheng Li, Zhujin Gao, and Linli Xu. Unifying continuous and discrete text diffusion with non-simultaneous diffusion processes. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 11530–11551, 2025.

[50] Chengze Li, Yitong Zhang, Jia Li, Liyi Cai, and Ge Li. Beyond autoregression: An empirical study of diffusion large language models for code generation. arXiv preprint arXiv:2509.11252, 2025.

[51] Chunyuan Li, Xiang Gao, Yuan Li, Baolin Peng, Xiujun Li, Yizhe Zhang, and Jianfeng Gao. Optimus: Organizing sentences via pre-trained modeling of a latent space. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 4678–4699, 2020.

[52] Xiang Li, John Thickstun, Ishaan Gulrajani, Percy S Liang, and Tatsunori B Hashimoto. Diffusion-lm improves controllable text generation. Advances in neural information processing systems, 35:4328–4343, 2022.

[53] Chu-Cheng Lin, Aaron Jaech, Xin Li, Matthew R Gormley, and Jason Eisner. Limitations of autoregressive models and their alternatives. In Proceedings of the 2021 conference of the North American chapter of the association for computational linguistics: Human language technologies, pages 5147–5173, 2021.

[54] Zhenghao Lin, Yeyun Gong, Yelong Shen, Tong Wu, Zhihao Fan, Chen Lin, Nan Duan, and Weizhu Chen. Text generation with diffusion language models: A pre-training approach with continuous paragraph denoise. In International Conference on Machine Learning, pages 21051–21064. PMLR, 2023.

[55] Aixin Liu, Bei Feng, Bin Wang, Bingxuan Wang, Bo Liu, Chenggang Zhao, Chengqi Dengr, Chong Ruan, Damai Dai, Daya Guo, et al. Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model. arXiv preprint arXiv:2405.04434, 2024.

[56] Aixin Liu, Bei Feng, Bing Xue, Bingxuan Wang, Bochao Wu, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, et al. Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437, 2024.

[57] Yuxuan Liu, Jingmin Sun, and Hayden Schaeffer. Bcat: A block causal transformer for pde foundation models for fluid dynamics. arXiv preprint arXiv:2501.18972, 2025.

[58] Justin Lovelace, Varsha Kishore, Chao Wan, Eliot Shekhtman, and Kilian Q Weinberger. Latent diffusion for language generation. Advances in Neural Information Processing Systems, 36:56998–57025, 2023.

[59] Rabeeh Karimi Mahabadi, Hamish Ivison, Jaesung Tae, James Henderson, Iz Beltagy, Matthew E Peters, and Arman Cohan. Tess: Text-to-text self-conditioned simplex diffusion. In Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2347–2361, 2024.

[60] Eran Malach. Auto-regressive next-token predictors are universal learners. arXiv preprint arXiv:2309.06979, 2023.

[61] Clara Meister and Ryan Cotterell. Language model evaluation beyond perplexity. In Proceedings of the 59th annual meeting of the association for computational linguistics and the 11th international joint conference on natural language processing (volume 1: long papers), pages 5328–5339, 2021.

[62] Chenlin Meng, Kristy Choi, Jiaming Song, and Stefano Ermon. Concrete score matching: Generalized score matching for discrete data. Advances in Neural Information Processing Systems, 35:34532–34545, 2022.

[63] Viacheslav Meshchaninov, Egor Chimbulatov, Alexander Shabalin, Aleksandr Abramov, and Dmitry Vetrov. Cosmos: Compressed and smooth latent space for text diffusion modeling. arXiv preprint arXiv:2506.21170, 2025.

[64] Todor Mihaylov, Peter Clark, Tushar Khot, and Ashish Sabharwal. Can a suit of armor conduct electricity? a new dataset for open book question answering. In Proceedings of the 2018 conference on empirical methods in natural language processing, pages 2381–2391, 2018.

[65] Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, and Jianfeng Gao. Large language models: A survey. arXiv preprint arXiv:2402.06196, 2024.

[66] Shentong Mo, Enze Xie, Ruihang Chu, Lanqing Hong, Matthias Niessner, and Zhenguo Li. Dit-3d: Exploring plain diffusion transformers for 3d shape generation. Advances in neural information processing systems, 36: 67960–67971, 2023.

[67] Giovanni Monea, Armand Joulin, and Edouard Grave. Pass: Parallel speculative sampling. arXiv preprint arXiv:2311.13581, 2023.

[68] Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra, Lucy Vanderwende, Pushmeet Kohli, and James Allen. A corpus and cloze evaluation for deeper understanding of commonsense stories. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 839–849, 2016.

[69] Shen Nie, Fengqi Zhu, Chao Du, Tianyu Pang, Qian Liu, Guangtao Zeng, Min Lin, and Chongxuan Li. Scaling up masked diffusion models on text. arXiv preprint arXiv:2410.18514, 2024.

[70] Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, and Chongxuan Li. Large language diffusion models. arXiv preprint arXiv:2502.09992, 2025.

[71] Team OLMo, Pete Walsh, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Shane Arora, Akshita Bhagia, Yuling Gu, Shengyi Huang, Matt Jordan, et al. 2 olmo 2 furious. arXiv preprint arXiv:2501.00656, 2024.

[72] Jingyang Ou, Shen Nie, Kaiwen Xue, Fengqi Zhu, Jiacheng Sun, Zhenguo Li, and Chongxuan Li. Your absorbing discrete diffusion secretly models the conditional distributions of clean data. arXiv preprint arXiv:2406.03736, 2024.

[73] James Pan and Guoliang Li. A survey of llm inference systems. arXiv preprint arXiv:2506.21901, 2025.

[74] Denis Paperno, Germán Kruszewski, Angeliki Lazaridou, Ngoc-Quan Pham, Raffaella Bernardi, Sandro Pezzelle, Marco Baroni, Gemma Boleda, and Raquel Fernández. The lambada dataset: Word prediction requiring a broad discourse context. In Proceedings of the 54th annual meeting of the association for computational linguistics (volume 1: Long papers), pages 1525–1534, 2016.

[75] Byeongjun Park, Hyojun Go, Jin-Young Kim, Sangmin Woo, Seokil Ham, and Changick Kim. Switch diffusion transformer: Synergizing denoising tasks with sparse mixture-of-experts. In European Conference on Computer Vision, pages 461–477. Springer, 2024.

[76] William Peebles and Saining Xie. Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF international conference on computer vision, pages 4195–4205, 2023.

[77] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. Language models are unsupervised multitask learners. OpenAI blog, 1(8):9, 2019.

[78] Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Squad: 100,000+ questions for ma- chine comprehension of text. In Proceedings of the 2016 conference on empirical methods in natural language processing, pages 2383–2392, 2016.

[79] Pierre H Richemond, Sander Dieleman, and Arnaud Doucet. Categorical sdes with simplex diffusion. arXiv preprint arXiv:2210.14784, 2022.

[80] Subham S Sahoo, Marianne Arriola, Yair Schiff, Aaron Gokaslan, Edgar Marroquin, Justin T Chiu, Alexander Rush, and Volodymyr Kuleshov. Simple and effective masked diffusion language models. Advances in Neural Information Processing Systems, 37:130136–130184, 2024.

[81] Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, and Volodymyr Kuleshov. The diffusion duality. arXiv preprint arXiv:2506.10892, 2025.

[82] Maarten Sap, Hannah Rashkin, Derek Chen, Ronan Le Bras, and Yejin Choi. Social iqa: Commonsense reasoning about social interactions. In Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th international joint conference on natural language processing (EMNLP-IJCNLP), pages 4463–4473, 2019.

[83] Stanislau Semeniuta, Aliaksei Severyn, and Erhardt Barth. A hybrid convolutional variational autoencoder for text generation. In Proceedings of the 2017 conference on empirical methods in natural language processing, pages 627–637, 2017.

[84] Jiaxin Shi, Kehang Han, Zhe Wang, Arnaud Doucet, and Michalis Titsias. Simplified and generalized masked diffusion for discrete data. Advances in neural information processing systems, 37:103131–103167, 2024.

[85] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.

[86] Aadithya Srikanth, Mudit Gaur, and Vaneet Aggarwal. Discrete state diffusion models: A sample complexity perspective. arXiv preprint arXiv:2510.10854, 2025.

[87] Robin Strudel, Corentin Tallec, Florent Altché, Yilun Du, Yaroslav Ganin, Arthur Mensch, Will Grathwohl, Nikolay Savinov, Sander Dieleman, Laurent Sifre, et al. Self-conditioned embedding diffusion for text generation. arXiv preprint arXiv:2211.04236, 2022.

[88] Haoran Sun, Lijun Yu, Bo Dai, Dale Schuurmans, and Hanjun Dai. Score-based continuous-time discrete diffusion models. arXiv preprint arXiv:2211.16750, 2022.

[89] Jaesung Tae, Hamish Ivison, Sachin Kumar, and Arman Cohan. Tess 2: A large-scale generalist diffusion language model. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 21171–21188, 2025.

[90] Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, and Yuki Mitsufuji. Sq-vae: Variational bayes on discrete representation with self-annealed stochastic quantization. arXiv preprint arXiv:2205.07547, 2022.

[91] Kimi Team, Tongtong Bai, Yifan Bai, Yiping Bao, SH Cai, Yuan Cao, Y Charles, HS Che, Cheng Chen, Guanduo Chen, et al. Kimi k2. 5: Visual agentic intelligence. arXiv preprint arXiv:2602.02276, 2026.

[92] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, et al. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[93] Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, and Hengshuang Zhao. Playerone: Egocentric world simulator. arXiv preprint arXiv:2506.09995, 2025.

[94] Siddarth Venkatraman, Moksh Jain, Luca Scimeca, Minsu Kim, Marcin Sendera, Mohsin Hasan, Luke Rowe, Sarthak Mittal, Pablo Lemos, Emmanuel Bengio, et al. Amortizing intractable inference in diffusion models for vision, language, and control. Advances in neural information processing systems, 37:76080–76114, 2024.

[95] Dimitri Von Rütte, Janis Fluri, Yuhui Ding, Antonio Orvieto, Bernhard Schölkopf, and Thomas Hofmann. Generalized interpolating discrete diffusion. arXiv preprint arXiv:2503.04482, 2025.

[96] Zhongwei Wan, Xin Wang, Che Liu, Samiul Alam, Yu Zheng, Jiachen Liu, Zhongnan Qu, Shen Yan, Yi Zhu, Quanlu Zhang, et al. Efficient large language models: A survey. arXiv preprint arXiv:2312.03863, 2023.

[97] Shufan Wang, Yixiao Song, Andrew Drozdov, Aparna Garimella, Varun Manjunatha, and Mohit Iyyer. knn-lm does not improve open-ended text generation. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pages 15023–15037, 2023.

[98] Shiguang Wu, Zhaochun Ren, Xin Xin, Jiyuan Yang, Mengqi Zhang, Zhumin Chen, Maarten de Rijke, and Pengjie Ren. Constrained auto-regressive decoding constrains generative retrieval. In Proceedings of the 48th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 2429–2440, 2025.

[99] Minkai Xu, Tomas Geffner, Karsten Kreis, Weili Nie, Yilun Xu, Jure Leskovec, Stefano Ermon, and Arash Vahdat. Energy-based diffusion language models for text generation. arXiv preprint arXiv:2410.21357, 2024.

[100] Peng Xu, Jackie Chi Kit Cheung, and Yanshuai Cao. On variational learning of controllable representations for text without supervision. In International Conference on Machine Learning, pages 10534–10543. PMLR, 2020.

[101] An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Gao, Chengen Huang, Chenxu Lv, et al. Qwen3 technical report. arXiv preprint arXiv:2505.09388, 2025.

[102] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov, and Quoc V Le. Xlnet: Generalized autoregressive pretraining for language understanding. Advances in neural information processing systems, 32, 2019.

[103] Jiacheng Ye, Jiahui Gao, Shansan Gong, Lin Zheng, Xin Jiang, Zhenguo Li, and Lingpeng Kong. Beyond autoregression: Discrete diffusion for complex reasoning and planning. arXiv preprint arXiv:2410.14157, 2024.

[104] Haoran You, Yichao Fu, Zheng Wang, Amir Yazdanbakhsh, and Yingyan Celine Lin. When linear attention meets autoregressive decoding: Towards more effective and efficient linearized large language models. arXiv preprint arXiv:2406.07368, 2024.

[105] Zebin You, Shen Nie, Xiaolu Zhang, Jun Hu, Jun Zhou, Zhiwu Lu, Ji-Rong Wen, and Chongxuan Li. Llada-v: Large language diffusion models with visual instruction tuning. arXiv preprint arXiv:2505.16933, 2025.

[106] Runpeng Yu, Xinyin Ma, and Xinchao Wang. Dimple: Discrete diffusion multimodal large language model with parallel decoding. arXiv preprint arXiv:2505.16990, 2025.

[107] Rowan Zellers, Ari Holtzman, Yonatan Bisk, Ali Farhadi, and Yejin Choi. Hellaswag: Can a machine really finish your sentence? In Proceedings of the 57th annual meeting of the association for computational linguistics, pages 4791–4800, 2019.

[108] Amy Zhang, Clare Lyle, Shagun Sodhani, Angelos Filos, Marta Kwiatkowska, Joelle Pineau, Yarin Gal, and Doina Precup. Invariant causal prediction for block mdps. In International Conference on Machine Learning, pages 11214–11224. PMLR, 2020.

[109] Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Joshua Susskind, and Navdeep Jaitly. Planner: Generating diversified paragraph via latent language diffusion model. Advances in Neural Information Processing Systems, 36:80178–80190, 2023.

[110] Siyan Zhao, Devaansh Gupta, Qinqing Zheng, and Aditya Grover. d1: Scaling reasoning in diffusion large language models via reinforcement learning. arXiv preprint arXiv:2504.12216, 2025.

[111] Wayne Xin Zhao, Kun Zhou, Junyi Li, Tianyi Tang, Xiaolei Wang, Yupeng Hou, Yingqian Min, Beichen Zhang, Junjie Zhang, Zican Dong, et al. A survey of large language models. arXiv preprint arXiv:2303.18223, 1(2): 1–124, 2023.

[112] Boyang Zheng, Nanye Ma, Shengbang Tong, and Saining Xie. Diffusion transformers with representation autoencoders. arXiv preprint arXiv:2510.11690, 2025.

[113] Huangjie Zheng, Shansan Gong, Ruixiang Zhang, Tianrong Chen, Jiatao Gu, Mingyuan Zhou, Navdeep Jaitly, and Yizhe Zhang. Continuously augmented discrete diffusion model for categorical generative modeling. arXiv preprint arXiv:2510.01329, 2025.

[114] Kaiwen Zheng, Yongxin Chen, Hanzi Mao, Ming-Yu Liu, Jun Zhu, and Qinsheng Zhang. Masked diffusion models are secretly time-agnostic masked models and exploit inaccurate categorical sampling. arXiv preprint arXiv:2409.02908, 2024.

[115] Lin Zheng, Jianbo Yuan, Lei Yu, and Lingpeng Kong. A reparameterized discrete diffusion model for text generation. arXiv preprint arXiv:2302.05737, 2023.

[116] Kun Zhou, Yifan Li, Xin Zhao, and Ji-Rong Wen. Diffusion-nat: Self-prompting discrete diffusion for non- autoregressive text generation. In Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1438–1451, 2024.

[117] Fengqi Zhu, Rongzhen Wang, Shen Nie, Xiaolu Zhang, Chunwei Wu, Jun Hu, Jun Zhou, Jianfei Chen, Yankai Lin, Ji-Rong Wen, et al. Llada 1.5: Variance-reduced preference optimization for large language diffusion models. arXiv preprint arXiv:2505.19223, 2025.

[118] Fengqi Zhu, Zebin You, Yipeng Xing, Zenan Huang, Lin Liu, Yihong Zhuang, Guoshan Lu, Kangyu Wang, Xudong Wang, Lanning Wei, et al. Llada-moe: A sparse moe diffusion language model. arXiv preprint arXiv:2509.24389, 2025.

[119] Hanlin Zhu, Baihe Huang, Shaolun Zhang, Michael Jordan, Jiantao Jiao, Yuandong Tian, and Stuart Russell. Towards a theoretical understanding of the’reversal curse’via training dynamics. Advances in neural information processing systems, 37:90473–90513, 2024.

附录

ACola DLM 的严格概率表述与训练目标细节

本附录给出 Cola DLM 的严格概率表述,并厘清各训练成分的作用。我们先精确定义潜变量模型与 CNF(连续归一化流)先验,再推导边际似然、ELBO 及其总体(population)形式,最后说明流匹配(Flow Matching)在整体理论框架中的确切角色。

A.1概率对象、CNF 先验与生成分布

设 \(x \in \mathcal{X}\) 表示离散文本序列,\(z_0 \in \mathbb{R}^d\) 表示其连续潜变量。Cola DLM 由三个概率成分构成:

\begin{align} q_\phi(z_0 \mid x) &\quad \text{编码器(近似后验)}, \tag{A.1}\\ p_\theta(x \mid z_0) &\quad \text{解码器(条件文本生成器)}, \tag{A.2}\\ p_\psi(z_0) &\quad \text{潜先验(由连续流定义)}. \tag{A.3} \end{align}

这里 \(q_\phi(z_0 \mid x)\) 仅在训练时用于变分推断;实际的生成分布由 \(p_\theta(x \mid z_0)\) 与 \(p_\psi(z_0)\) 定义。为确保流映射与密度输运公式良定义,我们对 CNF 向量场施加标准的正则性假设。

假设 A.1(CNF 向量场的正则性)对每个参数 \(\psi\),向量场 \(v_\psi(z, t)\) 关于 \(z\) 局部 Lipschitz、关于 \(t\) 可测,并满足保证全局 ODE 解存在唯一的线性增长条件;此外 \(\nabla\!\cdot v_\psi(z, t)\) 沿所关注轨迹可积。于是对任意 \(0 \le s \le t \le 1\),流映射 \(\Phi^\psi_{t\leftarrow s}\) 存在、唯一且可逆。

设基分布为标准高斯

\[z_1 \sim p_1(z_1) = \mathcal{N}(0, I).\tag{A.4}\]

给定时变向量场 \(v_\psi(z_t, t)\),考虑 ODE

\[\frac{dz_t}{dt} = v_\psi(z_t, t), \quad t \in [0, 1].\tag{A.5}\]

由假设 A.1,该 ODE 诱导流映射

\[z_t = \Phi^\psi_{t\leftarrow s}(z_s).\tag{A.6}\]

因此一个先验样本可写为

\[z_0 = \Phi^\psi_{0\leftarrow 1}(z_1), \quad z_1 \sim p_1.\tag{A.7}\]

等价地,先验分布是基分布在逆向流下的前推(pushforward):

\[p_\psi = (\Phi^\psi_{0\leftarrow 1})_\sharp\, p_1.\tag{A.8}\]

这表明 \(p_\psi(z_0)\) 并非抽象符号,而是由 \((p_1, v_\psi)\) 联合诱导、严格定义的概率分布。于是 Cola DLM 的生成过程可写为

\[z_1 \sim p_1(z_1), \quad z_0 = \Phi^\psi_{0\leftarrow 1}(z_1), \quad x \sim p_\theta(x \mid z_0).\tag{A.9}\]

对应的联合与边际分布为

\[p(x, z_0) = p_\theta(x \mid z_0)\, p_\psi(z_0), \quad p(x) = \int p_\theta(x \mid z_0)\, p_\psi(z_0)\, dz_0.\tag{A.10}\]

若显式引入基变量 \(z_1\),边际还可写为

\[p(x) = \int p_1(z_1)\, p_\theta\!\left(x \mid \Phi^\psi_{0\leftarrow 1}(z_1)\right) dz_1.\tag{A.11}\]

因此,Cola DLM 本质上是一个分层潜变量语言模型,而非一个直接在词元空间定义逆过程的模型。

A.2CNF 先验的显式密度与外层 ELBO

设 \(Z_t\) 为 ODE 在时刻 \(t\) 诱导的随机变量,其密度为 \(p_t\)。在假设 A.1 下,\(p_t\) 满足连续性方程

\[\partial_t p_t(z) + \nabla\!\cdot\!\left(p_t(z)\, v_\psi(z, t)\right) = 0.\]

沿特征轨迹 \(t \mapsto z_t\),瞬时换元公式给出

\[\frac{d}{dt} \log p_t(z_t) = -\nabla\!\cdot v_\psi(z_t, t).\tag{A.12}\]

从 0 积分到 1,并注意 \(p_0 = p_\psi\),得

\[\log p_\psi(z_0) = \log p_1(z_1) + \int_0^1 \nabla\!\cdot v_\psi(z_t, t)\, dt, \quad z_1 = \Phi^\psi_{1\leftarrow 0}(z_0).\tag{A.13}\]

因此,CNF 先验具有显式定义的对数密度,而非只能通过采样存在的隐式先验。流映射也可写成确定性的马尔可夫核。定义

\[K^\psi_{t\leftarrow s}(dz_t \mid z_s) := \delta_{\Phi^\psi_{t\leftarrow s}(z_s)}(dz_t).\tag{A.14}\]

由 ODE 流的半群性质,\(K^\psi_{t\leftarrow s}\) 满足 Chapman–Kolmogorov 关系,从而构成一个确定性马尔可夫半群。但此处的马尔可夫结构来自先验输运,而非依赖观测的"破坏—恢复"机制。

现引入变分后验 \(q_\phi(z_0 \mid x)\) 以处理边际似然中的潜积分。对任意满足所需支撑条件的 \(q_\phi(z_0 \mid x)\),

\[\log p(x) = \log \int q_\phi(z_0 \mid x)\, \frac{p_\theta(x \mid z_0)\, p_\psi(z_0)}{q_\phi(z_0 \mid x)}\, dz_0\tag{A.15}\] \[\ge \mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log p_\theta(x \mid z_0) + \log p_\psi(z_0) - \log q_\phi(z_0 \mid x)\right].\tag{A.16}\]

定义外层 ELBO 为

\[\mathcal{L}_{\mathrm{ELBO}}(x) := \mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log p_\theta(x \mid z_0) + \log p_\psi(z_0) - \log q_\phi(z_0 \mid x)\right].\tag{A.17}\]

\[\log p(x) \ge \mathcal{L}_{\mathrm{ELBO}}(x).\tag{A.18}\]

更重要的是,真实对数似然与 ELBO 之间的精确分解为

\[\log p(x) = \mathcal{L}_{\mathrm{ELBO}}(x) + \mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, p(z_0 \mid x)\right),\tag{A.19}\]

其中真实后验为

\[p(z_0 \mid x) = \frac{p_\theta(x \mid z_0)\, p_\psi(z_0)}{p(x)}.\tag{A.20}\]

式 (A.19) 明确了区别:真实似然始终是 \(\log p(x)\),而被直接优化的训练目标是其变分下界 \(\mathcal{L}_{\mathrm{ELBO}}(x)\)。将显式 CNF 密度公式 (A.13) 代入外层 ELBO,得

\[\mathcal{L}_{\mathrm{ELBO}}(x) = \mathbb{E}_{q_\phi(z_0 \mid x)}\Big[\log p_\theta(x \mid z_0) + \log p_1(z_1) + \int_0^1 \nabla\!\cdot v_\psi(z_t, t)\, dt - \log q_\phi(z_0 \mid x)\Big],\quad z_1 = \Phi^\psi_{1\leftarrow 0}(z_0).\tag{A.21}\]

这是在解码器能计算 \(\log p_\theta(x \mid z_0)\) 的设定下,Cola DLM 的严格训练目标。

A.3平均 ELBO、聚合后验与先验匹配

为分析先验学习的本质,定义聚合后验

\[\bar{q}_\phi(z_0) := \int q_\phi(z_0 \mid x)\, p_{\mathrm{data}}(x)\, dx,\tag{A.23}\]

及联合分布

\[q(x, z_0) := p_{\mathrm{data}}(x)\, q_\phi(z_0 \mid x).\tag{A.24}\]

当编码器 \(q_\phi\) 与解码器 \(p_\theta\) 固定时,数据平均 ELBO 对 \(\psi\) 的依赖仅通过先验项体现:

\[\mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathcal{L}_{\mathrm{ELBO}}(x)\right] = \mathbb{E}_{q(x, z_0)}\!\left[\log p_\theta(x \mid z_0) - \log q_\phi(z_0 \mid x)\right] + \mathbb{E}_{q(x, z_0)}\!\left[\log p_\psi(z_0)\right]\tag{A.25}\] \[= C(\phi, \theta) + \mathbb{E}_{z_0 \sim \bar{q}_\phi}\!\left[\log p_\psi(z_0)\right],\tag{A.26}\]

其中 \(C(\phi, \theta)\) 与 \(\psi\) 无关。利用

\[\mathbb{E}_{z_0 \sim \bar{q}_\phi}[\log p_\psi(z_0)] = -\mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_\psi(z_0)\right) + \mathbb{E}_{z_0 \sim \bar{q}_\phi}[\log \bar{q}_\phi(z_0)],\]

\[\max_\psi\, \mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathcal{L}_{\mathrm{ELBO}}(x)\right] \iff \min_\psi\, \mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_\psi(z_0)\right).\tag{A.27}\]

因此,固定编码器与解码器后,严格的先验学习子问题就是用 \(p_\psi\) 拟合聚合后验 \(\bar{q}_\phi\)。平均 ELBO 还可进一步写成信息分解形式。在先验项中加减 \(\log \bar{q}_\phi(z_0)\) 得

\[\mathbb{E}_{p_{\mathrm{data}}(x)}[\mathcal{L}_{\mathrm{ELBO}}(x)] = \mathbb{E}_{q(x, z_0)}[\log p_\theta(x \mid z_0)] - I_q(X; Z_0) - \mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_\psi(z_0)\right),\tag{A.28}\]

其中

\[I_q(X; Z_0) := \mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, \bar{q}_\phi(z_0)\right)\right]\tag{A.29}\]

是潜变量中保留的信息量。式 (A.28) 揭示了编码器的三重理论作用:它决定先验须拟合的目标分布 \(\bar{q}_\phi(z_0)\)、通过 \(I_q(X; Z_0)\) 决定压缩强度,从而决定"潜空间中的全局语义"与"解码器中的局部实现"之间的分工。

A.4流匹配的角色:先验求解器,而非模型定义

直接优化 \(\log p_\psi(z_0)\) 通常需要反复求解 ODE 并估计散度,实际代价高昂。为此常用流匹配来更高效地学习同一先验的向量场。因此流匹配应被视为一个先验求解器,而非似然目标本身。为此,先指定一条从聚合后验到基分布的桥接路径。设

\[z_0 \sim \bar{q}_\phi(z_0), \quad z_1 \sim p_1(z_1), \quad t \sim U[0, 1].\tag{A.30}\]

考虑条件路径

\[z_t = (1 - \alpha(t))z_0 + \alpha(t)z_1, \quad \alpha(0) = 0,\ \alpha(1) = 1.\tag{A.31}\]

这里 \(\alpha\) 可为任意足够光滑的单调函数;线性插值对应 \(\alpha(t) = t\)。该路径的目标速度场为

\[u_t(z_0, z_1) := \frac{dz_t}{dt} = \dot{\alpha}(t)(z_1 - z_0).\tag{A.32}\]

于是流匹配损失为

\[\mathcal{L}_{\mathrm{FM}}(\psi; \phi) := \mathbb{E}_{t,\, z_0 \sim \bar{q}_\phi,\, z_1 \sim p_1}\!\left[\|v_\psi(z_t, t) - u_t(z_0, z_1)\|_2^2\right].\tag{A.33}\]

对固定的路径构造,其逐点最优解是条件期望

\[v_\psi^\star(z, t) = \mathbb{E}\!\left[u_t(z_0, z_1) \mid z_t = z,\, t\right].\tag{A.34}\]

这只是一个条件均值回归结果,但它精确刻画了流匹配的角色:在理想条件下,所学向量场对应一个连接 \(\bar{q}_\phi\) 与 \(p_1\) 的连续输运,而该输运又定义了先验 \(p_\psi(z_0)\)。因此须区分两个目标。其一,

\[\max_\psi\, \mathbb{E}_{z_0 \sim \bar{q}_\phi}[\log p_\psi(z_0)],\tag{A.35}\]

是先验学习的严格概率目标;其二,

\[\min_\psi\, \mathcal{L}_{\mathrm{FM}}(\psi; \phi),\tag{A.36}\]

是学习同一先验向量场的实用求解器。它们服务于同一个先验建模问题,但并非同一数学对象。特别地,\(\mathcal{L}_{\mathrm{FM}}\) 不能与 ELBO 中的 \(-\log p_\psi(z_0)\) 逐项等同。

A.5训练目标的严格形式

若解码器能精确计算 \(\log p_\theta(x \mid z_0)\),则严格训练目标是最大化 (A.17),等价地最小化负 ELBO。定义

\[\mathcal{L}_{\mathrm{REC}}(x) := -\mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log p_\theta(x \mid z_0)\right],\tag{A.37}\] \[\mathcal{L}_{\mathrm{PRIOR}}(x) := -\mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log p_\psi(z_0)\right],\tag{A.38}\] \[\mathcal{L}_{\mathrm{REG}}(x) := \mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log q_\phi(z_0 \mid x)\right],\tag{A.39}\]

于是单样本总损失为

\[\mathcal{L}_{\mathrm{Total}}^{\mathrm{strict}}(x) := \mathcal{L}_{\mathrm{REC}}(x) + \mathcal{L}_{\mathrm{PRIOR}}(x) + \mathcal{L}_{\mathrm{REG}}(x) = -\mathcal{L}_{\mathrm{ELBO}}(x).\tag{A.40}\]

对数据分布取期望,得严格训练目标

\[\min_{\phi,\theta,\psi}\, \mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathcal{L}_{\mathrm{Total}}^{\mathrm{strict}}(x)\right] \iff \max_{\phi,\theta,\psi}\, \mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathcal{L}_{\mathrm{ELBO}}(x)\right].\tag{A.41}\]

因此,真正对应于"最大化边际似然下界"的目标始终是 ELBO;流匹配只是学习先验的高效实现。

B采样、推断与概率估计细节

本附录补充 Cola DLM 中采样、续写、无条件似然估计与条件概率估计的严格表述。正文只给出整体框架,细节在此提供。

B.1采样与推断流程

要从 Cola DLM 生成新样本,应遵循模型定义的生成过程,而非训练时所用的近似后验路径。首先,从简单基分布采样潜种子:

\[z_1 \sim p_1(z_1) = \mathcal{N}(0, I).\tag{B.1}\]

其次,反向积分向量场以获得潜样本:

\[\frac{dz_t}{dt} = v_\psi(z_t, t), \quad t: 1 \to 0,\tag{B.2}\]

即从 \(z(1) = z_1\) 出发得到 \(z(0) = z_0\)。实践中可用 Euler、Heun 或更高阶 ODE 求解器。此步生成的是全局潜语义,而非词元本身。第三,解码器在潜变量条件下生成文本:

\[x \sim p_\theta(x \mid z_0).\tag{B.3}\]

若解码器为自回归式,此步即条件自回归采样;若解码器为非自回归或双向式,则成为相应的条件恢复过程。因此 Cola DLM 的采样本质上是两阶段的:先采样全局潜变量,再在其条件下实现文本。

若任务提供前缀 \(x^{\mathrm{pre}}\),推断先将前缀编码为条件潜变量:

\[z^{\mathrm{pre}} \sim q_\phi(z^{\mathrm{pre}} \mid x^{\mathrm{pre}}),\tag{B.4}\]

然后逐块生成响应潜变量。设已生成的块为 \(\hat{z}_0^{(<b)}\),则第 \(b\) 个响应块由

\[\hat{z}_0^{(b)} = \Phi^\psi_{0\leftarrow 1}\!\left(\epsilon^{(b)};\, z^{\mathrm{pre}}, \hat{z}_0^{(<b)}\right), \quad \epsilon^{(b)} \sim \mathcal{N}(0, I)\tag{B.5}\]

生成。随后响应被解码为

\[\hat{x}^{\mathrm{res}} \sim p_\theta\!\left(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}}, \hat{z}_0^{(1:B)}\right).\tag{B.6}\]

这正是正文所述的"前缀编码、逐块生成、条件解码"过程。

B.2无条件对数似然与 PPL 估计

对数据集 \(\mathcal{D}\),若直接以 ELBO 作为 \(\log p(x)\) 的下界,可定义一个基于 ELBO 的困惑度:

\[\mathrm{PPL}_{\mathrm{ELBO}} := \exp\!\left(-\frac{\sum_{x \in \mathcal{D}} \mathcal{L}_{\mathrm{ELBO}}(x)}{\sum_{x \in \mathcal{D}} |x|}\right),\tag{B.7}\]

其中 \(|x|\) 表示序列长度。由于 \(\mathcal{L}_{\mathrm{ELBO}}(x) \le \log p(x)\),\(\mathrm{PPL}_{\mathrm{ELBO}}\) 应被理解为真实困惑度的上界型估计。若解码器能计算 \(\log p_\theta(x \mid z_0)\),还可经重要性采样或 IWAE 获得更紧的似然估计。令

\[z_0^{(k)} \sim q_\phi(z_0 \mid x), \quad \log w^{(k)} = \log p_\theta(x \mid z_0^{(k)}) + \log p_\psi(z_0^{(k)}) - \log q_\phi(z_0^{(k)} \mid x).\tag{B.8}\]

则 ELBO 式与 IWAE 式估计量分别为

\[\log \hat{p}_{\mathrm{ELBO},K}(x) = \frac{1}{K} \sum_{k=1}^{K} \log w^{(k)}, \qquad \log \hat{p}_{\mathrm{IWAE},K}(x) = \log\!\left(\frac{1}{K} \sum_{k=1}^{K} e^{\log w^{(k)}}\right).\tag{B.9}\]

IWAE 估计量通常更紧。当用 IWAE 评分时,对应困惑度为

\[\mathrm{PPL}_{\mathrm{IWAE}} := \exp\!\left(-\frac{\sum_{x \in \mathcal{D}} \log \hat{p}_{\mathrm{IWAE},K}(x)}{\sum_{x \in \mathcal{D}} |x|}\right).\tag{B.10}\]

若解码器本身只能提供下界,则评估只能报告基于界的 PPL,而非精确困惑度。

B.3条件概率估计与块级条件评分

在续写、多选评估与候选响应排序中,条件概率比无条件评分更重要。设一个完整样本分解为

\[x = (x^{\mathrm{pre}}, x^{\mathrm{res}}),\tag{B.11}\]

其中 \(x^{\mathrm{pre}}\) 为给定前缀,\(x^{\mathrm{res}}\) 为待评估响应。精确条件对数概率满足

\[\log p(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) = \log p(x^{\mathrm{pre}}, x^{\mathrm{res}}) - \log p(x^{\mathrm{pre}}).\tag{B.12}\]

因此可对联合样本与前缀样本分别应用同一无条件估计量,再相减得到插入式(plug-in)条件估计量:

\[\log \widehat{p}^{\,\mathrm{ELBO}}_{\mathrm{cond}}(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) := \mathcal{L}_{\mathrm{ELBO}}(x^{\mathrm{pre}}, x^{\mathrm{res}}) - \mathcal{L}_{\mathrm{ELBO}}(x^{\mathrm{pre}}),\tag{B.13}\]

以及

\[\log \widehat{p}^{\,\mathrm{IWAE}}_{\mathrm{cond},K}(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) := \log \hat{p}_{\mathrm{IWAE},K}(x^{\mathrm{pre}}, x^{\mathrm{res}}) - \log \hat{p}_{\mathrm{IWAE},K}(x^{\mathrm{pre}}).\tag{B.14}\]

须强调,(B.13) 与 (B.14) 都是插入式估计量:它们由把无条件估计量代入条件恒等式得到,并不自动从无条件估计量继承下界性质。严格说来,它们应被解读为条件对数似然的实用估计量。对块因果先验,条件估计量还可写成与架构对齐的逐块形式。设潜序列划分为前缀块与响应块:

\[z = (z^{(1)}, \ldots, z^{(B)}, z^{(B+1)}, \ldots, z^{(B+R)}).\tag{B.15}\]

若先验容许块级因果分解,则

\[p_\psi(z) = p_\psi(z^{(1)}) \prod_{b=2}^{B+R} p_\psi(z^{(b)} \mid z^{(<b)}).\tag{B.16}\]

在前缀潜变量 \(z^{\mathrm{pre}} := z^{(1:B)}\) 条件下,响应的条件边际为

\[p(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}}) = \int p_\theta(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}}, z^{\mathrm{res}})\, p_\psi(z^{\mathrm{res}} \mid z^{\mathrm{pre}})\, dz^{\mathrm{res}},\tag{B.17}\]

其中 \(z^{\mathrm{res}} := z^{(B+1:B+R)}\)。对任意近似后验 \(q_\phi(z^{\mathrm{res}} \mid x^{\mathrm{pre}}, x^{\mathrm{res}}, z^{\mathrm{pre}})\),有条件 ELBO

\[\begin{aligned} \log p(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}}) \ge\ &\mathbb{E}_{q_\phi(z^{\mathrm{res}} \mid x^{\mathrm{pre}}, x^{\mathrm{res}}, z^{\mathrm{pre}})}\Big[\log p_\theta(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}}, z^{\mathrm{res}})\\ &+ \log p_\psi(z^{\mathrm{res}} \mid z^{\mathrm{pre}}) - \log q_\phi(z^{\mathrm{res}} \mid x^{\mathrm{pre}}, x^{\mathrm{res}}, z^{\mathrm{pre}})\Big]. \end{aligned}\tag{B.18}\]

再对前缀潜变量的真实后验边际化,得

\[p(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) = \int p(x^{\mathrm{res}} \mid x^{\mathrm{pre}}, z^{\mathrm{pre}})\, p(z^{\mathrm{pre}} \mid x^{\mathrm{pre}})\, dz^{\mathrm{pre}}.\tag{B.20}\]

因此,严格的条件概率不仅需要对响应潜变量边际化,还需对前缀潜变量的后验不确定性额外积分。实践中常用两种近似:一种用 (B.12) 的"联合减前缀"估计量;另一种以编码器均值或单个编码器样本近似 \(p(z^{\mathrm{pre}} \mid x^{\mathrm{pre}})\),再评估 (B.18)。若响应只含一个新块,上式约化为单块响应评分:

\[\begin{aligned} S_{\mathrm{resp}}(x^{(B+1)}; x^{(1:B)}, z^{(1:B)}) :=\ &\mathbb{E}_{q_\phi(z^{(B+1)} \mid x^{(1:B+1)}, z^{(1:B)})}\Big[\log p_\theta(x^{(B+1)} \mid x^{(1:B)}, z^{(1:B+1)})\\ &+ \log p_\psi(z^{(B+1)} \mid z^{(1:B)}) - \log q_\phi(z^{(B+1)} \mid x^{(1:B+1)}, z^{(1:B)})\Big]. \end{aligned}\tag{B.21}\]

此形式对多选项评分、候选响应排序,以及分析候选间区分主要由先验项还是解码器项驱动,尤为有用。

B.4CNF 先验的数值评估与估计算法

为评估 (B.8) 中的 \(\log p_\psi(z_0^{(k)})\),求解增广 ODE

\[\frac{d}{dt}\begin{bmatrix} z_t \\ \ell_t \end{bmatrix} = \begin{bmatrix} v_\psi(z_t, t) \\ \nabla\!\cdot v_\psi(z_t, t) \end{bmatrix}, \quad \begin{bmatrix} z_0 \\ \ell_0 \end{bmatrix} = \begin{bmatrix} z_0^{(k)} \\ 0 \end{bmatrix}.\tag{B.23}\]

从 \(t=0\) 积分到 \(t=1\) 得 \((z_1^{(k)}, \ell_1^{(k)})\),于是

\[\log p_\psi(z_0^{(k)}) = \log p_1(z_1^{(k)}) + \ell_1^{(k)}.\tag{B.24}\]

在高维中,散度可由 Hutchinson 迹估计器近似:

\[\nabla\!\cdot v_\psi(z_t, t) = \mathrm{Tr}\!\left(\frac{\partial v_\psi(z_t, t)}{\partial z_t}\right) = \mathbb{E}_\epsilon\!\left[\epsilon^\top \frac{\partial v_\psi(z_t, t)}{\partial z_t} \epsilon\right].\tag{B.25}\]

实践中通常在单次 ODE 求解内固定同一随机向量 \(\epsilon\),以使所诱导动力学沿该轨迹保持一致。下面给出对应上述公式的两个估计量。为避免额外的包依赖,算法以可直接编译的伪代码风格书写。

算法 A.1:无条件对数似然估计(ELBO / IWAE)
输入:序列 \(x\);编码器 \(q_\phi\);解码器 \(p_\theta\);CNF 先验 \(p_\psi\);样本数 \(K\);估计模式 \(\mathrm{mode} \in \{\mathrm{ELBO}, \mathrm{IWAE}\}\)。 过程: 1. 对每个 \(k = 1, \ldots, K\),采样 \(z_0^{(k)} \sim q_\phi(z_0 \mid x)\)。 2. 从 \((z_0^{(k)}, 0)\) 出发,求解 (B.23) 至 \(t = 1\),得 \((z_1^{(k)}, \ell_1^{(k)})\)。 3. 计算 \(\log p_\psi(z_0^{(k)}) = \log p_1(z_1^{(k)}) + \ell_1^{(k)}\)。 4. 计算 \(\log p_\theta(x \mid z_0^{(k)})\) 与 \(\log q_\phi(z_0^{(k)} \mid x)\)。 5. 构造重要性权重 \(\log w^{(k)} \leftarrow \log p_\theta(x \mid z_0^{(k)}) + \log p_\psi(z_0^{(k)}) - \log q_\phi(z_0^{(k)} \mid x)\)。 6. 若 \(\mathrm{mode} = \mathrm{ELBO}\),返回 \(\log \hat{p}(x) = \frac{1}{K}\sum_{k=1}^{K}\log w^{(k)}\);否则返回 \(\log \hat{p}(x) = \log\!\big(\frac{1}{K}\sum_{k=1}^{K} e^{\log w^{(k)}}\big)\)。 输出:序列 \(x\) 的无条件对数似然估计 \(\log \hat{p}(x)\)。
算法 A.2:条件对数似然估计(联合减前缀)
输入:前缀 \(x^{\mathrm{pre}}\);响应 \(x^{\mathrm{res}}\);样本数 \(K\);估计模式 \(\mathrm{mode} \in \{\mathrm{ELBO}, \mathrm{IWAE}\}\)。 过程: 1. 构造完整序列 \(x^{\mathrm{full}} = (x^{\mathrm{pre}}, x^{\mathrm{res}})\)。 2. 调用算法 A.1 估计 \(\log \hat{p}(x^{\mathrm{full}})\)。 3. 调用算法 A.1 估计 \(\log \hat{p}(x^{\mathrm{pre}})\)。 4. 计算 \(\log \hat{p}(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) \leftarrow \log \hat{p}(x^{\mathrm{full}}) - \log \hat{p}(x^{\mathrm{pre}})\)。 输出:条件对数似然估计 \(\log \hat{p}(x^{\mathrm{res}} \mid x^{\mathrm{pre}})\)。

算法 A.1 同时适用于 ELBO 式与 IWAE 式估计量。算法 A.2 把前者当作黑箱无条件似然估计器,经条件恒等式组合两次调用。若任务只关注单个新生成块的局部评分,则可直接用 (B.21) 对候选响应排序。

C统一马尔可夫路径视角下的比较

本附录进一步展开正文关于统一文本建模讨论背后的数学比较。核心问题不是在表面上"哪种方法更像扩散",而是:每种方法把文本分布因子化到何种状态空间、沿何种类型的路径,以及该路径在生成中扮演何种角色?

C.1面向过程的生成模型的统一框架

为建立共同语言,考虑面向过程的生成模型的抽象定义。设

\[Y = (Y_t)_{t \in \mathcal{T}}, \quad Y_t \in \mathcal{S},\tag{C.1}\]

其中 \(\mathcal{S}\) 为状态空间,\(\mathcal{T}\) 为离散或连续时间。若存在满足 Chapman–Kolmogorov 关系的转移核族

\[K_{t\leftarrow s}(dy_t \mid y_s), \quad s \le t,\tag{C.2}\]

则 \(Y\) 构成一个马尔可夫过程。若再指定一个发射核(emission kernel)

\[e_\theta(x \mid y_{t^\star}),\tag{C.3}\]

则文本分布可统一写为

\[p_\theta(x) = \int e_\theta(x \mid y_{t^\star})\, p_\theta(dY).\tag{C.4}\]

在此框架内,AR、LLaDA、Plaid 与 Cola DLM 之间的区别并不只在于各自是否容许逐步采样算法。本质区别在于:它们在不同的状态空间上因子化文本分布,并赋予底层路径根本不同的角色。更具体地,它们至少在六个方面不同:状态空间、状态轨迹对象、转移机制、路径在生成中的角色、读出观测的时点,以及训练目标相对真实对数似然的紧度。这一统一视角表明,关键问题不是"哪种方法用了扩散",而是"何种类型的分布复杂度被分解到何种状态空间上的何种路径",以及"该路径是依赖观测的破坏路径,还是不依赖观测的潜先验路径"。

C.2与自回归模型的差异:为何用扩散

AR 经由链式法则直接建模文本:

\[p^{\mathrm{AR}}_\eta(x) = \prod_{i=1}^{L} p_\eta(x_i \mid x_{\lt i}).\tag{C.5}\]

其负对数似然为

\[-\log p^{\mathrm{AR}}_\eta(x) = \sum_{i=1}^{L} -\log p_\eta(x_i \mid x_{\lt i}).\tag{C.6}\]

因此 AR 的优势是精确的词元级似然与最直接的训练评估协议;其局限来自固定的从左到右条件顺序。在统一路径框架下,AR 可用前缀状态写出

\[S_i := x_{1:i}, \quad S_0 := \varnothing.\tag{C.7}\]

则 \((S_i)_{i=0}^{L}\) 构成一条时间非齐次马尔可夫链,其单步转移核恰为 AR 条件分布:

\[P(S_i = s_i \mid S_{0:i-1}) = P(S_i = s_i \mid S_{i-1} = s_{i-1}) = p_\eta(x_i \mid x_{\lt i}).\tag{C.8}\]

因此 AR 的核心归纳偏置不仅是马尔可夫性,更在于条件被限制于唯一的前缀过滤(prefix filtration)

\[\sigma(X_1) \subset \sigma(X_{1:2}) \subset \cdots \subset \sigma(X_{1:L}).\tag{C.9}\]

相比之下,Cola DLM 的模型分布并非通过固定词元顺序定义,而由潜边际化定义:

\[p^{\mathrm{Cola\ DLM}}(x) = \int p_\theta(x \mid z_0)\, p_\psi(z_0)\, dz_0.\tag{C.10}\]

若解码器本身不是从左到右自回归的,则所得模型分布不绑定任何预设词元顺序。在此意义上,Cola DLM 的非 AR 性来自两个层面:先验 \(p_\psi(z_0)\) 由连续输运而非逐词元链式分解定义;若解码器也是非 AR 的,则生成成为"先采样全局语义潜变量、再条件实现文本"的两阶段过程。从优化视角看,两族都极小化

\[\mathrm{KL}\!\left(p_{\mathrm{data}}(x) \,\|\, p_{\mathrm{model}}(x)\right),\tag{C.11}\]

但它们对 \(p(x)\) 的参数化不同:AR 用链式分解,Cola DLM 用潜边际化。因此,"为何用扩散"的严格含义不是回避极大似然,而是经由更具表达力的连续先验族改进 \(p_\psi(z_0)\) 对聚合后验的拟合。这可被精确量化。对任意两个候选先验 \(p_a\) 与 \(p_b\),

\[\mathbb{E}_{\bar{q}_\phi(z_0)}[\log p_b(z_0) - \log p_a(z_0)] = \mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_a(z_0)\right) - \mathrm{KL}\!\left(\bar{q}_\phi(z_0) \,\|\, p_b(z_0)\right).\tag{C.12}\]

因此,只要流 / CNF 先验比简单高斯先验更接近 \(\bar{q}_\phi(z_0)\),它就改进平均 ELBO。

C.3与离散去噪语言模型的差异:为何用连续

诸如 LLaDA 的离散去噪语言模型直接在词元空间运作。典型训练目标可写为

\[\mathcal{L}_{\mathrm{MDM}}(\theta) := \mathbb{E}_{t \sim U[0,1],\, x_0,\, x_t}\!\left[\frac{1}{t}\sum_{i=1}^{L} \mathbf{1}[x_t^i = M]\,\big(-\log p_\theta(x_0^i \mid x_t)\big)\right],\tag{C.13}\]

并满足

\[-\mathbb{E}_{p_{\mathrm{data}}(x_0)} \log p_\theta(x_0) \le \mathcal{L}_{\mathrm{MDM}}(\theta).\tag{C.14}\]

因此,LLaDA 在随机掩码比例下经由逆向恢复学习一个词元空间分布。其优势是没有显式编码器、没有潜瓶颈;其局限是始终停留在离散状态空间。更精确地,LLaDA 的前向掩码过程可嵌入一个连续时间马尔可夫链。对单个词元,设状态空间为 \(\mathcal{V} \cup \{M\}\),定义生成元

\[G_\tau(a, M) = \lambda(\tau), \quad G_\tau(a, a) = -\lambda(\tau), \quad G_\tau(M, M) = 0,\tag{C.15}\]

其中 \(a \in \mathcal{V}\)。则从任意非掩码状态到吸收态(掩码态)的转移概率为

\[P(X_\tau = M \mid X_0 = a) = 1 - \exp\!\left(-\int_0^\tau \lambda(u)\, du\right).\tag{C.16}\]

若把右端等同于 \(t \in [0,1]\),便恢复 (C.13) 所用的"每个词元以概率 \(t\) 被掩码"的前向核。因此,LLaDA 可被严格理解为在离散状态、向掩码态吸收的 CTMC 上的逆向恢复问题。相比之下,Cola DLM 在连续潜空间中建模 \(p_\psi(z_0)\),而非在词元空间做离散扩散。这一连续表述提供三个严格优势:其一,连续时间换元给出显式对数密度,即 (A.13);其二,欧氏空间中的向量场回归允许用流匹配直接学习先验几何;其三,连续潜变量天然支持插值、梯度引导与表示编辑。因此,"为何用连续"的含义并非"连续表示本质上优于离散",而是:相较离散词元空间的破坏模型,连续潜空间允许对概率几何与可逆输运给出更直接的刻画。这是否带来实际增益,仍取决于连续结构是否与数据的低维语义组织相对齐。

C.4与 Plaid 的差异:为何用潜变量

Plaid 也是一种连续方法,但它把"与原序列贴近、词元对齐"的表示连续化,而非显式的语义潜变量。典型前向过程可写为

\[q(h_0 \mid x) = \mathcal{N}(\tilde{x}, \sigma^2(0)I), \quad q(h_t \mid h_s) = \mathcal{N}\!\left(h_s, (\sigma^2(t) - \sigma^2(s))I\right),\tag{C.17}\]

其中 \(\tilde{x} = \mathrm{Embed}(x)\)。因此当噪声水平趋于零时,Plaid 的状态仍紧附于观测空间。相比之下,Cola DLM 经由

\[p(x) = \int p_\theta(x \mid z_0)\, p_\psi(z_0)\, dz_0\tag{C.18}\]

显式地把全局语义表示与文本实现分离。这一区别不仅关乎"在何处引入连续性",更关乎"模型如何被因子化"。若进一步令

\[q_\phi(z_0 \mid x) = \mathcal{N}(E(x), \sigma_0^2 I), \quad \sigma_0^2 \to 0,\tag{C.19}\]

且 \(E(x)\) 近乎可逆,则 Cola DLM 退化到 \(z_0\) 几乎只是原序列连续化表示的极限情形。该极限厘清了结构关系:Plaid 更接近 Cola DLM 的"近观测、非压缩"极限,而 Cola DLM 真正新颖的成分是潜分解本身。这一差异的数学核心由 (A.28) 中平均 ELBO 的信息分解刻画:表示学习在 Cola DLM 中分为三部分——条件重建项控制给定潜变量下的文本实现,互信息 \(I_q(X; Z_0)\) 控制保留多少关于文本的全局信息,聚合后验与先验间的 KL 控制先验匹配的难度。正因引入了这一显式潜变量,模型可把全局规划、主题与风格约束编码进 \(z_0\),而将局部词元实现委托给解码器。因此,"为何用潜变量"的严格答案是:潜变量并非离散对象的连续松弛,而是一个显式参与边际化的中间随机变量,使文本生成问题可分解为"先验建模 + 条件实现"。唯有当数据确实蕴含低码率却高价值的语义结构时,这一分解才带来统计收益;该问题在附录 D 进一步分析。

C.5为何 Cola DLM 不只是潜空间逆扩散语言模型

为避免概念混淆,现把区别说得更精确。设狭义的潜扩散 LM 定义如下:先在潜状态上指定一个数据条件的前向加噪过程

\[q(z_{0:T} \mid x),\tag{C.20}\]

再学习其逆过程,以逐步恢复用于文本生成的潜状态。这类模型的核心结构因此是对一个"数据条件前向破坏过程"的逆转。在此狭义定义下,Cola DLM 并非简单的潜逆扩散 LM。其一,Cola DLM 中的连续路径在于先验输运

\[z_1 \sim p_1(z_1), \quad z_0 = \Phi^\psi_{0\leftarrow 1}(z_1), \quad x \sim p_\theta(x \mid z_0).\tag{C.21}\]

该路径首先描述如何从简单高斯在潜空间中生成语义先验样本;生成时它不依赖任何特定观测 \(x\)。相比之下,Plaid 与 LLaDA 的前向路径描述的是给定样本 \(x\) 如何被扰动到高噪状态。因此,尽管三者都可被描述为路径模型,Cola DLM 的路径是先验输运,而 Plaid 与 LLaDA 的路径是数据破坏。其二,在 Cola DLM 中编码器只出现在变分推断中:

\[\log p(x) \ge \mathbb{E}_{q_\phi(z_0 \mid x)}\!\left[\log p_\theta(x \mid z_0) + \log p_\psi(z_0) - \log q_\phi(z_0 \mid x)\right].\tag{C.22}\]

它不参与生成过程 (C.21),因此属于变分后验。而在 Plaid 与 LLaDA 中,前向过程 \(q\) 是模型定义的一部分,因为逆模型正是针对该破坏律训练的。简言之,前者的 \(q\) 属于推断,后者的 \(q\) 属于模型构造。最后,Cola DLM 的边际分布始终由分层潜变量恒等式定义

\[p(x) = \int p_\theta(x \mid z_0)\, p_\psi(z_0)\, dz_0.\tag{C.23}\]

因此严格说来,Cola DLM 首先是一个带 CNF 先验的分层潜变量语言模型;流或扩散只是使先验族更具表达力的手段,而非模型本身的全部。

D理论优势、适用性与局限

最后,我们在统一的理论判据下比较 Cola DLM 与 AR、LLaDA、Plaid。目标不是论证"更复杂的模型理应更强",而是追问:在何种条件下可期望 Cola DLM 更优,在何种条件下可期望它更差。

D.1统一的总体级比较判据

对任意模型类 \(\mathcal{M}\),定义其相对真实数据分布 \(p_{\mathrm{data}}(x)\) 的不可约逼近误差为

\[\mathcal{E}(\mathcal{M}) := \inf_{p \in \mathcal{M}} \mathrm{KL}\!\left(p_{\mathrm{data}}(x) \,\|\, p(x)\right).\tag{D.1}\]

该量度量了即便忽略有限样本效应与优化误差后,模型类不可避免的最佳失配。对任意以精确负对数似然训练的模型,有标准恒等式

\[\inf_{p \in \mathcal{M}} \mathbb{E}_{p_{\mathrm{data}}(x)}[-\log p(x)] = H(p_{\mathrm{data}}) + \mathcal{E}(\mathcal{M}),\tag{D.2}\]

其中 \(H(p_{\mathrm{data}}) := -\mathbb{E}_{p_{\mathrm{data}}(x)} \log p_{\mathrm{data}}(x)\) 为数据熵。因此,对精确 NLL 模型,比较理论极限等价于比较 \(\mathcal{E}(\mathcal{M})\)。AR 属于此类,其总体风险为

\[\mathbb{E}_{p_{\mathrm{data}}(x)}[-\log p^{\mathrm{AR}}_\eta(x)] = H(p_{\mathrm{data}}) + \mathrm{KL}\!\left(p_{\mathrm{data}} \,\|\, p^{\mathrm{AR}}_\eta\right).\tag{D.3}\]

相比之下,Cola DLM 经 ELBO 训练,故对每个样本

\[-\mathcal{L}_{\mathrm{ELBO}}(x) = -\log p_{\theta,\psi}(x) + \mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, p_{\theta,\psi}(z_0 \mid x)\right).\tag{D.4}\]

对数据分布取期望得

\[\mathbb{E}_{p_{\mathrm{data}}(x)}[-\mathcal{L}_{\mathrm{ELBO}}(x)] = H(p_{\mathrm{data}}) + \mathrm{KL}\!\left(p_{\mathrm{data}} \,\|\, p_{\theta,\psi}\right) + G^{\mathrm{infer}}_{\mathrm{Cola\ DLM}}(\phi, \theta, \psi),\tag{D.5}\]

其中

\[G^{\mathrm{infer}}_{\mathrm{Cola\ DLM}}(\phi, \theta, \psi) := \mathbb{E}_{p_{\mathrm{data}}(x)}\!\left[\mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, p_{\theta,\psi}(z_0 \mid x)\right)\right] \ge 0\tag{D.6}\]

为推断间隙。类似地,Plaid 的变分目标可写为"真实 NLL + 逆向/路径后验间隙",LLaDA 的掩码去噪目标可写为"真实词元空间 NLL + 替代间隙"。于是四个模型类可统一为

\[\text{总体风险} = H(p_{\mathrm{data}}) + \text{模型失配} + \text{训练目标诱导的额外间隙}.\tag{D.7}\]

因此,理论优越性并不仅由模型复杂度推出,而取决于总统计负担是否更小。定义 Cola DLM 的总统计负担为

\[R_{\mathrm{Cola\ DLM}} := \mathcal{E}(\mathcal{M}_{\mathrm{Cola\ DLM}}) + \inf_{\phi,\theta,\psi} G^{\mathrm{infer}}_{\mathrm{Cola\ DLM}}(\phi, \theta, \psi),\tag{D.8}\]

并为 AR、Plaid、LLaDA 定义类似量。则在总体级别上,Cola DLM 优于某比较类当且仅当其总统计负担更小。例如,

\[R_{\mathrm{Cola\ DLM}} < R_{\mathrm{AR}} \iff \text{在总体级别上 Cola DLM 优于 AR}.\tag{D.9}\]

这给出了一个统一而严格的比较判据。

D.2率失真与潜瓶颈的适用性边界

统一判据仍留下一个更深的问题:为何潜分解在某些情形能降低模型失配、在另一些情形却损害建模?答案来自条件熵、互信息与率失真结构。对任意编码器 \(q_\phi(z_0 \mid x)\) 与解码器 \(p_\theta(x \mid z_0)\),在联合分布 \(q(x, z_0) = p_{\mathrm{data}}(x) q_\phi(z_0 \mid x)\) 下恒有

\[\mathbb{E}_{q(x, z_0)}[-\log p_\theta(x \mid z_0)] \ge H_q(X \mid Z_0).\tag{D.10}\]

由互信息恒等式

\[H_q(X) = H_q(X \mid Z_0) + I_q(X; Z_0),\tag{D.11}\]

并结合 \(q(x) = p_{\mathrm{data}}(x)\),可得

\[H_q(X \mid Z_0) = H(p_{\mathrm{data}}) - I_q(X; Z_0).\tag{D.12}\]

因此重建代价满足

\[\mathbb{E}_{q(x, z_0)}[-\log p_\theta(x \mid z_0)] \ge H(p_{\mathrm{data}}) - I_q(X; Z_0).\tag{D.13}\]

这表明:若 \(I_q(X; Z_0)\) 小,则潜变量保留的文本信息少,最佳可达重建损失的下界随之升高;若 \(I_q(X; Z_0)\) 足够大,则给定潜变量后解码器能更易实现文本。为进一步形式化,定义表示率失真函数

\[D(R) := \inf_{q(z_0 \mid x):\, I_q(X; Z_0) \le R}\ \inf_{p_\theta(x \mid z_0)}\ \mathbb{E}_{q(x, z_0)}[-\log p_\theta(x \mid z_0)].\tag{D.14}\]

它表示当潜通道至多传输 \(R\) 奈特(nats)关于文本的信息时,可达的最小平均重建代价。若对给定数据分布,\(D(R)\) 在较小 \(R\) 处就迅速降至低水平,则数据容许低码率却高价值的潜表示,潜瓶颈更可能有益;若只有当 \(R\) 接近 \(H(X)\) 时重建误差才显著下降,则数据近乎不可压缩,潜瓶颈更可能成为额外负担。因此,Cola DLM 是否从瓶颈获益,最终由数据自身的率失真曲线支配:若全局主题、规划、风格与约束占据相对低的信息率却强烈决定最终实现,则把它们编码进 \(z_0\) 是高效的;若几乎每个词元级细节都不可约,则潜压缩不带来真正的统计收益。

D.3结构化生成区制:Cola DLM 何时更契合真实机制

为把上述直觉再形式化一步,考虑如下结构化生成假设:存在全局变量 \(G\),使真实数据分布可写为

\[p_{\mathrm{data}}(x) = \int p^\star(x \mid g)\, p^\star(g)\, dg,\tag{D.15}\]

其中 \(G\) 决定主题、规划、篇章结构、风格或其他全局约束,\(p^\star(x \mid g)\) 把这些全局因子实现为具体文本。若另有

\[H(X \mid G) \ll H(X), \quad \dim(G) \ll \dim(E(X)),\tag{D.16}\]

则数据处于由低维却高价值潜因子主导的有利区制。在此区制下,Cola DLM 的归纳偏置更契合真实生成机制:编码器从 \(x\) 恢复关于 \(G\) 的后验信息,先验学习一个接近 \(p^\star(g)\) 的全局语义分布,解码器学习在全局因子条件下的文本实现。换言之,Cola DLM 的潜在优势并非来自更复杂,而来自把一个困难问题拆为两个更契合的子问题:

\[\text{学习 } p_{\mathrm{data}}(x) \ \rightsquigarrow\ \text{学习 } p^\star(g) \text{ 与 } p^\star(x \mid g).\tag{D.17}\]

若编码器能以较小推断间隙恢复关于 \(G\) 的信息、\(p_\psi(z_0)\) 能逼近 \(G\) 对应的聚合潜分布、\(p_\theta(x \mid z_0)\) 能良好逼近条件实现,则 Cola DLM 的统计负担主要由低维全局因子的建模复杂度决定,而非完整表层序列的复杂度。这正是它可能优于 AR、LLaDA 与 Plaid 的根本来源。

D.4三条曲线、理论优势与局限

在相反区制——即 (D.16) 不成立时——Cola DLM 可能系统性地逊于更直接的建模路线。典型不利情形包括:不存在低码率充分表示、局部表层形式本身承载主要语义,或强词元空间模型已然足够。在这些情形中,Cola DLM 的额外代价主要来自三个来源:

\[\begin{aligned} &\text{(i)}\quad \text{推断间隙 } G^{\mathrm{infer}}_{\mathrm{Cola\ DLM}};\\ &\text{(ii)}\quad \text{瓶颈诱导的升高的重建下界 } H(X \mid Z_0);\\ &\text{(iii)}\quad \text{联合训练编码器、先验与解码器的优化复杂度}. \end{aligned}\tag{D.18}\]

因此,Cola DLM 的成败可约化为三条曲线之间的竞争:表示率失真曲线 \(D(R)\)、先验逼近曲线,以及推断间隙曲线 \(G^{\mathrm{infer}}_{\mathrm{Cola\ DLM}}\)。唯有三者都偏向 Cola DLM 时,潜分解才成为真正的理论优势。这些结论可更直接地总结如下。

理论优势相对 AR,若解码器为非自回归,则 Cola DLM 不受单一从左到右顺序约束,可在潜空间中先确定全局语义、再实现文本,从而对填空、约束满足与全局规划具有潜在更自然的归纳偏置。相对离散 DLM,Cola DLM 具有连续潜空间的几何结构,因此支持显式对数密度、向量场回归、插值与潜编辑。相对 Plaid,Cola DLM 显式引入语义压缩,使模型能学习低维全局表示;若数据确实呈现"低维全局语义 + 高维局部实现"的分层结构,则该归纳偏置更接近真实机制。最后,平均 ELBO 的信息分解使得把表示、先验与解码器作为独立成分来分析变得自然。
理论局限Cola DLM 固有地承受一个变分间隙:
\[\log p(x) - \mathcal{L}_{\mathrm{ELBO}}(x) = \mathrm{KL}\!\left(q_\phi(z_0 \mid x) \,\|\, p(z_0 \mid x)\right).\tag{D.19}\]

若编码器很差,模型将付出系统性的似然代价。潜瓶颈还引入后验坍缩风险:若解码器过强、潜维过小或正则过强,则 \(I_q(X; Z_0)\) 可能过小,编码器可能停止传输有用信息。此外,精确评估 \(\log p_\psi(z_0)\) 往往需要 ODE 积分与散度估计,使评估比 AR 模型更昂贵。重要的是,Cola DLM 的潜在优势并不会因使用潜变量与流而自动成立——它依赖于"数据含有有利的低维语义潜结构"这一归纳假设,而这需要实验来验证。

E全局语义结构的存在性

本节目标是建立一个可证伪的零假设,并据此表明:若潜表示仅由纯局部、可分离的成分构成,则最优时间平移不应随潜维变化呈现系统性漂移。随后我们将实验观测到的平移漂移与该零假设对照,从而就共享结构的存在性得到更稳健的结论。为避免把可严格建立的结论与为解释而引入的结构模型相混淆,我们先给出一个抽象的零假设。

假设 E.1(纯可分离表示的零假设)设 \(d\) 为潜维,\(\delta\) 为时间平移,\(J_d(\delta)\) 为在固定语义度量下、潜维为 \(d\) 时的整体性能目标。假设以下条件成立:(1) 局部可分离性:潜表示中不存在影响语义的跨维联合结构,整体语义性能由局部维度贡献的独立聚合得到;(2) 同质性:每个局部维度就平移而言共享相同的最优时间尺度,改变 \(d\) 只改变独立维度的数目,而不改变每个局部子问题的函数形式;(3) 可加聚合:整体目标可写为
\[J_d(\delta) = \sum_{i=1}^{d} j_i(\delta) \quad \text{或} \quad J_d(\delta) = \frac{1}{d}\sum_{i=1}^{d} j_i(\delta),\tag{E.1}\]

其中所有 \(j_i\) 在同一点取得最优。更强地,若同质性精确成立,则存在公共函数 \(j\) 与常数 \(a_d > 0, b_d\),使

\[J_d(\delta) = a_d\, j(\delta) + b_d.\tag{E.2}\]

假设 E.1 不预设任何特定网络架构;它描述的是"语义完全由相互独立的局部维度承载"这一理论极限。在该极限下,改变潜维至多调整整体目标的尺度,但不应改变最优平移的位置。

命题 E.2(可分离零假设下最优平移的维度不变性)在假设 E.1 下,设 \(\delta_d^\star \in \arg\max_\delta J_d(\delta)\) 为潜维 \(d\) 处的最优时间平移。则对任意两个维度 \(d_1, d_2\),有 \(\arg\max_\delta J_{d_1}(\delta) = \arg\max_\delta J_{d_2}(\delta)\)(式 E.3);特别地,若最大值点唯一,则 \(\delta_{d_1}^\star = \delta_{d_2}^\star\)(式 E.4)。因此,在纯局部可分离表示下,最优时间平移不应随潜维系统性漂移。
证明. 由 (E.2),对任意 \(d\),\(J_d(\delta) = a_d j(\delta) + b_d\),其中 \(a_d > 0\)。由于 \(b_d\) 与 \(\delta\) 无关,而 \(a_d\) 仅诱导正向缩放,故 \(\arg\max_\delta J_d(\delta) = \arg\max_\delta j(\delta)\)。因此最优点与 \(d\) 无关,证得 (E.3) 与 (E.4)。\(\square\)

命题 E.2 的关键结论是:可严格建立的是——若不存在影响语义的共享或联合结构,则最优平移不应随潜维系统性漂移。

推论 E.3(系统性漂移否证纯可分离零假设)若实验表明,随潜维 \(d\) 变化,最优平移 \(\delta^\star(d)\) 呈现稳定、单调且可复现的系统性漂移,且该漂移无法由参数量变化、训练不足、优化不稳定或评估噪声解释,则假设 E.1 不成立。
证明. 由命题 E.2,若假设 E.1 成立,则最优平移在所有潜维上必相同。若实验反复表明最优平移随 \(d\) 系统性漂移,则与零假设的必然推论相矛盾,故零假设被拒绝。\(\square\)

推论 E.3 的结论边界清晰:它直接排除"潜空间纯局部可分离"的假设。因此,可严格导出的结论是——潜表示中必存在某种跨维共享或联合结构。若进一步欲把该结构解读为全局语义因子,则需要额外的建模假设与实验证据。

信息论视角下的等价表述。 上述结论可在信息论术语下一致地重述。设 \(s\) 为与高层语义关联的潜变量,\(z\) 为 VAE 潜变量。则扩散前向过程可写为

\[z_t = \alpha_t z + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I),\tag{E.5}\]

其中 \(\alpha_t, \sigma_t\) 由噪声调度决定。若进一步把潜变量分解为

\[z = \phi(s) + u,\tag{E.6}\]

其中 \(\phi(s)\) 为语义变量诱导的有效信号、\(u\) 为编码残差或后验不确定性,则 DiT 在时刻 \(t\) 接收到的观测成为

\[z_t = \alpha_t \phi(s) + \underbrace{\alpha_t u + \sigma_t \epsilon}_{\text{总噪声}}.\tag{E.7}\]

因此,对 DiT 要紧的并非原始时刻本身,而是在该时刻潜变量中仍保留多少关于 \(s\) 的有效信息。在假设 E.1 下,若语义完全由局部独立维度承载,即 \(s = (s_1, \ldots, s_d), z = (z_1, \ldots, z_d)\),且各通道跨维独立同分布,则互信息的可加性给出

\[I(s; z_t) = \sum_{i=1}^{d} I(s_i; z_{t,i}).\tag{E.8}\]

若每个局部通道就平移具有相同的信息曲线,则改变 \(d\) 只线性缩放总互信息,而不改变"哪个平移把有效信息置于最适合语义恢复的范围"。从这一信息论视角看,命题 E.2 的实质是:在纯可分离表示下,改变维度不改变对应最优语义信息区制的平移。反之,若最优平移随 \(d\) 系统性漂移,则 (E.8) 对应的纯可加信息结构不再成立。这表明潜变量中的有效语义信息并非一组完全同质局部子通道之和,而更可能依赖某种只在跨维聚合后才浮现的共享结构。

共享因子模型与平移缩放律的解释。 为进一步解释系统性漂移为何可能呈现类似 Stable Diffusion 中分辨率依赖平移的模式,我们引入一个更强但分析上方便的结构模型。设每个潜维可写为

\[z_i = A_i g + \xi_i, \quad i = 1, \ldots, d,\tag{E.9}\]

其中 \(g \in \mathbb{R}^r\) 为低维共享因子,\(A_i\) 为线性观测矩阵,\(\xi_i\) 为局部独立噪声。这里 \(g\) 可理解为抽象的共享语义状态,并不假设它是单一标量。在最简设定下,设 \(A_i \equiv A\) 且 \(\xi_i \sim \mathcal{N}(0, \sigma_\xi^2 I)\) 跨维独立。线性高斯模型的标准结果表明:随潜维 \(d\) 增大,\(g\) 的后验精度线性增长,后验协方差以 \(d^{-1}\) 收缩。等价地,恢复共享因子的有效信噪比满足

\[\mathrm{SNR}_{\mathrm{eff}}(d) \propto d.\tag{E.10}\]

从信息论看,这意味着关于共享因子 \(g\) 的可恢复信息随 \(d\) 增加。更具体地,若扩散时刻 \(t\) 处的总有效噪声方差记为 \(\sigma_{\mathrm{eff}}^2(t)\),则关于 \(g\) 的互信息可写为

\[I(g; z_t) = \frac{1}{2} \log \det\!\left(I + \alpha_t^2 \Sigma_g^{1/2} A^\top \left(\sigma_{\mathrm{eff}}^2(t) I\right)^{-1} A \Sigma_g^{1/2}\right).\tag{E.11}\]

在标量或各向同性近似下,进一步约化为

\[I(g; z_t) \approx \frac{r}{2} \log\!\left(1 + c \cdot d \cdot \mathrm{SNR}_{\mathrm{eff}}(t)\right),\tag{E.12}\]

其中常数 \(c > 0\) 由观测矩阵与共享因子的先验协方差决定。若平移 \(\delta\) 的作用等价于平移去噪过程的 log-SNR,且语义恢复性能主要由"共享因子的有效 log-SNR 是否落入适当范围"决定,则维持最优语义恢复所需的平移必须补偿 (E.10) 或 (E.12) 诱导的维度依赖。这导致形如

\[\delta^\star(d) = a \log d + b\tag{E.13}\]

的对数关系,其中 \(a\) 的符号取决于具体时间参数化与定义平移所用的约定。

注记 E.4(与分辨率依赖平移的结构同源性)(E.13) 的意义不在于唯一识别一个真实全局变量,而在于:一旦在多个潜维上反复观测到共享因子,则"维度增大 \(\Rightarrow\) 有效 SNR 增强 \(\Rightarrow\) 最优平移的对数补偿"这一机制便自然出现。这与 Stable Diffusion 中分辨率依赖时间平移的直觉结构同源。区别在于:此处共享的是潜表示内部的联合结构,而图像情形中共享内容来自更高分辨率下分布更广的全局信息。须强调,共享因子模型的主要作用是解释系统性漂移的形态,而非取代上述严格的矛盾论证:后者回答"若观测到漂移则哪些假设必然失败",前者解释"此种漂移最契合何种结构"。

与 VAE logSNR 的关系。 上述分析还解释了另一经验现象:即便潜维固定,当 VAE 后验的 logSNR 改变时,最优时间平移仍可能变化。原因在于 VAE 并非无噪编码器。在 (E.6) 中,\(u\) 恰表示后验不确定性。若时刻 \(t\) 固定,则关于语义变量的总噪声协方差为

\[\Sigma_{\mathrm{noise}}(t) = \alpha_t^2 \Sigma_u + \sigma_t^2 I.\tag{E.14}\]

当 VAE logSNR 下降时,通常意味着后验方差增大,即 \(\Sigma_u\) 变大。于是在同一原始时刻,潜变量中保留的有效语义信息

\[I(s; z_t) = \frac{1}{2} \log \det\!\left(I + \alpha_t^2 \Sigma_s (\alpha_t^2 \Sigma_u + \sigma_t^2 I)^{-1}\right)\tag{E.15}\]

整体下降。换言之,在后验方差更大、更平滑的潜空间中,同一扩散时刻对应更低的有效语义 SNR。因此,为使训练与采样保持在相似的最优语义信息区制,时间平移也必须被重新标定。这表明:改变潜维与改变 VAE logSNR 表面上是两种不同操作,但从信息论看它们作用于同一核心对象——语义变量沿扩散时间的有效互信息曲线 \(I(s; z_t)\)。前者主要改变共享信息如何跨维聚合与放大,后者主要改变每个时刻的有效噪声底;两者都能使最优信息区制沿原始时间轴漂移。

为何这进一步指向语义结构。 推论 E.3 本身只蕴含共享或联合结构的存在,尚未确立该结构必然承载语义信息。要把结论强化为"影响语义的共享结构",需要任务级的选择性证据。一个特别有信息量的情形是:(1) 重建质量在不同平移下保持相对稳定;(2) 语义下游指标对平移高度敏感;(3) 最优平移随潜维系统性漂移。若三者同时成立,则不再能仅以"平移改变了局部词元实现的难度"来解释该现象。更合理的解读是:平移在调整潜先验相对某种共享高层结构的噪声标定,而该共享结构恰参与语义组织。从信息论立场看,这意味着改变平移并不实质改变解码器恢复局部细节的能力,却实质改变扩散过程中高层任务所需共享信息的保留区制。因此,被重新标定的更可能不是局部重建误差,而是更高层次的互信息的语义成分。换言之,若重建始终很强而语义指标显著变化,则主要受影响的量不是解码器的局部实现能力,而是潜先验与高层共享信息的对齐。结合上述矛盾结果,便得到一个更强却仍稳健的结论:潜空间含有影响语义的共享或联合结构。

注记 E.5(本节得到严格支持的结论)在广义的"纯局部可分离潜"假设类下,最优时间平移不应随潜维系统性漂移。实验中观测到的稳定漂移否证了该零假设,因而蕴含潜空间中跨维共享或联合结构的存在。进一步,若该漂移主要体现在语义指标而非重建指标上,则可进一步断定此种共享或联合结构确实参与高层语义组织。这些结论足以支持本工作的中心假设:若潜空间中确实存在此类全局或半全局的语义共享结构,则在潜先验层面标定噪声调度,可能比纯基于局部建模的方法提供更实质的优势。

F似然估计偏差的理论分析

本节对正文 5.1 节讨论的现象给出更完整的理论分析。核心问题是:为何 Cola DLM 在自由生成设定下已能生成相当高质量的文本,而经 ELBO 或插入式条件估计量估得的 PPL / 条件评分却仍显著偏高。我们论证这并非偶然的工程伪影,而是连续潜生成模型中"训练目标、底层概率对象与局部几何"三者失配的结构性后果。为避免把"整段响应的条件边际概率"与"在某一特定潜点评估的局部先验密度"相混淆,全节显式区分以下两个对象。设 \(x = (x^{\mathrm{pre}}, x^{\mathrm{res}})\),其中 \(x^{\mathrm{pre}}\) 为前缀 / 上下文、\(x^{\mathrm{res}}\) 为响应,\(c\) 记前缀诱导的条件信息。则精确条件边际概率为

\[p(x^{\mathrm{res}} \mid c) = \int p_\theta(x^{\mathrm{res}} \mid z, c)\, p_\psi(z \mid c)\, dz,\tag{F.1}\]

而对应正文响应级评分的局部条件评分为

\[S_{\mathrm{resp}}(x) = \mathbb{E}_{q_\phi(z \mid x, c)}\!\left[\log p_\theta(x^{\mathrm{res}} \mid z, c) + \log p_\psi(z \mid c) - \log q_\phi(z \mid x, c)\right].\tag{F.2}\]

(F.1) 是精确条件边际似然,(F.2) 是分析中更易获得的局部估计量。两者之间的间隙正是后续讨论的概率基础。

F.1为何流匹配训练目标与条件 PPL 天然失配

F.1.1 流匹配优化的是向量场回归,而非特定金标的局部对数密度。 固定编码器与解码器后,先验学习子问题可理解为把 \(p_\psi(z \mid c)\) 拟合到由数据与后验联合诱导的条件潜分布。但实践中流匹配并不直接最大化某一金标潜点处的条件对数密度,而是学习一个时变向量场 \(v_\psi(z, t, c)\)。其典型目标可写为

\[\mathcal{L}_{\mathrm{FM}}(\psi) = \mathbb{E}\!\left[\|v_\psi(Z_t, t, c) - U^\star\|^2\right],\tag{F.3}\]

其中 \(U^\star\) 为桥接路径或参考流诱导的目标速度场。(F.3) 表明流匹配直接回归一个动力系统,而非特定金标潜点处的局部条件对数密度。更重要的是,平方损失的逐点最优并非寻峰意义下"最可能"的速度场,而是条件均值速度场。

命题 F.1(流匹配的逐点最优为条件均值速度)对固定 \((z, t, c)\),定义 \(Y := U^\star \mid (Z_t = z, t, c)\),\(f := v_\psi(z, t, c)\)。则条件风险 \(R(f; z, t, c) := \mathbb{E}[\|f - Y\|^2 \mid Z_t = z, t, c]\)(式 F.4)有唯一极小值点 \(f^\star(z, t, c) = \mathbb{E}[Y \mid Z_t = z, t, c]\)(式 F.5)。
证明. 对任意 \(f\),有 \(f - Y = (f - \mathbb{E}[Y \mid \cdot]) - (Y - \mathbb{E}[Y \mid \cdot])\)。展开平方、取条件期望并利用交叉项为零,得 \(R(f; z, t, c) = \|f - \mathbb{E}[Y \mid \cdot]\|^2 + \mathbb{E}[\|Y - \mathbb{E}[Y \mid \cdot]\|^2 \mid \cdot]\)。第二项与 \(f\) 无关,故唯一最优在 \(f = \mathbb{E}[Y \mid Z_t = z, t, c]\) 取得。\(\square\)

命题 F.1 的含义直接:流匹配学习的是条件均值动力学,而非专门针对某一响应后验管道的金标局部标定。只要给定上下文下的条件响应分布本身多峰或宽峰,流匹配便更自然地偏向学习一个"把总概率质量移入合理区域"的平均输运映射,而不自动保证在某一特定样本附近的局部密度标定。

F.1.2 为何先验均值可能远离金标而生成仍好。 此点可在多峰条件分布下形式化。对固定上下文 \(c\),设

\[p_\psi(z \mid c) = \sum_{m=1}^{M} \pi_m(c)\, \mathcal{N}(\mu_m, \Sigma_m), \quad \sum_{m=1}^{M} \pi_m(c) = 1,\tag{F.6}\]

且对某一特定样本,其后验主要集中于第 \(m^\star\) 个峰,即

\[q_\phi(z \mid x, c) \approx \mathcal{N}(\mu_{m^\star}, \Sigma_q).\tag{F.7}\]

则先验的全局均值为

\[\bar{\mu}_p(c) = \sum_{m=1}^{M} \pi_m(c)\, \mu_m.\tag{F.8}\]
推论 F.2(多峰条件分布下的均值位移)在 (F.6)–(F.8) 设定下,\(\|\bar{\mu}_p(c) - \mu_{m^\star}\| \le \sum_{m \neq m^\star} \pi_m(c)\,\|\mu_m - \mu_{m^\star}\|\)(式 F.9)。若各峰彼此分离良好,则先验均值可能显著偏离某一金标样本的潜变量;然而只要这些峰的主要质量落在解码器良好区域内,自由生成质量仍可保持良好。
证明. 由 \(\bar{\mu}_p(c) - \mu_{m^\star} = \sum_{m=1}^{M} \pi_m(c)(\mu_m - \mu_{m^\star}) = \sum_{m \neq m^\star} \pi_m(c)(\mu_m - \mu_{m^\star})\) 与三角不等式即得。\(\square\)

因此,先验均值与金标潜变量之间距离大,并不自动意味着先验未能学到分布。更可能的解释往往是:上下文级条件分布本身多峰,而后验只在其中选择了一个更窄的金标峰。

F.2为何这进一步导致生成好而 PPL 差

F.2.1 生成质量与条件 PPL 对应两个不同的几何对象。 固定上下文 \(c\),设 \(r(x^{\mathrm{res}}; c)\) 为某外部生成质量函数,\(\tau\) 为阈值。定义解码器良好区域为

\[A^{\mathrm{good}}_\tau(c) := \left\{z : \mathbb{E}_{x^{\mathrm{res}} \sim p_\theta(\cdot \mid z, c)}\, r(x^{\mathrm{res}}; c) \ge \tau\right\},\tag{F.10}\]

并对特定样本 \(x\) 与常数 \(\rho > 0\),定义其后验典型集为

\[A^\rho_x := \{z : q_\phi(z \mid x, c) \ge \rho\}.\tag{F.11}\]

若 \(A^\rho_x\) 又窄又锐,可称之为该样本的金标管道。一般而言 \(A^\rho_x\) 只是 \(A^{\mathrm{good}}_\tau(c)\) 内部更局部、更锐的子集:

\[A^\rho_x \subseteq A^{\mathrm{good}}_\tau(c), \quad \text{或至少 } A^\rho_x \text{ 是 } A^{\mathrm{good}}_\tau(c) \text{ 内更局部的子区域}.\tag{F.12}\]

这一区别表明"生成好"与"条件 PPL 好"并非同一要求。

命题 F.3(生成好与条件评分差可同时成立)固定上下文 \(c\)。设存在常数 \(\alpha, \Delta > 0\) 与阈值 \(\tau, \rho\),使 \(p_\psi(A^{\mathrm{good}}_\tau(c) \mid c) \ge \alpha\)(F.13)、\(q_\phi(A^\rho_x \mid x, c) \approx 1\)(F.14)、\(\log q_\phi(z \mid x, c) - \log p_\psi(z \mid c) \ge \Delta,\ \forall z \in A^\rho_x\)(F.15),且解码器重建项在 \(A^\rho_x\) 上一致有界 \(\log p_\theta(x^{\mathrm{res}} \mid z, c) \le B,\ \forall z \in A^\rho_x\)(F.16)。则:(1) 从先验自由采样时,至少有 \(\alpha\) 比例的质量落入解码器良好区域,故生成质量可能已经良好;(2) 但条件评分满足 \(S_{\mathrm{resp}}(x) \le B - \Delta + o(1)\)(F.17),因此只要 \(\Delta\) 足够大,条件 ELBO 或插入式 PPL 仍可能显著有偏。
证明. 第一条直接由 (F.13) 得。对第二条,把 (F.2) 重写为 \(S_{\mathrm{resp}}(x) = \mathbb{E}_{q_\phi}[\log p_\theta(x^{\mathrm{res}} \mid z, c) - (\log q_\phi(z \mid x, c) - \log p_\psi(z \mid c))]\)。由 (F.14),\(q_\phi\) 在 \(A^\rho_x\) 外的质量为 \(o(1)\);结合 (F.15) 与 (F.16) 即得 \(S_{\mathrm{resp}}(x) \le B - \Delta + o(1)\)。\(\square\)

命题 F.3 的实质是:生成质量主要要求先验质量进入 \(A^{\mathrm{good}}_\tau(c)\),而条件 PPL 额外要求先验在某一金标响应的后验管道上赋予足够高的局部密度。前者是覆盖(coverage)要求,后者是标定(calibration)要求。

F.2.2 为何重建好不蕴含 PPL 好。 (F.2) 还可写为

\[S_{\mathrm{resp}}(x) = \underbrace{\mathbb{E}_{q_\phi(z \mid x, c)}[\log p_\theta(x^{\mathrm{res}} \mid z, c)]}_{R(x; c)} - \underbrace{\mathrm{KL}\!\left(q_\phi(z \mid x, c) \,\|\, p_\psi(z \mid c)\right)}_{G(x; c)}.\tag{F.18}\]
命题 F.4(重建好不蕴含条件 PPL 好)若存在样本序列 \(\{x_n\}\) 使 \(R(x_n; c_n) \to R_{\max}\),同时 \(G(x_n; c_n) \to +\infty\) 或保持显著为正,则对应条件评分仍可能差。
证明. (F.18) 直接给出 \(S_{\mathrm{resp}}(x_n) = R(x_n; c_n) - G(x_n; c_n)\)。故只要后验—先验间隙保持大,即便重建已强,条件评分仍可低。\(\square\)

这表明在连续潜语言模型中,在金标附近重建好并不足以蕴含 PPL 好;真正决定 PPL 的还包括后验与先验之间局部匹配的程度。

F.3即便先验均值接近金标,PPL 仍可能差

上一小节厘清了"大区域覆盖"与"金标管道标定"的区别。然而即便进一步把问题限制到"先验中心已大致与目标对齐"的情形,PPL 仍可能差,原因是局部协方差、朝向、曲率与体积项也进入条件评分。

F.3.1 局部高斯近似下,中心对齐必要但不充分。 设在金标样本邻域内

\[q_\phi(z \mid x, c) \approx \mathcal{N}(\mu_q, \Sigma_q), \quad p_\psi(z \mid c) \approx \mathcal{N}(\mu_p, \Sigma_p).\tag{F.19}\]

则对应 KL 散度为

\[\mathrm{KL}(q_\phi \| p_\psi) = \frac{1}{2}\!\left[\mathrm{tr}(\Sigma_p^{-1}\Sigma_q) + (\mu_p - \mu_q)^\top \Sigma_p^{-1}(\mu_p - \mu_q) - d + \log\frac{\det\Sigma_p}{\det\Sigma_q}\right].\tag{F.20}\]
命题 F.5(仅中心对齐不足以保证 PPL 好)在 (F.19) 下,即便 \(\mu_p \approx \mu_q\),只要 \(\Sigma_p\) 与 \(\Sigma_q\) 在尺度、朝向或体积上失配,\(\mathrm{KL}(q_\phi \| p_\psi)\) 仍可能显著大,因而条件评分仍可能差。
证明. (F.20) 表明,除中心差异项外,还有显式的尺度与体积相关项 \(\mathrm{tr}(\Sigma_p^{-1}\Sigma_q)\) 与 \(\log\frac{\det\Sigma_p}{\det\Sigma_q}\)。即便中心差异项很小,只要后两项失配,KL 散度仍可显著为正。\(\square\)

因此,在连续密度模型中,断言"只需把先验均值移近金标潜变量即可"是错误的。PPL 要求更强形式的局部概率标定:不仅中心要接近,局部协方差、局部体积与局部朝向也都须匹配。

F.3.2 过锐的后验进一步放大此问题。 若后验高度集中以致 \(\Sigma_q\) 很小,则 (F.20) 中的尺度与体积项变得更敏感。直觉上,金标后验不再是厚区域,而更像一条极细的管道。在此区制下,先验的轻微偏离便可诱导显著放大的局部对数密度间隙。因此,

\[\text{生成好} \implies \text{先验命中一个相对较大的解码器良好区域},\tag{F.21}\]

\[\text{PPL 好} \implies \text{先验须额外命中一条窄得多的金标后验管道}.\tag{F.22}\]

这也解释了为何在连续潜语言模型中,PPL 的行为更像一个局部密度标定指标,而非仅仅是生成质量指标。

F.4为何 PPL 与生成在 AR / LLaDA 等离散模型中通常相关更强

F.4.1 AR:训练、评估与生成共享同一离散概率对象。 对自回归模型,条件分布有精确链式分解

\[\log p^{\mathrm{AR}}_\eta(x^{\mathrm{res}} \mid x^{\mathrm{pre}}) = \sum_{i=1}^{N_{\mathrm{res}}} \log p_\eta(x^{\mathrm{res}}_i \mid x^{\mathrm{pre}}, x^{\mathrm{res}}_{\lt i}),\tag{F.23}\]

因此 PPL 为

\[\mathrm{PPL}_{\mathrm{AR}}(x) = \exp\!\left(-\frac{1}{N_{\mathrm{res}}}\sum_{i=1}^{N_{\mathrm{res}}} \log p_\eta(x^{\mathrm{res}}_i \mid x^{\mathrm{pre}}, x^{\mathrm{res}}_{\lt i})\right).\tag{F.24}\]

训练时极小化的下一词元交叉熵恰是 (F.24) 中各项的负对数,而生成也直接查询这些相同的条件概率。因此在 AR 模型中,

\[\text{训练目标} = \text{PPL 所评估的对象} = \text{生成时所用的对象}.\tag{F.25}\]

这正是 PPL 与生成质量在自回归模型中通常相关最强的原因。

F.4.2 离散模型更直接地优化正确事件的概率质量。 对离散分类器,若某位置金标词元为 \(y\)、模型输出概率向量 \(\pi \in \Delta^{V-1}\),则交叉熵为

\[\mathcal{L}_{\mathrm{CE}} = -\log \pi_y.\tag{F.26}\]

此处直接优化的是赋予正确事件本身的概率质量。相比之下,Cola DLM 需要在连续潜空间上计算积分:

\[p(x^{\mathrm{res}} \mid c) = \int \exp\!\left(\log p_\theta(x^{\mathrm{res}} \mid z, c) + \log p_\psi(z \mid c)\right) dz.\tag{F.27}\]

相应地,其值不仅依赖峰中心是否正确定位,还显式依赖局部体积与曲率。若对 \(F_{x,c}(z) := \log p_\theta(x^{\mathrm{res}} \mid z, c) + \log p_\psi(z \mid c)\) 在其极大值点作 Laplace 近似,则

\[\log p(x^{\mathrm{res}} \mid c) \approx F_{x,c}(z^\star_{x,c}) + \frac{d}{2}\log(2\pi) - \frac{1}{2}\log\det H_{x,c},\tag{F.28}\]

其中 \(H_{x,c} := -\nabla_z^2 F_{x,c}(z^\star_{x,c})\)。这表明连续潜模型中的条件似然不仅依赖峰高,还依赖局部几何。因此,更准确的表述不仅是"离散模型本质更简单",而是:离散模型中训练、评估与生成都更直接作用于同一离散概率对象,而连续潜模型还额外经由潜空间积分、后验—先验匹配与解码器发射兼容性这几重中介。

F.4.3 LLaDA:主要差异源于离散观测层面,而非潜标定层面。 LLaDA 与 AR 并不相同,但相较 Cola DLM,其恢复对象仍是离散观测状态本身,而非"先把样本依赖后验编码为连续潜变量、再要求一个独立条件先验逐点匹配它"。因此,尽管 LLaDA 也可能呈现替代间隙,其主要差异仍集中于离散词元空间内,而非 Cola DLM 特有的后验—先验密度碰撞。正因如此,PPL 与生成的相关在 LLaDA 中通常仍强于连续潜模型。

G噪声调度、logSNR 与流匹配的统一理论视角

本节把前文关于噪声调度、流匹配、潜维依赖平移漂移与语义信息标定的讨论,整合为一条统一的理论链。关键问题不是"为何某个经验超参起作用",而是:噪声调度在 Cola DLM 中控制何种数学对象,以及该对象如何进入训练目标并最终影响语义建模质量。具体地,我们建立以下四点:(1) 噪声调度与 logSNR 曲线是同一前向加噪过程的两种等价参数化;(2) 在流匹配中,logSNR 对损失的影响既经由期望内采样测度的改变、也经由监督目标速度场的尺度改变;(3) 均匀时间步训练一般不等价于均匀 logSNR 训练;(4) 最优时间平移的本质角色不是平移一个抽象时间标签,而是把训练与采样重新标定到更合适的有效语义信息区制。

G.1噪声调度与 logSNR 作为等价参数化

从全文与附录所用的标准前向过程出发:

\[z_t = \alpha_t z + \sigma_t \epsilon, \quad \epsilon \sim \mathcal{N}(0, I),\tag{G.1}\]

其中 \(\alpha_t, \sigma_t\) 由噪声调度决定。信噪比自然定义为

\[\mathrm{SNR}(t) = \frac{\alpha_t^2}{\sigma_t^2}, \quad \lambda(t) := \log \mathrm{SNR}(t) = \log \frac{\alpha_t^2}{\sigma_t^2}.\tag{G.2}\]

在标准归一化 \(\alpha_t^2 + \sigma_t^2 = 1\)(G.3)下,有

\[\alpha_t^2 = \mathrm{sigmoid}(\lambda(t)), \quad \sigma_t^2 = \mathrm{sigmoid}(-\lambda(t)).\tag{G.4}\]

因此,指定 \(\lambda(t)\) 唯一决定 \((\alpha_t, \sigma_t)\),反之 \((\alpha_t, \sigma_t)\) 唯一决定 \(\lambda(t)\)。在此精确意义上,

\[\text{噪声调度} \iff \text{logSNR 曲线},\tag{G.5}\]

故二者并非经由损失的某种二次变换相联系,而只是同一前向加噪几何的两种等价参数化。现考虑平移后的 logSNR 曲线

\[\lambda_\delta(t) = \lambda(t) + \delta.\tag{G.6}\]

对应信号与噪声系数成为

\[\alpha_{t,\delta}^2 = \mathrm{sigmoid}(\lambda(t) + \delta), \quad \sigma_{t,\delta}^2 = \mathrm{sigmoid}(-\lambda(t) - \delta).\tag{G.7}\]

因此时间平移的角色不仅是平移原始时间轴,而是把同一原始时间步重映射到不同的 logSNR 区制:

\[\text{同一原始时间步 } t \text{ 被重新分配到不同的 logSNR 区间}.\tag{G.8}\]

G.2流匹配目标的重参数化

如前所述,Cola DLM 的严格概率目标始终是 ELBO 最大化连同先验匹配,而流匹配是学习同一先验族的实用机制。要理解噪声调度如何进入训练,因此只需分析均方向量场回归目标。为避免与 (G.1) 中系数 \((\alpha_t, \sigma_t)\) 记号冲突,设桥接路径的插值系数记为 \(\beta(t)\)。考虑

\[z_t = (1 - \beta(t))z_0 + \beta(t)z_1, \quad u_t(z_0, z_1) = \frac{dz_t}{dt} = \dot{\beta}(t)(z_1 - z_0),\tag{G.9}\]

并把单块流匹配目标写为

\[\mathcal{L}_{\mathrm{FM}} = \mathbb{E}_{t, z_0, z_1}\!\left[\|v_\psi(z_t, t) - u_t(z_0, z_1)\|_2^2\right], \quad t \sim U[0, 1].\tag{G.10}\]

等价地,

\[\mathcal{L}_{\mathrm{FM}} = \int_0^1 \ell(t)\, dt, \quad \ell(t) := \mathbb{E}_{z_0, z_1}\!\left[\|v_\psi(z_t, t) - u_t(z_0, z_1)\|_2^2\right].\tag{G.11}\]

现令 \(\lambda = \Lambda(t) := \log \mathrm{SNR}(t)\)(G.12),并设 \(\Lambda\) 严格单调可微,使逆映射 \(t = T(\lambda) = \Lambda^{-1}(\lambda)\) 存在。由换元公式 \(dt = \frac{dt}{d\lambda} d\lambda\)(G.13),得

\[\mathcal{L}_{\mathrm{FM}} = \int \ell(T(\lambda))\, \frac{dt}{d\lambda}\, d\lambda.\tag{G.14}\]

因此,若训练均匀采样 \(t\),则在 logSNR 轴上诱导的密度为

\[p_\lambda(\lambda) = p_t(T(\lambda))\, \frac{dt}{d\lambda} = \frac{dt}{d\lambda},\tag{G.15}\]

这里用到 \(p_t(t) \equiv 1\)。

命题 G.1(均匀时间步一般不等价于均匀 logSNR)设 \(\lambda = \Lambda(t)\) 严格单调可微,训练用 \(t \sim U[0,1]\)。则 logSNR 轴上的采样密度为 \(p_\lambda(\lambda) = \frac{dt}{d\lambda}\)(G.16)。因此,除非 \(\Lambda(t)\) 为仿射,均匀时间步训练不等价于均匀 logSNR 训练。
证明. 由 (G.14),\(t\) 上均匀测度到 \(\lambda\) 轴的前推密度为 \(p_\lambda(\lambda) = p_t(T(\lambda))\frac{dt}{d\lambda}\)。因 \(p_t(t) \equiv 1\),(G.16) 立得。\(p_\lambda(\lambda)\) 为常数当且仅当 \(\frac{dt}{d\lambda}\) 为常数,即当且仅当 \(\Lambda(t)\) 仿射。故两种训练方案一般不等价。\(\square\)

上述命题只表明:经 logSNR 重参数化后,期望内的采样测度改变。这还不是全部。监督目标速度场本身在新时间坐标下也会重新缩放。令 \(z_\lambda := z_{T(\lambda)}, u_\lambda := \frac{dz_\lambda}{d\lambda}\)(G.17)。则由链式法则,

\[u_t = \frac{dz_t}{dt} = \frac{dz_\lambda}{d\lambda}\cdot\frac{d\lambda}{dt} = \dot{\lambda}(t)\, u_\lambda, \quad \dot{\lambda}(t) := \frac{d\lambda}{dt}.\tag{G.18}\]

把此恒等式代入损失得

\[\mathcal{L}_{\mathrm{FM}} = \int \mathbb{E}_{z_0, z_1}\!\left[\|v_\psi(z_\lambda, T(\lambda)) - \dot{\lambda}(T(\lambda))u_\lambda\|_2^2\right] \frac{dt}{d\lambda}\, d\lambda.\tag{G.19}\]

因此 logSNR 以两种不同方式影响流匹配损失:(1) 改变期望内赋予不同噪声区制的采样权重;(2) 重新缩放监督目标速度场的数值幅度。若进一步定义 \(\lambda\)-时间向量场 \(\tilde{v}_\psi(z, \lambda) := \frac{1}{\dot{\lambda}(T(\lambda))} v_\psi(z, T(\lambda))\)(G.20),则 (G.19) 可重写为

\[\mathcal{L}_{\mathrm{FM}} = \int w_{\mathrm{eff}}(\lambda)\, \mathbb{E}_{z_0, z_1}\!\left[\|\tilde{v}_\psi(z_\lambda, \lambda) - u_\lambda\|_2^2\right] d\lambda,\tag{G.21}\]

其中有效权重为 \(w_{\mathrm{eff}}(\lambda) = \frac{d\lambda}{dt}\)(G.22)。

注记 G.2(logSNR 如何进入流匹配损失)在 Cola DLM 的流匹配训练中,logSNR 的作用不仅是采样不同的时间索引。它经由以下两者联合改变训练几何:(1) logSNR 轴上诱导的采样测度 \(p_\lambda(\lambda) = \frac{d\lambda}{dt}\);(2) 监督目标的时间尺度重缩放 \(u_t = \dot{\lambda}(t)u_\lambda\)。因此噪声调度并非脱离损失的外部超参,它直接决定训练时强调哪些 logSNR 区制,以及这些区制内回归任务的难度。

G.3信号—噪声参数化下的等价推导

为与 (G.1) 保持一致,直接从信号—噪声系数 \((\alpha_t, \sigma_t)\) 导出同一缩放关系是有益的。由 (G.4),\(\alpha_t^2 = \mathrm{sigmoid}(\lambda(t)), \sigma_t^2 = \mathrm{sigmoid}(-\lambda(t))\)。对 \(\alpha_t^2\) 关于 \(t\) 求导得 \(\frac{d}{dt}\alpha_t^2 = \alpha_t^2 \sigma_t^2 \dot{\lambda}(t)\)(G.23),因此

\[\dot{\alpha}_t = \frac{1}{2}\alpha_t \sigma_t^2 \dot{\lambda}(t).\tag{G.24}\]

类似地,\(\dot{\sigma}_t = -\frac{1}{2}\sigma_t \alpha_t^2 \dot{\lambda}(t)\)(G.25)。对 (G.1) 求导则得

\[u_t := \frac{dz_t}{dt} = \dot{\alpha}_t z + \dot{\sigma}_t \epsilon = \frac{1}{2}\dot{\lambda}(t)\!\left(\alpha_t \sigma_t^2 z - \sigma_t \alpha_t^2 \epsilon\right).\tag{G.26}\]

若定义 \(u_\lambda := \frac{dz_t}{d\lambda} = \frac{1}{2}\!\left(\alpha_t \sigma_t^2 z - \sigma_t \alpha_t^2 \epsilon\right)\)(G.27),则再次得到 \(u_t = \dot{\lambda}(t)u_\lambda\)(G.28)。因此,无论从抽象桥接路径参数化出发,还是直接从扩散的信号—噪声参数化出发,同一结论都成立。

G.4最优调度作为有效语义信息区制的标定

表明调度影响损失尚不充分。更重要的问题是:潜空间中最终被标定的是何种有意义的对象?沿附录 E 的记号,设 \(s\) 为高层语义变量,把潜表示分解为 \(z = \phi(s) + u\)(G.29),其中 \(\phi(s)\) 为语义信号、\(u\) 表示后验不确定性或编码残差。则扩散时刻 \(t\) 的含噪潜变量为

\[z_t = \alpha_t \phi(s) + \alpha_t u + \sigma_t \epsilon.\tag{G.30}\]

从语义变量 \(s\) 的视角看,总噪声协方差为

\[\Sigma_{\mathrm{noise}}(t) = \alpha_t^2 \Sigma_u + \sigma_t^2 I,\tag{G.31}\]

其中 \(\Sigma_u\) 为后验不确定项的协方差。若 \(\Sigma_s\) 记语义信号 \(\phi(s)\) 的协方差,则时刻 \(t\) 潜变量中保留的关于 \(s\) 的有效信息可写为

\[I(s; z_t) = \frac{1}{2}\log\det\!\left(I + \alpha_t^2 \Sigma_s (\alpha_t^2 \Sigma_u + \sigma_t^2 I)^{-1}\right).\tag{G.32}\]

这表明,对 DiT 要紧的不是原始时间步本身,而是该时刻潜变量中保留了多少有效语义信息。在此意义上,

\[\text{调度实际上控制曲线 } t \mapsto I(s; z_t).\tag{G.33}\]

因此,时间平移的角色不应被解读为对一个孤立数值超参的调节,而应被解读为把训练与采样重新标定到不同的有效语义信息区制。更抽象地,若平移后的 logSNR 曲线为 \(\lambda_\delta(t) = \lambda(t) + \delta\),则最优平移可表示为

\[\delta^\star = \arg\max_\delta\, \mathrm{Perf}\!\left(I_{\mathrm{eff},\delta}(t; d, \Sigma_u, G, B, \vartheta)\right),\tag{G.34}\]

其中 \(d\) 为潜维,\(\Sigma_u\) 为后验不确定性,\(G\) 为潜几何或语义平滑性,\(B\) 为块大小,\(\vartheta\) 为模型参数集合。因此,选择最优噪声调度的问题,最好被理解为有效语义信息标定问题,而非孤立的数值调参问题。

G.5为何潜维与 VAE logSNR 会移动最优点

上述视角与命题 E.2 及推论 E.3 一致。若潜表示纯局部、可分离且跨维同质,则最优平移不应随维度系统性漂移。当经验上观测到稳定漂移时,自然的解读是:潜维与 VAE 后验 logSNR 都修改了 (G.32) 中的有效语义信息曲线。

潜维。 在共享因子模型 \(z_i = A_i g + \xi_i,\ i = 1, \ldots, d\)(G.35)下,若不同潜维反复观测同一低维共享因子 \(g\),则标准线性高斯推断表明有效恢复信噪比按 \(\mathrm{SNR}_{\mathrm{eff}}(d) \propto d\)(G.36)缩放。因此关于共享因子的可恢复信息满足近似 \(I(g; z_t) \approx \frac{r}{2}\log(1 + c\cdot d\cdot\mathrm{SNR}_{\mathrm{eff}}(t))\)(G.37)。这意味着增大潜维可增强关于共享语义结构的可恢复信息。为使训练保持在可比的语义恢复区制,时间平移须补偿该维度效应,从而自然导致对数律 \(\delta^\star(d) = a\log d + b\)(G.38)。

VAE 后验 logSNR。 另一方面,降低 VAE 的后验 logSNR 通常对应增大后验方差,即扩大 \(\Sigma_u\)。由 (G.32),对固定 \(t\),增大 \(\alpha_t^2 \Sigma_u + \sigma_t^2 I\) 会降低有效语义互信息。因此,在后验方差更大、更平滑的潜空间中,同一原始时间步对应更低的有效语义 SNR。为使训练与采样对齐到可比的语义信息区制,最优平移须相应改变。这表明:改变潜维与改变 VAE 后验 logSNR 表面上是两种不同操作,但从信息论看它们作用于同一核心对象——沿扩散时间的有效语义信息曲线 \(I(s; z_t)\)。前者主要改变共享信息如何跨维聚合放大,后者主要改变每个时刻的有效噪声底。

注记 G.3(块大小的角色)相较潜维与后验 logSNR,块大小的效应尚未由 (G.38) 这样的闭式律刻画。尽管如此,块大小改变块内语义聚合的粒度、跨块条件依赖的强度,以及同一噪声区制内的内在建模难度。它因此经由有效语义信息曲线的形状间接与调度相互作用。更精确的表述不是块大小直接决定调度,而是块大小与调度经由块因果先验的有效几何而耦合。
注记 G.4(总结)在 Cola DLM 中,噪声调度并非外在于训练目标的经验超参。它首先经由 \((\alpha_t, \sigma_t)\)(等价地经由 logSNR 曲线)定义前向加噪几何;随后经由采样测度与监督目标速度场的时间尺度联合进入流匹配目标;在语义层面,它标定的不是原始时间步本身,而是高层潜语义的有效互信息区制。因此,潜维、后验不确定性与潜几何的改变,都可经由改变同一有效语义信息曲线而诱导最优时间平移的系统性漂移。

H实验细节

H.1数据集介绍

LAMBADA。 LAMBADA [74] 是一个长上下文词预测基准,用于评估模型能否利用广泛的语篇上下文进行文本续写。其目标词通常难以仅凭局部上下文推断,而需要理解分布在前文段落中的信息。在我们的实验中,LAMBADA 作为代表性的续写式(continuation-style)基准,用于评估全局语义建模与长程上下文连贯性。

MMLU。 MMLU [33] 是一个多任务多项选择基准,覆盖人文、社会科学、STEM 与专业领域等广泛主题,被广泛用于评估宽泛的事实性知识与推理能力。在我们的实验中,MMLU 作为代表性的知识密集型基准,用于评估在多项选择设定下生成答案的质量。

SIQA。 SIQA [82](Social IQa)是一个聚焦社会情境、意图与反应的多项选择常识推理基准。每个样例要求在给定简短社会上下文的条件下选出最合理的答案。我们用 SIQA 评估模型能否捕捉植根于社会的语义并进行连贯的常识推断。

SQuAD。 SQuAD [78] 是一个阅读理解基准,模型需基于给定段落回答问题。在我们的评测中,它以生成式设定使用,用于考察模型能否在上下文证据条件下产生准确答案。该基准以开放形式文本生成能力的测试,补充了多项选择类任务。

Story Cloze。 Story Cloze [68] 是一个故事理解基准,要求模型为四句故事上下文选择最合理的结尾,主要评估叙事连贯性、因果推理与常识理解。我们将其纳入,作为语篇级语义一致性的基准。

OBQA。 OBQA [64](OpenBookQA)是一个多项选择问答基准,旨在测试核心科学事实与更广泛常识知识的结合。许多问题需要超越直接事实回忆的多跳推理。在我们的实验中,它用于评估在受限答案空间下的知识整合与推理。

RACE。 RACE [48] 是一个大规模多项选择阅读理解基准,采集自面向初高中学生的英语考试。其问题往往需要段落理解、推断与推理,而非简单的片段抽取。我们用 RACE 评估更具挑战性的阅读理解与答案选择能力。

HellaSwag。 HellaSwag [107] 是一个面向情境常识推理与句子续写的多项选择基准,任务是在若干对抗性构造的候选中选出最合理的续写。它被广泛视为常识与语义合理性的有力测试,在此用于评估模型区分连贯续写与干扰项的能力。

本工作中的使用方式。 对于第 4.2、4.3、4.4 节的内部组件分析,出于效率与受控比较的考虑,我们在 LAMBADA、MMLU、SIQA 测试集的随机子集上开展实验。对于第 4.5 节更广泛的外部比较,我们另外在 SQuAD、Story Cloze、OBQA、RACE 与 HellaSwag 测试集上评测,以在续写、阅读理解、知识密集型推理与常识推理等任务上提供更全面的评估。

H.2基线细节

对于第 4.2、4.3、4.4 节的内部组件分析,比较均在 Cola DLM 自身的不同配置之间进行,因此这些小节不引入外部基线。外部基线主要用于第 4.5 节的规模化比较。

自回归基线。 我们以标准自回归语言模型作为主要参考基线。该模型基于官方 LLaMA 框架 [92] 实现,并以随机初始化从零训练。它采用常规的下一词元预测目标,作为代表性的强解码器-only 自回归范式。为确保公平比较,自回归基线在数据来源、分词器、训练预算、模型规模与优化配方等方面尽可能与 Cola DLM 严格对齐。

离散扩散基线(LLaDA)。 作为离散扩散基线,我们使用 LLaDA [70],以其官方代码库实现并同样从零随机初始化训练。该基线代表离散扩散语言建模范式,即在离散词元空间中通过迭代去噪进行生成。在规模化实验中,LLaDA 与自回归基线及 Cola DLM 在相同的总体实验协议下训练,包括匹配的训练数据、分词器、算力预算与模型规模,使比较聚焦于建模范式的差异,而非训练资源或实现细节的差异。

比较的公平性。 对于第 4.5 节的所有外部比较,自回归基线、LLaDA 与 Cola DLM 均在严格匹配的设定下独立训练。特别地,所有模型均从零训练而非从预训练检查点初始化,并尽可能对齐训练语料、参数规模与算力预算。因此,所报告的差异主要反映底层建模框架的性质,而非由数据、初始化或训练配方引入的优势。

H.3指标与评测

为确保跨模型族尽可能公平的比较,所有模型均在统一的少样本(few-shot)生成式协议下评测。如第 5.1 节所述,我们不以困惑度作为主比较的首要指标,因为面向似然的估计可能与 Cola DLM 的实际生成质量出现显著失配。取而代之,所有模型均被提示在固定模板下直接生成任务答案,性能则在统一的后处理与答案匹配之后计算。

在所有任务中,我们使用手工撰写、跨模型族共享且与评测集不重叠的上下文示例(in-context demonstrations)。除非另有说明,模板采用 2-shot 提示。对于多项选择任务,选项始终以大写标记(如 (A)、(B)、(C)、(D))呈现,选项数量按各基准动态调整。重要的是,模型始终被要求生成选项的文本本身而非选项标签,使所有任务遵循同一生成式评测协议。每个提示以任务相关的锚点(如 Answer:End:)结尾,且不附加额外的换行,使模型从同一续写起点直接续写。

对于所有多项选择基准,生成的输出在首个换行处截断,并在评分前归一化。随后我们将归一化的预测与所有候选选项文本比较,映射到最佳匹配候选。当且仅当所选候选与标准答案一致时,预测才被计为正确。对于 LAMBADA 这类续写式生成,模型直接续写给定前缀,并取首个生成的词作为预测。对于 SQuAD,我们遵循同一统一生成式协议,在标准归一化后评估生成的短答案。除非另有说明,模板、示例、截断规则与答案匹配规则对 AR、LLaDA 与 Cola DLM 均保持一致;唯一区别在于各模型采用的原生生成过程。

提示格式汇总。 表 7 汇总了各基准所用的提示格式。

表 7 评测中所用的统一提示格式。所有模型均以相同的提示模板与答案匹配规则进行评测。

MMLU。 MMLU 作为四选一多项选择生成任务评测。提示包含两个上下文示例,随后是测试问题及其四个候选选项,模型需生成正确选项的文本。

MMLU 提示模板
Question: Which gas do plants absorb from the air during photosynthesis?
(A) Oxygen
(B) Carbon dioxide
(C) Nitrogen
(D) Hydrogen
Answer: Carbon dioxide

Question: A triangle has angles 50 degrees and 60 degrees. What is the third angle?
(A) 60 degrees
(B) 70 degrees
(C) 80 degrees
(D) 90 degrees
Answer: 70 degrees

Question: {question}
(A) {choices[0]}
(B) {choices[1]}
(C) {choices[2]}
(D) {choices[3]}
Answer:

RACE。 RACE 同样作为四选一多项选择生成任务评测。此处数据集字段已包含文章与问题,因此完整输入置于 Article: 之后,候选选项列于其下。

RACE 提示模板
Read the following article and answer the question.

Article: Mary went to the store to buy some fruits. She bought five apples and two oranges. She
     paid 5 dollars in total. What did Mary buy?
Options:
(A) Bananas
(B) Apples and oranges
(C) Grapes
(D) Watermelon
Answer: Apples and oranges

Article: {question}
Options:
(A) {choices[0]}
(B) {choices[1]}
(C) {choices[2]}
(D) {choices[3]}
Answer:

Story Cloze。 Story Cloze 被格式化为带两个候选结尾的故事补全基准。为更贴合叙事续写的语义,提示使用 End: 而非 Answer: 作为补全锚点。

Story Cloze 提示模板
Story: I wanted to make an omelet. I cracked two eggs into a bowl and whisked them. Then I
    poured them into a hot pan.
(A) I ate a delicious omelet for breakfast.
(B) I decided to order a pizza instead.
End: I ate a delicious omelet for breakfast.

Story: The runner tied his shoes tight. He sprinted as fast as he could during the race. He
    crossed the finish line first.
(A) He was sad that he lost the race.
(B) He won the gold medal.
End: He won the gold medal.

Story: {question}
(A) {choices[0]}
(B) {choices[1]}
End:

LAMBADA。 LAMBADA 被视为开放式续写而非多项选择。由于该任务本质是给定长上下文的末词预测,我们不使用上下文示例。模型直接续写所给的段落前缀,取首个生成的词作为预测。

LAMBADA 提示模板
{question}

OBQA。 OBQA 以与 MMLU 相同的 2-shot 生成式多项选择协议评测,模型需生成正确答案选项的文本而非其标签。

OBQA 提示模板
Question: Which tool is best for tightening a screw?
(A) spoon
(B) hammer
(C) screwdriver
(D) paintbrush
Answer: screwdriver

Question: What do plants absorb from the air during photosynthesis?
(A) carbon dioxide
(B) oxygen
(C) helium
(D) salt
Answer: carbon dioxide

Question: {question}
(A) {choices[0]}
(B) {choices[1]}
(C) {choices[2]}
(D) {choices[3]}
Answer:

HellaSwag。 HellaSwag 作为四选一情境续写任务评测。我们使用 Context: 作为输入字段名,以强调模型须为给定上下文选择最合理的续写。

HellaSwag 提示模板
Context: The girl puts the bread into the toaster and pushes the lever down. The bread
(A) becomes a slice of pizza.
(B) starts to toast and turn brown.
(C) disappears immediately.
(D) turns into a glass of water.
Answer: starts to toast and turn brown.

Context: The goalkeeper sees the ball coming towards the net. He dives and
(A) catches the ball with his hands.
(B) starts dancing in the field.
(C) opens a laptop to check email.
(D) runs away from the stadium.
Answer: catches the ball with his hands.

Context: {question}
(A) {choices[0]}
(B) {choices[1]}
(C) {choices[2]}
(D) {choices[3]}
Answer:

SIQA。 SIQA 是三选一的社会常识多项选择基准。其模板在精神上与其他多项选择提示一致,唯一区别是仅呈现三个选项。

SIQA 提示模板
Question: Jordan wanted to tell a joke to his friends. What does Jordan need to do before this?
(A) ignore his friends
(B) think of a funny story
(C) leave the room
Answer: think of a funny story

Question: Kai helped his neighbor carry heavy groceries inside. How would the neighbor feel?
(A) angry
(B) grateful
(C) scared
Answer: grateful

Question: {question}
(A) {choices[0]}
(B) {choices[1]}
(C) {choices[2]}
Answer:

SQuAD。 SQuAD 在标准抽取式 QA 格式下作为短答案生成评测。提示提供一段上下文与一个问题,模型被要求直接生成答案短语。在我们的统一协议中,生成的答案在精确匹配评估前先行归一化。

SQuAD 提示模板
Context: The Normans (Norman: Nourmands; French: Normands; Latin: Normanni) were the people who
     in the 10th and 11th centuries gave their name to Normandy, a region in France. They were
    descended from Norse raiders and pirates from Denmark, Iceland and Norway.
Question: In what country is Normandy located?
Answer: France

Context: {context}
Question: {question}
Answer:

最后说明。 这些模板在 AR、LLaDA 与 Cola DLM 之间保持一致,使比较聚焦于模型族本身而非提示工程差异。在所有情形下,评测均在统一后处理之后进行,包括首个换行处截断与文本归一化,再与候选选项或参考答案匹配。

H.4设置细节

为确保公平比较,我们将 AR、LLaDA 与 Cola DLM 对齐到相同的预训练语料、分词器族、序列长度、批大小、优化器、学习率调度、硬件设置与评测协议。因此,所有方法在匹配的优化步上观测到相同数量的训练词元,使逐步比较直接有意义。我们也将核心生成骨干保持在可比规模:AR 与 LLaDA 使用约 1.8B 非嵌入 Transformer 参数,而 Cola DLM 中的 DiT 骨干同样保持在约 1.8B;其余参数差异来自连续潜空间形式所需的额外 VAE。

除表 8 与表 9 中匹配的数据、优化与模型规模设置外,我们进一步验证了三种方法在实现级别的数值一致性。如表 10 所示,所有模型均以 fp32 保存与加载检查点、以 fp32 保持运行时权重,并在 bfloat16 autocast 下执行主前向计算,而归一化、softmax 等数值敏感操作则保持 fp32。因此各方法的精度区制大体对齐。主要的实现差异在于 Cola DLM 含有额外的 VAE 编码/解码路径,这是连续潜空间建模的内在组成,而非额外的数值优势。

表 8 AR、LLaDA 与 Cola DLM 共享的受控训练与评测设置。除非方法特有的生成机制另有要求,这些设置均保持匹配。

总体而言,比较在决定预训练规模与优化难度的主要维度上受控,包括数据、分词器族、词元预算、优化器、学习率调度、硬件与评测协议。因此所观测到的差异主要反映建模范式本身,而非失配的训练资源或评测设置。

H.5为何 VAE 预训练不损害公平性

一个潜在顾虑是:Cola DLM 包含额外的 VAE 预训练阶段,而 AR 基线完全从零训练。我们因此澄清这为何不会破坏比较的公平性。

第一,预训练的 VAE 编码器本身并非 Cola DLM 的生成先验。在我们的形式化中,生成模型由解码器 \(p_\theta(x \mid z_0)\) 与潜空间先验 \(p_\psi(z_0)\) 定义,而 \(q_\phi(z_0 \mid x)\) 仅用于训练期间的变分推断与潜变量构造。在推断时,新的回复内容由 DiT 先验逐块生成,再解码为文本。因此,额外的 VAE 阶段应理解为学习一个稳定的"文本–潜空间"接口,而非预训练一个额外的文本生成器。

第二,整体比较已在决定预训练规模与优化难度的主要维度上受控。AR、LLaDA 与 Cola DLM 对齐于相同的训练语料、分词器族、序列长度、批大小、优化器、学习率调度、硬件设置与评测协议。我们也将核心生成骨干保持在可比区制:AR 与 LLaDA 使用约 1.8B 非嵌入 Transformer 参数,而 Cola DLM 使用约 1.8B 的 DiT 先验;其余参数差异来自连续潜空间形式所需的额外 VAE。因此,比较仍以实际生成骨干为中心,而非失配的训练资源。

第三,图 15 从表示空间稳定化的角度提供了经验视角。在 AR 模型中,上下文隐藏状态与全局输入嵌入在训练初期都呈现较大漂移,但很快进入稳定区制:步间漂移在早期之后变小,与首个检查点的距离也逐渐饱和。预训练的 VAE 编码器则呈现更为明确的稳定化模式:其步间漂移迅速下降并随后近乎平坦,与早期检查点的距离在初始阶段后变化极小。这表明在两个模型族中,表示空间都相对较早地变得大体稳定;一旦如此,主导的学习负担便不再是表示构造本身,而是在该空间之上对生成动态的建模。

表 9 模型容量与架构比较。核心生成骨干在各方法间保持于可比区制;Cola DLM 为连续潜空间建模引入额外的 VAE 模块。

这一观察对于解读公平性十分重要。AR 模型也将相当一部分训练用于形成并稳定其嵌入与隐藏状态几何。Cola DLM 通过 VAE 预训练将该步骤显式化,但这并不意味着它获得了隐藏的预训练生成优势。相反,它将表示稳定化移入一个独立且模块化的阶段,此后主要的文本建模负担仍落在 DiT 先验与条件解码器上。从这个意义上说,VAE 预训练主要是对表示学习的摊销,而非取代学习实际生成机制的需要。

此外,图 3 的结果已表明,仅凭预训练编码器无法解释最终增益。尽管 Fix VAE 在较小算力预算下可具竞争力,但它更早饱和,而 Joint DiT x1 展现出最强的整体规模化趋势。若优势主要来自预训练编码器本身,则固定空间变体本应保持主导。相反,经验模式表明关键因素是后续的先验学习与同 DiT 的协同适配,而非单独的冻结预训练表示。

总体而言,我们将额外的 VAE 阶段视为连续潜空间建模所需的、方法特有的表示构造成本,在精神上类似于 AR 模型在训练中也必须经历的早期嵌入空间形成。一旦表示空间稳定,比较便仍聚焦于匹配数据、优化与评测设置下的生成骨干。因此,所观测到的性能差异更恰当地归因于建模范式本身,而非 VAE 预训练带来的优势。

H.6固定与演化潜空间的补充结果

如图 16 所示,我们在更强的设定下进一步比较连续联合演化与间隔训练(Interval),其中 Interval 变体同样从预训练 VAE 初始化。因此该设定应解读为:在稳定初始化之后隔离"连续 vs. 间歇潜空间更新"的效应,而非初始化质量本身的效应。即便在这一更强设置下,Joint DiT x1 在 Task Average、LAMBADA、MMLU 与 SIQA 上仍一致优于 Interval。这表明连续潜空间演化的优势并非仅来自更好的起点。相反,一旦建立了有意义的潜空间,潜表示仍更受益于与 DiT 的持续协同演化,而周期性冻结往往会打断演化潜空间与 DiT 先验之间的相互适配。该结果也进一步验证了第 3.3.2 节式 (3.35) 中的最后一个条件,并为 Cola DLM 的潜在优势提供了有力支持。

表 10 AR、LLaDA 与 Cola DLM 在实现级别的数值设置比较。我们验证三种方法采用紧密对齐的检查点精度、运行时 autocast 策略与数值敏感操作。
图 15 AR 训练与预训练 VAE 编码的表示空间稳定性。尽管 AR 模型从零学习其嵌入与隐藏状态几何、VAE 编码器从预训练状态出发,两种表示都在训练早期迅速稳定。AR 的步间漂移快速下降并很快进入稳定区制,而 VAE 编码器在整个 DiT 训练过程中近乎平坦。这表明表示空间的形成在两种情形下大体都是早期效应,对后期生成性能的影响有限;主要的生成负担因此仍落在后续骨干建模,而非嵌入或潜空间本身的持续变化。

H.7VAE LogSNR 公式

对于 VAE 编码器后验

\[ q_\phi(z \mid x) = \mathcal{N}\!\left(\mu_\phi(x),\, \diag\!\left(\sigma_\phi^2(x)\right)\right), \tag{H.1} \]

我们将 VAE logSNR 定义为后验均值所携带的信号功率与后验方差所携带的噪声功率之间的对数比:

\[ \mathrm{logSNR}_{\mathrm{vae}} = \log \frac{\mathbb{E}_{x,i}\!\left[\mu_{\phi,i}(x)^2\right]}{\mathbb{E}_{x,i}\!\left[\sigma_{\phi,i}(x)^2\right]}, \tag{H.2} \]

其中 \(i\) 索引所有潜空间坐标(含词元/空间位置与通道),期望对数据分布与潜维取。实践中,我们在数据集或小批上经验估计:

\[ \widehat{\mathrm{logSNR}}_{\mathrm{vae}} = \log \frac{\frac{1}{N}\sum_{n=1}^{N}\frac{1}{D}\sum_{i=1}^{D}\mu_{n,i}^2}{\frac{1}{N}\sum_{n=1}^{N}\frac{1}{D}\sum_{i=1}^{D}\sigma_{n,i}^2}, \tag{H.3} \]

其中 \(N\) 为样本数,\(D\) 为每个样本的潜空间坐标数。若编码器预测对数方差,则计算

\[ \sigma_{n,i}^2 = \exp\!\left(\log \sigma_{n,i}^2\right). \tag{H.4} \]

较大的 VAE logSNR 表明后验均值主导后验不确定性,对应更干净、更确定的潜表示。本文中凡提及 VAE logSNR,特指式 (H.2) 所定义的量。

H.8噪声调度时间步平移可视化

如图 17 所示,我们可视化了不同时间步平移设置所诱导的时间步采样分布。与均匀调度相比,LogitNormal 调度对去噪轨迹的不同部分施加非均匀强调:增大 \(\mu\) 将分布推向更晚的时间步,而 \(\sigma\) 控制采样质量的集中或分散程度。从正文的视角看,这意味着时间步平移实质上改变了训练中更频繁强调哪一语义信息区制,而非仅仅调整一个孤立的数值超参数。

H.9时间步平移公式

我们通过以归一化时间步上的 LogitNormal 分布替代均匀时间步采样来实现时间步平移。具体地,令

\[ u \sim \mathcal{N}(\mu, \sigma^2), \tag{H.5} \]

并经由 logistic 函数映射到单位区间:

\[ s = \mathrm{sigmoid}(u) = \frac{1}{1 + e^{-u}}, \qquad s \in (0, 1). \tag{H.6} \]

连续时间步随后定义为

\[ t = T \cdot s = T \cdot \mathrm{sigmoid}(u), \tag{H.7} \]

其中 \(T\) 为最大扩散时间步。实践中,将 \(t\) 舍入或向下取整到有效时间步网格即得离散训练时间步。等价地,归一化时间步 \(s = t/T\) 服从 LogitNormal 分布:

\[ s \sim \mathrm{LogitNormal}(\mu, \sigma^2). \tag{H.8} \]
图 16 在预训练 VAE 初始化下,连续协同演化优于间隔更新。在 Task Average、LAMBADA、MMLU 与 SIQA 上,Joint DiT x1 仍展现出比 Interval 更强的整体趋势与更好的最终性能;这表明即便有稳定的预训练 VAE 初始化,潜空间也更受益于与 DiT 的持续协同演化,而非周期性冻结。

其概率密度函数为

\[ p(s; \mu, \sigma) = \frac{1}{\sigma\sqrt{2\pi}}\,\frac{1}{s(1-s)}\,\exp\!\left(-\frac{\left(\log\frac{s}{1-s} - \mu\right)^2}{2\sigma^2}\right), \qquad s \in (0,1). \tag{H.9} \]

重标度到时间步域 \(t \in (0, T)\) 后,对应密度变为

\[ p(t; \mu, \sigma) = \frac{1}{T}\, p\!\left(\frac{t}{T}; \mu, \sigma\right). \tag{H.10} \]

在该参数化下,\(\mu\) 主要控制采样质量的位置:较大的 \(\mu\) 将概率推向更晚的时间步。相对地,\(\sigma\) 控制分布的展宽:较小的 \(\sigma\) 产生更尖锐的集中,较大的 \(\sigma\) 则产生更分散的调度。因此,时间步平移直接改变训练中所采样 logSNR 区制的分布,而不仅仅是对时间步索引作数值上的重加权。

图 17 不同时间步平移设置所诱导的时间步采样分布可视化。与均匀调度相比,LogitNormal 调度通过 \(\mu\) 与 \(\sigma\) 非均匀地强调去噪轨迹的不同部分,从而改变训练中所采样的 logSNR 区制分布。

I讨论

I.1理解首个生成块中的条件化策略

本小节解释表 5 中所比较的条件化策略,并进一步从 Cola DLM 中条件流匹配(conditional Flow Matching)的视角加以分析。关键问题出现在首个生成块(first generation block):此时模型同时看到一个已知的提示区域与一个待生成的未知区域。换言之,该块的输入是混合的——其中一部分应作为条件被保留,其余部分则应由模型补全。表 5 中的方法恰恰在如何处理这一混合去噪过程上有所不同。

首个块为何特殊。 后续生成块是纯生成性的:块内所有潜变量都未知,由去噪产生。首个生成块则不同,因为它紧接在前缀提示之后。结果是,该块中的某些位置已由提示确定,而其余位置尚未确定。因此,一个好的条件化策略应同时实现两个目标:可靠地保留已知区域,并允许未知区域从被保留的上下文中连贯地生长。

从 Cola DLM 的视角看,这一区分尤为重要,因为先验是通过条件流逐块学习的:

\[ p_\psi(z_0) = p_\psi\!\left(z_0^{(1)}\right) \prod_{b=2}^{B} p_\psi\!\left(z_0^{(b)} \mid z_0^{(<b)}\right), \]

而相应的条件流匹配目标学习如下形式的向量场:

\[ v_\psi\!\left(z_t^{(b)},\, t;\, z_0^{(<b)}\right). \]

也就是说,当前含噪块是在干净的历史潜变量条件下被预测的。在推断时,生成遵循同一因子分解:在干净的前缀与历史潜变量条件下输运一个噪声种子。因此,首个生成块中已知区域在数学上自然的角色并非去噪目标,而是固定条件。

首个生成块的分解。 为使这一点更明确,将首个生成块分解为

\[ z^{(1)} = (z_K,\, z_U), \]

其中 \(z_K\) 表示由前缀确定的已知区域,\(z_U\) 表示待生成的未知区域。在理想形式下,首个生成块的任务应理解为

\[ \text{在固定条件 } (z_{\mathrm{pre}},\, z_K) \text{ 下生成 } z_U, \]

而非联合地重新估计 \(z_K\) 与 \(z_U\)。等价地,所期望的条件先验更接近于

\[ p_\psi(z_U \mid z_{\mathrm{pre}},\, z_K), \]

其中已知部分充当稳定的边界条件,仅未知部分由流输运。

部分重绘(Partial repaint)。 表 5 中的第一族方法是部分重绘。这类方法反复回到早期去噪步,仅在轨迹的一部分中向已知区域重新注入引导。参数 \(t\) 控制每个早期去噪步内使用多少次重绘循环:例如 \(t=1\) 表示每步执行一次,而 \(t=3\) 表示模型在前进之前多次去噪、再加噪、再去噪。参数 \(m\) 控制已知区域被引导的时长:当 \(m=1.0\) 时,引导施加于首个块的整条去噪轨迹;当 \(m=0.7\) 或 \(m=0.3\) 时,模型仅在轨迹较早的部分接受此类引导,其余部分则任其更自由地演化。

关键在于,部分重绘并不将已知区域保持得完全固定。相反,它在轨迹的一部分中以时间步匹配的含噪代理替换已知区域,仅在选定的去噪步将该区域轻推回目标。这使该策略更柔和、更灵活,但作为条件化机制也从根本上更弱。

部分重绘的简单示例。 考虑一个含四次去噪转移的首个生成块。若采用 \(t=3\)、\(m=0.5\) 的部分重绘,则仅轨迹的前半部分对已知区域接受显式引导,而这些早期步各被回访三次。直观地,模型反复尝试校正早期转移,但一旦进入轨迹后半部分,已知区域便不再被显式强化。最终结果因此取决于那些早期校正是否足够强,以使条件结构保持稳定。

干净条件重绘(Clean condition repaint)。 表 5 中标记为 Clean cond. 的方法采取了强得多的途径。它不只提供部分或含噪的引导,而是在首个块的整个去噪过程中,将已知区域直接对齐到干净条件。实际上,模型始终看到提示条件部分的精确且稳定的版本,仅允许未知区域变化。

该策略比部分重绘保守得多。它减少混合区域中的歧义,使首个块的角色非常清晰:精确保留提示条件部分,并围绕它生成其余部分。当已知与未知位置之间的边界在语义上重要时,这尤为有用。

干净条件化的简单示例。 假设块中前几个位置对应提示内容,其余位置必须生成。在干净条件重绘下,无论采取多少去噪步,提示一侧始终保持固定。因此模型无需重新发现或重新估计该部分,其全部努力集中于使未知一侧与稳定上下文兼容。这比在漂移噪声下同时保留已知一侧并生成未知一侧要容易得多。

左填充与右填充。 最后两种方法 Left pad. 与 Right pad. 应理解为基于布局的替代方案,而非基于重绘的条件化策略。它们改变已知条件相对于待生成区域的放置位置,但并不像基于重绘的方法那样在去噪期间显式施加条件。

它们在表中的作用有助于解读:若仅靠填充就已足够,那么简单的位置安排就应已能匹敌显式条件化的性能;若不然,则增益必定来自条件化机制本身,而非仅来自布局。

为何干净条件化效果最好——流匹配视角。 干净条件重绘的优势不仅在于它提供"更强的引导"。更根本地,它是所比较策略中唯一保留了 Cola DLM 原始条件语义的策略。在标准流匹配形式下,记目标条件速度为 \(u_t\),并设最优向量场为条件期望

\[ v^*(z_t, t; c) = \mathbb{E}[u_t \mid z_t, t, c], \]

其中 \(c\) 表示条件信息。对首个生成块,理想条件为

\[ c = (z_{\mathrm{pre}},\, z_K), \]

即干净前缀潜变量连同首个块内的干净已知区域。在干净条件重绘下,模型实质上在恰好这一条件下求解输运问题。在未知区域,这可视为如下形式的条件速度回归:

\[ v^*_{\mathrm{clean}}(z_{U,t}, t; z_{\mathrm{pre}}, z_K) = \mathbb{E}\!\left[u^U_t \mid z_{U,t}, t, z_{\mathrm{pre}}, z_K\right]. \]

尽管实现上仍预测整个当前块的向量场,但真正重要的不确定性集中在未知区域,而已知区域充当固定边界条件。这正是模型被设计来利用的角色分解。

为何部分重绘在数学上更难。 部分重绘以关键方式改变了该问题。它不以真实干净的已知区域 \(z_K\) 为条件,而是仅在轨迹的一部分中提供一个退化且时变的代理 \(\tilde{z}_{K,t}\)。有效条件变为

\[ \tilde{c}_t = (z_{\mathrm{pre}},\, \tilde{z}_{K,t}), \]

相应的最优回归目标变为

\[ v^*_{\mathrm{partial}}(z_{U,t}, t; z_{\mathrm{pre}}, \tilde{z}_{K,t}) = \mathbb{E}\!\left[u^U_t \mid z_{U,t}, t, z_{\mathrm{pre}}, \tilde{z}_{K,t}\right]. \]

这通常是更困难的回归问题。由于 \(\tilde{z}_{K,t}\) 只是真实条件的含噪代理,同一 \((z_{U,t}, t, \tilde{z}_{K,t})\) 可能对应更广的兼容干净目标集合。结果是,目标速度的条件方差更大。就贝叶斯风险而言,可比较

\[ R(c) = \mathbb{E}\!\left[\operatorname{Var}(u^U_t \mid z_{U,t}, t, c)\right], \qquad R(\tilde{c}_t) = \mathbb{E}\!\left[\operatorname{Var}(u^U_t \mid z_{U,t}, t, \tilde{c}_t)\right]. \]

由于 \(\tilde{c}_t\) 是 \(c\) 的更弱、更含噪的版本,第二个量通常更大。因此,部分重绘增加了条件速度回归本身的不可约不确定性。从流匹配视角看,其弱点不仅在于引导更柔和,更在于它将一个干净的条件输运问题变成了更含噪的混合恢复问题。

部分重绘中的条件角色错配。 还存在结构性错配。在 Cola DLM 中,流路径用于先验输运,而非观测恢复。历史条件本应是稳定的锚点,而当前含噪块才是被输运的对象。部分重绘违背了这一分离,将已知区域从条件转变为部分去噪的状态变量。换言之,它将任务从

\[ \text{在固定条件下输运未知部分} \]

改变为

\[ \text{联合地维护一个含噪的已知部分并输运未知部分。} \]

这种角色混淆在首个生成块中尤为有害,因为已知与未知区域在同一块内紧密耦合。一旦已知一侧漂移,未知一侧便不再从稳定的语义锚点生长。

为何误差沿流轨迹累积。 部分重绘的弱点被基于流的生成的连续性进一步放大。设干净条件下的理想向量场为 \(v^*(z, t; c)\),部分重绘所诱导的场为

\[ \tilde{v}(z, t) = v^*(z, t; c) + \delta(z, t), \]

其中 \(\delta\) 表示条件诱导的偏置。由于推断通过沿 ODE 轨迹积分所学向量场来输运潜变量,该偏置会随时间累积。在标准稳定性假设下,轨迹误差满足如下形式的界:

\[ \left\|\hat{z}_t - z_t^*\right\| \le e^{Lt} \int_0^t \left\|\delta(z_s, s)\right\| \, \mathrm{d}s, \]

其中 \(L\) 为向量场的 Lipschitz 常数。这一表达式使部分重绘的弱点尤为清晰。第一,减小 \(m\) 会使性能变差,因为显式引导仅覆盖轨迹较早的部分;一旦移除引导,后段便在失配条件下演化,故所诱导的偏置在无引导区间持续累积。第二,将 \(t\) 从 1 增至 3 并不带来稳定增益,因为早期阶段的重复校正无法消除后期阶段的结构性错配。换言之,重绘可反复修复局部的早期转移,却无法将一个瞬时条件变为持久条件。

为何首个块比后续块更敏感。 强差距的另一原因在于,首个生成块并非纯未知块。已知与未知区域在同一块内共存并交互。因此,已知区域中的任何不稳定都会通过块内交互立即传递给未知区域。在潜空间中,这一效应更强,因为已知区域充当语义锚点而非仅是词元级提示。若该锚点保持干净,模型只需将未知部分拟合到稳定上下文;若该锚点变得含噪并随时间漂移,模型就必须同时推断边界条件并生成补全,这是一个根本上更难的问题。

为何填充优于部分重绘却仍逊于干净条件化。 左/右填充不显式地对已知区域重新加噪,因此避免了部分重绘最有害的失效模式。这正是它们常强于多数部分重绘设置的原因。然而,仅靠填充仍不能在整个去噪过程中提供完全稳定的条件化机制:它改变位置布局,但不像干净条件重绘那样将已知区域锁定为精确条件。此外,填充还可能使块因果(block-causal)注意力模式更复杂——通过重塑已知与未知区域之间的相对排布,它可能为模型在去噪时引入不那么自然或不那么对齐的依赖结构。因此,填充可以有所帮助,但无法匹敌显式保留稳定条件的收益。

贯穿所有方法的统一直觉。 表 5 中所有方法都在求解同一问题:首个生成块既含一个应忠于提示的部分,又含一个应被新生成的部分。差异在于已知区域被保护的强度。部分重绘仅临时且近似地保护它;干净条件重绘强而持续地保护它;左右填充在去噪期间不显式保护它,而是寄望于有利的布局使交互对模型更容易。

如何解读表 5。 结果显示出非常清晰的模式:干净条件重绘在全部三项任务上一致表现最佳。这表明,对首个块中的混合去噪问题,强而持久的条件化远比柔和的部分校正有效。相对地,减小部分重绘中的 \(m\) 通常损害性能,说明缩短轨迹的受引导部分会使已知区域更难保留。将重绘循环从 \(t=1\) 增至 \(t=3\) 也未产生稳定增益,说明反复回访早期去噪步本身无法补偿弱条件化。

另一个有用的观察是,左右填充常强于部分重绘,但仍明显低于干净条件重绘。这表明位置安排确实重要,却非主因。特别地,尽管填充可能通过改变布局缓解部分干扰,它也可能使块因果注意力结构不那么干净、更难优化。主导优势仍来自在整个去噪过程中于已知区域显式维持一个稳定条件。

实践要点。 首个生成块并非后续生成块的缩小版,而是一个条件化与生成必须共存的特殊混合区域。从条件流匹配的视角看,关键挑战是将已知区域保留为稳定条件,同时仅输运未知区域。实验表明,该区制最受益于对已知条件强而显式的保留。在实践中,这恰是干净条件重绘所提供的,从而解释了为何它在表 5 中一致地是最强策略。

I.2图像模态下统一方法的更多结果

在本节中,我们呈现更多展示跨模态生成的样本,覆盖不同的输入与输出模态。值得强调的是,所有文本与图像输出均由单一统一模型产生。所有任务均从零预训练,模型在多种任务类型上联合训练,并在不同训练阶段调整各类数据的相对比例。尽管模型仅以非常有限的数据训练,所得样本已展现出可观的质量,表明 Cola DLM 在多模态理解与生成方面具有相当大的潜力。

I.2.1文本到文本

本小节呈现文本到文本生成的示例。如样本所示,尽管模型总共仅以约 1B 文本词元训练,生成文本总体上连贯流畅。

图 18 更多文本到文本示例。我们展示来自初步统一原型的更多定性续写结果,涵盖对话式、叙事式、说明式、技术性与文章式文本,说明统一的潜空间先验形式能够在异质文本风格间支持连贯续写。

I.2.2文本到图像

本小节进一步评估模型执行文本到图像生成的能力。以下样本由统一原型从描述性自然语言提示生成,覆盖开阔风景、室内场景、餐饮场景、花卉特写、滨水、山景与建筑等多种构图。

图 19 文本到图像示例(第一部分)。由统一原型从描述性自然语言提示生成的定性样本,涵盖开阔风景、室内、餐饮场景与花卉特写。
图 20 文本到图像示例(第二部分)。涵盖滨水、花卉、山景与建筑提示的更多样本,并附一幅人物肖像构图。
图 21 文本到图像示例(第三部分)。涵盖田园、插画风、产品风与湖畔提示的更多样本,展示模型可合成的构图广度。
图 22 文本到图像示例(第四部分)。涵盖旅行、食物、城市天气与雕塑提示的更多样本,展示模型对多样光照与纹理的处理。
图 23 文本到图像示例(第五部分)。涵盖烹饪、花卉与旅行提示的更多样本,并附一幅插画风单色风景。
图 24 文本到图像示例(第六部分)。以人物肖像为主的样本,涵盖夜景、城市背景、风格化插画与影棚风群像构图。
图 25 文本到图像示例(第七部分)。涵盖庆祝餐饮、动物与户外自拍提示的最后一组样本,完成对统一模型文本到图像生成能力的定性巡览。

I.2.3图像 × 文本到文本

本小节呈现"图像与文本到文本"生成的示例。输出总体流畅,且与输入在语义上对齐。值得注意的是,在一个仅接受过有限文本生成与图像生成训练的模型之上,我们进一步仅用约 5M 图文对训练,此后模型便已展现出初步的看图描述(captioning)能力。这表明 Cola DLM 能在有限的多模态监督下高效获取跨模态理解与生成能力。我们也指出,本小节所示的全部图像均由外部图像生成模型从真值描述(ground-truth captions)生成,因此不涉及与真实图像相关的版权问题。

图 26 图像×文本到文本示例(第一部分)。在提示模板"详细描述此图像内容"下的更多定性结果。
图 27 图像×文本到文本示例(第二部分)。在详细描述性提示下,涵盖室内场景、城市景观与以文档为主的图像的更多定性结果。
图 28 图像×文本到文本示例(第三部分)。在更开放的解释性提示下,涵盖物体、人物肖像、户外场景与风景的更多定性结果。
图 29 图像×文本到文本示例(第四部分)。涵盖以人物为中心、以物体为中心及插画风输入的更多定性结果。
图 30 图像×文本到文本示例(第五部分)。涵盖服饰、配饰、车辆、建筑与风景人物肖像的更多定性结果。
图 31 图像×文本到文本示例(第六部分)。涵盖运动、服饰、肖像与体育场场景的更多定性结果,含看图生成描述的提示。