扩散语言模型综述
A Survey on Diffusion Language Models

Tianyi Li、Mingda Chen、Bowei Guo、Zhiqiang Shen

穆罕默德·本·扎耶德人工智能大学(MBZUAI)VILA 实验室;Mingda Chen 同时隶属于清华大学自动化系。

项目 GitHub:github.com/VILA-Lab/Awesome-DLMs
arXiv:2508.10875v3 [cs.CL],2026 年 6 月 4 日。中文译文,图表均来自原文。

摘要

扩散语言模型(Diffusion Language Models,DLMs)正迅速崛起,成为占主导地位的自回归(autoregressive,AR)范式之外一种强大且富有前景的替代方案。通过迭代去噪过程并行地生成多个 token,DLMs 在降低推理延迟、捕捉双向上下文方面具有天然优势,从而实现对生成过程的细粒度控制。在取得数倍加速的同时,近期的进展已使 DLMs 展现出与自回归模型相当的性能,使其在各类自然语言处理任务中成为颇具竞争力的选择。尽管 DLMs 日益普及,但仍存在亟待深入探索的挑战与机遇,需要对其原理、技术与局限进行细致而系统的理解。在本综述中,我们对当前 DLM 的全貌进行了整体性梳理:追溯其演化历程及其与自回归模型、掩码语言模型等范式之间的关系,并涵盖基础原理与最先进模型。本文的另一贡献是给出了一套及时、全面的分类体系,并对从预训练策略到先进后训练方法的各类技术进行了深入分析。我们还系统回顾了 DLM 的推理策略与优化手段,包括解码并行性、缓存机制与生成质量方面的改进。此外,我们梳理了 DLM 在多模态扩展上的最新进展,并阐述其在各类实际场景中的应用。最后,我们讨论了 DLM 在效率、长序列处理与基础设施等方面的局限与挑战,并勾勒出可持续推动这一快速演进领域的未来研究方向。

关键词:扩散语言模型、大语言模型、扩散模型、扩散大语言模型、语言建模、多模态语言模型

1 引言

近年来通向通用人工智能(AGI)的进展,在很大程度上由自回归大语言模型(LLMs)的兴起,以及用于图像与视频生成的扩散模型所推动。这些模型在跨多种模态的理解与生成方面展现出惊人的能力,达到了此前难以想象的性能水平。这些模型空前的规模——体现在庞大的参数量、海量数据、巨大的训练投入以及推理时可观的算力需求上——将 AI 推向新的高度,使其具备了广博的通用知识,以及对语言与现实世界的深刻理解。

GPT 系列的崛起,尤其是 ChatGPT 的公开发布,使自回归(AR)语言模型在自然语言处理中占据了主导地位。通过使用因果注意力(causal attention)与教师强制(teacher forcing)来训练模型预测下一个 token,AR 模型可以有效地扩展到大规模数据集与模型规模。以逐 token 顺序方式生成文本的 AR 模型,擅长支持从简单问答到复杂推理与创意写作等广泛任务。然而,这种顺序特性给推理速度带来了重大瓶颈:每次只产生一个 token 的自回归生成过程,本质上限制了并行性,并显著约束了计算效率与吞吐量。

扩散模型是另一类极具前景的生成范式。它们通过去噪过程,学习从逐步加噪的数据版本中恢复原始数据,并通过逐步逆转这一随机腐蚀过程来生成新样本。扩散模型擅长建模复杂的数据分布,在图像与视频合成领域取得了最先进的成果。扩散建模的学术突破为训练与推理奠定了坚实的理论基础;与此同时,Stable Diffusion、Imagen、Sora 等大规模实用模型,展示了扩散范式卓越的可扩展性与泛化能力,能够仅凭简短的文本提示——往往只需几个词——生成高保真、艺术级的图像与视频。除了在建模复杂数据分布上的强大能力外,扩散模型在并行性上具有天然优势:通过迭代去噪过程,它们可以同时生成多个 token 乃至整个序列,从而有望带来更优的推理吞吐量,并更好地利用现代并行计算硬件。尽管在建模离散数据与处理动态序列长度方面仍存在挑战,扩散语言模型(DLMs)已成为在生成质量与速度之间权衡的有力替代方案。

为将扩散应用于离散的语言数据,研究者提出了若干关键思路。在早期阶段,DLM 的发展主要受到扩散模型在图像合成等连续域成功的驱动。连续 DLMs 将 token 映射到嵌入空间,并在连续空间中执行去噪,如开创性工作 Diffusion-LM 与 SED。离散 DLMs 则直接在 token 空间中定义扩散过程。早期努力如 D3PM 引入了带吸收态的结构化转移矩阵,从而实现 token 级别的腐蚀与迭代去噪。后续工作如 DiffusionBERT 集成预训练的掩码语言模型(如 BERT)以提升去噪质量,并提出了量身定制的噪声调度(如纺锤型 spindle 调度),使 token 腐蚀更好地与 token 频率对齐。这些早期模型证明了将迭代去噪应用于非自回归文本生成的可行性,提供了可控性与并行性,尽管其性能仍落后于强大的自回归基线。随着 DLM 的核心挑战逐步被解决、该范式日趋成熟,更大规模的 DLMs 相继被开发。通过从自回归模型初始化,Dream 与 DiffuLLaMA 等 7B 级模型表明,DLMs 可以从已有模型高效适配而来,同时取得有竞争力的性能。LLaDA-8B 进一步展示了从零训练 DLM 的潜力,达到了与同等规模的 LLaMA3-8B 相当的性能。多模态 DLMs,也称扩散多模态大语言模型(dMLLMs),在建模文本与图像等混合数据上也展现出潜力。构建于开源 DLM 之上的 LLaDA-V、Dimple、MMaDA 等模型,将跨模态推理与生成集成进扩散框架。同时,工业界对 DLM 的兴趣也日益高涨。Mercury 系列、Gemini Diffusion 与 Seed Diffusion 在实现每秒数千 token 推理速度的同时报告了强劲性能。这些进展彰显了 DLM 日益增长的实用性与商业潜力。我们在图 1 中给出了 DLM 的发展时间线,从代表性模型到近期进展,随后在图 2 中可视化 DLM 的研究趋势。

图 1 扩散语言模型时间线
图 1. 扩散语言模型时间线。本图突出了 DLM 发展中的关键里程碑,分为三类:连续 DLMs、离散 DLMs 与近期的多模态 DLMs。可以观察到,早期研究主要聚焦于连续 DLMs,而离散 DLMs 在近年来日益流行。

扩散语言模型在训练与推理中也带来了独特的挑战与机遇。预训练通常遵循与自回归语言模型或图像扩散模型相似的策略。为加速训练并复用既有训练成果,许多 DLMs 从预训练的自回归模型权重初始化。DLM 的有监督微调(SFT)同样与自回归模型类似:提供干净的提示数据,模型学习生成目标补全。强化学习(RL)也被用于 DLM 的后训练,以提升复杂任务上的表现。GRPO 算法的变体(如 diffu-GRPO 与 UniGRPO)相继被提出,用以在规模上增强 DLM 的推理能力与对齐。在推理阶段,研究者开发了多种策略与优化以充分发挥 DLM 的能力。连续 DLMs 可借助 ODE/SDE 求解器或其他少步生成技术来加速迭代去噪过程。由于离散 DLMs 在并行生成上面临更多挑战,专门的并行解码策略被提出,使单步可接受多个 token,从而克服"并行性诅咒"。去掩码与重掩码策略通过有选择地揭示低置信 token,进一步提升生成质量;而缓存技术则能显著降低计算量、提升两类范式的推理速度。

图 2 扩散语言模型论文趋势
图 2. 扩散语言模型论文趋势。计数基于配套 Awesome-DLMs 仓库中收集到的、带有唯一日期的 arXiv 条目。对于 2026 年,较浅的部分为基于截至 5 月中旬所收集论文的线性估计。统计数据仅供参考。

与自回归模型相比,扩散语言模型被普遍认为具有以下若干独特优势:

尽管 DLMs 近期日益流行,目前仍缺乏一篇系统覆盖整个 DLM 生态的综合性综述。本综述结构如下:第 2 节全面概述现代语言建模范式,包括自回归、掩码与基于扩散的方法;第 3 节深入讨论 DLM 的训练方法,涵盖预训练以及 SFT、RL 对齐等后续微调技术;第 4 节详述各类推理策略与优化,重点关注针对连续与离散空间模型的技术;第 5 节探讨 DLM 向多模态情境的扩展,综述 LLaDA-V、MMaDA、Dimple 等最先进模型与架构;第 6 节呈现并可视化 DLM 的性能对比;第 7 节展示 DLM 在文本、代码生成乃至计算生物学等任务中的多样应用;第 8 节阐明 DLM 的挑战与局限(包括效率、推理、智能体能力与基础设施),并展望有前景的未来研究方向。为提供整合性的概览,图 3 给出了 DLM 的分类体系。

2 扩散语言模型的范式

扩散语言模型已成为一种强大的非自回归范式,在生成质量与推理并行性之间取得平衡。受非平衡热力学原理启发,DLMs 学习逆转一个渐进加噪过程。这种迭代精炼方式允许对整个序列进行并行生成,为 AR 模型的推理瓶颈提供了潜在解法。依据扩散过程所操作的空间,DLMs 大致可分为连续与离散两类。此外,还有将自回归与扩散以多种形式结合的混合 AR-扩散模型,旨在汲取两种范式的互补优势。我们在表 1 中汇总了若干工作的模型信息,并在图 4 中对不同范式进行了比较。

图 3 扩散语言模型分类体系
图 3. 扩散语言模型的分类体系,涵盖基础、训练与推理策略及关键应用。其中标注的小节编号(§)对应本综述中的章节。分类包括:范式(§2,含连续空间模型、离散空间模型、混合 DLMs)、训练策略(§3,含预训练与后训练)、推理与优化(§4,含并行解码、去掩码/重掩码、引导、效率技术)、多模态与应用(§5、§7,含多模态 DLMs、常规 NLP 任务、代码生成、计算生物学、机器人)。

2.1 现代语言建模预备知识

语言建模领域历经多个不同范式,每个范式都有独特的架构选择、训练目标与相应的权衡。在本小节中,我们简要概述近年来大规模的、基于 Transformer 的范式,突出其核心原理、数学表述与代表性模型。由于本文聚焦于现代大规模设计,更早的方法不在讨论之列。本回顾旨在为理解 DLM 作为一种弥补先前方法关键局限的、新颖且有前景的替代方案的出现,奠定概念基础。

2.1.1 掩码语言模型(MLMs)

由 BERT 推广的掩码语言模型(MLMs)代表了一种基础范式,它使用基于 Transformer 的纯编码器(encoder-only)架构来扩展预训练语言模型。MLMs 概念简洁却经验上强大,通过预测输入序列中被随机掩码的 token,利用前文与后文双向上下文来学习上下文化表示。该方法遵循去噪自编码框架:一部分输入 token 被掩码,模型被训练去重建它们:

其中 表示输入序列, 是被掩码位置的集合, 表示可见(未掩码)上下文。BERT 还引入了下一句预测(NSP)目标以建模句间关系:

其中 为一对文本片段, 表示 在原文中是否紧随 。BERT 在情感分析、命名实体识别、问答等语言理解任务上的成效,启发了众多改进变体。例如,RoBERTa 移除了 NSP 目标并采用更激进的训练策略;ALBERT 引入参数共享与矩阵分解以提升效率;DeBERTa 则以解耦注意力(disentangled attention)与改进的掩码 token 预测解码机制进一步增强上下文编码。尽管 MLMs 在理解任务上颇具优势,但它们并非天生为生成任务而设计——生成文本需要专门的微调策略或解码方案,若不进行重大的架构改造,便难以胜任开放式生成。

2.1.2 自回归语言模型(AR LMs)

以 GPT 系列与 Transformer-XL 为代表、并被后续众多 LLMs 进一步推进的自回归语言模型,已成为现代生成式 AI 的支柱,其特征是单向、从左到右的 token 生成过程。与双向模型不同,自回归 LM 将文本序列的联合概率分解为条件概率之积:

给定 token 序列 ,训练目标是在该分解下最大化序列的对数似然:

这通常使用纯解码器(decoder-only)Transformer 架构实现,训练时采用因果注意力掩码与教师强制,确保每个 token 的预测仅以其前序 token 为条件,同时允许并行计算损失。这种顺序生成的表述既是优势也是局限。一方面,它与文本生成任务相契合,便于直接采样,天然适配多种应用;另一方面,它对推理速度构成根本性瓶颈,因为 token 生成本质上是顺序的、无法并行。这种在生成质量与延迟之间的权衡,已成为推进 AR 模型的核心挑战。除标准的下一 token 预测(NTP)外,近期研究探索了多 token 预测(MTP),通过每步生成多个 token 来加速推理。这些努力与 DLM 所采用的并行解码策略在概念上有相通之处,另有一些工作则直接受扩散过程启发来对齐 LLM。

2.1.3 其他范式

序列到序列模型(Seq2Seq)。序列到序列模型是一种早期却强大的范式,建立在编码器-解码器架构之上,是机器翻译、摘要等条件文本生成任务的通用框架。T5、BART 等现代模型即为典型代表。在该架构中,编码器处理源序列以产生中间表示,解码器随后据此生成目标序列,通常以自回归方式进行。尽管标准 Seq2Seq 解码器是自回归的,但该框架本身高度灵活。许多 DLMs(如 DiffuSeq 与 SeqDiffuSeq)通过将自回归解码器替换为非自回归的扩散解码器来改造这一架构,利用编码器强大的条件化能力来引导生成中的去噪过程。

置换语言模型(PLM)。以 XLNet 为代表的置换语言模型(PLM)提供了在生成框架内融入双向上下文的另一思路。PLMs 被训练以预测序列中的 token,但采用随机置换的顺序而非固定的从左到右顺序。其目标是在所有可能的分解顺序置换上最大化期望对数似然:

其中 表示长度为 的序列的所有置换集合, 分别指给定置换 中的第 个与前 个元素。该表述使模型能为每个 token 捕捉双向上下文,将双向上下文(类似 MLM)的优势与连贯的自回归生成过程相结合。这与 DLMs 形成对照——后者通过并行的迭代精炼过程来实现双向性。

2.2 连续扩散语言模型

连续空间 DLMs 首先将离散 token 映射到连续嵌入空间,随后用扩散过程在该连续空间中建模数据分布。一般而言,扩散模型通过学习逆转一个预定义的、逐步将数据变为噪声的腐蚀过程来定义生成过程。该过程由前向(加噪)过程与反向(去噪)过程组成。前向过程通过固定的马尔可夫链,在 个时间步内将数据样本 逐渐变为噪声:

其中 定义噪声调度。在 DDPM、Rectified Flow 等许多实现中,每个时间步的边缘分布具有闭式表达:

其中 是时间 的确定性函数。反向过程学习逆转腐蚀,从噪声 出发逐步去噪,恢复接近 的样本。它由神经网络 (通常实现为 Transformer)参数化,用以预测与前向过程相关的目标量 (如干净数据、噪声或速度)。一个常见的训练目标形式为:

其中 由前向过程在给定 时采样得到, 为由 导出的相应回归目标。训练完成后,生成从噪声 出发,对学习到的反向过程进行采样。在每个时间步 ,模型定义条件分布 来逼近真实反向转移 。迭代地从这些学习到的条件分布采样,可产生逐渐更干净的潜在状态,直至恢复出原始数据 的估计。在生成出去噪后的嵌入 后,需要一个取整(rounding)步骤将其映射回离散 token——这通常通过在嵌入空间中进行最近邻搜索、使用解码头或阈值化技术来完成。

Diffusion-LM 首次在嵌入空间引入扩散过程,构建了一个非自回归的语言生成模型;它借助类似图像扩散中的分类器引导机制,实现了高度可控的文本生成与填空。LDEBM 在变分学习框架中提出潜空间能量模型(EBM)与扩散模型的新颖共生,以解决能量先验的学习难题,并聚焦于可解释的文本建模。LATENTOPS 提出一个用于可组合文本操作的高效框架,在紧凑的潜空间中工作;它引入基于常微分方程(ODE)的高效采样器,在任意可插拔控制算子引导下生成潜向量,再解码为目标文本。随后,DiffuSeq 作为面向序列到序列任务的无分类器 DLM 被提出,它在前向过程中仅腐蚀目标序列的嵌入,以实现强健而多样的条件文本生成。自条件嵌入扩散(SED)框架直接在固定的连续 token 嵌入空间上进行扩散,通过引入自条件机制,在条件与无条件文本生成上均取得了媲美标准自回归模型的强劲表现。CDCD 将连续扩散应用于类别型数据,把 token 嵌入到连续空间;它提出"得分插值"(score interpolation),使模型可用交叉熵损失训练,并提出"时间扭曲"(time warping)这一自适应策略以在训练中高效调度噪声水平。为应对嵌入空间中的优化难题,Difformer 引入锚点损失(anchor loss)防止嵌入坍缩,并提出噪声再缩放框架以缓解模型退化。LD4LG 利用预训练语言模型作为强大的自编码器,构造紧凑的潜空间,再在其中训练连续扩散模型以实现高质量文本生成。GENIE 提出面向扩散语言模型的大规模预训练框架,引入新颖的"连续段落去噪"目标,通过重建被腐蚀的文本段落来有效地从大规模语料中学习。InfoDiffusion 引入信息熵感知的噪声调度,引导模型走向更接近人类、"先生成关键信息"的过程,优先生成核心内容。EDDPMs 通过用参数化的编码器-解码器推广扩散过程,将生成、重建与表示统一起来,在单一框架内实现各组件的稳定联合训练。SMOOTHIE 提出一种新颖的扩散过程,依据语义相似性逐步平滑 token 嵌入,融合了连续潜空间与离散 token 处理的优点。

连续扩散过程也可在 logit 空间而非嵌入空间中表述。TESS 引入一个完全非自回归的框架,在 token 的 -logit 单纯形(simplex)表示上进行扩散,并采用为该设定量身定制的新颖自条件机制。在此基础上,TESS 2 通过一套扩散专用的预训练配方与指令微调,将预训练的大型自回归模型改造为通用扩散语言模型,从而扩展该方法并赋予其强大的指令遵循能力。近期工作以更显式的表示、传输路径与解码接口选择重新审视连续空间 DLMs。LangFlow 借助 Bregman 散度将嵌入空间 DLMs 与流匹配(Flow Matching)联系起来,研究基于连续流的语言建模,配以基于 ODE 的似然界、信息均匀的噪声调度与自条件机制。ELF 将语言建模表述为嵌入空间中的连续时间流匹配,使去噪轨迹保持连续,直至最终映射回离散 token。Cola-DLM 则采用层次化潜变量表述:文本 VAE 将文本映射为连续潜变量,块因果(block-causal)DiT 建模全局语义先验,条件解码器据此潜表示还原文本。BitLM 用对定长二进制 token 编码的逐位去噪取代词表级 token 预测,同时在块间保留因果注意力。

2.3 离散扩散语言模型

离散空间 DLMs 直接在 token 词表上定义扩散过程,从而在扩散本身中无需连续嵌入空间。D3PM 首先通过引入对离散 token 的结构化扩散过程展示了这一点。前向过程在每一步对序列施加转移矩阵 ,该矩阵定义了某 token 转移到词表中任意其他 token 的概率。给定初始状态 时状态 的概率由类别分布给出:

的一种常见选择是吸收态(absorbing state)转移:每个 token 要么保持不变,要么以一定概率转移到特殊的 [MASK] token。反向过程学习逆转这些转移,在给定被腐蚀序列时预测原始 token 的概率分布。

随着时间推移,掩码型 DLMs 已成为离散扩散语言模型一种现代且高效的演化,构成了若干近期大规模工作的基础。我们以这一类中最具代表性的模型 LLaDA 为例。受到关于重参数化与简化训练目标的早期工作启发,LLaDA 从零训练,使用仅在被掩码 token 上计算的交叉熵损失:

其中 从训练语料采样, 上均匀采样, 通过前向过程腐蚀 得到。指示函数 确保损失仅作用于被掩码的位置。在推理时,生成过程从一个所需长度的全掩码序列开始。在每个迭代步,模型接收当前序列(混合已生成 token 与 [MASK] token)并预测一个完整的 token 序列;依据模型的预测置信度与噪声调度,一定数量的最高置信预测被解掩并固定,其余位置则被重新掩码。该精炼过程持续迭代,直至所有 [MASK] token 都被解析。这一方法优雅地将 MLM 的双向上下文与一种可控的并行生成过程相结合。尤其是 LLaDA-8B 展现出强大的可扩展性与指令遵循能力,达到了与 LLaMA3-8B 等强大自回归模型相当的性能,挑战了自回归模型在大规模语言生成中长期的主导地位。

DiffusionBERT 将预训练的 BERT 与离散扩散过程结合,利用其强大的去噪能力从掩码状态学习反向过程,并通过考虑 token 信息量的新颖纺锤型(spindle)噪声调度进一步增强,相较先前 DLM 在生成质量上取得显著提升。另一思路——重参数化离散扩散模型(RDMs)——为反向过程建立了另一种表述,将训练目标简化为加权交叉熵损失,从而支持更灵活的自适应解码策略,相较先前离散扩散模型取得显著性能提升。类似地,MD4 将简单的交叉熵损失加权积分推导为掩码扩散模型的连续时间变分目标,为训练 DLM 提供了简洁而通用的框架。另一类似方法 MDLM 引入了一个简化的、经 Rao-Blackwell 化的目标,其形式为掩码语言建模损失的加权平均。Diffusion-LLM 通过将预训练掩码语言模型适配为扩散范式,并进一步进行任务特定微调与指令微调,展示了 DLM 的可扩展性,释放了其在求解通用语言任务上的多面性。Diffusion-NAT 通过将去噪过程重构为非自回归的掩码 token 恢复任务,将离散扩散模型与 PLM 统一,使 BART 可充当有效的去噪器。Plaid 是首个以最大化数据似然为目标训练的扩散语言模型,并通过缩放律证明其在标准基准上可胜过 GPT-2 等自回归模型。为改进训练目标,SEDD 引入"得分熵"(score entropy)损失,直接学习数据分布的比值,作为得分匹配在离散域的扩展。重参数化吸收型离散扩散(RADD)揭示,吸收型扩散中的具体得分(concrete score)可表示为干净数据的、与时间无关的条件概率乘以一个解析的、与时间相关的标量,并在形式上统一了吸收型离散扩散与任意阶自回归模型的训练目标。离散流匹配(DFM)为离散数据引入一种类比于连续流匹配的新颖生成范式,学习一个生成概率速度场,沿源到目标分布的一般概率路径族变换样本。

图 4 不同范式的训练与推理过程概览
图 4. 跨不同 DLM 范式的训练与推理过程概览,并纳入自回归(AR)模型作对比。AR 模型采用教师强制与因果注意力训练;离散与连续 DLMs 则均采用完全双向注意力机制。以 BD3-LM 为代表的块级(block-wise)扩散模型融合了自回归与扩散策略,使用专门设计的块因果(block-causal)注意力掩码进行训练。图中标注了掩码 token、文本 token、EoS token 与含噪嵌入等元素。

通过扩展模型架构,DFM 在多个基准上显著缩小了与自回归模型的性能差距。DDPD 提出一个将生成过程解耦为两个专用模型(规划器 planner 与去噪器 denoiser)的框架:在每一步,规划器识别出最需精炼的、被腐蚀最严重的 token 位置,去噪器随后预测它们的取值。为提升复杂推理任务上的表现,MGDM 被提出以解决子目标不平衡问题;该方法通过 token 级重加权机制,在学习过程中优先处理更困难的子目标,从而增强离散扩散。为应对扩展难题,研究者提出一种持续预训练方法,将 LLaMA 等既有自回归模型适配为扩散语言模型,所得模型(DiffuGPT 与 DiffuLLaMA)在与其 AR 对手竞争的同时,获得了灵活填空等扩散原生能力。在此基础上,Dream-7B 由 Qwen2.5 7B 初始化并进一步用 580B token 训练,大幅胜过既有 DLM 并媲美顶级 AR 模型。GIDD 被提出以克服掩码扩散模型无法修改已生成 token 的局限:该框架通过将掩码与均匀噪声相结合来推广加噪过程,解锁了模型自我纠错的能力并提升了样本质量。近期,为提升长上下文能力,LongLLaDA 首次对该领域的 DLM 进行了系统分析,揭示 DLM 在直接上下文外推时能保持稳定的困惑度并具备更好的检索能力;它还引入了一种无训练、基于 NTK 的 RoPE 外推方法,显著提升了 DLM 的外推性能,验证了既有外推缩放律对 DLM 同样有效。UltraLLaDA 进一步沿此方向,引入扩散感知的 NTK RoPE 缩放与轻量的长上下文后训练,使扩散 LLM 达到 128K 上下文窗口,在检索与困惑度上显著优于无训练外推方法。LLaDA-MoE 是首个将稀疏专家混合(MoE)架构集成进扩散语言模型的工作,在 20T token 上从零训练了一个新的基于 MoE 的 DLM;尽管推理时仅激活约 1.4B 参数,它仍超越了更大的稠密扩散模型,并在知识、编码与推理基准上达到与 Qwen2.5-3B-Instruct 相当的性能。

2.4 混合 AR-扩散语言模型

混合 AR-扩散模型旨在在非自回归模型的完全并行性与自回归模型强大的因果依赖建模之间取得平衡。一种突出的混合策略采用块级(block-wise)半自回归生成过程:模型以自回归方式生成 token 块,而块内的 token 则通过类扩散的迭代过程并行生成。早期工作如 SSD-LM 以单纯形表示上的块级连续扩散过程开创了混合方法;AR-DIFFUSION 展示了多层级扩散过程,通过依据 token 位置调整时间步实现半自回归生成。近期代表性模型 BD3-LM 在离散模型上进一步推进这一方向,相较纯 AR 与纯扩散模型展现出强劲性能。CtrlDiff 通过引入动态块预测技术改进该范式,以增强块级效率与控制力。SDAR 进一步强化这一混合范式,通过轻量适配阶段将预训练自回归模型转化为块级扩散模型,在保持 AR 级性能的同时实现高效的块内并行生成,达成可扩展加速而不牺牲质量。

这些模型中的生成过程通常由两个嵌套循环组成:外层循环以自回归方式生成 token 块,每个块以先前已生成块为条件;每个块内,内层循环通过类扩散的迭代去噪过程进行并行的 token 级生成。在 BD3-LM 中,训练目标被形式化为:

这种混合策略使模型能通过自回归跨块捕捉长程依赖,同时通过块内并行扩散加速生成。该设计还支持灵活的输出长度,并兼容 AR 模型中广泛使用的 KV-Cache。值得注意的是,近期的掩码扩散语言模型也采用了类似的、基于块的半自回归解码策略,可被视为混合 AR-扩散建模的实例。

除了在序列层面结合 AR 与扩散的块级方法外,混合也可发生在架构层面:神经网络的某一部分(通常是编码器)将整个序列一并扩散到某中间表示,随后由自回归解码器生成最终序列。LADIDA 是一种略有不同的方法,它在文档层面扩散,但由 AR 解码器逐句解码。SpecDiff 提出一个协同的推测解码框架:轻量扩散模型起草候选输出,再由大型 AR 模型验证并最终确定(必要时纠正)。TiDAR 提出一种序列级混合架构,在单次前向传递中通过结构化的因果-双向注意力,将基于扩散的并行起草与自回归采样集成;它有效统一了扩散模型的效率与 AR 解码的质量,在保持 AR 级性能的同时实现最高 5× 的吞吐量提升。SDLM 引入"下一序列预测(NSP)"范式,统一下一 token 与下一块预测以支持自适应长度生成;通过为预训练自回归模型加装并行块训练与基于置信度的动态解码,SDLM 在保持 KV-cache 兼容的同时实现了高效的扩散式块内生成。

3 DLM:预训练与后训练

3.1 预训练与有监督微调

DLM 的预训练过程在很大程度上遵循与自回归语言模型(对离散 DLM 而言)或图像扩散模型(对连续 DLM 而言)相似的流程,设计空间相对较小。本节简要总结现有 DLM 预训练方法,旨在弥合 DLM 与 AR 模型之间的方法论鸿沟。

为加速训练(尤其对大规模模型),常见做法是从预训练的 AR 语言模型或图像扩散模型初始化 DLM。DiffuGPT 与 DiffuLLaMA 尝试用 127M 到 7B 参数的开源 LLM 初始化掩码型 DLM,发现 DLM 可从 AR 模型高效适配而来,在显著降低训练时间与成本的同时,取得与其 AR 对手相当甚至更优的性能。基于这一洞见,Dream-7B 从 Qwen 2.5 7B 初始化,据报道在多个基准上同时胜过 LLaDA-8B 与 LLaMA3-8B。另一方面,一些多模态 DLM 从预训练图像扩散模型初始化:D-DiT 与 Muddit 分别从 SD3 与 Meissonic 的预训练 MM-DiT 主干初始化。尽管这些模型最初并非为文本生成而设计,但其潜表示蕴含内在的、与语言对齐的知识,能在保留强大视觉生成能力的同时,有效促进语言建模的训练。

在缩放特性方面,近期的缩放律分析揭示,DLM 表现出与 AR 模型不同的算力-数据权衡:在算力受限下它们更"数据饥渴",但在多轮(multi-epoch)训练下却具备远更高的数据复用潜力,为设计最优 DLM 训练方案提供了原则性基础。

DLM 的有监督微调总体上与 AR 模型相似。对 LLaDA 等掩码型 DLM,提示 token 保持未掩码,而响应 token 被有选择地掩码,使模型以与预训练兼容的方式学习条件响应生成。在连续 DLM 中,SFT 也可通过仅腐蚀响应片段来执行,如 TESS2 所示。

尽管总体上与 AR 训练范式相似,DLM 因其基于扩散的表述仍面临若干独特挑战。一个主要问题在于掩码型 DLM 的损失计算效率:在典型的掩码 DLM 训练中,若时间步均匀采样,平均只有约 50% 的 token 参与损失计算,这降低了数据利用率,并可能导致次优梯度——尤其当关键答案 token 被排除在损失之外时。为此,LaViDa 提出"互补掩码"策略:每个训练样本被复制成两份具有互不相交掩码模式的副本,确保所有 token 至少被纳入一次损失计算。此外,由于训练-推理差异,模型在训练时的表现明显优于推理时;相关工作提出了两步扩散过程与改进的调度技术来缓解这一问题。

3.2 面向推理能力的后训练

随着 DLM 在语言任务上的性能提升,对其推理能力的探索日益流行。通常,推理能力通过在推理数据集上微调获得。对 DLM 而言,这带来了独特而艰巨的挑战。传统的思维链(CoT)方法依赖 AR 模型的顺序特性来逐步推理,而 DLM 并行生成 token。AR 领域最成功的后训练技术——尤其是基于强化学习(RL)与策略梯度的方法——都建立在能高效计算所生成序列对数概率的能力之上;这在 AR 模型中因其可分解的顺序特性而直截了当。而在 DLM 中,生成是迭代、非顺序的过程,对数似然不可解析,这为将为 AR 模型开发的成熟 RL 算法套件应用于 DLM 设置了重大技术壁垒。直观地,我们将这些工作归为三大主线,构成本小节的结构:(1)并行化推理链——将 AR 模型中的 CoT 适配为 DLM 的并行生成;(2)适配策略梯度方法——为 DLM 引入 GRPO 等流行算法的变体;(3)适配偏好优化方法——如将 DPO 适配到 DLM。

3.2.1 DoT 与 DCoLT:并行化推理链

激发 DLM 复杂推理的开创性工作之一是思维扩散(Diffusion-of-Thought,DoT),它将流行的思维链范式适配到扩散框架。DoT 不像自回归模型那样顺序生成推理步骤,而是将其表述为在扩散去噪过程中并行精炼的中间"思想"。该方法通过在包含问题及其逐步推理依据的数据集上微调 Plaid、SEDD 等预训练 DLM 来实现。为增强模型从自身错误中恢复的能力,DoT 引入了计划采样(scheduled sampling)与耦合采样(coupled sampling)等专门训练技术,在训练中让模型接触自身产生的错误以提升自我纠错能力。这一后训练方法使较小的 DLM 也能取得令人印象深刻的推理性能,甚至在某些数学与逻辑推理基准上胜过远更大的自回归模型。

更近期的方法——横向思维的扩散链(Diffusion Chain of Lateral Thought,DCoLT)——引入了一个独特的、基于 RL 的推理框架,灵感来自"横向思维"这一认知概念,与传统 CoT 的逐步"纵向思维"形成对照。DCoLT 不监督中间步骤,而是将反向扩散过程的每一步视为一个潜在的"思考动作",并以基于结果(outcome-based)的 RL 优化整条多步去噪轨迹,以最大化对最终答案的奖励。当应用于 LLaDA 等掩码型 DLM 时,DCoLT 创新性地引入"解掩码策略模块(UPM)",将揭示 token 的最优顺序学习为 RL 动作空间的一部分。这一方法显著提升了 DLM 的推理能力,经 DCoLT 强化的 LLaDA 模型在 GSM8K 上提升 +9.8%、在 HumanEval 上提升 +19.5%。

3.2.2 将策略梯度方法适配到 DLM

得分熵策略优化(Score Entropy Policy Optimization,SEPO)将 RLHF 引入离散 DLM,提出一个理论扎实的框架,使用策略梯度方法与不可微奖励来微调离散扩散模型。SEPO 在得分熵框架内运作,通过重要性采样改造 PPO、GRPO 等现代策略梯度方法,以推导稳定、低方差的梯度估计。这使模型策略可被迭代更新以最大化奖励函数,成为兼顾条件与无条件生成的通用框架。SEPO 的目标函数定义为:

其中模型参数 被优化以最大化得分熵 的期望对数似然,权重 ;期望对来自先前策略 的样本 取得。函数 可被选取以恢复不同的策略梯度变体——例如,裁剪函数对应 PPO,组标准化奖励对应 GRPO。该表述即便在奖励不可微时也能实现稳定、低方差的梯度估计,并为微调离散扩散模型提供了灵活目标。跨多个离散生成任务的数值实验展示了 SEPO 的可扩展性与高效性,表明策略梯度 RL 可被稳妥地应用于离散扩散模型。

d1 为掩码型 DLM 提供了一个两阶段后训练框架,将有监督微调(SFT)与新颖的策略梯度算法 diffu-GRPO 相结合。为将缺乏可分解似然的 DLM 适配到 GRPO,它为序列对数概率与逐 token 对数概率估计引入了新方法:d1 使用简单的平均场分解,将序列对数概率近似为各 token 独立概率之积;逐 token 对数概率则通过在每次策略梯度更新时,对一个全掩码补全(以随机掩码的提示为条件)执行单次前向传递来计算。在每次内层梯度更新中对提示使用不同的随机掩码,起到一种正则化作用,提升了训练效率与稳定性。完整的 d1 流程(SFT 后接 diffu-GRPO)在 LLaDA 模型的数学与规划推理任务上展现出显著的性能提升。

统一多模态扩散模型 MMaDA 提出了一个三阶段训练流程。在第一阶段预训练后,MMaDA 采用混合的长思维链微调策略,将来自多样任务的推理轨迹整理为统一格式,以跨模态对齐推理过程。这为第三阶段的冷启动训练奠定基础——该阶段引入 UniGRPO,一种为扩散语言模型量身定制的策略梯度强化学习算法。UniGRPO 克服了 d1 等基线方法的局限:它采用结构化加噪策略,在 上均匀采样掩码比例 ,而非掩码所有响应 token;这确保模型接触到多步扩散去噪过程的各个阶段——从几乎全掩码到接近未掩码——与常规扩散训练一致,并充分发挥模型的多步去噪能力。此外,序列级对数似然通过对被掩码 token 取平均来近似。

DiffuCoder 是一个专为代码生成开发与分析的 7B 参数 DLM。该工作引入名为 coupled-GRPO 的 RL 算法,通过利用 DLM 生成过程的独特性质来实现扩散原生设计。coupled-GRPO 的核心创新是其用于对数似然估计的耦合采样方案:为获得更稳健、更低方差的估计,它为训练批次中的每个补全序列构造成对的互补掩码——对于给定序列,生成两份掩码,使每个 token 位置恰好在其中一份掩码中被掩码;对数概率估计随后由这两次互补前向传递的损失平均导出。这确保每个 token 在训练中都在部分掩码语境下被评估,提供完整的 token 覆盖与更稳定的梯度信号,优于使用单一随机掩码或全掩码的方法。coupled-GRPO 被证明能显著提升 DiffuCoder 在代码生成任务上的表现,同时鼓励更并行、更少自回归的生成模式。

三明治策略梯度(Sandwiched Policy Gradient,SPG)同时利用真实对数似然的上界与下界,以减少 DLM 单边近似策略梯度方法中的偏差。两个似然界通过蒙特卡洛、采用块级掩码策略来估计,以提升训练稳定性。当应用于 LLaDA 时,SPG 在多个推理基准上相较基线方法报告了最先进的性能。wd1 引入一种将目标重构为加权似然的新颖策略优化方法,只需对当前参数化策略似然进行一次近似;该表述减少偏差,提升稳定性与训练效率,在推理任务上相较先前基于扩散的 RL 方法准确率最高提升 16%。IGPO 利用掩码扩散模型独特的填空能力来引导强化学习中的探索:通过部分注入真实推理轨迹,IGPO 缓解了基于组的 RL 中的零优势(zero-advantage)问题。SAPO 提出一种步骤感知(step-aware)的策略优化方案,引入与潜在推理层级对齐的细粒度过程奖励,缓解"无结构精炼"并产生更可解释的多步推理轨迹。为提升 DLM 中基于 ELBO 的 RL 的内存效率,BGPO 引入边界引导的下界,允许在不增加内存占用的情况下使用大量蒙特卡洛样本,在相同硬件限制下取得更强的推理性能。近期工作 JustGRPO 表明,dLLM 中的有效推理可通过在 RL 训练中刻意放弃任意阶生成、转而应用标准 GRPO 来更好地激发;这一发现挑战了"灵活 token 顺序本质上有利"的普遍观点:对推理任务而言,生成顺序可能成为关键的训练设计选择,而非"免费的红利"。

3.2.3 将偏好优化适配到 DLM

LLaDA 1.5 提出名为方差缩减偏好优化(Variance-Reduced Preference Optimization,VRPO)的新颖框架,将偏好优化方法适配到离散 DLM。该工作发现,将直接偏好优化(DPO)应用于离散 DLM 颇具挑战,原因在于用于近似对数似然的证据下界(ELBO)方差较高。VRPO 通过引入两项无偏方差缩减技术来解决:(1)最优分配蒙特卡洛采样预算——通过采样更多扩散时间步而非在每个时间步采样多份掩码版本,即 ;(2)对偶采样(antithetic sampling)——对相同输入 ,在当前策略 与参考策略 的 ELBO 估计之间共享相同的时间步与掩码数据。通过将 VRPO 应用于 LLaDA,所得的 LLaDA 1.5 模型在数学、代码与对齐基准上取得显著且一致的提升。

表 2. 当前 DLM 推理能力后训练方法简表,聚焦其算法类型、主要目标、关键技术创新与适用模型类型。值得注意的是,这些方法大多基于策略梯度,且面向离散 DLM 设计。
方法算法类型核心目标关键技术创新模型类型
DoT非 RL 微调实现并行思维链推理将串行 CoT 转为并行扩散过程;训练时自我纠错连续/离散
DCoLT基于结果的 RL实现非线性潜在推理横向思维;基于结果的 RL;解掩码策略模块连续/离散
SEPO策略梯度框架(PPO/GRPO)以不可微奖励微调离散 DLM经由得分熵与重要性采样的低方差梯度估计器离散
diffu-GRPO策略梯度(GRPO)将策略梯度方法引入 DLM用于对掩码 DLM 应用 GRPO 的高效单步对数概率估计器离散
coupled-GRPO策略梯度(GRPO)降低方差并保持训练效率带互补掩码的耦合采样离散
UniGRPO策略梯度(GRPO)统一的强化学习结构化加噪策略;多样化奖励建模多模态离散
VRPO偏好优化(DPO)与人类偏好对齐采样预算分配;对偶采样离散
IGPO策略梯度(GRPO)利用 DLM 的填空能力引导探索填空引导采样;采样时插入部分真实推理轨迹离散
wd1策略梯度缓解计算开销与偏差仅需一次近似的加权似然离散
SAPO策略梯度(GRPO)学习结构化连贯推理基于过程的奖励函数离散
SPG策略梯度减少单界方法的偏差上下界"夹逼";块级掩码离散
BGPO策略梯度降低内存开销、扩展到更大 MC 样本量边界引导的下界;经梯度累积的常数内存离散
JustGRPO策略梯度(GRPO)揭示任意阶在推理中的局限应用标准 GRPO,同时避免有害的任意阶探索离散

4 推理策略

DLM 的推理策略服务于三个关键目标:(i)提升生成质量,如去掩码与重掩码调度;(ii)实现更精细的内容控制;(iii)通过 KV/特征缓存、步骤蒸馏等技术提升效率。图 5 给出简要概览。

4.1 并行解码

并行解码与 DLM 天然契合,利用其固有的"掩码-预测"能力同时(而非顺序)生成多个 token。然而,朴素的并行化会损害连贯性,这催生了一系列在效率与质量间权衡的自适应策略。Fast-dLLM 采用置信度感知解码,有选择地解掩那些预测概率超过阈值的 token,在不损害质量的前提下实现最高 27.6× 的加速。自适应并行解码(APD)通过咨询一个轻量自回归辅助模型,动态调节并行度,在必要时以吞吐换取保真。SlowFast Sampling 引入两阶段调度:先以谨慎的"慢"阶段定位稳定 token,再以激进的"快"阶段批量敲定,结合缓存时可达最高 34× 加速。SpecDiff 通过将离散扩散模型用作完全并行的"起草器"、其输出由更大的自回归模型快速验证(必要时纠正),进一步提升吞吐,相较原始 AR 生成最高加速 7.2×。Dimple 采用自信并行解码,动态调整每步揭示的 token 数,将生成迭代次数削减 1.5–7×。近期研究进一步以可学习与训练级优化策略推进 DLM 的并行解码效率:Learn2PD 引入一个学习得到的自适应并行解码策略,由轻量过滤模型预测每个 token 是否应被解掩,取代固定置信阈值;dParallel 通过"确定性强制蒸馏(certainty-forcing distillation)"提升解码效率,训练扩散模型并行地对多个 token 达到高置信度。总体而言,这些并行解码方法在保持、有时甚至提升生成质量的同时,大幅缩小了扩散与自回归模型之间的延迟差距。

图 5 扩散语言模型的推理技术
图 5. 扩散语言模型的推理技术。此处展示六种不同策略,包括:(a) 并行解码;(b) 去掩码与重掩码;(c) 无分类器引导;(d) 键值缓存(Key-Value Cache);(e) 特征缓存(Feature Cache);(f) 步骤蒸馏(Step Distillation)。

4.2 去掩码 / 重掩码

LLaDA、Dream 等最先进的开源离散 DLM 采用"掩码-预测"范式:在每个扩散步解掩高置信 token、重新掩码不确定位置,迭代地精炼序列。去掩码/重掩码策略的选择——低置信采样、随机选择或自适应温度——因此主导着生成质量与收敛速度,使其成为最关键的推理杠杆之一。早期工作 Masked DLM 形式化了两种基线:随机重掩码与置信度排序重掩码,表明优先处理低置信位置能在不增加成本的情况下获得更好质量。基于这一洞见,Fast-dLLM 引入置信度感知并行解码:每步解掩所有预测概率超过全局阈值的位置,在保持准确率的同时实现最高 13× 加速。最近,ReMDM 提出一种有原则的推理时重掩码采样器,可对已解码 token 进行重掩码以进一步精炼;通过缩放重掩码预算,它提供平滑的算力-质量权衡,并在固定算力下缩小了与自回归模型的质量差距。总体而言,这些自适应去掩码/重掩码策略大幅提升了 DLM 的效率与质量,并能与稍后讨论的缓存、步骤蒸馏等正交加速器干净地集成。

4.3 引导

引导(guidance)是扩散模型中一项关键的推理技术,它引导生成轨迹趋向期望属性,从而提升输出质量。在扩散模型中,引导指任何修改模型去噪轨迹、使样本符合期望条件(如文本提示、类别标签或风格属性)的技术。这一思路由分类器引导(classifier guidance)推广开来——其中来自外部分类器的梯度被加到得分估计上,将样本推向目标类别。不久之后,无分类器引导(classifier-free guidance,CFG)省去了额外分类器的需要:模型同时以带条件与不带条件的方式训练一次,在推理时将两个得分估计组合:

其中 是引导尺度,平衡对条件的保真度与样本多样性。这一简洁表述如今支撑了大多数文生图系统(如 Stable Diffusion),并已被 DLM 用于提示可控生成。后续工作沿多个方向改进 CFG:dropout 增强的 CFG 平滑质量-多样性曲线;基于粒子的引导融合多个条件;p2-加权对噪声项再缩放以稳定高 采样。在文本域,更新的方案将引导扩展到结构与语义约束。FreeCache 将一个轻量自回归验证器与离散 DLM 耦合:验证器在草稿 token 被提交前批准(或否决)它们,在强制连贯性的同时启用激进的特征缓存。DINGO 将正则表达式控制表述为在确定有限自动机(DFA)上的动态规划搜索,在不改变模型分布的前提下保证约束满足。在其他离散 DLM 中,引导也可在每个扩散步施加,并可选地与掩码/重掩码或缓存相结合,以在保持效率的同时引导内容(如主题、情感)。总体而言,引导已成为扩散推理的基石,为使模型输出与用户意图对齐提供了一个轻量、可调的把手。

4.4 高效推理

近期最先进的扩散语言模型将经典 Transformer 架构与扩散过程逐步随机的推理流程相结合。因此,加速 DLM 推理的努力汇聚为两条互补策略:(1)降低 Transformer 主干每步的计算开销,如通过键值(KV)缓存或特征缓存;(2)减少扩散采样的总步数,如通过步骤蒸馏。

键值缓存(Key-Value Cache)。传统 KV 缓存利用 LLM 严格自回归的解码模式,因而不适配 DLM 双向、多步的生成范式。然而,近期工作表明,精心重新设计解码调度可恢复其大部分益处。Block Diffusion 引入块级离散去噪扩散语言模型(BD3-LMs),跨粗粒度块自回归地解码文本、块内运行扩散;一旦某块完成,其键值即被冻结复用,支持可变长度生成并带来可测的加速。Fast-dLLM 保留块级视角,但加入一个无训练、近似的 DualCache,利用相邻扩散步间 KV 激活的近似不变性(同时覆盖前缀与后缀 token),在 LLaDA 与 Dream 上以 <1% 的准确率损失带来最高 27× 的端到端吞吐提升。作为对这些块级方案的补充,dKV-Cache 观察到 token 表示仅在某位置被解码后才稳定,因此部署了延迟、条件化的缓存——晚一步存储 KV,在相同模型上以可忽略的质量下降取得 2–10× 加速。d2Cache 引入细粒度的双自适应缓存方案,仅自适应刷新快速变化的 KV 状态,复用稳定的部分。Elastic-Cache 提出注意力/深度感知的自适应刷新机制,有选择地更新更深层、复用稳定的浅层缓存;它执行基于注意力的漂移检测,仅在最受关注 token 出现显著变化时触发缓存刷新,以极小的质量损失实现最高 45× 加速。这些结果共同表明,半自回归调度与延迟缓存为扩散的双向条件化与最初为自回归设计的 Transformer 技巧之间架起了实用的桥梁。

特征缓存(Feature Cache)。特征缓存最早由 DeepCache 引入,它利用相邻扩散步间 U-Net 中间激活的强相似性来避免冗余计算。后续工作 Δ-DiT、Learning-to-Cache 与 FasterCache 表明,同一原理可干净地迁移到基于 Transformer 的扩散模型,无需重训即可获得相当的加速。随着扩散语言模型的兴起,dLLM-Cache 将特征缓存扩展到文本,区分两类冗余:提示 token 在整个去噪过程中几乎保持不变,而响应 token 仅稀疏地演化。它因此将长间隔的提示缓存与自适应短间隔的响应缓存配对——后者仅在轻量的值相似性测试("V-verify")检测到显著变化时刷新,在 LLaDA-8B 与 Dream-7B 上实现最高 9× 端到端加速。最近,FreeCache 缓存已"干净" token 的 KV/特征投影、仅刷新动态位置,将加速进一步推到 34× 同时保持保真。总体而言,这些进展表明特征缓存能使扩散语言模型在推理延迟上逼近自回归 LLM,而不牺牲输出质量。

步骤蒸馏(Step Distillation)。步骤蒸馏是扩散模型中广泛采用的加速技术,将通常上千步的去噪过程压缩到仅几步、有时甚至单步采样,从而大幅减少推理时间。与前述无训练方法不同,它带来离线成本:必须先训练一个紧凑的学生网络来模仿教师。早期工作如渐进蒸馏(Progressive Distillation),及随后的 ADD、LADD,通过逐步减半步数或对齐中间分布来保持保真。Di4C 将该框架扩展到离散扩散,显式地蒸馏 token 间相关性,使四到十步的学生能匹配教师质量,同时提供约 2× 加速。最近,DLM-One 采用带对抗正则化的基于得分的蒸馏,训练一个在单次前向传递中生成整个序列的连续扩散语言模型,以接近教师的质量实现最高 500× 加速。这些工作共同确立了步骤蒸馏作为缩小扩散与自回归语言模型延迟差距的主要途径。

5 多模态与统一方法

本节探讨将 DLM 扩展到多模态与统一架构的近期进展。与自回归 LLM 类似,DLM 也可被自然地适配以处理多模态输入与输出。一种直接的方法是通过预训练视觉编码器接收视觉输入。继 LLaVA 在 AR 域的成功之后,LLaDA-V、LaViDa、Dimple 等模型采用视觉编码器提取图像特征,再将其投影到与文本 token 相同的嵌入空间。除了简单的视觉理解,DLM 还为统一的多模态生成与理解提供了一条有前景的路径。得益于其共享的去噪扩散框架,DLM 天然支持对不同模态的联合建模:视觉输入可用 VQ-VAE 离散化,从而在统一的 token 空间中训练多模态输入与输出。MMaDA、Fudoki、Muddit 等代表性模型体现了这一方向。

LLaDA 及其衍生模型。我们先介绍 LLaDA 家族及其衍生模型,它们构建于基础 LLaDA 模型的架构与预训练权重之上。LLaDA-V 集成视觉编码器与基于 MLP 的投影器,将视觉特征映射到语言 token 嵌入空间,实现有效的视觉指令微调。遵循 LLaVA-NeXT,LLaDA-V 采用三阶段微调策略:第一阶段仅训练 MLP 投影器,使用 LLaVA 的训练数据将视觉表示与文本嵌入对齐;第二阶段使用大规模视觉指令数据、以 DLM 目标进一步微调模型;第三阶段在带推理链的 QA 对上训练以增强多模态推理能力。尽管 LLaDA 主干在纯文本任务上略弱于 LLaMA3-8B,但 LLaDA-V 在多个基准上取得了强劲性能与更好的可扩展性,优于在相同数据上训练的 LLaMA3-V;它缩小了与 Qwen2-VL 的差距,并胜过混合与纯 DLM 模型,证明了扩散架构在多模态理解中的有效性。

LaViDa 基于 LLaDA 与 Dream-7B 引入了一族 VLM。它同样使用预训练视觉编码器,采用两阶段训练策略分别训练投影器与微调模型。LaViDa 在解决多模态 DLM 的训练与推理挑战上作出显著贡献:典型地,掩码型 DLM 平均仅约 50% 的 token 被掩码用于损失计算,这降低了效率,并可能在 VLM 训练中遗漏关键答案 token、导致梯度错配。LaViDa 引入互补掩码以实现有效训练——对每个样本生成两份具有互不相交腐蚀片段的掩码版本,确保所有 token 最终都被用于训练,提升样本效率与梯度流。在推理时,LaViDa 采用前缀 KV-Cache 缓存视觉与提示 token 的键值,显著降低延迟,在边际性能损失下实现最高 3.9× 加速;此外还使用时间步移位(timestep shifting)更早解掩 token,进一步提升生成质量。实证结果表明,LaViDa 在享有显著推理加速的同时,取得了与基于 AR 的 VLM 相当或更优的性能。

Lavida-O 进一步将 LaViDa 扩展为一个全谱系的统一多模态模型,兼具高质量图像生成与细粒度理解能力。它引入新颖的弹性专家混合 Transformer(Elastic Mixture-of-Transformers,Elastic-MoT)架构,将模型解耦为轻量的生成分支与更强大的理解分支,实现可扩展的训练与推理。Lavida-O 独特地支持局部对象级理解、基于指令的图像编辑、高分辨率文生图(1024px),以及在单一统一扩散框架内进行交错推理与规划。

构建于 LLaDA 之上,MMaDA 进一步将架构推广以同时支持多模态理解与生成。与先前模型不同,MMaDA 通过使用 VQ-VAE 将图像分词为离散编码,消除了对显式视觉编码器的需要,并以一个模态无关的扩散 Transformer 联合建模所有模态。这一设计使文本与图像模态间的无缝集成成为可能,无需模态特定组件。MMaDA 还实现了一种混合长 CoT 微调策略,跨模态对齐 CoT 推理格式;此外,专为扩散语言模型量身定制的统一策略梯度 RL 算法 UniGRPO 使跨模态推理成为可能。MMaDA 不仅在文本推理上超越 LLaMA3 等同规模模型、在多模态理解上超越 Show-o,甚至在图像生成上胜过 SDXL 等专业图像生成模型。

MMaDA-Parallel 以一个完全并行的多模态扩散框架取代了 MMaDA 中"先推理后生成"的顺序流程,使文本与图像在每个去噪步双向交互。通过联合生成推理轨迹与视觉输出,并借助轨迹级并行 RL(ParaRL)算法进一步优化跨模态一致性,MMaDA-Parallel 显著提升了语义对齐与"思考感知"的图像合成性能。

Dimple。Dimple 引入一个大型多模态 DLM,将视觉编码器与离散 DLM 主干相结合。作者发现,纯离散扩散训练方法存在显著的不稳定性、性能不佳与严重的长度偏置。为克服这些挑战,Dimple 提出一种名为"先自回归后扩散(Autoregressive-then-Diffusion)"的新颖两阶段训练范式:第一阶段,模型经历标准自回归训练以有效对齐视觉与语言模态;第二阶段切换到基于扩散的训练以恢复其并行解码能力。这一混合策略确保了稳定高效的训练,同时取得与 LLaVA-NEXT 等同期自回归模型相当甚至更优的性能。在推理方面,Dimple 引入若干技术以提升效率与可控性:自信解码(Confident Decoding)依据置信阈值动态调整每步生成的 token 数,减少总生成迭代次数;模型还成功复现了 AR 模型中常见的预填充(prefilling)技术以缓存提示 token,在极小性能损失下实现最高 7× 加速;此外,Dimple 探索使用结构先验(Structure Priors),允许对响应格式与长度进行精确、细粒度的控制——这一在自回归模型中难以实现的特性。

D-DiT。双扩散 Transformer(Dual Diffusion Transformer,D-DiT)是一个大规模、完全端到端的统一多模态扩散模型,同时支持文生图(T2I)与图生文(I2T)任务。它直接应对了先前扩散模型在视觉理解任务上的挑战——这类任务此前长期由自回归模型主导。其架构受多模态扩散 Transformer(MM-DiT)启发,采用双分支 Transformer 处理图像与文本 token,注意力机制允许两种模态在每一层交互。模型使用冻结的 VAE 处理图像、冻结的 T5 编码器处理文本,主干 MM-DiT 由预训练的 SD3 权重初始化。D-DiT 的一项核心创新是其联合训练目标,将图像的连续潜空间扩散与文本的离散掩码 token 扩散相结合,通过联合优化两种模态损失之和实现。不同于先前需要自回归组件来解码文本潜变量的多模态扩散模型,D-DiT 完全基于扩散,并相较其他统一模型展现出有竞争力的性能。

UniDisc。统一多模态离散扩散(UniDisc)作为联合文本与图像建模的统一生成模型被提出,构建于离散扩散之上,作为占主导地位的 AR 方法的替代。与前述 D-DiT 不同,UniDisc 在文本与图像 token 上以完全注意力联合进行整体的掩码扩散过程,学习将一串被掩码 token 映射回来自共享词表的干净序列。训练使用从零开始的统一离散扩散目标,两种模态的 token 被随机掩码,模型以再加权交叉熵损失进行监督。UniDisc 的一个关键优势是其在条件生成任务上的卓越表现,这在很大程度上归功于对无分类器引导的有效使用。UniDisc 最引人注目的能力之一是能以零样本方式执行联合图文填空——这是先前 AR 或统一生成模型不具备的特性。作者通过将模型扩展至 1.4B 进行缩放分析,证明 UniDisc 在性能与推理时算力上均胜过 AR 模型,并具备更强的可控性与可编辑性;不过,在达到相同验证损失方面,UniDisc 的训练效率低于可比的 AR 模型。

Fudoki。Fudoki 作为首个完全建立在离散流匹配(discrete flow matching)框架上的通用统一多模态模型被提出,挑战了自回归(AR)与基于掩码的扩散模型的主导地位。Fudoki 不依赖简单的掩码腐蚀过程,而是利用一种更一般的、由度量诱导的概率路径与动力学最优速度,从而带来更具语义意义的腐蚀过程,并使模型能在迭代精炼中持续自我纠错。这一自我纠错能力是与掩码型 DLM 的关键区别——后者中已解掩的 token 通常被固定、无法修改。为降低从零训练的高昂成本,Fudoki 从预训练的、基于 AR 的 MLLM(Janus-1.5B)初始化,再通过两阶段过程适配到离散流匹配范式。其架构基于 Janus-1.5B,但使用完全注意力掩码以更好地捕捉全局上下文,并移除了时间嵌入层(因为模型可从被腐蚀输入隐式推断时间步)。Fudoki 在视觉理解与图像生成任务上均取得与最先进 AR 模型相当的性能,展现出推理速度与质量之间的灵活权衡;当应用测试时推理缩放技术时,模型表现出显著的性能增益,预示这一架构在下一代统一模型中进一步探索的潜力。

Muddit。Muddit 是一个纯统一离散扩散 Transformer,它将强大的文生图主干与轻量文本解码器集成,在真正统一的架构下实现灵活、高质量的多模态生成。模型从 Meissonic 的预训练 MM-DiT 初始化,使用统一离散扩散目标训练:文本与图像 token 依据余弦调度被随机掩码,模型学习经由再加权交叉熵损失预测原始 token。通过结合语义丰富的视觉先验与并行离散扩散的优势,Muddit 在生成与理解基准上取得与显著更大的 AR 模型相当或更优的性能,并相较 AR 基线展现出数倍加速,凸显了适当初始化下离散扩散方法的效率与可扩展性。

Lumina-DiMOO。Lumina-DiMOO 是一个最先进的开源统一多模态扩散模型,通过完全离散的扩散框架实现快速、高质量的多模态生成与理解。它构建于 LLaDA 之上,将词表扩展以纳入来自 aMUSEd-VQ 的 8,192 个视觉 token,并在混合文-图序列上采用统一训练目标。Lumina-DiMOO 支持广泛任务,包括文生图、图像编辑、主体驱动与可控生成,以及高级图像理解。它引入了若干创新,如用于采样加速的最大 Logit 缓存(ML-Cache)、用于高效解码的并行与块级采样,以及支持任意图像分辨率的行尾特殊 token。Lumina-DiMOO 的训练分四阶段进行,最终以 Self-GRPO(一种自我改进的强化学习算法)收尾,以增强生成与理解的对齐。Lumina-DiMOO 在 UniGenBench 排行榜上位居开源模型之首,相较 AR 基线提供 32× 加速,同时交付更优的生成质量。

6 性能研究

在本节中,我们简要比较各类 DLM 与 AR 模型的性能。我们基于若干广泛使用的 DLM 评测基准给出可视化,包括用于一般语言理解的 PIQA 与 HellaSwag、用于代码生成的 HumanEval,以及用于多模态生成与理解的 GenEval、MME、MMMU 与 GQA。我们还纳入 GSM8K——DLM 文献中评估数学推理能力的流行基准。相应的性能可视化见图 6。

所综述的 DLM 规模从 1B 以下到 8B 参数不等。为便于比较,我们也报告了相近规模的代表性 AR 模型的性能。性能数据主要取自原始论文;若源论文中未提供结果,则参考报告了可比评测的后续工作。我们的发现表明,DLM 总体上与同规模 AR 模型表现相当。在 PIQA、HellaSwag 等一般语言理解基准上,LLaDA 等模型取得略低于或持平于 LLaMA2、Qwen2.5 等 AR 模型的性能。然而,DLM 在数学与科学相关基准(包括 GSM8K、GPQA 与 MATH)上表现更强,LLaDA、Dream 等模型持续胜过同规模 AR 对手。在多模态任务上,MMaDA、LLaDA-V 等模型常常超越基于 AR 的多模态模型,凸显 DLM 在统一与跨模态推理上的潜力。在代码生成任务上,DLM 同样展现出有竞争力的能力——值得注意的是,DiffuCoder 在开源模型中取得有竞争力的 HumanEval 表现,体现了 DLM 在结构化、逻辑密集领域的潜力。此外,Gemini Diffusion、Mercury 等闭源 DLM 在所有 DLM 中取得最先进的结果,可与 GPT-4o 等顶级 AR 模型匹敌。

图 6 八个基准上的性能比较
图 6. 在八个基准上的性能比较:Overall-GenEval、MME、GQA、HellaSwag、PIQA、HumanEval、GSM8K 与 MMMU。每个子图的横轴表示模型规模(参数量),纵轴表示对应基准下的得分,分数越高性能越好。模型类型以颜色区分:蓝色代表 AR 语言模型,橙色代表 DLM。

鉴于当前大多数 DLM 训练所用的数据与算力相对有限,这些结果表明 DLM 在许多真实世界应用中作为 AR 模型替代方案具有强大潜力。近期的缩放研究进一步表明,DLM 在数据受限的多轮训练(multi-epoch)情形下往往胜过 AR 模型,这很可能是因为其任意阶(any-order)去噪目标能更有效地复用有限数据。

7 下游任务应用

7.1 常规 NLP 任务

在面向通用语言生成的大规模 DLM 出现之前,DLM 已被应用于各类常规 NLP 任务,如文本分类、命名实体/场景识别、情感分析、文档摘要、风格迁移、约束生成、机器翻译等。ROIC-DM 是首个将扩散模型适配于鲁棒文本分类与推断的工作,它将扩散过程直接施加于类别标签、以输入文本为条件进行去噪,并可借助传统语言模型作为"顾问"进一步增强。DiffusionNER 将命名实体识别表述为边界去噪任务,对实体的起止边界施加扩散过程,通过迭代精炼从随机噪声生成实体跨度。针对场景文本识别,IPAD 引入一个并行、迭代的网络,将任务框定为条件文本生成,采用离散扩散与"易先(easy-first)"解码方法在识别准确率与推理速度间取得有效平衡。针对基于方面的情感分析,DiffusionABSA 用扩散模型逐步提取方面。DiffuSum 为抽取式摘要提出新颖范式,用扩散模型直接生成期望的摘要句表示,最终摘要由最匹配这些生成表示的文档句子构成。针对法律文档摘要,TermDiffuSum 提出一种术语引导的扩散模型,通过多因子融合噪声加权调度优先选取含法律术语的句子。针对关键词抽取,Diff-KPE 以变分信息瓶颈引导文本扩散过程来增强短语表示,生成并注入关键词信息。IPED 将关系三元组抽取视为隐式块扩散任务。EdiText 引入一种可控的粗到细文本编辑框架,将基于 SDEdit 的技术与新颖的自条件方法集成以实现精确编辑控制。为生成更具体的共情回应,DIFFUSEMP 利用以多粒度控制信号(如意图与语义框架)引导的条件扩散模型,经由特殊掩码策略集成。DiffuDetox 采用混合扩散方法进行文本去毒,结合一个降低毒性的条件模型与一个确保输出流畅的无条件模型。一个微调的 DiffuSeq 模型在细粒度文本风格迁移任务上取得最先进性能;ParaGuide 则引入更灵活的即插即用框架,在推理时以现成分类器与风格嵌入器引导一个以释义为条件的扩散模型。为在避免重复的同时生成流畅多样的段落,PLANNER 将潜扩散规划模块(生成语义段落嵌入)与自回归解码模块(渲染最终文本)相结合。DiffuCom 提出一个高效的评论生成扩散模型,使用上下文感知注意力机制与自条件技术。DiffusionDialog 通过对连续潜变量执行扩散过程,解决对话生成中的"一对多"问题,提升回应多样性与推理速度。针对释义生成,LDP 在预训练模型的潜空间中建模扩散,避免典型的取整步骤以获得更高效率。针对高度受约束的诗歌生成任务,PoetryDiffusion 独特地将任务分离:用扩散模型生成语义,而由一个独立训练的格律控制器强制执行格式与韵律等结构规则。在机器翻译中,XDLM 开创了面向扩散模型的跨语言预训练目标,使其能在预训练阶段有效学习语言间的映射。DiffusionRet 提出一种两阶段生成式检索方法,先用扩散模型从查询生成伪文档,再作为基于 n-gram 模型的输入检索最终文档。DIFND 采用扩散模型生成"揭穿"证据,并用多智能体 MLLM 系统进行"揭穿链(chain-of-debunk)"推理,以提升多模态假新闻检测的准确性与可解释性。

7.2 代码生成

尽管 DLM 很少被明确设计用于代码生成,但其全局规划与迭代精炼能力尤其契合代码生成的非顺序特性。DiffuCoder 等基础模型(一个 7B 开源模型)已专为该领域开发。DiffuCoder 的分析揭示了独特的解码行为,如在更高温度下生成顺序变得更灵活;它还提出 coupled-GRPO,一种为训练中所用补全构造互补掩码噪声的新颖采样方案,显著提升模型在代码生成任务上的表现。在推理方面,DCoLT 将整个反向扩散过程视为一种非线性的"横向"思维,借助基于结果的 RL 与解掩码策略模块,在复杂编码任务上取得强劲结果。膨胀解掩码调度器(Dilated Unmasking Scheduler,DUS)提供一种仅推理、无规划器的方法,以非相邻模式解掩 token,从而在每个去噪步最小化联合熵增的上界,在代码生成上取得有前景的结果并改善速度-质量权衡。为展示 DLM 速度的真实潜力,Mercury Coder 是一个商业规模的扩散模型,取得最先进的吞吐量,在主要代码基准上保持可比质量的同时,相较速度优化的自回归模型最高快 10×。Stable-DiffCoder 在 Seed-Coder 训练流程上构建了一个块扩散代码模型,进行块扩散持续预训练。DICE 针对 CUDA 核生成,配以 CuKe 数据集与双阶段精选的 RL 框架。

7.3 生物与科学应用

TransDLM 以目标属性的文本描述为引导执行分子优化,以避免误差传播。另一种文本引导方法 TGM-DLM 聚焦于分子生成,通过协同、迭代地更新 SMILES 字符串的 token 嵌入实现;在不依赖额外数据资源的情况下,TGM-DLM 在生成性能上胜过 MolT5-Base。DRAKES 为离散扩散模型引入一种基于 RL 的微调方法,借助 Gumbel-Softmax 技巧反向传播奖励,用于 DNA 与蛋白质设计。在蛋白质建模方面,ForceGen 通过使用蛋白质语言扩散模型生成满足复杂非线性力学属性设计目标的序列,实现从头(de novo)蛋白质设计。MeMDLM 引入一个用于从头膜蛋白设计的掩码扩散语言模型,通过微调 ESM-2 蛋白质语言模型生成新颖且逼真的跨膜序列。受 LLaDA 启发,DSM 引入一种同时支持高质量表示学习与有效生成式蛋白质设计的方法。DPLM 提供一个多面的蛋白质语言模型,对蛋白质序列展现出强大的生成与预测能力,并在表示学习上表现优异。DPLM2 进一步将模型扩展为一个多模态蛋白质基础模型,可同时处理序列与结构;通过将三维结构坐标转换为离散 token,DPLM-2 学习这两种模态的联合分布,从而支持兼容的蛋白质序列及其三维结构的同步协同生成,并支持蛋白质折叠与逆折叠等条件任务。CFP-GEN 是一个为组合式功能蛋白质生成(Combinatorial Functional Protein Generation)设计的新颖扩散语言模型,通过集成功能、序列与结构等多模态约束促进从头蛋白质设计;CFP-GEN 支持高通量生成功能可媲美天然蛋白质的新颖蛋白质,并在多功能蛋白质设计上取得高成功率。

7.4 机器人

近期,基于 DLM 的视觉-语言-动作(VLA)模型在统一感知、推理与控制方面展现出强大潜力。构建于 LLaDA 之上,LLaDA-VLA 引入局部特殊 token 分类与层次化的动作结构解码,相较自回归 VLA 基线在仿真与真实世界评测中均取得显著提升。dVLA 利用预训练的 MMaDA 作为扩散主干,联合生成视觉子目标图像、文本思维链与离散化动作,并进一步引入前缀注意力掩码与 KV 缓存以实现高效的长时程操作。统一扩散 VLA(UD-VLA)提出一种联合离散去噪扩散过程,在共享 token 空间中同步去噪未来图像与动作 token,在多个基准上取得最先进性能,且推理速度大幅提升。

8 挑战与未来方向

尽管扩散语言模型已在广泛任务中展现出可观潜力,若干关键挑战仍然存在,限制了其实际部署与更广泛应用。本节中,我们概述并讨论需要进一步研究与创新的关键领域。

8.1 主要挑战

1)并行性-性能权衡。扩散语言模型旨在并行生成多个 token,但这种并行性往往以牺牲生成质量与一致性为代价。在离散 DLM 中,单步同时解掩多个 token 会加重去噪负担,可能导致误差累积。一个核心问题是 token 间的相互依赖,即"并行解码诅咒(Parallel Decoding Curse)":当同时预测多个 token 时,模型为每个位置产生一个分布并从中独立采样,未能考虑位置间的依赖。考虑一个简单例子:训练数据仅由 "ABABAB" 与 "BABABA" 两条序列组成。统计上,"A" 与 "B" 在每个位置出现的频率相等,使 DLM 在预测时为它们分配相近概率。在自回归模型中,一旦第一个 "A" 被生成,模型很可能接着预测 "B",保持一致性;而并行生成的 DLM 可能为第一与第二位置都独立采样到 "A",产生像 "AAABBA" 这样偏离有效训练模式的序列。实证研究表明,这一问题显著影响 DLM 性能,尤其当去噪步数减少时。该现象如图 7 所示。未来工作可聚焦于缓解这一权衡,潜在方向包括引入结构化约束、更显式地建模 token 间依赖,或精炼采样策略以提升并行生成中的连贯性。

图 7 不同去噪步数设置下的生成结果
图 7. LLaDA 与 MMaDA 在不同去噪步数设置下的生成结果。注意,LLaDA 与 MMaDA 的生成长度分别设为 128 与 256 token。两个模型仅当每步解掩 1 或 2 个 token 时才生成正确且连贯的回应;步数更少、并行度更高时,回应要么不正确,要么缺乏流畅性与一致性。这说明了 DLM 中并行性与输出质量之间的权衡。为简洁起见,我们省略了 MMaDA 在 256 步设置下部分思考过程。(提示:一个长方体长为 (2x+3)、宽为 (x+1)、高为 (x-1),当 x=4 时体积是多少?标准答案为 11×5×3=165 立方单位。)

2)基础设施。AR 模型的训练、微调与推理已被开源、高度优化的库与框架(如 Hugging Face Transformers)大幅简化与加速,而 DLM 在这方面仍然滞后。目前,主流机器学习生态对 DLM 几乎没有原生支持,为研究者与开发者带来实际困难。此外,在推理时,DLM 缺乏类似 vLLM 的成熟开源部署基础设施,使 DLM 的高效服务化变得困难。

3)长序列与动态长度生成。DLM 通常被训练以在扩散目标下对定长序列去噪,这使其难以在推理时泛化到更长或动态大小的序列。大多数现有 DLM 被限制在最长 4,096 token 的上下文,而 AR 模型中广泛使用的长序列外推技术在 DLM 设定中仍待探索。这一局限阻碍了 DLM 在需要长上下文理解或复杂推理任务中的适用性。此外,DLM 通常要求在推理时预先确定生成长度,使其不适合动态长度生成;尽管 DLM 可预测 [EOS] token 并省略其后生成的 token,但整个序列在去噪过程中仍被完整更新——无论生成是否在逻辑上已结束,这导致不必要的计算开销。近期工作已开始通过基于训练与无训练两类方法解决这一局限。此外,掩码型 DLM 在每个去噪步使用完全双向注意力,每步计算成本为 为序列长度);假设每步解掩固定数量的 token,去噪总步数随 线性增长,使整体推理复杂度达到 。若没有 KV-Cache 等架构优化,这一立方时间复杂度严重限制了 DLM 在真实世界长序列生成中的可扩展性。

4)可扩展性。可扩展性仍是 DLM 一个未被充分探索的挑战,尤其相较于 AR 模型。尽管 DLM 在某些指标与基准上展现出有前景的结果,但其规模尚未扩展到与 AR 对手相当的程度。早期公开 DLM 大多集中在 7B–8B 规模,近期模型如 LLaDA2.0 已开始将公开 DLM 扩展到更大模型规模。然而,与已扩展到数千亿乃至数万亿参数的领先 AR 模型(如 Llama-3.1-405B、DeepSeek-V3-671B-A37B MoE、Qwen3-235B-A22B MoE、Kimi-K2-1T-A32B MoE)相比,大规模 DLM 仍相对乏人探索。Mercury、Gemini Diffusion 等闭源 DLM 在广泛基准上也仍不及最先进的 AR 模型。此外,许多现有 DLM 要么从此前预训练的 AR 模型训练而来,要么在有限数据集上构建于基线 DLM(如 LLaDA)之上,这进一步制约了其可扩展性与性能。因此,进一步扩大 DLM 规模的能力仍需验证或探索。

8.2 未来方向

尽管存在上述挑战,DLM 仍呈现出许多有前景的未来探索方向。下面我们简要概述若干可能显著推进该领域的、尚待充分探索的方向与机遇:

9 结论

在本综述中,我们对扩散语言模型的全貌进行了深入概述。我们梳理了 DLM 的基本原理、分类体系与建模范式,并将其与主流自回归模型进行比较,凸显其独特特性与优势。我们进一步探讨了训练与推理的设计空间,涵盖兼顾质量与效率的各类训练策略与推理技术。此外,我们突出了多模态扩散语言模型的近期进展,展示其处理多样数据模态的能力。最后,我们讨论了该领域的局限与挑战,并展望了有前景的未来研究方向。我们希望本综述能为对基于扩散的语言建模感兴趣的研究者提供一份全面参考,给出关于该领域现状及其未来前景的有价值洞见。我们也鼓励在这一激动人心的研究领域进行更多探索与创新,因为扩散语言模型仍在持续演进,不断推动语言理解与生成的边界。


译者注:以下参考文献保留英文原文,未作翻译,以便读者检索原始出处。

参考文献 / References

[1] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell et al., “Language models are few-shot learners,” Advances in neural information processing systems, vol. 33, pp. 1877–1901, 2020.
[2] J. Achiam, S. Adler, S. Agarwal, L. Ahmad, I. Akkaya, F. L. Aleman, D. Almeida, J. Altenschmidt, S. Altman, S. Anadkat et al., “Gpt-4 technical report,” arXiv preprint arXiv:2303.08774, 2023.
[3] A. Chowdhery, S. Narang, J. Devlin, M. Bosma, G. Mishra, A. Roberts, P. Barham, H. W. Chung, C. Sutton, S. Gehrmann et al., “Palm: Scaling language modeling with pathways,” Journal of Machine Learning Research, vol. 24, no. 240, pp. 1–113, 2023.
[4] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi`ere, N. Goyal, E. Hambro, F. Azhar et al., “Llama: Open and efficient foundation language models,” arXiv preprint arXiv:2302.13971, 2023.
[5] J. Bai, S. Bai, Y. Chu, Z. Cui, K. Dang, X. Deng, Y. Fan, W. Ge, Y. Han, F. Huang et al., “Qwen technical report,” arXiv preprint arXiv:2309.16609, 2023.
[6] W. X. Zhao, K. Zhou, J. Li, T. Tang, X. Wang, Y. Hou, Y. Min, B. Zhang, J. Zhang, Z. Dong et al., “A survey of large language models,” arXiv preprint arXiv:2303.18223, vol. 1, no. 2, 2023.
[7] D. Guo, D. Yang, H. Zhang, J. Song, R. Zhang, R. Xu, Q. Zhu, S. Ma, P. Wang, X. Bi et al., “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,” arXiv preprint arXiv:2501.12948, 2025.
[8] R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-resolution image synthesis with latent diffusion models,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2022, pp. 10 684–10 695.
[9] C. Saharia, W. Chan, S. Saxena, L. Li, J. Whang, E. L. Denton, K. Ghasemipour, R. Gontijo Lopes, B. Karagol Ayan, T. Salimans et al., “Photorealistic text-to-image diffusion models with deep language understanding,” Advances in neural information processing systems, vol. 35, pp. 36 479–36 494, 2022.
[10] D. Podell, Z. English, K. Lacey, A. Blattmann, T. Dockhorn, J. M¨uller, J. Penna, and R. Rombach, “Sdxl: Improving latent diffusion models for high-resolution image synthesis,” in The Twelfth International Conference on Learning Representations.
[11] P. Esser, S. Kulal, A. Blattmann, R. Entezari, J. M¨uller, H. Saini, Y. Levi, D. Lorenz, A. Sauer, F. Boesel et al., “Scaling rectified flow transformers for high-resolution image synthesis,” in Forty-first international conference on machine learning, 2024.
[12] T. Brooks, B. Peebles, C. Holmes, W. DePue, Y. Guo, L. Jing, D. Schnurr, J. Taylor, T. Luhman, E. Luhman et al., “Video generation models as world simulators,” OpenAI Blog, vol. 1, p. 8, 2024.
[13] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever et al., “Improving language understanding by generative pre-training,” 2018.
[14] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever et al., “Language models are unsupervised multitask learners,” OpenAI blog, vol. 1, no. 8, p. 9, 2019.
[15] G. Team, R. Anil, S. Borgeaud, J.-B. Alayrac, J. Yu, R. Soricut, J. Schalkwyk, A. M. Dai, A. Hauth, K. Millican et al., “Gemini: a family of highly capable multimodal models,” arXiv preprint arXiv:2312.11805, 2023.
[16] A. Liu, B. Feng, B. Xue, B. Wang, B. Wu, C. Lu, C. Zhao, C. Deng, C. Zhang, C. Ruan et al., “Deepseek-v3 technical report,” arXiv preprint arXiv:2412.19437, 2024.
[17] P. Dhariwal and A. Nichol, “Diffusion models beat gans on image synthesis,” Advances in neural information processing systems, vol. 34, pp. 8780–8794, 2021.
[18] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances in neural information processing systems, vol. 33, pp. 6840–6851, 2020.
[19] J. Song, C. Meng, and S. Ermon, “Denoising diffusion implicit models,” arXiv preprint arXiv:2010.02502, 2020.
[20] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-based generative modeling through stochastic differential equations,” in International Conference on Learning Representations.
[21] X. Liu, C. Gong et al., “Flow straight and fast: Learning to generate and transfer data with rectified flow,” in The Eleventh International Conference on Learning Representations.
[22] X. Li, J. Thickstun, I. Gulrajani, P. S. Liang, and T. B. Hashimoto, “Diffusion-lm improves controllable text generation,” Advances in neural information processing systems, vol. 35, pp. 4328–4343, 2022.
[23] R. Strudel, C. Tallec, F. Altch´e, Y. Du, Y. Ganin, A. Mensch, W. Grathwohl, N. Savinov, S. Dieleman, L. Sifre et al., “Selfconditioned embedding diffusion for text generation,” arXiv preprint arXiv:2211.04236, 2022.
[24] J. Austin, D. D. Johnson, J. Ho, D. Tarlow, and R. Van Den Berg, “Structured denoising diffusion models in discrete state-spaces,” Advances in neural information processing systems, vol. 34, pp. 17 981–17 993, 2021.
[25] Z. He, T. Sun, Q. Tang, K. Wang, X. Huang, and X. Qiu, “Diffusionbert: Improving generative masked language models with diffusion models,” in The 61st Annual Meeting Of The Association For Computational Linguistics, 2023.
[26] J. Ye, Z. Xie, L. Zheng, J. Gao, Z. Wu, X. Jiang, Z. Li, and L. Kong, “Dream 7b,” 2025. [Online]. Available: https: //hkunlp.github.io/blog/2025/dream
[27] S. Gong, S. Agarwal, Y. Zhang, J. Ye, L. Zheng, M. Li, C. An, P. Zhao, W. Bi, J. Han et al., “Scaling diffusion language models via adaptation from autoregressive models,” in The Thirteenth International Conference on Learning Representations.
[28] S. Nie, F. Zhu, Z. You, X. Zhang, J. Ou, J. Hu, J. Zhou, Y. Lin, J.-R. Wen, and C. Li, “Large language diffusion models,” arXiv preprint arXiv:2502.09992, 2025.
[29] Z. You, S. Nie, X. Zhang, J. Hu, J. Zhou, Z. Lu, J.-R. Wen, and C. Li, “Llada-v: Large language diffusion models with visual instruction tuning,” arXiv preprint arXiv:2505.16933, 2025.
[30] R. Yu, X. Ma, and X. Wang, “Dimple: Discrete diffusion multimodal large language model with parallel decoding,” arXiv preprint arXiv:2505.16990, 2025.
[31] L. Yang, Y. Tian, B. Li, X. Zhang, K. Shen, Y. Tong, and M. Wang, “Mmada: Multimodal large diffusion language models,” arXiv preprint arXiv:2505.15809, 2025.
[32] I. Labs, S. Khanna, S. Kharbanda, S. Li, H. Varma, E. Wang, S. Birnbaum, Z. Luo, Y. Miraoui, A. Palrecha et al., “Mercury: Ultra-fast language models based on diffusion,” arXiv preprint arXiv:2506.17298, 2025.
[33] DeepMind, “Gemini diffusion,” https://deepmind.google/ technologies/gemini, 2024, accessed: 2025-07-09.
[34] Y. Song, Z. Zhang, C. Luo, P. Gao, F. Xia, H. Luo, Z. Li, Y. Yang, H. Yu, X. Qu et al., “Seed diffusion: A large-scale diffusion language model with high-speed inference,” arXiv preprint arXiv:2508.02193, 2025.
[35] M. Xu, T. Geffner, K. Kreis, W. Nie, Y. Xu, J. Leskovec, S. Ermon, and A. Vahdat, “Energy-based diffusion language models for text generation,” arXiv preprint arXiv:2410.21357, 2024.
[36] J. Deschenaux and C. Gulcehre, “Beyond autoregression: Fast llms via self-distillation through time,” in The Thirteenth International Conference on Learning Representations.
[37] K. Han, K. Kenealy, A. Barua, N. Fiedel, and N. Constant, “Transfer learning for text diffusion models,” arXiv preprint arXiv:2401.17181, 2024.
[38] S. S. Sahoo, J. Deschenaux, A. Gokaslan, G. Wang, J. Chiu, and V. Kuleshov, “The diffusion duality,” arXiv preprint arXiv:2506.10892, 2025.
[39] Y. Zhang, S. He, D. Levine, L. Zhao, D. Zhang, S. A. Rizvi, E. Zappala, R. Ying, and D. van Dijk, “Non-markovian dis22 crete diffusion with causal language models,” arXiv preprint arXiv:2502.09767, 2025.
[40] M. Dang, J. Han, M. Xu, K. Xu, A. Srivastava, and S. Ermon, “Inference-time scaling of diffusion language models with particle gibbs sampling,” arXiv preprint arXiv:2507.08390, 2025.
[41] L. Rout, C. Caramanis, and S. Shakkottai, “Anchored diffusion language model,” arXiv preprint arXiv:2505.18456, 2025.
[42] Z. Shao, P. Wang, Q. Zhu, R. Xu, J. Song, X. Bi, H. Zhang, M. Zhang, Y. Li, Y. Wu et al., “Deepseekmath: Pushing the limits of mathematical reasoning in open language models,” arXiv preprint arXiv:2402.03300, 2024.
[43] S. Zhao, D. Gupta, Q. Zheng, and A. Grover, “d1: Scaling reasoning in diffusion large language models via reinforcement learning,” arXiv preprint arXiv:2504.12216, 2025.
[44] T. Chen, S. Zhang, and M. Zhou, “Dlm-one: Diffusion language models for one-step sequence generation,” arXiv e-prints, pp. arXiv–2506, 2025.
[45] C. Wu, H. Zhang, S. Xue, Z. Liu, S. Diao, L. Zhu, P. Luo, S. Han, and E. Xie, “Fast-dllm: Training-free acceleration of diffusion llm by enabling kv cache and parallel decoding,” arXiv preprint arXiv:2505.22618, 2025.
[46] D. Israel, G. V. d. Broeck, and A. Grover, “Accelerating diffusion llms via adaptive parallel decoding,” arXiv preprint arXiv:2506.00413, 2025.
[47] G. Wang, Y. Schiff, S. S. Sahoo, and V. Kuleshov, “Remasking discrete diffusion models with inference-time scaling,” in ICLR 2025 Workshop on Deep Generative Model in Machine Learning: Theory, Principle and Efficacy.
[48] Z. Liu, Y. Yang, Y. Zhang, J. Chen, C. Zou, Q. Wei, S. Wang, and L. Zhang, “dllm-cache: Accelerating diffusion large language models with adaptive caching,” arXiv preprint arXiv:2506.06295, 2025.
[49] X. Ma, R. Yu, G. Fang, and X. Wang, “dkv-cache: The cache for diffusion language models,” arXiv preprint arXiv:2505.15781, 2025.
[50] G. Liu, Z. Feng, Y. Gao, Z. Yang, X. Liang, J. Bao, X. He, S. Cui, Z. Li, and Z. Hu, “Composable text controls in latent space with odes,” arXiv preprint arXiv:2208.00638, 2022.
[51] S. Gong, M. Li, J. Feng, Z. Wu, and L. Kong, “Diffuseq: Sequence to sequence text generation with diffusion models,” in The Eleventh International Conference on Learning Representations.
[52] S. Dieleman, L. Sartran, A. Roshannai, N. Savinov, Y. Ganin, P. H. Richemond, A. Doucet, R. Strudel, C. Dyer, C. Durkan et al., “Continuous diffusion for categorical data,” arXiv preprint arXiv:2211.15089, 2022.
[53] Z. Gao, J. Guo, X. Tan, Y. Zhu, F. Zhang, J. Bian, and L. Xu, “Empowering diffusion models on the embedding space for text generation,” arXiv preprint arXiv:2212.09412, 2022.
[54] J. Lovelace, V. Kishore, C. Wan, E. Shekhtman, and K. Q. Weinberger, “Latent diffusion for language generation,” Advances in Neural Information Processing Systems, vol. 36, pp. 56 998–57 025, 2023.
[55] Z. Lin, Y. Gong, Y. Shen, T. Wu, Z. Fan, C. Lin, N. Duan, and W. Chen, “Text generation with diffusion language models: A pre-training approach with continuous paragraph denoise,” in International Conference on Machine Learning. PMLR, 2023, pp. 21 051–21 064.
[56] R. Wang, J. Li, and P. Li, “Infodiffusion: Information entropy aware diffusion process for non-autoregressive text generation,” in Findings of the Association for Computational Linguistics: EMNLP 2023, 2023, pp. 13 757–13 770.
[57] G. Liu, Y. Wang, Z. Feng, Q. Wu, L. Tang, Y. Gao, Z. Li, S. Cui, J. Mcauley, Z. Yang et al., “Unified generation, reconstruction, and representation: Generalized diffusion with adaptive latent encoding-decoding,” in International Conference on Machine Learning. PMLR, 2024, pp. 31 964–31 993.
[58] A. Shabalin, V. Meshchaninov, and D. Vetrov, “Smoothie: Smoothing diffusion on token embeddings for text generation,” arXiv preprint arXiv:2505.18853, 2025.
[59] R. K. Mahabadi, H. Ivison, J. Tae, J. Henderson, I. Beltagy, M. E. Peters, and A. Cohan, “Tess: Text-to-text self-conditioned simplex diffusion,” in Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, pp. 2347–2361.
[60] J. Tae, H. Ivison, S. Kumar, and A. Cohan, “Tess 2: A large-scale generalist diffusion language model,” arXiv preprint arXiv:2502.13917, 2025.
[61] P. Yu, S. Xie, X. Ma, B. Jia, B. Pang, R. Gao, Y. Zhu, S.-C. Zhu, and Y. N. Wu, “Latent diffusion energy-based model for interpretable text modelling,” in International Conference on Machine Learning. PMLR, 2022, pp. 25 702–25 720.
[62] Y. Chen, C. Liang, H. Sui, R. Guo, C. Cheng, J. You, and G. Liu, “Langflow: Continuous diffusion rivals discrete in language modeling,” arXiv preprint arXiv:2604.11748, 2026.
[63] K. Hu, L. Qiu, Y. Lu, H. Zhao, T. Li, Y. Kim, J. Andreas, and K. He, “Elf: Embedded language flows,” arXiv preprint arXiv:2605.10938, 2026.
[64] S. Zhuang, Y. Ai, J. Han, X. Li, H. Huang, X. Yue, X. Hu, K. Xu, Y. Wang, and H. Chen, “Bitlm: Unlocking multi-token language generation with bitwise continuous diffusion,” arXiv preprint arXiv:2605.11577, 2026.
[65] C. Lee, J. Yoo, M. Agarwal, S. Shah, J. Huang, A. Raghunathan, S. Hong, N. M. Boffi, and J. Kim, “Flow map language models: One-step language modeling via continuous denoising,” arXiv preprint arXiv:2602.16813, 2026.
[66] H. Guo, Q. Zhao, Y. Zhao, S. Nie, R. Zhu, Q. Guo, F. Wang, T. Yang, H. Zhao, G. Wei et al., “Continuous latent diffusion language model,” arXiv preprint arXiv:2605.06548, 2026.
[67] L. Zheng, J. Yuan, L. Yu, and L. Kong, “A reparameterized discrete diffusion model for text generation,” in First Conference on Language Modeling.
[68] J. Shi, K. Han, Z. Wang, A. Doucet, and M. Titsias, “Simplified and generalized masked diffusion for discrete data,” Advances in neural information processing systems, vol. 37, pp. 103 131–103 167, 2024.
[69] S. Sahoo, M. Arriola, Y. Schiff, A. Gokaslan, E. Marroquin, J. Chiu, A. Rush, and V. Kuleshov, “Simple and effective masked diffusion language models,” Advances in Neural Information Processing Systems, vol. 37, pp. 130 136–130 184, 2024.
[70] J. Ye, Z. Zheng, Y. Bao, L. Qian, and Q. Gu, “Diffusion language models can perform many tasks with scaling and instructionfinetuning,” arXiv preprint arXiv:2308.12219, 2023.
[71] K. Zhou, Y. Li, W. X. Zhao, and J.-R. Wen, “Diffusion-nat: Selfprompting discrete diffusion for non-autoregressive text generation,” in Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics (Volume 1: Long Papers), 2024, pp. 1438–1451.
[72] I. Gulrajani and T. B. Hashimoto, “Likelihood-based diffusion language models,” Advances in Neural Information Processing Systems, vol. 36, pp. 16 693–16 715, 2023.
[73] A. Lou, C. Meng, and S. Ermon, “Discrete diffusion modeling by estimating the ratios of the data distribution,” in International Conference on Machine Learning. PMLR, 2024, pp. 32 819–32 848.
[74] J. Ou, S. Nie, K. Xue, F. Zhu, J. Sun, Z. Li, and C. Li, “Your absorbing discrete diffusion secretly models the conditional distributions of clean data,” in The Thirteenth International Conference on Learning Representations, 2024.
[75] I. Gat, T. Remez, N. Shaul, F. Kreuk, R. T. Chen, G. Synnaeve, Y. Adi, and Y. Lipman, “Discrete flow matching,” Advances in Neural Information Processing Systems, vol. 37, pp. 133 345–133 385, 2024.
[76] S. Liu, J. Nam, A. Campbell, H. Stark, Y. Xu, T. Jaakkola, and R. Gomez-Bombarelli, “Think while you generate: Discrete diffusion with planned denoising,” in The Thirteenth International Conference on Learning Representations, 2024.
[77] J. Ye, J. Gao, S. Gong, L. Zheng, X. Jiang, Z. Li, and L. Kong, “Beyond autoregression: Discrete diffusion for complex reasoning and planning,” arXiv preprint arXiv:2410.14157, 2024.
[78] D. von R¨utte, J. Fluri, Y. Ding, A. Orvieto, B. Sch¨olkopf, and T. Hofmann, “Generalized interpolating discrete diffusion,” in Forty-second International Conference on Machine Learning, 2025.
[79] X. Liu, Z. Liu, Z. Huang, Q. Guo, Z. He, and X. Qiu, “Longllada: Unlocking long context capabilities in diffusion llms,” arXiv preprint arXiv:2506.14429, 2025.
[80] F. Zhu, Z. You, Y. Xing, Z. Huang, L. Liu, Y. Zhuang, G. Lu, K. Wang, X. Wang, L. Wei et al., “Llada-moe: A sparse moe diffusion language model,” arXiv preprint arXiv:2509.24389, 2025.
[81] T. Bie, M. Cao, K. Chen, L. Du, M. Gong, Z. Gong, Y. Gu, J. Hu, Z. Huang, Z. Lan et al., “Llada2. 0: Scaling up diffusion language models to 100b,” arXiv preprint arXiv:2512.15745, 2025.
[82] X. Han, S. Kumar, and Y. Tsvetkov, “Ssd-lm: Semi-autoregressive simplex-based diffusion language model for text generation and modular control,” in Proceedings of the 61st Annual Meeting of the 23 Association for Computational Linguistics (Volume 1: Long Papers), 2023, pp. 11 575–11 596.
[83] T. Wu, Z. Fan, X. Liu, H.-T. Zheng, Y. Gong, J. Jiao, J. Li, J. Guo, N. Duan, W. Chen et al., “Ar-diffusion: Auto-regressive diffusion model for text generation,” Advances in Neural Information Processing Systems, vol. 36, pp. 39 957–39 974, 2023.
[84] M. Arriola, A. Gokaslan, J. T. Chiu, Z. Yang, Z. Qi, J. Han, S. S. Sahoo, and V. Kuleshov, “Block diffusion: Interpolating between autoregressive and diffusion language models,” in The Thirteenth International Conference on Learning Representations.
[85] C. Huang and H. Tang, “Ctrldiff: Boosting large diffusion language models with dynamic block prediction and controllable generation,” arXiv preprint arXiv:2505.14455, 2025.
[86] J. K. Christopher, B. R. Bartoldson, T. Ben-Nun, M. Cardei, B. Kailkhura, and F. Fioretto, “Speculative diffusion decoding: Accelerating language generation through diffusion,” in Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 2025, pp. 12 042–12 059.
[87] S. Cheng, Y. Bian, D. Liu, L. Zhang, Q. Yao, Z. Tian, W. Wang, Q. Guo, K. Chen, B. Qi et al., “Sdar: A synergistic diffusionautoregression paradigm for scalable sequence generation,” arXiv preprint arXiv:2510.06303, 2025.
[88] J. Liu, X. Dong, Z. Ye, R. Mehta, Y. Fu, V. Singh, J. Kautz, C. Zhang, and P. Molchanov, “Tidar: Think in diffusion, talk in autoregression,” arXiv preprint arXiv:2511.08923, 2025.
[89] Y. Liu, Y. Cao, H. Li, G. Luo, Z. Chen, W. Wang, X. Liang, B. Qi, L. Wu, C. Tian et al., “Sequential diffusion language models,” arXiv preprint arXiv:2509.24007, 2025.
[90] Y. Tian, Y. Liang, S. Zhang, Y. Shu, G. Yang, W. He, S. Fang, T. Guo, K. Han, C. Xu et al., “From next-token to next-block: A principled adaptation path for diffusion llms,” arXiv preprint arXiv:2512.06776, 2025.
[91] Y. Fu, L. Whalen, Z. Ye, X. Dong, S. Diao, J. Liu, C. Wu, H. Zhang, E. Xie, S. Han et al., “Efficient-dlm: From autoregressive to diffusion language models, and beyond in speed,” arXiv preprint arXiv:2512.14067, 2025.
[92] Y. Yu, Y. Jian, J. Wang, Z. Zhou, D. Zhuang, X. Fang, S. Yanamandra, X. Wu, Q. Wu, S. L. Song et al., “Introspective diffusion language models,” arXiv preprint arXiv:2604.11035, 2026.
[93] J.-N. Li, J. Guan, W. Wu, and C. Li, “Refusion: A diffusion large language model with parallel autoregressive decoding,” arXiv preprint arXiv:2512.13586, 2025.
[94] J. Ruan, B. Li, Y. Yin, P. Huang, X. Chen, J. Wang, X. Cai, T. Xiao, and J. Zhu, “Causal autoregressive diffusion language model,” arXiv preprint arXiv:2601.22031, 2026.
[95] Z. Li, H. Li, Y. Shi, A. B. Farimani, Y. Kluger, L. Yang, and P. Wang, “Dual diffusion for unified image generation and understanding,” in Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 2779–2790.
[96] Q. Shi, J. Bai, Z. Zhao, W. Chai, K. Yu, J. Wu, S. Song, Y. Tong, X. Li, X. Li et al., “Muddit: Liberating generation beyond textto-image with a unified discrete diffusion model,” arXiv preprint arXiv:2505.23606, 2025.
[97] J. Ye, S. Gong, L. Chen, L. Zheng, J. Gao, H. Shi, C. Wu, X. Jiang, Z. Li, W. Bi et al., “Diffusion of thought: Chain-of-thought reasoning in diffusion language models,” Advances in Neural Information Processing Systems, vol. 37, pp. 105 345–105 374, 2024.
[98] Z. Huang, Z. Chen, Z. Wang, T. Li, and G.-J. Qi, “Reinforcing the diffusion chain of lateral thought with diffusion language models,” arXiv preprint arXiv:2505.10446, 2025.
[99] O. Zekri and N. Boull´e, “Fine-tuning discrete diffusion models with policy gradient methods,” arXiv preprint arXiv:2502.01384, 2025.
[100] S. Gong, R. Zhang, H. Zheng, J. Gu, N. Jaitly, L. Kong, and Y. Zhang, “Diffucoder: Understanding and improving masked diffusion models for code generation,” arXiv preprint arXiv:2506.20639, 2025.
[101] X. Tang, R. Dolga, S. Yoon, and I. Bogunovic, “wd1: Weighted policy optimization for reasoning in diffusion language models,” arXiv preprint arXiv:2507.08838, 2025.
[102] S. Zhao, M. Liu, J. Huang, M. Liu, C. Wang, B. Liu, Y. Tian, G. Pang, S. Bell, A. Grover et al., “Inpainting-guided policy optimization for diffusion large language models,” arXiv preprint arXiv:2509.10396, 2025.
[103] C. Wang, P. Rashidinejad, D. Su, S. Jiang, S. Wang, S. Zhao, C. Zhou, S. Z. Shen, F. Chen, T. Jaakkola et al., “Spg: Sandwiched policy gradient for masked diffusion language models,” arXiv preprint arXiv:2510.09541, 2025.
[104] S. Xie, L. Kong, X. Song, X. Dong, G. Chen, E. P. Xing, and K. Zhang, “Step-aware policy optimization for reasoning in diffusion large language models,” arXiv preprint arXiv:2510.01544, 2025.
[105] N. Lin, J. Zhang, L. Hou, and J. Li, “Boundary-guided policy optimization for memory-efficient rl of diffusion large language models,” arXiv preprint arXiv:2510.11683, 2025.
[106] Z. Ni, S. Wang, Y. Yue, T. Yu, W. Zhao, Y. Hua, T. Chen, J. Song, C. Yu, B. Zheng et al., “The flexibility trap: Why arbitrary order limits reasoning potential in diffusion language models,” arXiv preprint arXiv:2601.15165, 2026.
[107] F. Zhu, R. Wang, S. Nie, X. Zhang, C. Wu, J. Hu, J. Zhou, J. Chen, Y. Lin, J.-R. Wen et al., “Llada 1.5: Variance-reduced preference optimization for large language diffusion models,” arXiv preprint arXiv:2505.19223, 2025.
[108] Q. Wei, Y. Zhang, Z. Liu, D. Liu, and L. Zhang, “Accelerating diffusion large language models with slowfast: The three golden principles,” arXiv preprint arXiv:2506.10848, 2025.
[109] W. Bao, Z. Chen, D. Xu, and Y. Shang, “Learning to parallel: Accelerating diffusion large language models via learnable parallel decoding,” arXiv preprint arXiv:2509.25188, 2025.
[110] Z. Chen, G. Fang, X. Ma, R. Yu, and X. Wang, “dparallel: Learnable parallel decoding for dllms,” arXiv preprint arXiv:2509.26488, 2025.
[111] J. Chen, Y. Liang, and Z. Liu, “Dflash: Block diffusion for flash speculative decoding,” arXiv preprint arXiv:2602.06036, 2026.
[112] Z. Chen, G. Fang, X. Ma, R. Yu, and X. Wang, “Dmax: Aggressive parallel decoding for dllms,” arXiv preprint arXiv:2604.08302, 2026.
[113] P. Li, D. Muhtar, T. Chen, L. Yin, and S. Liu, “Why diffusion language models struggle with truly parallel (non-autoregressive) decoding?” arXiv preprint arXiv:2602.23225, 2026.
[114] P. Li, S. Yan, J. Tsai, R. Zhang, R. An, Z. Guo, and X. Gao, “Adaptive classifier-free guidance via dynamic low-confidence masking,” arXiv preprint arXiv:2505.20199, 2025.
[115] Z. Hu, J. Meng, Y. Akhauri, M. S. Abdelfattah, J.-s. Seo, Z. Zhang, and U. Gupta, “Accelerating diffusion language model inference via efficient kv caching and guided diffusion,” arXiv preprint arXiv:2505.21467, 2025.
[116] T. Suresh, D. Banerjee, S. Ugare, S. Misailovic, and G. Singh, “Dingo: Constrained inference for diffusion llms,” in ICML 2025 Workshop on Reliable and Responsible Foundation Models.
[117] Q. Nguyen-Tri, M. Ranjan, and Z. Shen, “Attention is all you need for kv cache in diffusion llms,” arXiv preprint arXiv:2510.14973, 2025.
[118] Y. Jiang, Y. Cai, X. Luo, J. Fu, J. Wang, C. Liu, and X. Yang, “d 2 cache: Accelerating diffusion-based llms via dual adaptive caching,” arXiv preprint arXiv:2509.23094, 2025.
[119] X. Ma, G. Fang, and X. Wang, “Deepcache: Accelerating diffusion models for free,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2024, pp. 15 762–15 772.
[120] P. Chen, M. Shen, P. Ye, J. Cao, C. Tu, C.-S. Bouganis, Y. Zhao, and T. Chen, “∆-dit: A training-free acceleration method tailored for diffusion transformers,” arXiv preprint arXiv:2406.01125, 2024.
[121] X. Ma, G. Fang, M. Bi Mi, and X. Wang, “Learning-to-cache: Accelerating diffusion transformer via layer caching,” Advances in Neural Information Processing Systems, vol. 37, pp. 133 282– 133 304, 2024.
[122] Z. Lv, C. Si, J. Song, Z. Yang, Y. Qiao, Z. Liu, and K.-Y. K. Wong, “Fastercache: Training-free video diffusion model acceleration with high quality,” in The Thirteenth International Conference on Learning Representations.
[123] S. Hayakawa, Y. Takida, M. Imaizumi, H. Wakaki, and Y. Mitsufuji, “Distillation of discrete diffusion through dimensional correlations,” in Forty-second International Conference on Machine Learning.
[124] T. Salimans and J. Ho, “Progressive distillation for fast sampling of diffusion models,” in International Conference on Learning Representations.
[125] Y.-Y. Qian, J. Su, L. Hu, P. Zhang, Z. Deng, P. Zhao, and H. Zhang, “d3llm: Ultra-fast diffusion llm using pseudo-trajectory distillation,” arXiv preprint arXiv:2601.07568, 2026.
[126] A. Myrzakhan, T. Li, B. Guo, S. Tang, and Z. Shen, “Sinkaware pruning for diffusion language models,” arXiv preprint arXiv:2602.17664, 2026. 24
[127] S. Li, K. Kallidromitis, H. Bansal, A. Gokul, Y. Kato, K. Kozuka, J. Kuen, Z. Lin, K.-W. Chang, and A. Grover, “Lavida: A large diffusion language model for multimodal understanding,” arXiv preprint arXiv:2505.16839, 2025.
[128] J. Wang, Y. Lai, A. Li, S. Zhang, J. Sun, N. Kang, C. Wu, Z. Li, and P. Luo, “Fudoki: Discrete flow-based unified understanding and generation via kinetic-optimal velocities,” arXiv preprint arXiv:2505.20147, 2025.
[129] A. Swerdlow, M. Prabhudesai, S. Gandhi, D. Pathak, and K. Fragkiadaki, “Unified multimodal discrete diffusion,” arXiv preprint arXiv:2503.20853, 2025.
[130] Y. Xin, Q. Qin, S. Luo, K. Zhu, J. Yan, Y. Tai, J. Lei, Y. Cao, K. Wang, Y. Wang et al., “Lumina-dimoo: An omni diffusion large language model for multi-modal generation and understanding,” arXiv preprint arXiv:2510.06308, 2025.
[131] S. Li, J. Gu, K. Liu, Z. Lin, Z. Wei, A. Grover, and J. Kuen, “Lavidao: Elastic large masked diffusion models for unified multimodal understanding and generation,” arXiv preprint arXiv:2509.19244, 2025.
[132] Y. Tian, L. Yang, J. Yang, A. Wang, Y. Tian, J. Zheng, H. Wang, Z. Teng, Z. Wang, Y. Wang et al., “Mmada-parallel: Multimodal large diffusion language models for thinking-aware editing and generation,” arXiv preprint arXiv:2511.09611, 2025.
[133] L. Zeng, J. Yao, B. Liao, H. Tao, W. Liu, and X. Wang, “Diffusionvl: Translating any autoregressive models into diffusion vision language models,” arXiv preprint arXiv:2512.15713, 2025.
[134] C. Wu, S. Lan, Y. Fu, S. Gao, J. Wang, J. Yu, J. M. Alvarez, P. Molchanov, P. Luo, S. Han et al., “Fast-dvlm: Efficient blockdiffusion vlm via direct conversion from autoregressive vlm,” arXiv preprint arXiv:2604.06832, 2026.
[135] Z. He, T. Chen, K. Wang, Z. Qin, Y. Shao, C. Gan, S. Li, Z. Wu, and W. Lin, “Vidlada: Bidirectional diffusion large language models for efficient video understanding,” arXiv preprint arXiv:2601.17868, 2026.
[136] S. Yuan, W. Yuan, H. Yin, and T. He, “Roic-dm: Robust text inference and classification via diffusion model,” arXiv preprint arXiv:2401.03514, 2024.
[137] Y. Shen, K. Song, X. Tan, D. Li, W. Lu, and Y. Zhuang, “Diffusionner: Boundary diffusion for named entity recognition,” in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023, pp. 3875– 3890.
[138] X. Yang, Z. Qiao, and Y. Zhou, “Ipad: Iterative, parallel, and diffusion-based network for scene text recognition,” International Journal of Computer Vision, pp. 1–21, 2025.
[139] S. Liu, J. Zhou, Q. Zhu, Q. Chen, Q. Bai, J. Xiao, and L. He, “Let’s rectify step by step: Improving aspect-based sentiment analysis with diffusion models,” in Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 2024, pp. 10 324–10 335.
[140] H. Zhang, X. Liu, and J. Zhang, “Diffusum: Generation enhanced extractive summarization with diffusion,” in Findings of the Association for Computational Linguistics: ACL 2023, 2023, pp. 13 089– 13 100.
[141] X. Dong, W. Li, Y. Le, Z. Jiang, J. Zhong, and Z. Wang, “Termdiffusum: a term-guided diffusion model for extractive summarization of legal documents,” in Proceedings of the 31st international conference on computational linguistics, 2025, pp. 3222–3235.
[142] Y. Luo, Q. Zhou, and F. Zhou, “Enhancing phrase representation by information bottleneck guided text diffusion process for keyphrase extraction,” in Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 2024, pp. 6036–6047.
[143] J. Zhao, C. Xu, and B. Jiang, “Iped: An implicit perspective for relational triple extraction based on diffusion model,” in Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 2024, pp. 2080–2092.
[144] C. H. Lee, H. Kim, J. Yeom, and S. Yoon, “Editext: Controllable coarse-to-fine text editing with diffusion language models,” arXiv preprint arXiv:2502.19765, 2025.
[145] G. Bi, L. Shen, Y. Cao, M. Chen, Y. Xie, Z. Lin, and X. He, “Diffusemp: A diffusion model-based framework with multi-grained control for empathetic response generation,” in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023, pp. 2812–2831.
[146] G. Floto, M. M. A. Pour, P. Farinneya, Z. Tang, A. Pesaranghader, M. Bharadwaj, and S. Sanner, “Diffudetox: A mixed diffusion model for text detoxification,” in Findings of the Association for Computational Linguistics: ACL 2023, 2023, pp. 7566–7574.
[147] Z. Horvitz, A. Patel, C. Callison-Burch, Z. Yu, and K. McKeown, “Paraguide: Guided diffusion paraphrasers for plug-and-play textual style transfer,” in Proceedings of the AAAI conference on artificial intelligence, vol. 38, no. 16, 2024, pp. 18 216–18 224.
[148] Y. Zhang, J. Gu, Z. Wu, S. Zhai, J. Susskind, and N. Jaitly, “Planner: Generating diversified paragraph via latent language diffusion model,” Advances in Neural Information Processing Systems, vol. 36, pp. 80 178–80 190, 2023.
[149] J. Liu, P. Cheng, J. Dai, and J. Liu, “Diffucom: A novel diffusion model for comment generation,” Knowledge-Based Systems, vol. 281, p. 111069, 2023.
[150] J. Xiang, Z. Liu, H. Liu, Y. Bai, J. Cheng, and W. Chen, “Diffusiondialog: A diffusion model for diverse dialog generation with latent space,” in Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), 2024, pp. 4912–4921.
[151] W. Zou, Z. Zhuang, X. Geng, S. Huang, J. Liu, and J. Chen, “Improved paraphrase generation via controllable latent diffusion,” arXiv preprint arXiv:2404.08938, 2024.
[152] Z. Hu, C. Liu, Y. Feng, A. T. Luu, and B. Hooi, “Poetrydiffusion: Towards joint semantic and metrical manipulation in poetry generation,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 16, 2024, pp. 18 279–18 288.
[153] L. Chen, A. Feng, B. Yang, and Z. Li, “Xdlm: Cross-lingual diffusion language model for machine translation,” arXiv preprint arXiv:2307.13560, 2023.
[154] S. Qiao, X. Liu, and S.-H. Na, “Diffusionret: Diffusion-enhanced generative retriever using constrained decoding,” in Findings of the Association for Computational Linguistics: EMNLP 2023, 2023, pp. 9515–9529.
[155] K. Yan, M. Liu, Y. Liu, R. Fu, Z. Wen, J. Tao, and X. Liu, “Debunk and infer: Multimodal fake news detection via diffusion-generated evidence and llm reasoning,” arXiv preprint arXiv:2506.21557, 2025.
[156] O. Luxembourg, H. Permuter, and E. Nachmani, “Plan for speed– dilated scheduling for masked diffusion language models,” arXiv preprint arXiv:2506.19037, 2025.
[157] C. Fan, W. Heng, B. Li, S. Liu, Y. Song, J. Su, X. Qu, K. Shen, and W. Wei, “Stable-diffcoder: Pushing the frontier of code diffusion large language model,” arXiv preprint arXiv:2601.15892, 2026.
[158] H. Bai, L. Kong, X. Chen, J. Wang, Z. Tao, and H. Wang, “Dice: Diffusion large language models excel at generating cuda kernels,” arXiv preprint arXiv:2602.11715, 2026.
[159] Y. Xiong, K. Li, J. Chen, H. Zhang, D. Lin, Y. Che, and W. Hu, “Text-guided multi-property molecular optimization with a diffusion language model,” arXiv preprint arXiv:2410.13597, 2024.
[160] H. Gong, Q. Liu, S. Wu, and L. Wang, “Text-guided molecule generation with diffusion language model,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, no. 1, 2024, pp. 109–117.
[161] S. Goel, V. Thoutam, E. M. Marroquin, A. Gokaslan, A. Firouzbakht, S. Vincoff, V. Kuleshov, H. T. Kratochvil, and P. Chatterjee, “Memdlm: De novo membrane protein design with masked discrete diffusion protein language models,” in NeurIPS 2024 Workshop on AI for New Drug Modalities.
[162] X. Wang, Z. Zheng, D. Xue, S. Huang, Q. Gu et al., “Diffusion language models are versatile protein learners,” in Forty-first International Conference on Machine Learning.
[163] J. Yin, C. Zha, W. He, C. Xu, and X. Gao, “Cfp-gen: Combinatorial functional protein generation via diffusion language models,” in Forty-second International Conference on Machine Learning.
[164] C. Wang, M. Uehara, Y. He, A. Wang, A. Lal, T. Jaakkola, S. Levine, A. Regev, T. Biancalani et al., “Fine-tuning discrete diffusion models via reward optimization with applications to dna and protein design,” in The Thirteenth International Conference on Learning Representations.
[165] B. Ni, D. L. Kaplan, and M. J. Buehler, “Forcegen: End-toend de novo protein generation based on nonlinear mechanical unfolding responses using a language diffusion model,” Science Advances, vol. 10, no. 6, p. eadl4000, 2024.
[166] L. Hallee, N. Rafailidis, D. B. Bichara, and J. P. Gleghorn, “Diffusion sequence models for enhanced protein representation and generation,” arXiv preprint arXiv:2506.08293, 2025. 25
[167] X. Wang, Z. Zheng, F. Ye, D. Xue, S. Huang, and Q. Gu, “Dplm-2: A multimodal diffusion protein language model,” arXiv preprint arXiv:2410.13782, 2024.
[168] Y. Wen, H. Li, K. Gu, Y. Zhao, T. Wang, and X. Sun, “Lladavla: Vision language diffusion action models,” arXiv preprint arXiv:2509.06932, 2025.
[169] J. Wen, M. Zhu, J. Liu, Z. Liu, Y. Yang, L. Zhang, S. Zhang, Y. Zhu, and Y. Xu, “dvla: Diffusion vision-language-action model with multimodal chain-of-thought,” arXiv preprint arXiv:2509.25681, 2025.
[170] J. Chen, W. Song, P. Ding, Z. Zhou, H. Zhao, F. Tang, D. Wang, and H. Li, “Unified diffusion vla: Vision-language-action model via joint discrete denoising diffusion process,” arXiv preprint arXiv:2511.01718, 2025.
[171] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, “Deep unsupervised learning using nonequilibrium thermodynamics,” in International conference on machine learning. pmlr, 2015, pp. 2256–2265.
[172] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pretraining of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), 2019, pp. 4171–4186.
[173] Y. Liu, M. Ott, N. Goyal, J. Du, M. Joshi, D. Chen, O. Levy, M. Lewis, L. Zettlemoyer, and V. Stoyanov, “Roberta: A robustly optimized bert pretraining approach,” arXiv preprint arXiv:1907.11692, 2019.
[174] Z. Lan, M. Chen, S. Goodman, K. Gimpel, P. Sharma, and R. Soricut, “Albert: A lite bert for self-supervised learning of language representations,” in International Conference on Learning Representations.
[175] P. He, X. Liu, J. Gao, and W. Chen, “Deberta: Decoding-enhanced bert with disentangled attention,” in International Conference on Learning Representations.
[176] Z. Dai, Z. Yang, Y. Yang, J. Carbonell, Q. V. Le, and R. Salakhutdinov, “Transformer-xl: Attentive language models beyond a fixedlength context,” arXiv preprint arXiv:1901.02860, 2019.
[177] S. Zhang, S. Roller, N. Goyal, M. Artetxe, M. Chen, S. Chen, C. Dewan, M. Diab, X. Li, X. V. Lin et al., “Opt: Open pre-trained transformer language models,” arXiv preprint arXiv:2205.01068, 2022.
[178] F. Gloeckle, B. Y. Idrissi, B. Roziere, D. Lopez-Paz, and G. Synnaeve, “Better & faster large language models via multi-token prediction,” in Forty-first International Conference on Machine Learning.
[179] R. Chen, W. Chai, Z. Yang, X. Zhang, J. T. Zhou, T. Quek, S. Poria, and Z. Liu, “Diffpo: Diffusion-styled preference optimization for efficient inference-time alignment of large language models,” arXiv preprint arXiv:2503.04240, 2025.
[180] I. Sutskever, O. Vinyals, and Q. V. Le, “Sequence to sequence learning with neural networks,” Advances in neural information processing systems, vol. 27, 2014.
[181] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of machine learning research, vol. 21, no. 140, pp. 1–67, 2020.
[182] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, and L. Zettlemoyer, “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 7871–7880.
[183] H. Yuan, Z. Yuan, C. Tan, F. Huang, and S. Huang, “Seqdiffuseq: Text diffusion with encoder-decoder transformers,” arXiv preprint arXiv:2212.10325, 2022.
[184] Z. Yang, Z. Dai, Y. Yang, J. Carbonell, R. R. Salakhutdinov, and Q. V. Le, “Xlnet: Generalized autoregressive pretraining for language understanding,” Advances in neural information processing systems, vol. 32, 2019.
[185] T. Chen, R. Zhang, and G. Hinton, “Analog bits: Generating discrete data using diffusion models with self-conditioning,” arXiv preprint arXiv:2208.04202, 2022.
[186] Q. Team, “Qwen2.5: A party of foundation models,” September 2024. [Online]. Available: https://qwenlm.github. io/blog/qwen2.5/
[187] G. He, S. Nie, F. Zhu, Y. Zhao, T. Bai, R. Yan, J. Fu, C. Li, and B. Yuan, “Ultrallada: Scaling the context length to 128k for diffusion large language models,” arXiv preprint arXiv:2510.10481, 2025.
[188] X. Zhu, G. Karadzhov, C. Whitehouse, and A. Vlachos, “Segment-level diffusion: A framework for controllable longform generation with diffusion language models,” arXiv preprint arXiv:2412.11333, 2024.
[189] Y. Zihuiwen, Y. Elle Michelle, and B. Phil, “Latent diffusion for document generation with sequential decoding,” in NeurIPS 2023 Workshop on Diffusion Models, 2023. [Online]. Available: https://neurips.cc/virtual/2023/74876
[190] E. Cetin, T. Zhao, and Y. Tang, “Large language models to diffusion finetuning,” arXiv preprint arXiv:2501.15781, 2025.
[191] J. Bai, T. Ye, W. Chow, E. Song, Q.-G. Chen, X. Li, Z. Dong, L. Zhu, and S. Yan, “Meissonic: Revitalizing masked generative transformers for efficient high-resolution text-to-image synthesis,” in The Thirteenth International Conference on Learning Representations, 2024.
[192] J. Ni, Q. Liu, C. Du, L. Dou, H. Yan, Z. Wang, T. Pang, and M. Q. Shieh, “Training optimal large diffusion language models,” arXiv preprint arXiv:2510.03280, 2025.
[193] J. Ni, Q. Liu, L. Dou, C. Du, Z. Wang, H. Yan, T. Pang, and M. Q. Shieh, “Diffusion language models are super data learners,” arXiv preprint arXiv:2511.03276, 2025.
[194] M. Asada and M. Miwa, “Addressing the training-inference discrepancy in discrete diffusion for text generation,” in Proceedings of the 31st International Conference on Computational Linguistics, 2025, pp. 7156–7164.
[195] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol. 30, 2017.
[196] A. Sauer, D. Lorenz, A. Blattmann, and R. Rombach, “Adversarial diffusion distillation,” in European Conference on Computer Vision. Springer, 2024, pp. 87–103.
[197] A. Sauer, F. Boesel, T. Dockhorn, A. Blattmann, P. Esser, and R. Rombach, “Fast high-resolution image synthesis with latent adversarial diffusion distillation,” in SIGGRAPH Asia 2024 Conference Papers, 2024, pp. 1–11.
[198] H. Liu, C. Li, Q. Wu, and Y. J. Lee, “Visual instruction tuning,” Advances in neural information processing systems, vol. 36, pp. 34 892–34 916, 2023.
[199] F. Li, R. Zhang, H. Zhang, Y. Zhang, B. Li, W. Li, Z. Ma, and C. Li, “Llava-interleave: Tackling multi-image, video, and 3d in large multimodal models,” in The Thirteenth International Conference on Learning Representations.
[200] J. Guo, T. Zheng, Y. Bai, B. Li, Y. Wang, K. Zhu, Y. Li, G. Neubig, W. Chen, and X. Yue, “Mammoth-vl: Eliciting multimodal reasoning with instruction tuning at scale,” arXiv preprint arXiv:2412.05237, 2024.
[201] A. Grattafiori, A. Dubey, A. Jauhri, A. Pandey, A. Kadian, A. AlDahle, A. Letman, A. Mathur, A. Schelten, A. Vaughan et al., “The llama 3 herd of models,” arXiv preprint arXiv:2407.21783, 2024.
[202] P. Wang, S. Bai, S. Tan, S. Wang, Z. Fan, J. Bai, K. Chen, X. Liu, J. Wang, W. Ge et al., “Qwen2-vl: Enhancing vision-language model’s perception of the world at any resolution,” arXiv preprint arXiv:2409.12191, 2024.
[203] J. Xie, W. Mao, Z. Bai, D. J. Zhang, W. Wang, K. Q. Lin, Y. Gu, Z. Chen, Z. Yang, and M. Z. Shou, “Show-o: One single transformer to unify multimodal understanding and generation,” in The Thirteenth International Conference on Learning Representations.
[204] S. Kou, J. Jin, Z. Liu, C. Liu, Y. Ma, J. Jia, Q. Chen, P. Jiang, and Z. Deng, “Orthus: Autoregressive interleaved imagetext generation with modality-specific heads,” arXiv preprint arXiv:2412.00127, 2024.
[205] C. Wu, X. Chen, Z. Wu, Y. Ma, X. Liu, Z. Pan, W. Liu, Z. Xie, X. Yu, C. Ruan et al., “Janus: Decoupling visual encoding for unified multimodal understanding and generation,” in Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 12 966–12 977.
[206] S. Patil, W. Berman, R. Rombach, and P. von Platen, “amused: An open muse reproduction,” arXiv preprint arXiv:2401.01808, 2024.
[207] Y. Wang, Z. Li, Y. Zang, Y. Zhou, J. Bu, C. Wang, Q. Lu, C. Jin, and J. Wang, “Pref-grpo: Pairwise preference reward-based grpo for stable text-to-image reinforcement learning,” arXiv preprint arXiv:2508.20751, 2025. 26
[208] Y. Bisk, R. Zellers, J. Gao, Y. Choi et al., “Piqa: Reasoning about physical commonsense in natural language,” in Proceedings of the AAAI conference on artificial intelligence, vol. 34, no. 05, 2020, pp. 7432–7439.
[209] R. Zellers, A. Holtzman, Y. Bisk, A. Farhadi, and Y. Choi, “Hellaswag: Can a machine really finish your sentence?” in Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, 2019, pp. 4791–4800.
[210] M. Chen, J. Tworek, H. Jun, Q. Yuan, H. P. D. O. Pinto, J. Kaplan, H. Edwards, Y. Burda, N. Joseph, G. Brockman et al., “Evaluating large language models trained on code,” arXiv preprint arXiv:2107.03374, 2021.
[211] D. Ghosh, H. Hajishirzi, and L. Schmidt, “Geneval: An objectfocused framework for evaluating text-to-image alignment,” Advances in Neural Information Processing Systems, vol. 36, pp. 52 132– 52 152, 2023.
[212] C. Fu, P. Chen, Y. Shen, Y. Qin, M. Zhang, X. Lin, J. Yang, X. Zheng, K. Li, X. Sun et al., “Mme: A comprehensive evaluation benchmark for multimodal large language models,” arXiv preprint arXiv:2306.13394, 2023.
[213] X. Yue, Y. Ni, K. Zhang, T. Zheng, R. Liu, G. Zhang, S. Stevens, D. Jiang, W. Ren, Y. Sun et al., “Mmmu: A massive multidiscipline multimodal understanding and reasoning benchmark for expert agi,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 9556–9567.
[214] D. A. Hudson and C. D. Manning, “Gqa: A new dataset for realworld visual reasoning and compositional question answering,” in Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, 2019, pp. 6700–6709.
[215] K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano et al., “Training verifiers to solve math word problems,” arXiv preprint arXiv:2110.14168, 2021.
[216] Q. Team, “Qwen2 technical report,” arXiv preprint arXiv:2407.10671, 2024.
[217] D. Rein, B. L. Hou, A. C. Stickland, J. Petty, R. Y. Pang, J. Dirani, J. Michael, and S. R. Bowman, “Gpqa: A graduate-level googleproof q&a benchmark,” in First Conference on Language Modeling, 2024.
[218] D. Hendrycks, C. Burns, S. Kadavath, A. Arora, S. Basart, E. Tang, D. Song, and J. Steinhardt, “Measuring mathematical problem solving with the math dataset,” in Thirty-fifth Conference on Neural Information Processing Systems Datasets and Benchmarks Track (Round 2).
[219] Y. Lyu, T. Luo, J. Shi, T. C. Hollon, and H. Lee, “Fine-grained text style transfer with diffusion-based language models,” arXiv preprint arXiv:2305.19512, 2023.
[220] Y. Demirag, D. Liu, and J. Niehues, “Benchmarking diffusion models for machine translation,” in Proceedings of the 18th Conference of the European Chapter of the Association for Computational Linguistics: Student Research Workshop, 2024, pp. 313–324.
[221] T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz et al., “Transformers: State-of-the-art natural language processing,” in Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations, 2020, pp. 38–45.
[222] W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu, J. E. Gonzalez, H. Zhang, and I. Stoica, “Efficient memory management for large language model serving with pagedattention,” in Proceedings of the ACM SIGOPS 29th Symposium on Operating Systems Principles, 2023.
[223] Z. Wu, L. Zheng, Z. Xie, J. Ye, J. Gao, Y. Feng, Z. Li, V. W., G. Zhou, and L. Kong, “Dreamon: Diffusion language models for code infilling beyond fixed-size canvas,” 2025. [Online]. Available: https://hkunlp.github.io/blog/2025/dreamon
[224] Y. Yang, C. Wang, S. Wang, Z. Wen, B. Qi, H. Xu, and L. Zhang, “Diffusion llm with native variable generation lengths: Let [eos] lead the way,” arXiv preprint arXiv:2510.24605, 2025.
[225] J. Li, X. Dong, Y. Zang, Y. Cao, J. Wang, and D. Lin, “Beyond fixed: Training-free variable-length denoising for diffusion large language models,” arXiv preprint arXiv:2508.00819, 2025.
[226] X. Chen, S. Huang, C. Guo, C. Wei, Y. He, J. Zhang, H. Li, Y. Chen et al., “Dpad: Efficient diffusion language models with suffix dropout,” arXiv preprint arXiv:2508.14148, 2025.
[227] A. Yang, A. Li, B. Yang, B. Zhang, B. Hui, B. Zheng, B. Yu, C. Gao, C. Huang, C. Lv et al., “Qwen3 technical report,” arXiv preprint arXiv:2505.09388, 2025.
[228] K. Team, Y. Bai, Y. Bao, G. Chen, J. Chen, N. Chen, R. Chen, Y. Chen, Y. Chen, Y. Chen et al., “Kimi k2: Open agentic intelligence,” arXiv preprint arXiv:2507.20534, 2025.