LLM 大规模训练与部署

Published: May 27, 2026

分布式训练并行策略 + 推理服务化 + 量化压缩 + 生产部署 — 一份覆盖从单机多卡到千卡集群、从理论推导到工程指标的系统笔记。

章节概览

第一章数据并行：DP / DDP / FSDP — Ring-AllReduce、梯度桶、FSDP 全分片、梯度累积
第二章模型并行：Tensor 与 Pipeline — Megatron 列/行切分、Attention/MLP 并行化、GPipe、1F1B、Interleaved、序列并行
第三章 ZeRO 与 3D 并行 — 显存账本、Stage 1/2/3、Offload/Infinity、3D 组合拓扑、训练 GPU 估算公式
第四章推理服务架构与批处理 — Prefill/Decode 不对称、PagedAttention、连续批处理、投机解码（Medusa/EAGLE）、P/D 分离、框架对比
第五章量化与模型压缩 — GPTQ / AWQ / SmoothQuant / KV Cache 量化 / 2:4 稀疏 / 蒸馏剪枝组合
第六章生产部署与服务化 — TTFT/TPOT/Goodput、SLO 设计、弹性扩缩、LLM Gateway、灰度发布、成本测算

AllReduce 通信量：$2 \cdot \frac{N-1}{N} \cdot P \cdot b \approx 2Pb$
训练总算力：$C = 6PD$ FLOPs
单卡训练显存（Adam 混合精度）：$16P$ 字节（DDP），$16P/N$（ZeRO-3）
1F1B 气泡率：$(p-1)/(m+p-1)$
1M token 推理成本：$\frac{N_{\text{GPU}} \cdot $/\text{hr}}{3600 \cdot \text{tps}} \times 10^6$

独立 HTML 笔记，使用与其他笔记一致的样式：KaTeX 公式、Mermaid 架构图、左侧目录、明暗主题切换、按章节懒渲染。文档约 70 KB，首屏加载与滚动都比较顺畅。