文章深入剖析了当代大模型训练的全链路流程,强调后训练阶段(如强化学习、数据配方、评测奖励机制)在提升模型用户体验中的核心作用。重点介绍了从预训练底座到推理模型及Agent训练的演进路径,并结合DeepSeek、Kimi等前沿案例分析了系统架构与工程实践的最新趋势。
在 2026 年,大模型效果的差距已不再仅仅取决于预训练本身,而更多地取决于其后的整条训练栈:后训练、评测、奖励机制、Agent 训练及蒸馏。每一个步骤都在深刻影响用户的实际体验。当你发现某个模型突然变强时,背后通常是多重因素协同优化的结果。
本文将按大模型训练链路的顺序,重点探讨厂商如何通过后半段训练栈来提升最终的上线效果。
过去几年,人们习惯用参数、数据和算力的堆积来解释模型进步。但实际上,用户感受到的提升往往来自预训练之后的流程。模型如何说话、听从指令、进行推理或使用工具,这些能力并非单纯通过喂养互联网文本就能自然产生。
InstructGPT 曾提供过一个直观案例:一个仅有 1.3B 参数但经过对齐和偏好优化的模型,在人类偏好评测中能击败 175B 的 GPT-3。这证明了训练的后半段能极大地改写用户感知。
训练过程是一条高度耦合的流水线,数据、算法、系统与反馈紧密相连。2026 年的模型能力和产业价值,正越来越集中在预训练之后的几层。
下图展示了更详细的九个阶段:将原始数据和系统配方独立拆分,并将 Agent harness 和 Deployment 作为后半段的细分环节。同时,两条反馈回路贯穿始终:生产流量回流至数据工程,离线评测结果回馈至预训练。
预训练是训练链路的起点,决定了模型的语言建模能力、知识压缩水平及能力迁移空间。它的核心任务是将语言分布学进去,把大规模文本中的知识模式压入参数。
在 GPT-3 之后,模型调优更注重预算与配比。模型并非越大越好,参数量、训练 Token 数与总计算预算之间存在最优配比。规模定律(Scaling Laws)在实际决策中更像是一个预算分配工具,帮助开发者决定在有限的 GPU 预算下,是该增加参数还是多喂数据。
预训练决定了地基的稳固程度,但它无法控制模型是否听从指令或在关键任务中是否稳定。
Tokenizer 的切分方式、上下文窗口(Context Window)的长度、是否进行多模态预训练等,这些决策在预训练阶段就已定型。例如,Gemma 3 强调的单加速器运行、128K 上下文及视觉能力,都是在训练初期就写进配方的取舍。
根据 Chinchilla 研究,8B 参数模型的最优点约为 200B tokens,但 Llama 3 8B 实际使用了 15T tokens,这种“过训练”配方能在同等参数下换取更高的能力密度,从而获得更小、更高效的模型。
此外,Tokenizer 的词表大小也会影响性能。Llama 3 将词表扩至 128K 后,序列长度压缩了约 15%,提升了推理效率和多语言能力。
“数据配方”已成为比参数规模更重要的指标。这不仅是清洗数据,而是一项完整的数据生产工程,包括文本抽取、语言识别、质量过滤、隐私处理、安全过滤及去重。
数据工程决定了模型的能力分布。去重和污染控制至关重要,如果处理不当,模型会反复吸收低价值的重复内容。目前,Data Mixing Laws 专注于研究不同类型数据占比对模型能力结构的影响。
合成数据已成为正式流程。通过 Self-Instruct 等方法,每一代更强的模型都在参与重构下一代模型所看到的数据。例如,DeepSeek-R1 通过强化学习(RL)产生的推理轨迹,可以蒸馏给更小的模型,使其获得显著收益。这种“先在大规模模型上形成能力,再压缩至小模型”的路径已成为主流。
大模型训练本质上是分布式系统问题。GPU 数量、显存带宽、并行策略及容错成本,在训练开始前就决定了模型的大小、上下文长度及后训练的复杂程度。
MoE(混合专家模型)是典型的系统折中方案,它在保持激活成本受控的同时扩大了总参数量。DeepSeek-V3 和 Qwen 的 MoE 设计都是基于成本与效果的平衡。
现代训练报告中开始出现更多细节:如 muP(超参迁移)、WSD 学习率调度策略等。算力预算是固定的,开发者必须在模型大小、Token 量、上下文长度和推理成本之间做取舍。
在大规模训练中,快速检测并恢复 Loss Spike(损失突增)或硬件故障是核心工程能力。DeepSeek-V3 成功验证了 FP8 混合精度训练在超大规模模型上的可行性,且全流程无回滚。
用户感受到的提升大多来自后训练阶段。
指令微调(SFT)改变了模型的回答方式,使其更像一个配合的助手。RLHF(强化学习)、DPO(直接偏好优化)和 RFT(强化微调)则将“什么是更好的回答”接入训练回路。
Grader(打分组件)决定了模型优化的方向。如果打分规则存在漏洞,模型可能会学会“钻空子”(Reward Hacking)而非真正解决问题。
Anthropic 的 Constitutional AI 利用 AI 反馈替代人工偏好,而 OpenAI 的审慎对齐(Deliberative Alignment)则让模型在推理阶段自行判断安全规范。
随着推理模型的成熟,训练对象已从单纯的对话模型转变为能规划、调用工具并接收反馈的 Agent 系统。
Harness 是包在模型外层的控制程序。在 Agent 时代,环境质量(稳定性、真实性、反馈丰富度)成为核心。如果环境不稳定,模型学到的将是利用漏洞而非能力。
发布后的模型并非终点。大模型通过蒸馏将能力迁移给小模型,实现能力解耦。同时,上线版本的选择往往是基于成本、延迟和稳定性的产品决策,而非单纯追求最高指标。
未来评估模型时,可以从以下三个维度观察:
- 本文转载自: x.com/hitw93/status/2040... , 如有侵权请联系管理员删除。
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!