郴州做网站ku0735网站解析设置
2026/2/17 0:05:53 网站建设 项目流程
郴州做网站ku0735,网站解析设置,沈阳免费网站制作,北京网站建设公司完美湖南岚鸿首 选简介 本文分享了开源Olmo-Thinking模型的训练经验#xff0c;探讨强化学习与大语言模型结合的关键挑战。从架构设计#xff08;如GQA、QK Norm#xff09;、数据处理配比到后训练方法#xff08;推理蒸馏、偏好调优#xff09;进行了深入解析#xff0c;并讨论了RL训练中…简介本文分享了开源Olmo-Thinking模型的训练经验探讨强化学习与大语言模型结合的关键挑战。从架构设计如GQA、QK Norm、数据处理配比到后训练方法推理蒸馏、偏好调优进行了深入解析并讨论了RL训练中的工程挑战及异步训练解决方案。文章为开发者提供了构建高效推理模型的技术路径和实用经验对大模型训练实践具有重要参考价值。本文是Nathan Lambert在PyTorchCon 2025分享训练开源的Olmo-Thinking模型的文字笔记, 内部加入了笔者的一些批注和思考Nathan Lambert 00:00大家好非常荣幸能在这里分享。我在艾伦人工智能研究所AI2工作多年来一直专注于强化学习RL和开源模型。有意思的是我们长期耕耘的这些领域如今正成为行业热点。所以我今天想和大家聊聊现在大大小小的实验室都是怎么训练推理模型的。这其实可以看作是为了实现模型的推理能力大家把整个训练技术栈training stack重新设计了一遍。Nathan Lambert 00:28当我们提出要构建 Olmo 这个新的开源推理模型时一个很自然的问题就是为什么我们还需要一个新的大语言模型毕竟市面上已经有很多顶尖模型比如 Qwen、Mistral以及来自 OpenAI、英伟达、Hugging Face 等行业巨头的作品。可以说市场已经相当饱和。因此我们必须回答一个核心问题通过前所未有地开放我们的训练流程究竟能为整个社区带来什么独特的价值我们又该如何利用这种开放性去构建一个社区真正需要、并且能够持续演进的生态系统Nathan Lambert 00:54我长期关注的方向是将强化学习RL与大语言模型结合。这个领域虽新但机制复杂。两篇针对 Qwen 系列的研究表明Qwen2.5 与 Qwen3 已成为社区做 RL 的常见基座(base model)。由此引出一个关键问题这些模型在 RL 基准上的亮眼表现究竟是因为其预训练数据包含与基准或奖励模型高度相关的模式从而更易“刷分”还是因为 RL 训练确实提供了新的、可泛化的学习信号这一疑问也促使大家反思方法论我们观察到的提升到底是“学会了”还是“迎合了”奖励与数据分布。我参与的那篇关于“虚假奖励”Spurious Rewards的论文进一步说明如果奖励或数据存在缺陷模型可能依赖伪信号获得高分而非真正能力的提升。Nathan Lambert 02:04这里有一个具体的例子它进一步说明了这个关于强化学习RL的深刻问题。尽管我们无法拿到 Qwen 模型的训练数据来直接验证但我们可以做一个推测。当你给 Qwen 的基础模型一个数学题——这个题与一个已经成为行业标准的基准测试Hendrycks MATH 数据集中的题目高度相似时会发生什么呢惊人的是即便没有任何外部工具的辅助模型也会直接生成代码并以极高的精度解出答案。 并且无论你使用测试集中的原题还是仅仅修改了数字的变体题结果都完全一样。 这强烈暗示了一点Qwen 的基础模型在预训练阶段很可能已经“见过”甚至“记住”了这些评测数据。 这就给我们带来了真正的挑战如果基础模型已经记住了答案那么我们后续在其上进行的强化学习究竟是在学习真正的推理能力还是仅仅在学习如何触发模型已有的记忆这正是为什么我们必须深入理解模型本身否则我们根本无法对自己构建的RL系统建立真正的信心。”Nathan Lambert 02:54在此基础上强化学习RL社区正进行着大量前沿研究比如通过DAPO、CSIPO等算法来探索如何改变模型行为——当然具体的算法名称并不重要。 这些研究普遍面临一个核心挑战模型的‘探索’能力严重不足。 这意味着模型倾向于在预训练阶段学到的知识范围内“原地打转”而无法生成真正新颖、有价值的内容。我们的论文中一个引人深思的实验揭示了问题的严重性研究人员用完全随机的奖励去训练一个RL模型模型的数学解题能力反而提升了。这听起来很荒谬但我们的解释是这并非RL算法的功劳而是算法的内在偏好无意中激活了预训练数据中本就潜藏的知识。 这种由数据驱动的“伪进步”正困扰着整个行业让我们无法评估RL的真实效果。因此我们的核心主张是要想实现真正的算法创新我们必须打破这个黑盒。我们需要一个数据完全透明、过程完全可观测的系统去真正理解算法与数据之间的复杂互动。否则我们所谓的‘进步’可能只是幻觉。”Nathan Lambert 04:10这正是我们打造 Olmo 的初衷 我们希望构建一个端到端end-to-end的透明框架覆盖从预训练、中间调优到所有后训练环节。其核心目的就是为了让研究者能清晰地分辨模型的性能提升究竟是源于算法的真实贡献还是仅仅因为它学会了利用数据中的虚假关联spurious correlation来‘应付’评测。因此我今天的分享将聚焦于我们在此过程中遇到的一系列棘手挑战。 这些挑战都源于我们努力提升 Olmo 模型推理能力的实践过程。Nathan Lambert 04:41我们遇到的第一个重大挑战是为了高效地进行强化学习RL我们必须对之前那套‘勉强够用’的 Olmo 2 的架构进行改造。Nathan Lambert 04:50问题的根源在于RL对计算资源尤其是内存有着极高的要求。起初这让我们很困惑因为如果我们只看单步训练的计算成本Olmo 和 Qwen 这样的模型非常接近。后来我们发现一个在去年模型中被忽略的关键特性成为了性能瓶颈我们没有采用GQA。GQA 能够极大地节省显存。这个架构缺陷在监督微调SFT小规模RL等内存开销较小的阶段并不明显因为那时的训练成本看起来差不多。然而一旦进入内存密集型的RL阶段缺少GQA的劣势就暴露无遗成为了我们必须解决的问题。”在第一张图同样上下文长度下训练 1000h GPU hour以下下两条线的差距并不悬殊。Nathan Lambert 05:26但是当你进行大规模强化学习时大量的计算资源实际上都花在了推理inference上。而 GQA 这一架构优化恰恰能将注意力机制的内存占用降低约8倍。缺少它直接导致我们的 7B 模型在RL训练中内存开销堪比一个 32B 的庞然大物。这样的资源效率是完全无法接受的。这一发现让我们别无选择只能下定决心推倒重来重新进行预训练。 因为只有从架构根源上解决问题我们才能真正实现下游RL实验的高效率和快速迭代。”将纵轴变成数千GPU小时 后两条线的差距变得极为夸张。随着上下文变长Olmo 的资源消耗呈指数级增长而 Qwen 则平缓得多。这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】Nathan Lambert 06:00接下来我将具体介绍我们在数据处理上采取的关键策略和步骤。Nathan Lambert 06:04当你有数万亿 token 的数据却只能用其中一小部分来训练时数据配比就成了一门科学。过去大家可能凭经验多加点代码、多加点数学数据。但我们采用了一种更系统化的方法“好我们来深入探讨数据。在预训练阶段我们面临一个核心问题我们拥有的数据高达数万亿token远超实际能使用的量。那么如何智能地筛选出最优的数据组合呢答案是你的数据选择本质上反映了你对模型能力的期望。想要模型在推理上更强一个直接的策略就是增加数学、科技和代码数据的比重。但具体该如何操作在AI2我们采用了一种系统化的方法其实就是RegMix 2407.01492. 按笔者个人的经验这里的 指标一般选 paloma/c4_en/bpb lm_eval/averages/macro_avg_acc_norm 和你希望的目的相关的指标 如 lm_eval/mmlu_5shot/choice_logprob_norm. 然后做个权重 log_sum去解帕累托点e.g. 80% paloma/c4_en/bpb 10% lm_eval/averages/macro_avg_acc_norm 10% “lm_eval/mmlu_5shot/choice_logprob_norm” 然后用lightgbm求解1.首先我们会在海量数据源的各种子集上训练大量的小型模型。2.其次我们通过在一个固定的验证集上观察它们的性能指标, 并拟合一个关于配比与指标的回归模型3.求解这个模型得到配比在我们的案例中我们增加了 10% 到 20% 的评测指标这些指标更侧重于数学和代码这极大地改变了所谓的“最佳数据”的构成. 最终新模型在数学和代码上表现更出色但这并非没有代价——它在像MMLU这类更泛化的知识评测上性能出现了轻微的下降。这就是数据工作中一个无法回避的Trade-off。目前很难做到‘鱼与熊掌兼得’。构建能够量化权衡的工具链是一项耗时且关键的工程。Nathan Lambert 07:35我们之前Olmo模型的另一个关键短板是缺乏处理长上下文的能力。这在推理时代是致命的。因为现代推理模型尤其是在生成代码等关键应用上需要输出长达数万token的复杂答案。而我们旧模型的上下文长度仅有4K或8K这与实际需求存在着数量级的差距。在这样的基础上赋予模型强大的推理能力根本无从谈起。这就引出了一个核心的战略问题我们的瓶颈在哪里是数据问题——我们缺少像闭源实验室那样拥有科学书籍、学术论文等公认能提升长上下文能力的高质量数据还是架构问题——模型的设计本身就从根本上限制了它处理长上下文的能力这个问题我们必须回答。Nathan Lambert 08:18那么长上下文的瓶颈究竟是数据还是架构我们的实验给出了一个明确的答案问题完全出在架构上。我们的核心假设是问题源于一个特定的归一化层Normalization Layer即 QK Norm它从根本上限制了模型在长上下文中的推理能力。这张图表提供了强有力的证据。 我们设计了一个严格的对照实验图中展示了 Olmo 的五种架构微调版本。关键在于它们都使用了完全相同的2万亿token数据进行训练。唯一的变量就是架构本身。结果一目了然尽管数据完全相同但这五种架构在长上下文任务上的性能表现却有天壤之别。这揭示了一个深刻的教训 许多在过去被认为是次要的架构细节在模型能力向推理等新领域拓展时会成为决定性的瓶颈。这些问题之所以被长期忽视仅仅是因为在那个时代极限的推理能力还不是我们和同行们追求的首要目标。一个Frontier Lab已经发觉很久(大概在4月份很多人已经意识到了 最前沿的实验室在1月前已经意识到了)但没有成为共识的结论. 具体可以参考大海捞针的任务中的注意力分布,QK norm会丢失很大的细节 可参考2501.18795 但其实QK Norm能很大程度的修正loss spike问题. Qwen3也有QK Norm, 实际上又是一个trade offNathan Lambert 08:54好的现在我们进入我个人最感兴趣的部分现代推理模型的后训练Post-training究竟是如何进行的我们首先专注训练于一个小模型之后会训练更大的模型。Nathan Lambert 09:13我们可以通过使用reasoning数据“蒸馏”的方式高效地训练出性能优异的专用推理模型。关键在于利用强大的推理模型如 DeepSeek来生成高质量的训练数据然后用这些数据对小模型进行SFT。1.获取种子数据 从 Hugging Face 等平台选择一个高质量的开源数据集例如 OpenThought 3。2.数据精炼 对其进行更严格的筛选和优化。3.数据生成 利用处理后的数据作为范例通过强大的模型API如 DeepSeek生成规模更大、质量更高的新数据。这个方法的效果非常好。对于任何想在特定领域拥有专用推理模型的团队来说只要能调用一个强大的API就很有可能成功复现并扩展这一流程。有一些来自OT作者的一些消息(小道消息)和笔者的一些经验来补全这部分的一些疑问:更多的数据集总是能更好 OT4仅仅是扩展了大小没有变方法论就成功又涨了不少点为什么不使用最厉害的模型作为教师: 有些发现有时稍弱一些的教师模型反而能更好地充当教师角色QwQ-32B 生成数据效果优于 R1. 而且各个任务的最好的教师也不一致(参考3)为什么要Extend 上下文: 他们没觉得真的没觉得有太大影响; 实际上OT3有 60%的数据都是被截断的(16k), 但按作者消融的结果来看模型实际上学习的是思考的模式, 所以说被截断不但没有下降反之还有点帮助. 而如果你需要进一步scale模型的话or有更好的过滤准则的话 生成长一点总是好的OT是个专注于math code STEM的数据集 所以说肯定得加入IF来提升整体的效果 他们内部用的chat sota数据集(比Tulu略好)叫dcft系列是用llama-3.1-nemotron-70b标的这点说的是你随便找个seed做还是需要和OT一样做一些类去重处理的 具体可以参考OT论文SFT在小模型做效果是高效的详情参考R1论文在通过推理蒸馏完成监督微调SFT后我们发现其实可以用一个简单却非常有效的步骤应用preference tuning技术。即使是DPO在我们的评测集上这一步操作可以轻松带来好几个百分点的性能提升。这是一个尚未被广泛采用的优化技巧Hugging Face 发布的 smollm3 模型就是一个很好的参考他们也采用了类似的DPO流程来增强模型能力。这点还是非常值得关注的 对于一些reward稀疏的任务是很难做RLVR的,一般期望SFT去缓和, 但SFT会对泛化有一定影响 所以说thinking-dpo实际上提供了一个优秀的新思路 smollm所用到的数据集是smoltalk2/Preference/tulu_3_8b_pref_mix_Qwen3_32B_Qwen3_0.6B_think 实际上就是把thinking的步骤当中优化目标但是是RLNathan Lambert 10:08早期的偏好调优方法如为UltraFeedback数据集收集数据时所采用的策略其核心是构建一个“模型池”model-pool。该策略旨在从大量不同的模型中针对同一提示prompt收集多种回答。随后通过对这些回答进行排序构建出一个以“乐于助人、诚实”为目标的偏好数据集。Nathan Lambert 10:35然而这种传统的“模型池”方法正面临性能饱和的瓶颈。主要原因是随着基础模型能力的普遍提升对于许多常见的聊天查询不同模型的回答已经变得高度相似。这导致区分回答优劣的难度显著增加即使采用LM-as-a-Judge的自动化评估方法在通用的后训练数据集上也很难做出有效的区分。Nathan Lambert 10:50为应对上述挑战我们的策略转向了基于“增量学习假设”delta learning hypothesis的偏好学习方法。该假设的核心观点是在偏好学习中“选中”chosen答案与“拒绝”rejected答案之间的相对差异delta比“选中”答案本身的绝对质量更为关键。这一观点与DPO等对比损失函数contrastive loss function的机制高度契合因为模型需要通过明确的“对比”来产生有效的学习梯度。在实践中我们采用以下方式构建对比数据•“选中”答案由一个强大的模型如 Qwen-3 32B生成。•“拒绝”答案由一个能力稍弱的同系列模型生成。此方法的一个关键难点在于需要找到一个能力“恰到好处”的弱模型——它既要能进行合理的推理又不能过于强大以确保与强模型之间存在足够大的学习信号。例如我们发现Qwen 0.6B模型有时甚至因性能过强而难以产生理想的DPO信号。这表明在某些情况下可能需要先专门训练一个能力受控的弱模型以构建高效偏好学习所需的数据生成引擎。Nathan Lambert 11:41在SFT和DPO之后下一步是在小模型上规模化地实施RLVR。然而这是一个极具挑战性的工程问题通常伴随着高昂的时间成本和复杂的技术难题。构建稳定、高效的RL训练工具是当前行业内许多团队共同面临的难点。接下来我们将探讨典型RLVR训练循环中的核心工程挑战。Nathan Lambert 11:52我们这个由 2 到 4 人组成的小型研究工程团队整个夏天都在构建强化学习工具。在座的很多人也都在做这件事。这就是为什么我很高兴能来参加这个会议和大家交流。Nathan Lambert 12:00我会很快地过一遍这些基础内容以便引发讨论这就是大家以前见过的那个RLVR循环。Nathan Lambert 12:12在实践中一个典型的RL训练系统包含两组独立的GPU集群一组用于推理生成如使用vLLM另一组用于模型训练和梯度更新。Nathan Lambert 12:25若采用同步流程即生成-训练-生成会导致其中一组GPU在另一组工作时处于空闲状态造成严重的计算资源浪费和高昂成本。为解决此问题我们可以采用Asynchronous和Off-Policy的RL算法。然而这种效率提升是有代价的它牺牲了部分数值稳定性和理论收敛性。“Off-Policy”源于生成器vLLM和训练器如Hugging Face Trainer中的模型状态不完全同步导致它们各自的概率分布存在偏差。这些细微的数值差异会在训练中累积构成主要的稳定性挑战。可参考 https://yingru.notion.site/When-Speed-Kills-Stability-Demystifying-RL-Collapse-from-the-Training-Inference-Mismatch-271211a558b7808d8b12d403fd15edda 大概就是你看似on-policy 实则off-policy了Nathan Lambert13:14该方案的核心是解耦生成与训练生成器集群持续不断地产生数据而训练器集群则使用最新的数据进行梯度更新。这种并行化设计能最大化GPU利用率。Nathan Lambert 13:16为了解决异步RL中的数值挑战核心任务是校准来自不同模型实现生成器与训练器之间的概率分布。以下是几种关键的解决方案1.修改CUDA核函数kernel:修改算子使其有batch-invariant性让vLLM和 Hugging Face 的结果更匹配 (我们试了但没能平衡好性能和准确性)2.重新计算对数概率 (Re-calculating Log Probs)在vLLM生成token后将其传递给训练器模型重新计算一次对数概率。这种方法能确保梯度计算的数值精度但代价是增加了额外的GPU计算开销本质上是用计算时间换取准确性(我们现在的方法 很贵)Nathan Lambert 14:05现在很多人都在用的一个技巧是重要性采样(Importance Sampling)通过重要性采样可以将一个概率分布下的采样数据有效地用于另一个分布的期望计算。在RL中这通常表现为重新加权re-weighting从奖励模型中获得的优势奖励advantage rewards以修正因策略不匹配带来的偏差。Nathan Lambert 14:25你还可以玩一个花样动态权重更新 (Dynamic Weight Updates)这是一种更高级的同步技术。在训练过程中可以周期性地将训练器更新后的权重插到生成器中即使中断正在进行的长文本生成也要执行。这能有效减少生成器和训练器之间的“策略延迟”。实际上就是Split placement partial rollout 因为如果是不做这种partial rollout的Split placement基本2 step off就掉点了 而这里通过控制Staleness 就可能可以做到2step(几乎等同于 但是是以Staleness角度)的async rlNathan Lambert 14:46这就是对你需要做的各种事情的再一次快速概览。Nathan Lambert 14:51接下来的工作就是真正地扩展这一切以便用更有趣的强化学习方法来训练更大的模型并为其添加工具。这些都是我们准备要做的事情。Nathan Lambert 15:01我们现在就有持续数天的强化学习任务正在运行。所以如果你对学习这些模型或者对构建训练它们所需的工具感兴趣可以联系我或者 AI2 团队的成员因为构建工具和模型是一项巨大的工程。感谢大家的聆听期待稍后与大家交流。说真的这两年看着身边一个个搞Java、C、前端、数据、架构的开始卷大模型挺唏嘘的。大家最开始都是写接口、搞Spring Boot、连数据库、配Redis稳稳当当过日子。结果GPT、DeepSeek火了之后整条线上的人都开始有点慌了大家都在想“我是不是要学大模型不然这饭碗还能保多久”我先给出最直接的答案一定要把现有的技术和大模型结合起来而不是抛弃你们现有技术掌握AI能力的Java工程师比纯Java岗要吃香的多。即使现在裁员、降薪、团队解散的比比皆是……但后续的趋势一定是AI应用落地大模型方向才是实现职业升级、提升薪资待遇的绝佳机遇这绝非空谈。数据说话2025年的最后一个月脉脉高聘发布了《2025年度人才迁徙报告》披露了2025年前10个月的招聘市场现状。AI领域的人才需求呈现出极为迫切的“井喷”态势2025年前10个月新发AI岗位量同比增长543%9月单月同比增幅超11倍。同时在薪资方面AI领域也显著领先。其中月薪排名前20的高薪岗位平均月薪均超过6万元而这些席位大部分被AI研发岗占据。与此相对应市场为AI人才支付了显著的溢价算法工程师中专攻AIGC方向的岗位平均薪资较普通算法工程师高出近18%产品经理岗位中AI方向的产品经理薪资也领先约20%。当你意识到“技术AI”是个人突围的最佳路径时整个就业市场的数据也印证了同一个事实AI大模型正成为高薪机会的最大源头。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包【允许白嫖】✅从入门到精通的全套视频教程✅AI大模型学习路线图0基础到项目实战仅需90天✅大模型书籍与技术文档PDF✅各大厂大模型面试题目详解✅640套AI大模型报告合集✅大模型入门实战训练这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】①从入门到精通的全套视频教程包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图0基础到项目实战仅需90天全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤640套AI大模型报告合集⑥大模型入门实战训练获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询