2026/2/4 21:52:20
网站建设
项目流程
阿里网站官网入口,贵州网络推广介绍,广东智能网站建设配件,免费网站从哪里申请文章详细介绍了大模型后训练技术#xff0c;包括其定义、重要性及最新进展。内容涵盖微调(SFT)、对齐(Alignment)方法如RLHF、DPO、PPO等#xff0c;以及推理阶段优化策略。后训练通过Post-training scaling laws和test-time scaling reasoning扩展模型能力#xff0c;相比纯…文章详细介绍了大模型后训练技术包括其定义、重要性及最新进展。内容涵盖微调(SFT)、对齐(Alignment)方法如RLHF、DPO、PPO等以及推理阶段优化策略。后训练通过Post-training scaling laws和test-time scaling reasoning扩展模型能力相比纯预训练能获得更好性能。文章还对比了SFT和RL的优缺点并以DeepSeek R1为例展示了后训练的实际应用为开发者提供了全面的技术指导。本文探讨了后训练的重要性、方法以及最新进展。文章将包含理论分析与实际操作指南适合希望深入了解并应用这些技术的开发者。什么是后训练后训练Post-Training是指在预训练模型的基础上针对特定的任务或数据集进行额外的训练。这个阶段通常涉及到微调Fine-tuning和对齐 Alignment即调整预训练模型的参数以适应新的任务。黑色 预训练阶段红色 后训练阶段紫色 推理测试阶段为什么要进行后训练Post-training重要性-后训练扩展律Post-training scaling laws 已经出现Pre-traing阶段的scaling law计算量C模型参数量N ,数据大小D当不受其它两个因素制约时模型性能与每个因素均呈幂等关系三者满足随着模型尺寸的逐渐增大预训练阶段参数扩展带来的边际收益开始递减基于RL的post-trainging将会成为下一个突破点自回归模型在数学推理问题上很难进步的一点在于没有办法进行回答的自主修正仅依靠生成式方法和扩大参数规模收益有限需要寻找额外的Scaling LawsGPTGenerative Pretrained Transformer系列是典型的自回归语言模型。在 GPT 模型中它的生成过程是基于自回归机制。例如在文本生成任务中给定一个初始的输入文本序列可以是一个单词、一个句子或一段话模型会预测下一个单词出现的概率分布。假设输入序列是 “The cat”模型会计算在这个序列之后不同单词如 “runs”“jumps”“sleeps” 等出现的概率然后从这个概率分布中采样一个单词作为下一个生成的单词。新的扩展维度Al能力的提升不再局限于预训练阶段还可以通过在 Post-Training 阶段中提升RL训练的探索时间和增加模型推理思考时间来实现性能提升即Post-Training Scaling Laws 以及 Test-time scaling Resoning 随着训练时的计算量和测试时的计算量的增加模型性能也会随之提升。常见大模型后训练流程这里以Llama 3来示例1.持续通过人工标注或机造方式生成偏好pair样本训练Reward Model2.基于当前能力最好的模型随机采集一批 {Prompt} 每个Prompt拿最好的模型做 K 次数据生成采样每个Prompt就得到 K 条 Prompt,Responsek 数据3.拒绝采样对第2步采样 K 个 Prompt,Responsek 数据用Reward Model打分并从中选取打分最高 topN 条样本。作为指令微调的精选样本训练SFT Model4.训完SFT Model再通过持续收集的偏好对样本同步骤1做对齐学习Llama使用的是DPO。最终得到了一个比当前模型更好的模型5.持续做步骤1~步骤4飞轮迭代优化模型。训练数据SFT data采样模型多次让RM选出最好的回复作为SFT data的一部分。部分细节如下采样什么模型两种情况。迭代中表现Avg score最好的模型或者在某个particular capability上表现最好的模型。采样多少次K10~30即一般采样10-30次。prompt哪来人工标注的prompts。并在后训练迭代后期引入特殊的system prompts。Preference data采样什么模型部署多个不同数据配比和对齐方法训练的模型针对每个prompt选取两个不同的模型进行采样。原因不同模型能够在不同的能力维度上表现出差异数据质量和多样性更好。偏好等级四个等级显著更好significantly better更好better稍微更好slightly better略微更好marginally better。允许修改标注同学可以进一步优化chosen response最后edited chosen rejected。迭代式难度最后随着模型改进逐步提高prompt复杂度。微调 Fine-tuning微调是指在预训练模型的基础上使用特定任务的数据集进行进一步训练以使模型适应特定任务或领域。其目的是优化模型在特定任务上的性能使模型能够更好地适应和完成特定领域的任务。SFT (Supvised Fine tuning ) 微调方法全量微调 VS 部分微调全量微调 Full Fine-TuningFFT是指在预训练模型的基础上使用特定任务的数据集对模型的所有参数进行进一步训练以使模型更好地适应特定任务或领域的过程。部分微调 PEFTparameter-efficient fine-tuning参数高效微调一种针对大型预训练模型的微调技术旨在减少训练参数的数量从而降低计算和存储成本同时保持或提升模型性能仅微调模型中的一小部分参数常见方法如下选择参数子集重新参数化LoRALow-Rank Adaptation 使用低秩表示重新参数化模型权重核心思想是将权重矩阵 W 分解为两个低秩矩阵 A 和 B 的乘积即其中是预训练模型的原始权重矩阵。A 和 B 是两个低秩矩阵其维度远小于 W。通过这种方式LoRA 只需要更新 A 和 B 的参数而不是整个 W。这显著减少了需要更新的参数数量从而提高了微调的效率。添加额外的可训练的tokenPrompt-tuning对齐 Alignment对齐是指通过各种技术手段使模型的输出与人类的偏好和价值观对齐确保模型的行为和决策符合人类社会的期望和标准。对齐技术旨在解决模型可能带来的潜在问题如生成有害内容、不符合伦理的输出等。强化学习是实现模型对齐的核心工具即可通过人类反馈强化学习RLHFReinforcement Learning from Human Feedback的方式通过训练奖励模型对齐模型输出与人类偏好强化学习中需要用到的关键组成部分如下带有人类偏好反馈的标签数据input,accept,reject奖励模型Reward Model- 奖励信号Rule-based RMModel-based RM强化学习策略优化算法DPO (Direct Preference Optimization) 直接偏好优化PPO Proximal Policy Optimization近端策略优化GRPOGroup Relative Policy Optimization组内相关策略优化算法强化学习策略优化算法 DPO VS PPO VS GRPORHLF即基于人类反馈的强化学习的训练流程中的涉及到的策略优化算法常见的有以下几种PPOProximal Policy Optimization近端策略优化是 OpenAI 在2017年提出的一种基于策略梯度Policy Gradient的强化学习算法。优化过程是构建一个损失函数 需要根据奖励模型的奖励信号和新旧策略差异计算损失函数并且会限制策略更新的幅度保证了模型的稳定性。损失函数其中是新旧策略概率之比反映新旧策略的改进情况。是优势估计值反映智能体选择某个动作的好坏。clip是剪辑机制反映经过剪辑后的改进结果防止进步过快或退步过多保待稳定的训练过程。选择最小值 1基于新策略直接计算出来的值2经过剪辑后的值保持训练的稳定性。DPO(Direct Preference Optimization)直接偏好优化优化过程相对直接。不需要训练一个单独的奖励模型。直接利用人类偏好排序数据概率比来构建目标函数并优化策略目标 最大化用户偏好数据的生成概率同时减少用户非偏好数据的生成概率无需明确的奖励模型更多依赖于用户提供的偏好排序或比较数据不需要同环境进行交互适用于需要从静态数据如用户的偏好反馈中学习的任务 并且高度依赖用户反馈的数据质量GRPOGroup Relative Policy Optimization组内相关策略优化算法与PPO相比无需额外训练价值模型通过从同一问题的多个输出中计算平均奖励来替代价值函数的作用从而减少了显存和计算负担但依赖于奖励模型的评分来区分输出的好坏这对于奖励模型的设计也提出了更高的要求。强化学习 RMReward Model奖励模型的优化思路在传统的强化学习RL框架中智能体通过与环境的交互来学习以最大化累积奖励。但这种方法有时会面临奖励设计困难和学习效率低下的问题。为了解决这些难题RLHF (Reinforcement Learning from Human Feedback)引入人类作为奖励信号的来源。人类反馈可以采取多种形式包括直接的奖励信号、排名反馈、偏好比较等。LLM as a judge判别式的RM的准确率不足可以用于事实性输出风格等的判定Generative RM先CoT自然语言推断的再给出奖励信号Let’s verfify step by step Critic Model随着大模型的不断迭代其输出的内容越来越准确错误也变得更加隐蔽就算是专业的AI训练师也很难察觉那些错误所在open ai训练了CriticGPT这种谈论家模型用于加强RLHF但注意用model去建模reward可能会因为过度对齐人类的偏好而引入biasOutcome-based Reward ModelORM 到 Process-based Reward ModelPRM 向着模型能生成正确的推理能力的方式去优化PRM过程奖励模型是在生成过程中分步骤对每一步进行打分是更细粒度的奖励模型。ORM结果奖励模型是不管推理有多少步对完整的生成结果进行一次打分是一个反馈更稀疏的奖励模型。注意reward model可能会被hacking的问题可以将不同的reward model混在一起训练 让模型训多轮后也比较难找到RM的漏洞。推理阶段Test-time computation的优化思路快思考 - 慢思考系统1思维一次性生成完整解法的方法Next Token Prediction 缺乏详细的中间推理步骤模型一开始可能会犯错错误会传播导致最终生成的答案也是错的系统2思维 模仿人类通过更慢更深的思考过程进行推理CoT: Training-Free的方式 通过分步的方式生成一系列中间推理步骤从而提升模型推理能力Let’s think step by step Best of N MCTS Monte Carlo Tree Search 蒙特卡洛树搜索 : 在Token或字句级别分解建模成节点后提供奖励信息Process-based-Reward-ModelToken级别的节点每个节点对应生成序列中的一个Token。通过MCTS模型可以探索不同的Token序列最终生成更连贯的响应句子级别的节点在复杂推理任务中每个节点可以代表一个完整的句子或推理步骤帮忙模型更好地处理多步推理任务STaRSelf - Taught Reasoner 教会模型从内部深入思考问题与答案的关联STaR 的核心思路是利用 LLM 已有的推理能力迭代式的引导模型产生合理推理过程 (Rationales) 的能力井将 Rationales 融入到训练过程内让模型学会进行推理通过few shot example 来prompt模型生成答案和推理过程过滤出正确的数据集生成微调数据集来微调deepseek-R1 强化学习训练时使用的prompt格式要求模型将推理的过程的思路输出到标签中引导模型进行慢思考Quiet-STaR (Self - Taught Reasoner)通过控制模型在生成文本时自动生成推理步骤即理由或rationales从而提高模型的预测能力和推理性能在训练阶段先基于前序token停下进行think阶段产出从多个thought选择某一个thought加上前序token进行预测下一个token然后经过奖励模型的评判进行反馈学习在推理阶段利用think及talk对应的prompt来引导进入慢思考在think结束后再进行talk微调SFT VS 强化学习RLSFT-示范给模型怎么样做是对的RL-在环境中不断的试错累积奖励理论上RL能榨干模型能突破人类的上限但reward要能写好SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-trainingRL 在泛化方面的优势RL特别是在基于结果的奖励下进行训练时能够在基于规则的文本和视觉变体中实现泛化。这表明强化学习在处理不同情境和变化时具有更强的适应能力。强化学习通过与环境的交互不断调整策略从而能够学习到更通用的知识和行为模式。SFT 在记忆方面的倾向SFT 则倾向于记忆训练数据在分布外的场景中难以很好地泛化。这是因为监督微调主要是通过最小化预测与真实标签之间的误差来调整模型参数容易使模型过度拟合训练数据。SFT 对 RL 训练的重要性尽管 RL 在泛化方面表现出色但文章指出 SFT 对于有效的 RL 训练仍然至关重要。SFT 能够稳定模型的输出格式为后续的 RL 训练奠定基础。没有经过 SFT 的模型可能在输出格式上不稳定导致 RL 训练难以收敛或效果不佳。以DeepSeek R1示例后训练DeepSeek-R1对于test-time阶段的处理提及对于RPM及MCTS等手段未被证实有效果R1-ZERO仅使用RL未使用SFTReward Model未使用RPM等相对复杂的模型而是仅使用的了rule-based的RM强化学习算法使用的自家的GPPO相对于PPO等更加的简单也更考验RM的设计能力给后续的推理模型后训练很多启发仅RL也可以得到非常好的推理效果。总结RL - deepseek R1 zreoSFTRL - deepseek R1 llama3SFT - 蒸馏的一些小模型test-time scaling - openai o1最后我在一线科技企业深耕十二载见证过太多因技术更迭而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念通过动态追踪大模型开发、数据标注伦理等前沿技术趋势构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界。业务赋能 突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**