2026/5/14 6:19:01
网站建设
项目流程
设计一个网站,h5移动端网站模板下载,优质的房产网站建设,2017自己做网站的趋势本文从第一性原理出发#xff0c;详细推导了PPO(近端策略优化)损失函数在大语言模型对齐训练中的应用。文章系统介绍了强化学习基础概念、奖励模型构建、策略梯度优化、优势函数设计#xff0c;以及如何通过裁剪机制和KL惩罚实现稳定的模型微调。最终呈现的完整PPO目标函数包…本文从第一性原理出发详细推导了PPO(近端策略优化)损失函数在大语言模型对齐训练中的应用。文章系统介绍了强化学习基础概念、奖励模型构建、策略梯度优化、优势函数设计以及如何通过裁剪机制和KL惩罚实现稳定的模型微调。最终呈现的完整PPO目标函数包含策略目标、值函数损失、熵奖励和KL惩罚四项每项都有特定目的共同确保大模型生成符合人类偏好的高质量响应。引言近期关于 DPO、GRPO 和 RLVR 等强化学习方法在大语言模型(LLM)后训练中的研究成果令人瞩目。对于刚接触强化学习的研究者来说,从 Proximal Policy Optimization(PPO)入手是个不错的选择。这正是 OpenAI 在 InstructGPT 论文中展示的用于改进 LLM 对齐的算法。理解 PPO 能帮助建立策略梯度方面的正确心智模型,为后续学习基于类似思想构建的新型 LLM 专用强化学习方法打下基础。强化学习涉及大量数学推导。本文将通过详细的数学推导从第一性原理构建 PPO 目标函数,推导过程参考了 PPO 和 InstructGPT 原始论文以及 Umar Jamil 的视频教程。“Umar Jamil 关于 RLHF 和 PPO 的视频对于建立直觉和理解 PPO 损失背后的数学原理非常有帮助。一、强化学习核心概念概念通用强化学习定义LLM 场景(RLHF)强化学习智能体在环境中学习行动以最大化期望累积奖励的学习框架使用基于奖励的反馈微调语言模型,使其生成更符合人类偏好的响应环境智能体交互的外部系统,产生观察和奖励提示词分布、交互循环以及来自奖励模型评估生成响应的奖励信号智能体观察状态、执行动作并接收奖励的学习者/决策者逐词生成文本的语言模型动作 (a)智能体做出的选择,通常基于状态 s在生成的每一步选择下一个词元状态 (s)给定时间步智能体可获得的信息提示词加上目前为止生成的响应(当前词元上下文)奖励 ®告诉智能体结果好坏的标量信号奖励模型(基于偏好数据训练)对响应质量的评分策略 (π)从状态到动作分布的随机映射模型基于上下文对下一个词元的概率分布目标找到最优策略 π* 使期望累积奖励最大化更新(对齐)模型,使其倾向于生成更高奖励分数的响应二、RLHF 中的奖励模型奖励模型(RM)是一个神经网络,输入提示词 x 和响应 y,输出标量奖励 r_φ(x,y) ∈ ℝ,表示该响应在人类偏好下的好坏程度。策略梯度方法(包括 PPO)需要标量目标来更新策略参数。在标准强化学习中,环境提供这个信号。但对于文本生成,没有天然环境为好的响应给出奖励。让人类评估每个输出既不现实,而且基于梯度的优化需要可微的标量信号来反向传播。因此强化学习训练期间需要一个廉价、可微的人类偏好代理。学习到的奖励模型正好提供了这个功能。奖励模型的训练方法奖励模型的标准训练流程:采样提示词 (x)从基线策略(通常是 SFT 模型)生成多个候选补全 (y₁, y₂, …, yₖ)让人类比较候选项(成对比较比绝对评分更容易)训练奖励模型 (r_φ) 预测这些偏好架构上,奖励模型通常是:从预训练语言模型(通常是 SFT 模型本身)初始化移除最后的非嵌入层(投影到词汇表的层)替换为将最后一个词元的隐藏状态投影到单个标量输出的线性层奖励模型损失函数奖励模型使用Bradley-Terry 模型进行成对比较训练。对于任意提示词 x,响应 y_w(更优)相比 y_l(较差)被偏好的概率建模为:其中 σ 是 sigmoid 函数: σ(z) 1/(1 e^(-z))负对数似然损失为:这个损失强制奖励模型为更优响应分配更高奖励(详见 InstructGPT 论文或 Umar Jamil 视频)。这里有两个关键洞察:不需要绝对分数,只需要奖励模型能正确排序响应损失只依赖于差值(r_φ(x,y_w) - r_φ(x,y_l)),因此对所有奖励加常数不变。这在后续讨论 PPO 损失时很有用。奖励模型作为人类偏好的学习代理,将从每次生成获取人类反馈这个难以处理的问题转换为可处理的监督学习问题。训练完成后,它提供标量信号 r_φ(x,y) 用于使用 PPO 等强化学习算法优化策略(LLM)。三、轨迹与回报轨迹轨迹(也称推出或回合)是智能体与环境交互生成的状态(s)、动作(a)和奖励®序列:在 LLM 场景中,轨迹对应整个词元生成序列,即提示词后跟所有生成的词元直到序列结束词元。注意状态总是随机建模的,s_{t1} 可表示为 s_{t1} ~ P(s_{t1} | s_t, a_t)。给定随机策略 π_θ(a_t | s_t),轨迹 τ 的概率是以下三者的乘积:初始状态分布 ρ_0(s_0)随机策略 π_θ(a_t | s_t)环境转移动态 P(s_{t1} | s_t, a_t)回报回报是完整轨迹 τ 收集的累积奖励。最简单的形式是无折扣回报:更一般地,使用折扣回报:其中 γ ∈ [0,1] 是折扣因子。折扣因子 γ 有几个作用:确保无限时域任务(T→∞)的回报有限优先考虑即时奖励而非远期奖励四、策略梯度优化与 REINFORCE 算法强化学习的目标是找到策略 π_θ 使所有可能轨迹的期望回报最大化:这是目标函数,需要找到参数 θ* 使得:要使用基于梯度的方法最大化 J(θ),需要计算 ∇_θ J(θ) 并执行梯度上升:这个策略梯度看起来简单,但实际上难以计算。期望是对从 π_θ 采样的轨迹求的,而 π_θ 本身依赖于 θ。无法简单枚举所有可能的轨迹,对于任何合理大小的状态-动作空间(当然也不适用于 LLM)这在计算上是不可行的。因此下一步需要推导 ∇_θ J(θ) 的某种合理且可处理的近似。使用对数导数技巧来实现:这个期望可以写成积分:将梯度移到积分内:应用对数导数技巧:重新排列: ∇_θ P(τ|θ) P(τ|θ) ∇_θ log P(τ|θ) 并代回,得到:也可以写成期望形式:注意这里的梯度现在是轨迹对数概率梯度的期望。使用轨迹概率表达式(III.I)可以进一步简化:取对数:求 ∇_θ 时,只有策略项依赖于 θ:初始状态分布和转移动态独立于 θ,其梯度为零。代回得到策略梯度定理:这是个了不起的结果。可以计算目标的梯度而无需对环境动态求导,只需要策略对数概率的梯度。由于无法精确计算期望,通过采样 N 条轨迹用样本均值近似:这给出了REINFORCE 算法:初始化: 从预训练或监督微调(SFT)语言模型 π_θ 开始采样提示词: 从数据集抽取 N 个提示词批次 {x₁, x₂, …, x_N}生成轨迹: 对每个提示词 x_i,通过从策略 π_θ 采样词元生成响应 y_i (a₀, a₁, …, a_T)。每条轨迹是状态(提示词目前生成的词元)和动作(选中的词元)的序列。计算对数概率: 对每条轨迹,计算每个生成词元在其上下文下的对数概率:计算奖励: 使用奖励模型对每个完整(提示词,响应)对评分: R(τ_i) r_φ(x_i, y_i)估计策略梯度: 使用(IV.V)计算梯度估计:更新策略: 执行梯度上升步骤: θ ← θ α ĝ重复: 返回步骤 2 并迭代直到收敛虽然 REINFORCE 提供无偏梯度估计,但存在两个使其在 LLM 训练中不实用的关键问题:高方差: 梯度估计 ĝ 因采样的轨迹而有高方差。这种方差可能很大,导致梯度噪声和训练不稳定。“再看(IV.V),每个动作的梯度估计都由整条轨迹的回报 R(τ) 加权。这意味着即使某个动作很好,它也可能因为轨迹中其他动作导致差结果而收到负梯度更新(反之亦然)。在多个样本中,这种耦合引入的噪声可能很大,导致高方差。在线策略约束(样本效率低): REINFORCE 需要从当前策略 π_θ 采样的轨迹。因此每次梯度更新后,之前收集的轨迹必须丢弃,需要从更新后的策略采样新轨迹。对于 LLM,每条轨迹需要对数十亿参数模型完整前向传播,这代价极高,尤其是需要许多小梯度步骤才能有效训练时。五、降低方差与优势函数REINFORCE 算法提供无偏梯度估计(IV.V)。但虽然无偏,该估计器存在高方差问题。用 Reward-to-Go 替换完整轨迹回报(利用因果性)第一个方差降低来自注意到时刻 t 采取的动作 a_t无法影响 t 之前接收的奖励。这是因果性的基本结果。这些过去的奖励项只贡献噪声给梯度估计,增加方差而不贡献任何信号。因此可以移除它们,只考虑rewards-to-go:这给出更低方差的估计器:其中 Ř_{i,t} Σ_{t’t}^T r_{i,t’} 是从时刻 t 开始的轨迹 i 的 rewards-to-go。减去基线第二个互补的方差降低技术是从奖励中减去基线b(s_t)。关键洞察是可以从奖励信号中减去任何不依赖动作的函数而不改变梯度的期望值。因此可以从 rewards-to-go 中减去状态相关的基线 b(s_t) 得到无偏梯度估计器:值函数: V^π(s) 和 Q^π(s,a)基线仍是任意函数。为了使其更系统和具体,强化学习理论中有两个基本函数。状态值函数:状态值函数V^π(s) 是智能体在状态 s 并按策略 π 行动时的期望回报:直观上,V^π(s) 表示**“这个状态平均有多好?”**,用作基线 b(s) V^π(s)。动作值函数(Q 函数):动作值函数Q^π(s,a) 是从状态 s 开始采取动作 a 然后按策略 π 行动的期望回报:直观上,Q^π(s,a) 表示**“这个特定动作在这个状态有多好?”**,在强化学习中,rewards-to-go 估计为 Q^π(s,a)。在 LLM 场景:V^π(s) 估计给定提示词部分响应的期望奖励,假设模型继续按当前策略生成Q^π(s,a) 估计从当前提示词部分响应开始,如果模型生成特定下一个词元 a 然后继续按策略生成的期望奖励优势函数优势函数A^π(s,a) 衡量特定动作 a 相比策略下的平均动作好(或差)多少:优势函数直接告诉:“这个特定动作相比在这个状态通常做的好多少?”这正是策略改进需要的信号。需要增加正优势动作的概率,减少负优势动作的概率。“来自 Umar Jamil 视频:在 LLM 场景中考虑提示词是上海在哪里?且模型已生成上海是的状态。从这个状态:如果模型采样词元在(导向上海是在中国),这个动作可能有正优势,因为它比模型可能产生的平均词元更好如果模型采样词元美味(导向不连贯的响应),这个动作可能有负优势,因为它比模型可能产生的平均词元更差优势加权策略梯度代入 rewards-to-go 和值函数作为基线,得到策略梯度的如下形式:可以写成:基于样本的近似为:其中 Â_{i,t} 是轨迹 i 时刻 t 的优势函数估计。这是常用的策略梯度形式。实践中,A^π(s_t,a_t) 可如下估计:学习值函数: 训练神经网络 V_φ(s)(常称评论家或值头)逼近 V^π(s)。在 LLM 微调中,这通常是策略使用的同一 Transformer 骨干上的线性层。从样本估计 Q^π: 给定轨迹,rewards-to-go Ř_t Σ_{t’t}^T γ^{t’} r_{t’} 提供 Q^π(s_t,a_t) 的无偏(但高方差)估计。计算优势估计: Â_t Ř_t - V_φ(s_t)更复杂的方法如广义优势估计(GAE)通过使用多步回报的加权组合在高方差低偏差估计和低方差高偏差估计之间插值。详见 GAE 论文。六、重要性采样与离线策略梯度“注意: 在强化学习文献中,“离线策略通常指行为策略(生成数据)与目标策略(被优化)差异很大的方法,比如重用数千次更新前策略的转移。本节称为离线策略的更准确应称为局部离线策略”。优势加权策略梯度(V.IV)需要从当前策略 π_θ 采样的轨迹。这造成基本的低效率,即每次梯度更新 θ → θ’ 后,所有之前收集的轨迹都变陈旧,必须丢弃这些轨迹并从更新后的策略采样新轨迹。对于 LLM,每条轨迹需要对数十亿参数模型完整前向传播,这代价极高,尤其是需要许多小梯度步骤才能有效训练时。需要一种方法为多次梯度更新重用相同轨迹。重要性采样提供了实现这一目标的数学机制!重要性采样重要性采样是使用从不同分布抽取的样本估计一个概率分布下期望的技术。考虑分布 p(x) 的期望:可以通过乘除另一个分布 q(x)(其中 p(x)0 处 q(x)0)重写:比率 p(x)/q(x) 称为重要性权重。这个恒等式告诉:现在可以使用 q 的样本估计 p 下的期望,只要按概率比重新加权每个样本。将重要性采样应用于策略梯度可以将此技术应用于策略梯度设置。在线策略优势加权梯度(V.IV)是:为应用重要性采样,在时间步层面而非轨迹层面工作(完整轨迹重要性权重有极高方差)。对单个时间步:使用 π_{θ_old} 样本的重要性采样:应用对数导数恒等式 ∇_θ log π_θ (∇_θ π_θ)/π_θ,得到代理目标 L(θ),其梯度等于这个重要性加权策略梯度:其中重要性加权代理目标也称**保守策略迭代(CPI)**目标:还定义概率比为:注意按构造 r_t(θ_old) 1。因此 CPI 目标可写为:其中 Â_t 是时间步 t 的估计优势,_t[·] 表示在 π_{θ_old} 下收集的样本批次上的经验平均。这个目标有清晰的解释:如果 Â_t 0(动作优于平均),希望增加r_t(θ),即使新策略更可能采取这个动作如果 Â_t 0(动作劣于平均),希望减少r_t(θ),即使新策略更不可能采取这个动作对应的基于样本的近似为:离线策略学习:重用轨迹CPI 目标使离线策略学习成为可能:可以从 π_{θ_old} 采样轨迹,存储它们,然后使用相同数据批次对 θ 执行多次梯度更新。典型工作流程变为:收集: 从当前策略 π_{θ_old} 采样轨迹 {τ_i}计算: 计算优势 Â_i,t} 和对数概率 log π_{θ_old}(a_{i,t}s_{i,t)存储: 保存轨迹及其优势和旧对数概率优化: 使用存储数据的小批次对 L^CPI(θ) 执行多次梯度上升步骤重复: 设置 θ_old ← θ 并返回步骤 1这极大提高了样本效率。不用在单次梯度步骤后丢弃轨迹,可以从每批昂贵的 LLM 推出中提取多次更新。不稳定性问题虽然 CPI 目标提高样本效率,无约束优化 L^CPI(θ) 是不稳定的。核心问题是当 π_θ 偏离 π_{θ_old} 太远时重要性采样变得不可靠:极端概率比: 比率 r_t(θ) 可能变得任意大或小,破坏梯度估计的稳定性陈旧优势: 估计 Â_t 是在 π_{θ_old} 下计算的,随着 π_θ 发散变得不准确。优化器可能利用这些陈旧估计,做出看似有益但实际有害的更新实践中,无约束最大化 L^CPI(θ) 常导致过大的策略更新,造成灾难性性能崩溃。“LLM 场景(来自 Umar Jamil): 假设有一条模型生成上海是在中国的高优势轨迹。无约束优化可能大幅增加中国作为上海是在后下一个词元的权重——但这可能同时在其他地方造成意外的概率偏移,也许使模型在完全无关的上下文中过度倾向于说中国,或以不可预测的方式破坏整个词汇表的概率质量分布。需要一种机制约束 π_θ 不要偏离 π_{θ_old} 太远,保持比率 r_t(θ) 接近 1,同时仍允许有意义的策略改进。七、信赖域策略优化(TRPO)CPI 目标很有吸引力,因为它允许通过重要性比重用数据,但无约束优化是不稳定的。当 π_θ 偏离 π_{θ_old} 太远时,概率比 r_t(θ) 变得极端,优势估计 Â_t 变陈旧且可能被优化器利用。信赖域策略优化(TRPO)的关键洞察是代理目标 L^CPI(θ) 只在 θ_old 的局部邻域内是真实目标的有效近似。TRPO 论文通过证明只要连续策略间的 KL 散度保持有界,策略性能就保证改进,形式化了这一点。这个理论结果促使将策略更新约束在代理目标保持可靠的信赖域内。详见 TRPO 论文的形式化证明。TRPO 将这个洞察转换为约束优化问题,确保策略更新停留在代理目标保持可靠的信赖域内。超参数 δ 定义信赖域大小,即连续策略间允许的最大散度。这个约束确保 r_t(θ) 保持接近 1,保持重要性加权估计的可靠性。求解(VII.I)需要二阶优化。TRPO 线性近似目标,二次近似 KL 约束(使用 Fisher 信息矩阵),然后通过共轭梯度算法求解得到的问题,随后进行线搜索确保满足约束。对于大规模 LLM 训练,这种方法不实用:计算开销: 每次策略更新需要多次共轭梯度迭代和线搜索步骤,比标准梯度下降昂贵得多内存需求: 计算 Fisher-向量积为数十亿参数模型增加大量内存开销TRPO 背后的理论还建议使用KL 惩罚而非硬约束。这更易实现且计算效率更高。然而,选择在不同问题甚至不同训练阶段都有效的惩罚系数 β 是出了名的困难。这促使了近端策略优化(PPO)的出现:一种一阶方法,通过裁剪代理目标而非显式约束实现 TRPO 的稳定性。八、近端策略优化(PPO)近端策略优化(PPO)仅使用一阶优化实现 TRPO 的稳定性保证。PPO 不是显式约束 KL 散度,而是修改目标函数本身,通过裁剪机制阻止大的策略更新。它使用标准梯度下降隐式限制策略移动的距离,提供软信赖域。裁剪代理目标第六节的 CPI 目标和概率比:L^CPI 的问题是没有阻止 r_t(θ) 变得任意大或小。PPO 通过裁剪概率比使其保持在 [1-ε, 1ε] 内解决这个问题:其中 ε 是超参数(PPO 论文中 ε0.2),裁剪函数定义为:(VIII.I)中的 min 运算符很重要。它确保取裁剪和未裁剪目标之间更悲观(更低)的估计。这根据优势的符号创建不同行为:情况 1:正优势 (Â_t 0)当动作优于平均时,希望增加其概率,意味着增加 r_t(θ)。目标变为:如果 r_t(θ) ≤ 1ε:目标是 r_t(θ)Â_t,所以梯度上升增加 r_t(θ)如果 r_t(θ) 1ε:目标变为 (1ε)Â_t裁剪移除了将 r_t(θ) 增加到超过 1ε 的动机。情况 2:负优势 (Â_t 0)当动作劣于平均时,希望减少其概率,意味着减少 r_t(θ)。由于 Â_t 0,乘以更小的 r_t 使乘积更不负(更大)。目标变为:(负值的 min 在选择哪个 r_t 方面变成 max。)如果 r_t(θ) ≥ 1-ε:目标是 r_t(θ)Â_t,所以梯度上升减少 r_t(θ)如果 r_t(θ) 1-ε:目标变为 (1-ε)Â_t裁剪移除了将 r_t(θ) 减少到低于 1-ε 的动机。这里的要点是 PPO 提供 L^CPI 的悲观下界。当更新会使事情好得难以置信时忽略它们。“LLM 场景(来自 Umar Jamil 视频): 在语言模型微调中,策略 π_θ(a_t|s_t) 是模型给定上下文 s_t(提示词之前生成的词元)对词元 a_t 分配的概率。概率比 r_t(θ) 衡量微调模型相比参考策略生成特定词元的可能性增减程度。裁剪确保单次更新迭代中没有单个词元的概率能改变超过 (1±ε) 倍,防止模型对高优势词元反应过度。PPO 目标实践中,PPO 将裁剪策略目标与两个额外项结合:1. 值函数损失 (L^VF): 回顾第五节,需要值函数 V_φ(s) 计算优势估计。值函数训练以最小化其预测与实际回报的平方误差:其中 V_t^target 通常是折扣 return-to-go。当策略和值函数共享参数时(LLM 微调中常见,两者使用相同 Transformer 骨干),这个损失从目标中减去(因此是负号,因为最大化 L^PPO 但最小化 L^VF)。2. 熵奖励 (S[π_θ]): 为鼓励探索并防止过早收敛到确定性策略,PPO 添加熵损失:这里系数 c₁, c₂ 0 控制正则化强度。九、带 KL 惩罚的完整 PPO 目标用原版PPO 微调 LLM 时,策略学习最大化奖励模型的奖励。但奖励模型是人类偏好的不完美代理,是在有限数据上训练的神经网络,可能被利用。没有约束,策略可能发现达到高奖励分数的对抗性输出,同时产生的文本:退化为愚弄奖励模型的重复或无意义模式偏离自然语言太远,失去流畅性和连贯性利用奖励模型学到的虚假相关性这种现象称为奖励黑客。策略找到欺骗奖励模型的方法,而非真正改进响应质量。为防止奖励黑客,InstructGPT 论文添加KL 散度惩罚,正则化策略使其接近参考模型π_ref(通常是强化学习微调前的 SFT 模型)。从第八节,PPO 目标(通过梯度上升最大化)包含三项:裁剪策略目标值函数损失熵奖励现在不直接使用原始奖励模型分数,而是定义KL 惩罚奖励,正则化策略使其接近参考模型 π_ref:其中:r_RM(s_t, a_t) 是时间步 t 的奖励信号β 是 KL 惩罚系数π_ref 是冻结的参考模型在每个词元位置,KL 散度简化为:实践中用采样的词元 a_t 估计这个期望,得到:注意奖励模型 r_φ(x,y) 为完整响应 (x,y) 产生单个标量。这个分数只在最终词元T 分配,而 KL 惩罚应用于每个词元。KL 惩罚有两个目的:防止奖励黑客: 策略不能任意偏离自然语言保持流畅性: 输出在分布上与训练良好的 SFT 模型保持相似它通过修改的每词元奖励修改 PPO 中使用的优势估计 Â_t。但在数学上等价(且实现上更高效)的是直接将 KL 项添加到目标。带 KL 惩罚的 PPO 目标是:原版目标惩罚项第一项正是原版 PPO 使用裁剪代理优化的内容。KL 惩罚项作为单独的加性组件出现,惩罚与参考模型的偏离。将第一项替换为 PPO 裁剪代理:综合所有组件,带 KL 惩罚的完整 PPO 目标(要最大化)是:策略目标值损失熵奖励惩罚这里每一项都有明确目的:项作用策略目标L^CLIP改进策略,同时通过裁剪防止破坏性更新值损失c₁L^VF训练评论家进行准确优势估计(减去以最小化)熵奖励c₂S[π_θ]鼓励探索,防止过早收敛KL 惩罚βD_KL防止奖励黑客,保持语言质量重要的是区分完整损失中两个 KL 相关机制。PPO 裁剪机制作为短期锚点,约束单次更新中策略能改变多少;而 KL 惩罚是长期锚点,约束整个训练过程中策略能从起点偏离多远。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】