asp.net网站开发pdf百度关键词优化大
2026/4/17 6:45:00 网站建设 项目流程
asp.net网站开发pdf,百度关键词优化大,东莞网站设计精英,进不去的网站用什么浏览器基本概念 强化学习中涉及的基本概念#xff1a; 环境 (Environment)#xff1a;环境是智能体所处的外部系统#xff0c;它负责产生当前的状态#xff0c;接收智能体的动作并返回新的状态和对应的奖励。环境的作用相当于模拟现实中的条件和反应规则#xff0c;智能体只能通…基本概念强化学习中涉及的基本概念环境 (Environment)环境是智能体所处的外部系统它负责产生当前的状态接收智能体的动作并返回新的状态和对应的奖励。环境的作用相当于模拟现实中的条件和反应规则智能体只能通过与环境的交互来了解其动态变化。智能体 (Agent)智能体是强化学习中的决策者它会不断地观察环境的状态并根据其策略选择动作。智能体的目标是通过选择一系列最优动作获得尽可能多的累积奖励。状态 (State)状态是环境在特定时刻的全面描述。对于智能体而言状态是决策的基础它包含了关于当前环境的所有重要信息。动作 (Action)动作是智能体对当前状态的反应。基于当前的状态智能体使用其策略函数来决定下一步要采取的动作。奖励 (Reward)奖励是环境对智能体执行动作后给予的反馈。奖励可以是正的奖励或者负的惩罚。例如在超级马里奥游戏中吃到金币可以获得正奖励例如 10 分而碰到敌人会得到负奖励例如 -100 分。动作空间 (Action Space)指智能体在当前状态下可以选择的动作集合。轨迹 (Trajectory)轨迹又称为回合或 episode是指智能体在一次完整的交互过程中经历的一系列状态、动作和奖励的序列。轨迹通常表示为其中表示第 i 时刻的状态表示智能体在状态下选择的动作。。比如大语言模型生成时它的状态就是已经生成的 token 序列。当前的动作是生成下一个 token. 当前 token 生成后已生成的序列就加上新生成的 token 成为下一个状态。回报 (Return Reward)表示从当前时间步开始直到未来的累积奖励和通常用符号表示. 回报的定义是智能体决策的重要依据因为强化学习的目标是训练一个策略使得智能体在每个状态下的期望回报最大化。目标在强化学习中目标是训练一个神经网络 Policy在所有状态 s 下给出相应的 Action得到的 Return 的期望值最大。即其中表示在策略下轨迹的回报的期望值。轨迹的回报即从起始状态到终止状态获得的所有奖励的总和。表示一条轨迹即智能体在环境中的状态和动作序列。在参数 θ 下生成轨迹的概率通常由策略或策略网络确定。θ策略的参数控制着策略的行为。所以我们的目标是找到一个策略使得最大。那怎么找到这个策略呢我们使用梯度上升的办法即不断地更新策略参数 θ使得不断增大。首先我们来计算梯度接下来我们来看一下 Trajectory 的概率是怎么计算的对轨迹的概率对数进行求导表示利用策略梯度对期望回报进行优化。表示轨迹中所有步骤上采取的动作在状态下的联合概率。利用对数的可加性将联合概率的对数梯度分解为各步的对数梯度之和。对每一步动作的概率对数取梯度分解为每一步的累加。利用累积回报加权每一步的对数梯度体现策略梯度方法中的优势估计。省略梯度符号后的形式通常用于描述带有加权对数概率的情况。那我们应该如何训练一个 Policy 网络呢受局限我们可以定义loss函数为在我们的目标函数前加上负号就可以转化为一个最小化问题。我们可以使用梯度下降的方法来求解这个问题。 但是我们在实际训练中通常会使用更加稳定的方法即使用基于策略梯度的方法例如 PPO、TRPO 等。如以上公式所示如果当前的 Trajectory 的回报较大那么我们就会增大这个 Trajectory 下所有 action 的概率反之亦然。 这样我们就可以不断地调整策略使得回报最大化。 但这明显是存在改进空间的因为我们只是简单地使用回报来调整策略而没有考虑到回报的分布这样就会导致回报的方差较大训练不稳定。针对这个问题我们修改一下公式首先对 Reward 求和其中轨迹的累积回报这里使用了未来回报的折扣求和来表示。从时间步开始的未来折扣回报表示轨迹在时间步时的累计回报。对时间步到(轨迹结束时刻) 之间的所有奖励进行求和。折扣因子的幂次控制未来奖励的权重. 当越远离当前时刻 t其贡献越小。在时间步发生的即时奖励。总的来说修改后的公式是对未来回报的折扣求和这样当前动作的概率就不再只取决于当前的回报而是取决于未来的回报这样就可以减小回报的方差使得训练更加稳定。还有一种情况会影响我们算法的稳定性那就是在好的局势下和坏的局势下。比如在好的局势下不论你做什么动作你都会得到正的回报这样算法就会增加所有动作的概率。 得到 reward 大的动作的概率大一些但是这样会让训练很慢也会不稳定。最好是能够让相对好的动作的概率增加相对坏的动作的概率减小。为了解决这个问题我们可以对所有动作的 reward 都减去一个 baseline这样就可以让相对好的动作的reward增加相对坏的动作的 reward 减小也能反映这个动作相对其他动作的价值。所以我们的目标函数就变为其中也需要用神经网络来拟合这就是我们的 Actor-Critic 网络。Actor 网络负责输出动作的概率Critic 网络负责评估 Actor 网络输出的动作好坏。接下来我们再来解释几个常见的强化学习概念Action-Value Function每次都是随机采样方差很大我们可以用来代替表示在状态 s 下采取动作 a 的价值即从状态 s 开始采取动作 a 后按照某个策略 π 执行最终获得的回报的期望值。可以用来评估在状态 s 下采取动作 a 的好坏从而指导智能体的决策即动作价值函数。State-Value Function表示在状态 s 下的价值即从状态 s 开始按照某个策略 π 执行最终获得的回报的期望值。可以用来评估在状态 s 下的好坏从而指导智能体的决策即状态价值函数。Advantage Function表示在状态 s 下采取动作 a 相对于采取期望动作的优势。优势函数可以用来评估在状态 s 下采取动作 a 的优劣从而指导智能体的决策即优势函数。有了这些概念我们再回过头来看我们的目标函数其中就是我们刚刚讲的优势函数表示在状态下采取动作相对于采取期望动作的优势。那我们的目标函数就变成了最大化优势函数的期望。那如何计算优势函数呢我们重新来看一下优势函数的定义表示在状态 s 下采取动作 a 的价值表示在状态 s 下的价值。我们来看一下下面这个公式其中执行动作 a 后在状态下获得的即时奖励。折扣因子用于确定未来奖励的重要性。折扣因子接近 1 时更加关注未来的奖励接近0时更加重视即时奖励。价值函数用参数表示估计下一个状态的价值即从该状态开始的预期未来奖励。我们把上述公式代入到优势函数的定义中我们可以看到现在优势函数中只剩下了状态价值函数和下一个状态的价值函数这样就由原来需要训练两个神经网络变成了只需要训练一个状态价值网络这样就减少了训练的复杂度。在上面的函数中我们是对 Reward 进行一步采样下面我们对状态价值函数也进行 action 和 reward 的一步采样。接下里我们就可以对优势函数进行多步采样也可以全部采样。从图片中提取的公式为我们知道采样的步数越多会导致方差越大但偏差会越小。为了让式子更加简洁定义其中是时间步的优势函数表示当前时刻的即时奖励加上下一个状态的折扣价值减去当前状态的估计价值.那我们究竟要采样几步呢介绍一下广义优势估计GAE (Generalized Advantage Estimation)小孩子才做选择我全都要。将上面定义好的和代入到GAE优势函数中最终我们可以得到PPOPPO (Proximal Policy Optimization) 邻近策略优化是 OpenAI 提出的一种基于策略梯度的强化学习算法它通过对策略梯度的优化来提高策略的稳定性和收敛速度。PPO 算法的核心思想是在更新策略时通过引入一个重要性采样比例来限制策略更新的幅度从而保证策略的稳定性。PPO 算法的目标函数为其中对 N 条轨迹采样的样本取平均值。这里的 N 表示采样轨迹的总数通过对多个轨迹求平均来估计梯度以获得更稳定的更新。对每条轨迹 n 中的个时间步求和表示对单条轨迹中的所有时间步的累积。广义优势估计Generalized Advantage Estimation, GAE由参数 θ′ 估计用于计算在状态下采取动作的优势。表示策略的梯度其中分母是旧策略或目标策略分子是新策略的梯度。这个比值反映了新旧策略在同一状态-动作对上的相对概率密度利用这一比值来更新策略参数 θ.整个公式的作用是通过优势估计来计算策略梯度以优化策略参数使得策略倾向于选择优势更高的动作从而提升策略性能。GAE 可以有效降低方差使得策略优化过程更加稳定和高效。将loss函数取负号转化为最小化问题我们可以得到PPO 根据不同的实现方法可以分为两类PPO-Penalty用拉格朗日乘数法直接将 KL 散度的限制放进了目标函数中并在迭代的过程中不断更新 KL 散度前的系数。即其中是KL散度项用于限制新旧策略之间的距离其中表示策略和旧策略之间的KL散度。超参数控制 KL 散度项的权重从而调节新旧策略之间的差异防止策略更新过大导致不稳定。整个 PPO-KL 损失函数的目的是通过限制新旧策略的差异使用KL散度项来优化策略使其更稳定地朝着优势更高的方向进行更新。PPO 的这种约束策略更新的方法相比于其他策略优化方法更为稳定且有效。PPO-Clipped是 PPO 的另一种变体它通过对比新旧策略的比值来限制策略更新的幅度从而保证策略的稳定性。具体来说PPO-Clipped 的目标函数为裁剪函数将概率比裁剪到 [1−ϵ,1ϵ] 区间防止策略的更新步长过大。这里是一个超参数控制裁剪的范围。在未裁剪的概率比项和裁剪后的项之间取最小值。这一操作的目的在于限制策略更新幅度以防止策略偏离旧策略过远从而导致不稳定的学习过程。整个 PPO-clip 损失函数的作用是通过裁剪操作约束策略的变化幅度使策略更新不会过于激进。这种方式相比于传统策略梯度方法更为稳定并且在优化过程中能够有效平衡探索和利用。PPO2 的这种裁剪机制是其成功的关键广泛用于实际的强化学习应用中。原链接https://github.com/KMnO4-zx/hand-on-rl/blob/master/README.md

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询