2026/4/17 5:02:05
网站建设
项目流程
江门网站设计制作,商务网站建设概念,网络媒体平台,wordpress上传与安装这项由腾讯天美LLM部门的吴浩源、王海等研究人员以及香港中文大学的于贝教授合作完成的研究发表于2025年12月#xff0c;论文编号为arXiv:2512.22955v1。有兴趣深入了解的读者可以通过该编号查询完整论文。
当我们日常与聊天机器人对话时#xff0c;可能从未想过这样一个问题…这项由腾讯天美LLM部门的吴浩源、王海等研究人员以及香港中文大学的于贝教授合作完成的研究发表于2025年12月论文编号为arXiv:2512.22955v1。有兴趣深入了解的读者可以通过该编号查询完整论文。当我们日常与聊天机器人对话时可能从未想过这样一个问题机器在选择下一个要说的词时是应该保持多样性还是追求精确性就像一个人在写作时是应该用词丰富多变还是应该精准直击要点这个看似简单的选择实际上关乎着人工智能能否真正学会推理和思考。腾讯的研究团队发现了一个令人意外的现象当前最先进的大语言模型在学习时面临着一个根本性的困境。传统观点认为让机器保持输出的多样性有助于它更好地探索和学习就像鼓励孩子多尝试不同的解决方案一样。然而研究结果却完全颠覆了这一直觉在训练阶段追求精确性反而能让模型在后续的强化学习中表现得更出色。这项研究的突破性在于它首次将传统的交叉熵损失函数重新解释为强化学习中的政策梯度优化。简单来说研究团队发现了机器学习背后的一个隐藏规律模型在预训练阶段的输出分布就像为后续学习搭建的舞台决定了模型能够探索哪些推理路径。为了验证这一发现研究团队开发了从1B到10B参数规模的多个模型包括密集型和专家混合型架构。他们在数学推理任务上进行了大量实验结果表明那些在预训练时采用精确导向策略的模型在强化学习阶段能够更稳定地激活长链推理能力避免了高熵配置下常见的推理能力崩塌问题。一、从新角度理解机器学习的基础要理解这项研究的重要意义我们需要先了解大语言模型是如何学习的。通常情况下训练一个语言模型就像教一个学生写作文。传统方法是给学生看大量的优秀范文然后让他学会预测下一个应该写什么词。这个过程被称为下一词预测是目前所有大语言模型的基础训练方式。在这个过程中有一个关键的概念叫做交叉熵损失函数。如果用烹饪来比喻这就像是一个评判厨师技艺的标准当厨师做出的菜越接近标准答案时得分越高。传统上研究人员认为这是一个纯粹的监督学习问题就像老师批改作业一样对就是对错就是错。然而腾讯团队的研究人员发现了一个被忽视的重要事实这个看似简单的对错判断实际上隐含着复杂的奖励机制。他们重新审视了交叉熵损失函数发现它本质上就是一种特殊的强化学习算法。当模型预测正确时它会获得与预测概率成反比的奖励而所有错误的预测都会被一视同仁地惩罚。这个发现的重要性在于它揭示了预训练和强化学习之间存在着一个此前未被认识的深层联系。就像建房子需要先打好地基一样预训练阶段的输出分布为后续的强化学习奠定了基础决定了模型能够探索哪些可能的推理路径。研究团队进一步发现传统的交叉熵方法在处理正确答案时采用了一种相当极端的策略给正确答案最大的奖励而对所有错误答案都给予零奖励。这就像一个严格的老师只认可完全正确的答案对所有错误都一概否定。虽然这种方法在很多情况下都很有效但它可能限制了模型在复杂推理任务中的表现。二、创新的奖励塑形策略基于对交叉熵本质的新理解研究团队提出了一个创新的解决方案奖励塑形策略。这个策略的核心思想是不再简单地用对或错来评判模型的预测而是设计一套更精细的奖励机制就像一个富有经验的老师会根据学生答案的质量给出不同程度的评分。这套新策略包含两个主要组成部分。首先是正向奖励调节机制通过引入一个参数β来控制对正确答案的奖励强度。当β小于零时系统会放大对正确预测的奖励就像一个鼓励型老师会对学生的正确答案给予更多赞扬这样做的结果是让模型的输出更加集中和精确。相反当β大于零时系统会适当减少对正确答案的奖励允许模型保持更平缓的输出分布增加输出的多样性。第二个组成部分是排名感知的负向调节机制。传统方法对所有错误答案都一视同仁但新策略认识到并非所有错误都同等重要。就像在多选题中选择一个相近但错误的答案和选择一个完全无关的答案其错误程度是不同的。具体来说新策略将错误答案分为两类高排名的负面词汇和低排名的负面词汇。对于那些模型认为比较可能但实际错误的词汇系统会给予适度的奖励这样可以保持一定的探索性避免模型变得过于保守。而对于那些明显不合适的低概率词汇系统会施以惩罚迫使模型将注意力集中在更合理的选择上。这种精细化的奖励机制带来了一个重要优势它允许研究人员在全局熵和局部熵之间找到最佳平衡点。全局熵控制着整体的输出分散程度而局部熵则调节在合理选择范围内的多样性。通过这种双重控制模型既能保持必要的探索性又不会在无意义的选择上浪费计算资源。三、令人意外的实验发现为了验证这套新理论研究团队进行了一系列规模庞大的实验。他们构建了包括1B、4B参数的密集型模型以及5B-A0.3B、10B-A0.5B的专家混合型模型涵盖了从小规模到大规模的不同配置。实验使用了500B个词汇的预训练语料库主要聚焦于一般知识随后进行了100B词汇的中期训练其中约5%为合成数据并显著增加了推理导向内容的比例。实验结果带来了一个颠覆性的发现违背直觉的是那些在预训练阶段采用精确导向策略的模型在后续的强化学习中表现得更加出色。具体来说当β设置为-0.25时对应更集中的输出分布模型在各种数学推理任务上都显示出了更稳定和更强的性能增长。这个发现特别令人惊讶因为传统观点认为保持输出的高熵即高多样性应该有利于模型的探索和学习。就像鼓励孩子尝试多种不同的解决方法一样研究人员普遍认为多样性是学习的关键。然而实验数据明确显示在预训练阶段采用低熵配置即更精确的输出的模型在强化学习阶段能够更好地激活长链推理能力。更深入的分析揭示了这一现象背后的机制。研究团队发现高熵配置的模型在强化学习早期容易出现策略熵的快速崩塌。这就像一个过于活跃的学生在面对复杂问题时容易失去耐心快速放弃深度思考。与此同时这些模型的回应长度也会急剧下降表明其推理能力受到了抑制。相比之下那些采用精确导向预训练的模型表现出了更好的稳定性。它们能够在强化学习过程中保持稳定的策略分布避免了早期崩塌的问题并且能够持续增长生成长度和推理深度。这种稳定性使得模型能够更有效地学习复杂的推理模式。局部高熵配置也展现出了独特的优势。当使用λ -0.1, λ 0, k 100的配置时即对低排名词汇进行惩罚同时对高排名词汇保持中性模型在10B-A0.5B规模上取得了最佳表现。这种策略通过抑制明显不合适的尾部词汇同时保持对合理候选词汇的开放态度实现了探索与利用之间的最佳平衡。四、深入理解多样性与精确性的权衡实验结果揭示的核心洞察是在语言模型训练中多样性和精确性之间的最优平衡点可能与我们的直觉完全相反。传统思维认为多样性总是有益的因为它能让模型探索更广阔的解决方案空间。然而这项研究表明在特定条件下约束输出分布实际上能够创造更有效的学习环境。这种现象可以通过有效探索空间的概念来理解。当模型的输出分布过于分散时它的注意力会被分散到大量无意义的选择上就像一个人在图书馆里漫无目的地浏览虽然看到了很多书但很难深入学习任何有价值的内容。相反当输出分布更加集中时模型能够将有限的学习资源集中在最有希望的方向上从而实现更高效的学习。研究团队还通过Passk分析进一步验证了这一理论。Passk指标衡量的是模型在k次尝试中至少产生一个正确答案的概率这个指标在解决方案精确性和多样性之间需要微妙的平衡。令人意外的是实验显示那些全局多样性更高的模型并不能带来更好的Passk表现。相反精确导向的策略在数学和编程任务上都取得了更好的结果。这个发现挑战了一个广泛接受的假设输出多样性会自动转化为更好的解决方案覆盖率。实际情况似乎是精确导向的模型虽然输出看起来不够多样化但它们能够更有效地覆盖真正有意义的解决方案空间而不是在低质量的候选答案上浪费概率质量。此外研究还发现了一个有趣的规模效应。在较小的模型中精确导向策略的优势可能不那么明显但随着模型规模的增大这种优势变得越来越显著。这说明大型模型具有更强的能力来利用精确的输出分布将约束转化为更有效的学习信号。五、技术实现的精妙设计要实现这种精确导向的训练策略研究团队设计了一套精巧的技术框架。整个训练流程分为三个阶段预训练、中期训练和强化学习阶段。每个阶段都有其特定的目标和配置。在预训练阶段团队使用了一个包含500B词汇的大规模语料库主要聚焦于一般知识内容。这个阶段的关键是应用新的奖励塑形策略通过精心调节β、λ和λ参数来塑造模型的输出分布。具体来说他们测试了β -0.25精确导向和β 0.5多样性导向两种配置以及λ -0.1和λ 0.1的局部调节策略。中期训练阶段引入了100B词汇的额外数据其中约5%为合成数据并显著增加了推理导向内容的比例。这个阶段的目的是让模型逐步适应更复杂的推理任务同时保持预训练阶段建立的输出分布特性。值得注意的是研究团队特意排除了合成长推理数据以确保能够准确观察模型长链推理能力的自然激活过程。强化学习阶段采用了GRPO算法一种在线策略优化方法专门针对数学推理任务进行优化。这个阶段使用了可验证的奖励信号如通过单元测试或得出正确数学解答。训练过程分为两个子阶段前700步使用8K的序列长度后续训练扩展到16K长度以支持更长的推理链条。实验评估覆盖了五个核心能力领域一般知识、逻辑推理、常识推理、数学和编程。评估使用了19个不同的基准测试包括MMLU、GSM8K、MATH-500、HumanEval等广泛认可的标准。对于需要数学推理和代码生成的任务研究团队还使用了Passk指标通过采样128个回应并报告Pass64结果来评估模型的上限能力。六、实际应用的深远影响这项研究的影响远远超出了学术范围为实际的AI系统开发提供了重要指导。首先它为模型预训练策略的设计提供了新的理论基础。传统上研究人员在选择训练策略时主要依靠经验和直觉但这项研究提供了一个更科学的框架来理解不同策略的长远影响。对于工业界的AI开发团队来说这些发现具有直接的实践价值。在设计大型语言模型时团队可以根据最终应用场景来选择合适的预训练策略。如果目标是构建一个需要强推理能力的系统那么采用精确导向的预训练可能会带来更好的最终效果即使这可能意味着在预训练阶段牺牲一些表面上的多样性。这项研究还对计算资源的分配提供了新的洞察。传统观点认为增加训练数据的多样性总是有益的但这项研究表明在某些情况下将计算资源集中在高质量的精确预测上可能更加有效。这对于资源有限的研究团队和公司来说具有重要的成本优化意义。此外研究结果对于理解不同规模模型的行为也很有帮助。研究发现精确导向策略的优势随着模型规模的增大而增强这为大型模型的训练策略设计提供了指导。小型模型可能仍然受益于传统的多样性导向方法而大型模型则更适合精确导向的训练策略。从更广阔的角度来看这项研究也为我们理解人工智能的学习机制提供了新的视角。它表明AI系统的学习过程可能与人类的直觉存在根本性差异。人类学习往往受益于探索多样性但AI系统可能需要更加结构化和集中的学习环境才能发挥最佳性能。说到底这项由腾讯和香港中文大学联合完成的研究为我们重新思考AI训练提供了全新角度。它挑战了关于学习中多样性价值的传统假设展现了在某些关键时刻约束和精确性反而能够释放更强大的学习潜力。这不仅是一个技术突破更是对AI学习本质的深刻洞察必将影响未来语言模型的设计和开发方向。有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2512.22955v1查询完整的研究报告。QAQ1什么是奖励塑形策略它如何改进传统的语言模型训练方法A奖励塑形策略是一种创新的训练方法它重新设计了模型学习时的奖励机制。传统方法只是简单地对正确答案给最高奖励对错误答案给零奖励。新策略则通过参数β控制对正确答案的奖励强度同时区分对待不同类型的错误答案对高排名但错误的词汇给予适度奖励对明显不合适的词汇进行惩罚。Q2为什么精确导向的预训练策略比多样性导向策略表现更好A实验发现精确导向策略能让模型将学习资源集中在最有希望的方向上避免在无意义的选择上浪费注意力。虽然这看起来限制了多样性但实际上创造了更有效的探索空间。在强化学习阶段这些模型表现出更好的稳定性能够保持稳定的推理能力增长而多样性导向的模型容易出现早期性能崩塌。Q3这项研究对实际AI应用开发有什么指导意义A这项研究为AI开发团队提供了重要的策略选择指导。对于需要强推理能力的AI系统采用精确导向的预训练策略可能带来更好效果。研究还表明大型模型比小型模型更适合精确导向策略这对计算资源分配和模型规模选择具有实践价值帮助团队在资源有限的情况下做出更明智的技术决策。