公司网站建设策划商城网站发展计划
2026/4/17 3:06:23 网站建设 项目流程
公司网站建设策划,商城网站发展计划,长春网站建设模板样式,实战营销型网站建设智能体以完成任务为目标#xff0c;以文本或多模态数据作为输入和输出#xff0c;依赖大语言模型#xff08;LLM#xff09;进行推理#xff0c;通过强化学习进行构建#xff0c;并能够使用各类工具与长期记忆系统。 引言 AI 智能体是人工智能领域的重要研究方向之一。…智能体以完成任务为目标以文本或多模态数据作为输入和输出依赖大语言模型LLM进行推理通过强化学习进行构建并能够使用各类工具与长期记忆系统。引言AI 智能体是人工智能领域的重要研究方向之一。近期字节跳动的李航博士在我国计算机科学领域顶级期刊 Journal of Computer Science and TechnologyJCST上发表了一篇题为《General Framework of AI Agents》的观点论文将收录于 JCST 创刊 40 周年专辑提出了一个涵盖软件智能体和硬件智能体的通用框架。其中软件智能体是指可运行于 PC 和手机等设备上的智能体而硬件智能体则指物理世界中的机器人。该框架的主要特点是智能体以完成任务为目标以文本或多模态数据作为输入和输出依赖大语言模型LLM进行推理通过强化学习进行构建并能够使用各类工具与长期记忆系统。李航博士认为目前业界常见的智能体以及字节跳动 Seed 团队最近研发的智能体均可纳入这一通用框架。此外文章还比较了智能体通用框架与人脑信息处理机制之间的关联分析了智能体技术的主要特点并探讨了该领域未来研究的重要方向。该文章主要观点如下智能体以完成任务为目标以文本和多模态数据为输入和输出依赖 LLM 进行思考通过强化学习构建使用各种工具和长期记忆。LLM 是智能体的核心承担「思考」功能其能力决定智能体的水平。智能体框架与人脑信息处理机制在功能层面存在对应关系。智能体的信息处理应该是神经符号处理。智能体的未来研究方向包括改进模型架构与训练方法、扩大数据规模、研发主动和持续学习技术、增强安全性与可控性。如果智能体强化学习的奖励函数超出完成任务的范围有可能带来重大风险需设立研发红线。论文信息Li H. General framework of AI agents. Journal of Computer Science and Technology. 2026, DOI: 10.1007/s11390-025-5951-5论文地址https://jcst.ict.ac.cn/article/doi/10.1007/s11390-025-5951-5https://link.springer.com/article/10.1007/s11390-025-5951-5智能体的通用框架人工智能智能体AI 智能体通常拥有以下特点。智能体是「合理行动的机器」能在环境中与环境包括其中的人类进行互动以完成任务为目标有评价完成任务好坏的标准。智能体以文本、多模态数据包括图像、视频、音频为输入以文本、多模态数据或动作数据为输出。智能体中从输入到输出的信息处理机制是通过数据驱动、机器学习的手段构建的一般基于强化学习。智能体使用多模态大语言模型MLLM包括其中的 LLM可以对文本的输入提示给出文本的输出回复也可以对多模态的输入产生多模态的输出。MLLM 通常是预训练好的在强化学习中得到进一步微调。智能体中的 LLM 承担着智能体「思考」的功能是智能体的核心。在思考过程中可以生成输出思维链进行推理。智能体的思考还包括规划、总结和反思。智能体根据需要使用各种工具以及长期记忆或记忆。工具和记忆的使用使智能体有别于 LLM 本身更重要的是这使其能力范围得到质的扩展。工具可以是内置的如计算器也可以是外挂的如搜索引擎。智能体根据应用的需要可以具有高自主性或低自主性即独立地进行决策和行动的能力。前者的例子有自动驾驶汽车后者的例子有智能客服系统。随着人工智能技术的发展各种 AI 智能体的信息处理框架的基本形态已经逐渐形成。该文将已有系统的框架进行概括整理提出一个新的通用框架图 1。图 1. AI 智能体的通用框架智能体由多模态大语言模型MLLM 其中 LLM 为核心部分、工具、记忆包括长期记忆和工作记忆、多模态编码器、多模态解码器以及动作解码器组成。智能体可以接收文本输入并生成文本输出其中文本既可以是自然语言也可以是形式化语言LLM 根据文本输入生成文本输出并且还可能生成表示推理过程的文本即思维链chain of thought。在这一过程中智能体可以调用不同的工具并从记忆中读取或向记忆中写入信息和知识。智能体还可以接收多模态输入并生成多模态输出包括图像、音频和视频通过多模态编码器智能体生成多模态的中间表示将其输入到 MLLM 中再生成新的多模态中间表示最终通过多模态解码器生成多模态输出在此过程中也可以使用工具。硬件智能体即机器人同样可以接收文本和多模态输入并输出物理动作和多模态结果物理动作可以表现为机器人运动和操作的轨迹这些动作输出后由机器人的硬件和控制系统实际执行。在硬件智能体中一般需要两类模型MLLM 本身以及多模态 - 语言 - 动作模型MLAM即在 MLLM 基础上增强了动作解码器的模型。MLLM 主要用于高层任务规划、推理以及与环境的交互而 MLAM 则用于低层动作规划即生成用于执行计划的运动和操作轨迹。MLLM 和多模态编码器主要通过预训练获得MLLM、多模态编码器、多模态解码器以及动作解码器在后训练阶段进一步微调一般通过模仿学习和强化学习进行。该文提出的框架具有两层结构底层由 MLLM、编码器、解码器、工具和记忆等组件构成顶层则是整体的信息处理机制。此外这些组件同时处理符号表征和神经表征。智能体实例业界知名的智能体或智能体框架如 AutoGPT、LangChain、ReAct、Reflexion、LATS、ToolFormer、Voyager、OS-Copilot、Gemini Robotics 1.5以及字节跳动 Seed 近期研发的智能体 AGILE、Delta Prover、RobixGR-3 和 M3 Agent其信息处理框架均可视为图 1 所示通用框架的特例。这些智能体在输入和输出形式上各不相同并且可能使用工具、记忆或两者兼而有之但它们的核心架构与工作流程是一致的。未来随着智能体朝着更高通用性方向发展其底层框架也将逐渐趋于通用化。与人脑的比较人的思维即大脑的信息处理大多是在下意识中进行的有诸多个相对独立的子系统并行处理信息。脑科学中的全局工作空间global workspace假说认为意识是实现全脑信息同步的机制其信息处理表现出串行特征。下意识 - 意识的这种并行 - 串行协同机制使大脑在保持高效处理的同时也能有效地应对复杂的环境。具身认知论embodied cognition认为在人的思维过程中意识中的处理产生的是表象image心智计算论computational theory of mind认为意识中的处理产生的是心智语言mental language, mentalese。目前没有定论该文借鉴两者的观点假设思维中既能产生心智语言也能产生表象。图 2 描绘了大脑的信息处理机制。图 2 人脑大脑的信息处理机制可以看出智能体的框架与人脑大脑的信息处理机制在功能层面上有对应关系都具有两层的信息处理结构当然两者在算法和实现层面上完全不同。上层是串行处理下层是并行处理。两层之间的信息交流通过神经表征和符号表征进行。图 1 所示的智能体可以对视觉和听觉信息进行处理生成语言开展推理规划动作并且在其中进行有机的协调这方面与人有相似之处。当然也有一些不同点例如计算机可以以文本的形式对语言进行输入和输出而人则通过视觉、听觉、触觉等多模态形式对语言进行输入和输出。在人脑与通用智能体框架之间在功能层面存在若干相似之处。首先两者均呈现双层结构底层由多个处理模块构成上层则负责协调与同步。其次两者在处理信息时均通过这些模块以符号表征与神经表征两种形式进行。或者说人脑与 AI 智能体均采用了神经符号处理。分析和讨论软件智能体和硬件智能体软件智能体与硬件智能体机器人本质上具有相似性但也存在差异。这主要是因为它们运行的环境不同软件智能体活动于数字世界而硬件智能体则作用于物理世界。尽管两者所处的环境有所区别但它们在信息处理框架上是一致的。二者主要的区别在于其输入与输出的形式不同。软件智能体通常以文本及多模态视觉与听觉数据作为输入输出则多为符号形式如文本、代码或其他结构化表达。相比之下机器人这样的硬件智能体需要处理更多样的多模态输入。例如它们可以整合触觉数据。更重要的是硬件智能体的输出不限于文本和多模态还包括物理动作。具身认知理论认为人类智能是通过身体与环境的互动发展而来的这一原理也可以拓展至机器智能。硬件智能体可以借助更丰富的输入与动作空间从而发展出更通用、更具适应性的智能。智能体中的大语言模型大语言模型 LLM 承担着智能体「思考」的功能是智能体的核心。智能体的智能水平主要依赖于 LLM 的能力。经过强化学习微调的 LLM 本身就是一种强大的智能体通过生成语言完成与人交互的任务。其中交互可以是单轮的也可以是多轮的交互的过程中可能使用思维链进行推理生成的语言可以是自然语言也可以是形式语言例如代码。LLM 的语言生成基于上下文在多轮交互时就是目前为止的交互记录存储在 LLM 的上下文窗口或短期记忆中。但是 LLM 也有不足只有短期记忆无法无限制地存储和使用信息和知识。 LLM 也不具备搜索、算术计算、代码执行等能力。再有LLM 也不能直接处理多模态数据。智能体在 LLM 的基础上增加长期记忆、各种工具、多模态处理模块组成两层结构并通过强化学习再训练使它变得更加强大。推理推理是一个具有多重含义的概念存在若干种类型。深度学习中的推理通常指用训练好的模型对未知数据的预测当模型是生成模型时是指对新数据的生成。数学领域的逻辑推理包括命题逻辑、一阶谓词逻辑是整个数学的基础。机器学习领域的贝叶斯推断和因果推断各自拥有严格和完备的数学体系。类推推理analogical reasoning是指针对两个相似的事物将其中一个事物的属性、类别、功能推广到另一个事物上的推理。一般认为机器学习中神经网络的分类、语言模型的生成等实现的是类推推理。人的推理采用哪种类型目前科学并没有定论。可以看出是多面的。我们在做数学定理证明的时候推导过程中使用的是逻辑推理。福尔摩斯通过收集的证据判断犯人是谁的可能性最大这个过程可以用贝叶斯推断来刻画。但人在日常思考过程中更多使用的是类推推理在人的理解、决策、学习中起着重要作用。例如「时间」是一个抽象的概念我们通常用从左到右的一条带箭头直线一个实在的概念来理解它实际是一个比喻。LLM 的推理要分三个不同层次来理解。预训练模型的推理是一个自回归地预测或生成下一个词元的过程next token prediction。实际是基于上下文的词元序列的循环类推推理。预训练时的目标是产生似然函数最大或交叉熵损失最小的词元序列等价于对训练数据的无损压缩。在预训练模型的基础上进行强化学习基于验证器或 Reinforcement Learning from Human FeedbackRLHF微调得到的模型是一个策略函数其状态由当前上下文的词元序列表示动作由下一个词元表示。Supervised Fine-Tuning, SFT, 可以看作是模仿学习。强化学习的一条推理路径是 LLM 与环境交互过程中产生的词元序列。奖励的期望值最大的路径是最优的词元序列。训练时最终得到奖励推理时始终没有奖励因此推理的每一步模型做的也是下一个词元预测。LLM 的推理也可以看作是在陈述的空间中的搜索。LLM 生成的词元子序列会形成一段文字表示一个完整的语义这里称之为陈述statement。事实上LLM 的推理也是在所有可能的陈述组成的空间进行的。陈述可以是基于自然语言的也可以是基于形式语言的。可以表示逻辑推理也可以表示类推推理。思维链也是陈述的一种。这样LLM 的推理搜索就可以呈现多种类型的推理能力特别是经过强化学习训练的 LLM。智能体中的 LLM 最后通过整体的强化学习训练得到继承了 LLM 的这种推理能力。神经符号处理神经符号处理是指符号处理与神经处理深度学习的结合。智能体应具备神经符号处理能力这也是智能体与多模态大语言模型MLLM/LLM之间的主要区别。尽管 LLM 在一定程度上能进行符号处理但在需要严谨性的任务中它们并不完全可靠。相比之下使用工具的初衷正是为了进行符号处理。例如逻辑推理和数学计算本质属于符号处理应当通过相应的工具来实现而非仅仅依赖于 LLM。这是因为 LLM 从机制上无法实现严谨的逻辑推理和数学计算。此外长期记忆中的世界知识本质上是多模态的。这类知识中的一部分可以更自然、更合理地以符号形式呈现。科学证据表明人类知识的获取和记忆是以实体和概念为中心的这些实体和概念在脑海中形成了一个庞大的语义网络。同样智能体的记忆中也可以维护这样一种语义网络该网络可以通过符号处理从 LLM 的输出中构建。智能体对环境的理解例如对语言和视觉输入的理解不应局限于表象形式而必须深入到语义层面即实现锚定grounding。对环境的准确理解能使智能体更有效地完成任务。锚定的本质在于将输入信息与已有知识建立关联。以「神经 - 符号」混合形式存储在长期记忆中的知识能够有效地促进这一锚定过程。未来发展智能体和机器人的发展仍处于早期阶段仍然有许多科学和技术问题有待探索和攻克。除了基本的模型架构、训练方法以外以下几个重要的研究课题也需要广泛的探索和深入的研究。扩大数据规模缺乏训练数据应该是目前智能体开发中遇到的最大瓶颈。如何在智能体的通用或垂直领域中收集足够大规模的数据用于模型训练是亟待解决也是大家正在努力解决的问题。例如机器人的开发需要有足够量的机器人硬件系统帮助进行数据采集。一个解决方案是在实际场景当中先有一个还不错的智能体进行运行进行数据采集在这个过程中得到大量的真实数据构建数据模型训练的闭环。另一个解决方案是通过自动的手段包括生成式 AI 技术自动合成数据用于模型训练。这些方法都需要今后充分的尝试和探索。自主和持续学习目前智能体一般是事先训练好然后在具体场景中使用。许多学者指出未来的智能体应该能够在使用过程中也就是与环境的互动过程中进行自主学习autonomous learning和持续学习continual learning。即使是现在的智能体框架也能更主动地学习。例如智能体在使用过程中进行在线强化学习。通过轨迹采样得到环境的奖励进行利用和探索的平衡学习到更好的策略。目前在线强化学习由于安全等原因并没有实际使用起来。主动和持续学习意味着智能体在与环境的互动中不断构建或更新对环境的感知和认知持续掌握或提高完成任务的规划和控制能力提升自身的智能水平。安全性和可控性智能体的安全性和可控性永远是最重要的问题之一。高自主性的智能体可能带来的风险更大如何将可能的风险控制在最小范围是持续需要解决的问题。如果是使用强化学习训练智能体这就关系到如何定义强化学习的奖励函数。如果奖励函数表示完成任务的好坏同时与人类价值观对齐这时风险虽然存在但相对可控。如果奖励函数超出完成任务的范围那就有可能给人类带来极大的风险。我们需要设置研究和开发的红线。例如假设以智能体在环境中是否能生存作为奖励函数那么训练出来的智能体就有可能变得自私容易会去作恶。智能体在与环境交互中进行学习环境中总是存在使智能体「学坏」的信息和知识这一点人也是一样的其实并不可怕。关键是智能体是否能排除干扰学习到「好的」技能和行为。这里奖励函数起着决定性的作用。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询