2026/2/4 13:43:58
网站建设
项目流程
怎样用eclipse做网站,seo刷关键词排名工具,抚州网站开发,h5设计软件本文侧重于能力总结和实操搭建部分#xff0c;从大模型应用的多个原子能力实现出发#xff0c;到最终串联搭建一个RAGAgent架构的大模型应用。
一、概况
目前有关大模型的定义与算法介绍的文章已经很多#xff0c;本文侧重于能力总结和实操搭建部分#xff0c;从大模型应…本文侧重于能力总结和实操搭建部分从大模型应用的多个原子能力实现出发到最终串联搭建一个RAGAgent架构的大模型应用。一、概况目前有关大模型的定义与算法介绍的文章已经很多本文侧重于能力总结和实操搭建部分从大模型应用的多个原子能力实现出发到最终串联搭建一个RAGAgent架构的大模型应用让个人对于大模型应用如何落地更加具有体感。二、大模型发展现状目前大模型发展笼统的可以分为两个部分自然语言处理大模型Qwen语言系列等和多模态大模型同时多模态大模型又分为多模态理解Qwen-VL、Qwen-Audio等和多模态生成万相、EMO等。自然语言处理在自然语言处理领域短短的2个月内大家已经看到了价格的急剧下降这是得益诸如OpenAI的ChatGPT系列、Llama、通义、GLM等标志性大模型的发布和应用也代表着这个技术在算法和模型层面上的进入了成熟的新阶段。这些自然语言处理大模型凭借其庞大的参数量和在海量数据上的训练展现出了令人惊叹的语言理解和生成能力除了原始的文本生成、机器翻译、情感分析和自动问答等基础功能还衍生出了以检索增强生成和Agent搭建为背景的特定领域功能比如客服质检、风控辅助、智能投研等。它们不仅大幅提高了交互的自然度和效率还促进了诸如智能客服、内容创作、教育辅助工具等多种产品的创新与升级实现了技术和业务需求的融合。多模态相比之下多模态技术尤其涉及视觉、听觉与文本等多种感官信息融合的多模态大模型在Sora推出之后收到了广泛的关注并且已经应用在一些客服、座舱、营销等领域。在GPT-4o发出后端到端的多模态理解与生成模型也成为了每个公司所希望打造的模型之一。目前大多数对于多模态的应用还集中于原子能力的使用比如图像描述生成、视频内容理解和生成等与业务紧密结合的最佳实践还没有形成完整的体系如何落地端到端的自然语言处理和多模态应用仍然在尝试和共创的过程中。本文主要介绍自然语言处理模型如何在业务场景中进行落地将模型价值转化为生产力价值。三、原子能力概括目前基于百炼平台、灵积平台和dashscope sdk等功能非算法工程师和技术人员也可以学习并构建自己的大模型应用。总结多个产品和功能后排除百炼本身单个功能比如模型测试、模型微调等外目前的原子能力可以分为以下几个部分1、RAG目前RAG的实现方式有两种第一种通过百炼白屏化的方式通过一下步骤快速搭建一个RAG应用1、数据管理-导入数据2、数据应用-知识索引-创建知识库3、模型应用-新建应用-开通知识检索增强。然后可以通过调用应用API的方式将应用集成在工程项目中此外也支持llama-index集成百炼进行搭建参考链接为https://help.aliyun.com/zh/model-studio/developer-reference/build-rag-applications-based-on-llamaindex相对于白屏化操作来说这种方式的优点是通过每个步骤对应一个函数的拆分可以控制每个步骤之间的输入输出用户可以自定义的编写对于中间数据的数据操作或者是做一些安全检测、安全防控类的任务。第二种为本地Llama-index如果有一些敏感信息希望无论是对于模型还是文件都全部以本地的形式搭建本地RAG平台那么可以尝试使用llama-index框架从文件导入开始从0到1搭建RAG流程在这里不做赘述可以参考下面类似的CSDN文章。https://blog.csdn.net/qq_23953717/article/details/136553084注意项影响模型应用的好坏的重要标志是PE工程大模型无法读取用户的思维。如果输出太长请要求大模型简洁回复。如果输出太简单请要求专家级的扩写。如果大模型输出不符合要求的格式请给大模型演示自己希望看到的格式。模型需要猜测用户的意图越少用户获得所需结果的可能性就越大。prompt策略在OpenAI的材料中对于prompt的建议有以下几个部分 1在查询中包含详细信息以获得更相关的答案2要求模型采用某种角色扮演3使用定界符清楚地指示输入的不同部分4指定完成任务所需的步骤5提供示例6指定输出的期望长度百炼prompt最佳实践https://help.aliyun.com/zh/model-studio/use-cases/prompt-best-practices2、Function callFunction call需要解决的问题就是将LLM的能力从单纯NLP类问答转化为一个个执行单元将模型输出的语言对应到可以执行特定任务的函数或插件。目前Function call功能在百炼产品文档中已经形成两个非常详细的最佳实践文档基于Assistant API的旅游助手https://help.aliyun.com/zh/model-studio/user-guide/assistant-api-based-travel-assistant本地Function call的使用https://help.aliyun.com/zh/model-studio/user-guide/use-local-functions相对于code_interpreter,search这种已经封装好的插件对于用户自定义的任务来说我们实现自己的Function call能力主要分成三个步骤1)步骤一tools中function的定义目的是为了定义每个插件的作用需要传入的参数的定义{ type: function, function: { name: 获取目的地建议, description: 用于推荐最近热门的旅游目的地。, parameters: { type: object, properties: { query: { type: str, description: 可能需要的信息 }, }, required: [query] } } },2)步骤二function_mapper定义每个function对应的调用函数名function_mapper { 天气查询: get_weather, 路径规划: get_path_recommendation, 获取目的地建议: get_destination_recommendation, 获取景点推荐: get_attraction_recommendation, 获取餐饮推荐: get_dining_recommendation, 获取旅行提示: get_life_tips, 获取当地风俗: get_local_customs, }3)步骤三实现函数保持输入参数和输出的正确性。3、ASRTTSASR语音转文字和TTS文字转语音本身已经是成熟的功能在与大模型的结合中衍生出了新的产品和范式比如通义听悟产品在ASR的基础上增加了角色识别、文本翻译、章节提取、摘要生成等等功能甚至是后面会做到的语音特征提取、情绪识别等新功能。ASR中的比较先进模型为paraformerTTS中的先进模型举例为sambert声音克隆功能目前提供的代码链接如下Paraformer实时语音转文字https://help.aliyun.com/zh/dashscope/developer-reference/quick-start-7听悟离线转文字https://help.aliyun.com/zh/tingwu/offline-transcribe-of-audio-and-video-files实时部分目前有完整JavaSDK工程。Sambert调用页面https://dashscope.console.aliyun.com/model请注意1、 paraformer 本身代码没有设置 stop 逻辑所以需要设置一个时长或者是通过 result.is_sentense_end() 来判断语句是否结束2、本身原子能力是成熟的但是目前模型对于打断效果支持效果还不好如果出现打断输出text会断开并重新生成准确度方面需要在上层进行工程优化。4、意图识别目前的多轮对话使用prompt来实现在prompt中可以标注本应用是一个意图识别的AI应用并且在定义中表明类别有几类每一类的任务分别是什么。如果类别比较少可以像下面这么写# 角色 你是一个精准的意图识别系统专门负责将接收到的指令归类为三大任务类型并严格依据指令内容输出对应的任务标签数字1, 2, 或 3。 ## 技能 ### 技能1: ****问答任务 - **任务定义** - **输出标签**遇到此类指令输出数字 1。 - **示例** ### 技能2: ****任务 - **任务定义** - **输出标签**对此类指令输出数字 2。 - **示例** ### 技能3: ****执行任务 - **任务定义** - **输出标签**面对这类指令输出数字 3。 - **示例**并且在限制中定义好输出的格式比如定义如下输出格式## 限制 - 输出格式严格定义为: “意图标签标签数字”的格式则返回的结果为如果类别比较多可以直接使用Key:Value的形式形成一个意图文档把文档当作prompt每次输入为意图识别的要求意图识别文档库返回意图标签。5、多轮对话能力我们在白屏化页面上比如百炼和通义官网直接使用基模的原子能力时是内置了多轮对话能力。但是在调用SDK时因为代码默认一个用户创建一个线程thread而每一轮的用户输入query的时候thread都会初始化一次然后存入当前的message。简而言之就是每次问答大模型的消息队列中只包含新的message信息而不包含过去的messages信息。我们来看一下下面简单的多轮对话实现方式可以看到多轮对话的理论就是将之前对话的roleusr、system和messageappend到长期维护的messages队列中然后再把整个messages队列输入到大模型中因此在assistant实现多轮对话中最简单的方法就是在创建线程并把信息输入给assistant之前把每一轮的role和输出/输出保存成一个队列然后再发送给assistant以下代码供参考message_objs [] for j in msgs[data]: #msgs为上一轮的output role j[role] content j[content][0][text][value] message_objs.append({ role: role, content: content })最终出来的结果可以看到一下的截图当我的第二个问题“我刚才让你干了什么”输出的时候队列中已经包含了之前第一轮input和output的信息#四、搭建示例我们以产品架构师角度搭建一个支持语音输入输出并且具有开通资源和回答技术文档能力的AI助手。通过对于功能的分析并且对应到以上的原子能力我们的大模型应用首先要解决两个事情问答功能和开通资源的功能。如何通过RAG实现面向架构师的技术问答助手呢步骤描述此步骤较为简单不做概述大家可以看百炼的最佳实践一般分为四个步骤1)知识库导入、解析和切分2)prompt的书写调优3)知识库的挂载、插件挂载4)根据测试问题开始进行调试如何减少大模型幻觉要注意幻觉是不可避免的有时候prompt的语料“打”不过模型本身的泛化能力模型会自信的根据自己的能力自说自话。比如提出这样的一个问题“paimon是什么”由于paimon本身是一个比较新的湖格式并且即使制定了大模型搜索大数据相关的知识大模型有时候也没有链接到湖格式的逻辑思维所以会出现以下的情况那么如何让回答变成我们所预想的专业的回复呢在我的尝试中比较简单的步骤分别为1尝试更大的模型2prompt调优3对应的文档挂载1)尝试更大的模型一般来说如果发现一个模型在某项任务上失败了并且有一个更强大的模型可用那么值得尝试使用更强大的模型再次尝试。在这里由于我已经使用了max模型所以在此处可以忽略。2)prompt调优a)角色定义清晰prompt中需要清晰的让大模型知道自己的定位和精通并专注的内容比如在角色定义中写明# 角色 你作为阿里云高级解决方案架构师的智能助手精通大数据、数据库、分布式计算等核心云计算领域掌握apache、oracle等大型云计算IT公司的全部技术栈以严谨专注的态度辅以亲切的交流方式结合知识库${documents}和夸克搜索等插件提供给云计算架构师对于云计算和云产品的专业指导。b)提供示例对于一些复杂的问题可以给大模型提供示例并且让他有一定的思考时间。比如“请在回答AC大小问题时通过分析A大于BB大于C的情况得出最终结论。”c)限制描述在限制中明确回答问题的领域、回答的长短、回答中禁止出现的词汇、回答中的来源等信息会非常快速的帮助大模型进行回答的调优诸如以下示例i)但是请注意这种限制性的描述对于特定的问题可能会产生非常精准的效果但是有可能会影响到整个大模型应用的泛化性所以还要多多尝试和调整达成最终应用层面的precision-generalization tradeoff。## 限制与风格 - 回答需严格限制在于云计算、数据库、大数据及分布式计算等计算机技术领域。 - 回答不要涉及任何游戏、娱乐等领域的词汇和课题 - 当回答出现不清楚字样的时候一定要使用夸克搜索插件返回最相关的回复。 - 交流风格亲切友好即使面对复杂技术问题也能以易于理解的方式解答。 - 确保所有检索内容均来源于可靠渠道优先考虑阿里云等云厂商的官方资源维护回答的准确性和时效性。3)对应的文档挂载文档挂载这类外部信息辅助的问答是最快最有效解决大模型对于一类特定领域或者名词进行“胡说八道“的问题当我们将Paimon的产品文档链接以外部知识库的形式挂载时大模型回答问题显而易见的精准了很多如何自己写一个开通ECS的Agent呢在实现Agent搭建的时候function call是一个非常简单而且有用的方式通过自定义的function让大模型根据输入的query来匹配是否需要调用函数和调用哪个函数。当然我们也可以让大模型自动生成开通ecs的代码并且调用code_interpreter(代码解释器插件)来进行运行甚至可以指定它来进行自主的调优但是这就是一个具有多个step的复杂问题其中有诸多挑战比如需要明确的规划好这些步骤的操作内容、操作顺序、环境配置才能让模型更容易遵循中间结果也不一定可以人为的进行控制并且AK、SK和ECS的各种参数匹配与输入又是另一个工程性问题所以在此篇文章中我们不予考虑。下面将介绍如何使用function call构建一个非常简单的开通资源的Agent分为五个步骤步骤描述step1: 写好应用的description和instruction目的是让大模型知道自己的定位和功能。并且由于要调用插件调用插件需要制定当实现某些功能时调用何种插件比如“请给我开通一台北京的ecs”这句话属于“开通ecs”这个函数description一个阿里云架构师AI助手可以通过用户诉求通过调用插件帮助用户创建ecs、vpc等云资源。, instructions一个阿里云架构师AI助手可以通过调用插件解决开通资源等问题。插件例如开通ecs开通vpc判断地域等等当你无法回答问题时应当结合插件回复进行回答。请根据插件结果适当丰富回复内容。 当有需求开一台ecs的时候请一定要调用开通ecs这个插件 当有需求开一个vpc的时候请一定调用开通vpc插件,step2: 定义tools中的function我们以定义开通ecs的function来举例此function作用是用来开通ecs所以在description中必须写明该插件是用户开通ecs的插件**请注意**最好写Default比如若用户输入的query中不包含地域信息那么请给出默认一个地域防止参数为空导致的一系列报错问题例如“如果输入中没有地域则默认regioncn-beijing”{ type: function, function: { name: 开通ecs, description: 用于开一台ecs的插件和函数例如请给我开一台北京的ecs则regioncn-beijing请给我开一台上海的ecs则regioncn-shanghai。如果输入中没有地域则默认regioncn-beijing, parameters: { -------- }, required: [] } } },Step3定义function的参数比如开通ecs之前需要得知用户想要开通ecs的地域信息并且把地域信息转换成代码能够识别的参数例如首先从“给我开一台北京的ecs”中解析出 “北京” 这个地域信息然后根据description中的描述大模型将“北京”转换为cn-beijing最后的region_ecs为‘cn-beijing’。请注意1、required 这个部分如果含有参数那么region_ecs就不能为空或者是region_ecs的参数必须符合自定义的参数类型。如果required[‘’]则region_ecs为空也没事只要后面的函数可以接受region_ecs为空2、参数名称region_ecs必须和后面调用函数的参数名一模一样。parameters: { type: object, properties: { region_ecs: { type: string, description: ecs开通的地域并且需要转化为‘cn’加上地域拼音的形式比如北京对应cn-beijing杭州对应cn-hangzhou }, }, required: [region_ecs]Step4: 将定义的function与大模型实际调用的函数匹配function_mapper很好理解function_mapper { 开通vpc: create_vpc_function, 判断地域: judge_region_exist, 开通ecs: create_instance_action, }Step5: 调用create_instance_action函数把region_ecs传进去并且调通整条链路示例如下本部分可以参考ecs文档的开发sdk内容进行改写**请注意**需要有返回值返回值类型为string最好返回的内容可以被大模型理解这样大模型可以根据返回的信息进行润色。比如该例子中返回“success”这句话大模型回复“已成功为您开通一台位于北京的ecs”。def create_instance_action(region_ecs): print(function调用测试成功,region-id为,region_ecs) IMAGE_ID, INSTANCE_TYPE, SECURITY_GROUP_ID, VSWITCH_ID get_config(region_ecs) instance_id create_after_pay_instance(IMAGE_ID, INSTANCE_TYPE, SECURITY_GROUP_ID, VSWITCH_ID,region_ecs) check_instance_running(instance_id,region_ecs) return success后续思考问题如何支持开多台ecs新参数amount写入。如何支持多个region的ecs工程问题笨方法对region_ecs做一个if else。如何操作一些更为复杂的函数比如在已知查询价格接口的基础上如何实现实时查询一Cascade CPU架构的n核nG ECS包年包月/按量付费的价格应用集成在了解原子能力和一些功能搭建之后面对一个复杂一些的场景通常不仅仅是选取单个模型或者仅仅完成部分功能那么就需要根据业务情况以大小模型、RAGAgent的方式构建一个多智能体应用。这里介绍两种集成方式意图识别链接多个模型的方式和Aassistant API集成function和RAG。1.意图识别意图识别的本质是实现大小模型的结合通过意图识别后的tag分别调用不同的模型、APP和assistant可以控制不同部分的模型的大小和实现的功能让每条链路都更加精准化。比如我们可以将问题的分类分为以下几个部分分别使用不同大小的模型挂载不同的知识库来覆盖所有的功能拓展来说我们甚至可以将意图树做的更深如果场景足够的复杂那么意图识别也可以是多层的像一个树一样每个分支都定义更加精细化的意图知识库。2.Assistant-API集成目前基于dashscope搭建的assistant已经可以将rag和function call等插件集成到一个模型中首先最重要的步骤是在toos中定义一个名字叫做“rag”的“type”并且将百炼平台的知识库id写入到YOUR_PIPELINE_ID中。其次类似我们实现function call的功能我们需要在description中指明回答何种问题需要使用名叫“rag”的插件。这样在匹配到类似的问题的时候assistant可以调用“rag”插件在文档${document1}中做搜索倒排之后返回TopN信息然后输入大模型进行整合tools[ { type: fucntion{ } }, { type: rag, prompt_ra: { pipeline_id: YOUR_PIPELINE_ID, parameters: { type: object, properties: { query_word: { type: str, value: ${document1} } } } } }]最终使用多个原子能力构建整个完整的端到端链路。五、后记目前大模型的原子能力和API、SDK的更新非常的频繁也越来越完善通过一次或者两次的动手搭建可以让我们知道如何利用这些能力像“积木”一样结合自己本身业务或者功能的逻辑搭建一个完整的大模型“城堡”。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”