2026/4/16 14:09:26
网站建设
项目流程
建设flash网站,网站推广的优劣,网站建设 化工,机关网站建设引导语本文全面介绍大模型基础知识#xff0c;包括AI核心概念与大模型特性。重点解析Prompt工程技巧#xff0c;详细说明如何编写高质量提示词#xff1b;深入探讨AI Agent架构#xff0c;阐述其与大模型的协同关系#xff1b;系统讲解RAG技术#xff0c;解决大模型幻觉问题。文…本文全面介绍大模型基础知识包括AI核心概念与大模型特性。重点解析Prompt工程技巧详细说明如何编写高质量提示词深入探讨AI Agent架构阐述其与大模型的协同关系系统讲解RAG技术解决大模型幻觉问题。文章通过实例和图解帮助程序员快速掌握大模型应用核心技术提升工作效率是入门大模型时代的实用指南。1、 基础概念扫盲在谈到AIArtificial Intelligence人工智能时可能会听到模型、算法、训练、推理等概念。用一个猫狗分类的例子来简单说明上述概念。例如给定一张猫或狗的图片刚出生的小宝宝是无法区分的。•模型刚出生的小宝宝。•训练教模型认识猫狗的一个过程。给模型展示大量不同的猫狗的图片并告诉ta猫狗的不同之处猫狗的特征是什么如猫的尾巴、耳朵狗的鼻子、体型等等。模型就能根据其学到的知识来做出区分。•算法用什么方法来教模型。训练模型时使用的具体方法技术训练过程中算法会知道模型如何学习、处理图片特征。•推理模型学习完毕后给模型一张新的猫or狗的图片模型根据学到的知识区分猫狗。模型解题的过程就是推理。•数据集模型学习的知识。一般分为训练集和测试集训练集用于训练模型测试集用于验证模型学习的效果。•参数参数决定了模型如何根据输入数据生成预测或输出结果。模型本质上是一个函数比如最简单的 ywxb其中的 w权重和 b偏置就是模型的参数。通过分析大量数据样本x, y模型会自动调整这些参数使得它能够尽可能准确地拟合数据找到最能解释输入和输出之间关系的参数值。•泛化能力模型对于未见过的新数据的预测能力。•过拟合模型对训练数据学习得过于精确。模型变成了“书呆子”只会死记硬背不会融会贯通。•神经网络模拟人脑认知的分层学习系统通过不断调整各层神经元之间的连接参数从大量数据中逐步学会区分猫狗最终能对新数据做出智能判断。2、 关于大模型2.1 什么是大模型大模型Large Model或者称为基础模型 Foundation Model指的是包含超大规模参数通常在十亿个以上的神经网络模型。这些参数使得大模型能够处理和理解复杂的任务如自然语言处理、图像识别等。“大” 主要体现在以下几个方面• 参数规模大• 架构规模大• 训练数据大• 算力需求大以上“大”衍生出模型能力的强大。我们常说到的大模型指的是最常用的一类大语言模型LLMLarge Language Model如ChatGPT、DeepSeek等都是大语言模型。注本文后续的大模型均代指大语言模型LLM)2.2 大模型两大能力2.2.1 涌现能力涌现能力Emergent Abilities训练数据规模及参数数量的提升大模型解锁了一系列新的能力如上下文学习、常识推理、数据运算、代码生成等能力。脑子突然“开窍”了不再仅仅是复述知识而是能够理解知识并且能够发散思维。2.2.2 泛化能力泛化能力Generalization Abilities在面对未见过的新任务、新领域或新数据时仍能有效完成任务的能力。这种能力使模型不仅限于复现训练数据中的模式而是能灵活适应多样化场景。3、 Prompt工程随着大语言模型LLM的出现提示工程Prompt Engineering变得越来越重要。很多人将 Prompt 视为大模型的咒语其好坏直接影响模型输出的结果。3.1 什么是PromptPrompt提示词发送给大模型的指令通常以自然语言文本的形式出现。核心目的在于清晰地描述模型应该执行的任务以引导模型生成特定的文本、图像、音频等内容。3.2 什么是Prompt工程Prompt 提示词很大程度决定生成回答的质量。Prompt工程Prompt Engineering提示工程专注于如何编写Prompt的技术。一个高质量的Prompt包含以下基本要素•任务说明向模型明确提出具体的任务要求。任务说明应当清晰、直接并尽可能详细地描述期望模型完成的任务。•上下文向模型提供的任务相关背景信息用以增强模型其对任务的理解以及提供解决任务的思路。如特定的知识前提、目标受众的背景、相关任务的示例等。•问题向模型描述用户的具体问题或需要处理的信息。•输出格式期望模型给出的回答的展示形式。包括输出的格式以及任何特定的细节要求如简洁性或详细程度。3.3 如何编写一个好的Prompt核心技巧把大模型当人看3.3.1 编写规范的Prompt编写规范的Prompt是与大语言模型进行有效沟通的基础。经典的Prompt通常由任务说明上下文问题输出格式等部分中的一个或几个组成以下是规范编写Prompt需要满足的要求。3.3.1.1 任务说明要明确清晰、具体的任务说明能够保证模型准确理解任务要求产生符合预期的输出。以下是任务编写的技巧•使用明确的动词选择能够清晰表达动作的动词。如“判断”、“生成”等避免使用模糊的动词如“处理”、“操作”等。•具体的名词使用具体的名词来定义任务的输出或目标•简洁明了任务说明应简洁且直接避免冗长或复杂的句子结构使模型能够快速抓住任务的核心要求。•结构化布局在较长的 Prompt 中将任务说明放置在开头和结尾因为模型通常更关注这些部分的信息。3.3.1.2 上下文丰富且清晰丰富且清晰的上下文能够显著提升模型的回答准确率。丰富体现在内容可以是与问题直接相关的背景信息、具体的演示示例、或是对话历史等。清晰体现在上下文信息必须与问题紧密相关避免包含冗余或是不必要的信息。3.3.1.3 输出格式要规范规范的输出格式对于确保模型的输出的可用性至关重要。通过指定明确的输出格式使模型的输出结构化便于下游任务直接提取、使用生成内容。或者直接提供输出格式的具体示例使模型按照期望的输出格式输出内容。3.3.1.4 排版要清晰•使用一致的分隔符选择并坚持使用一种或集中分隔符来区分不同的prompt部分。如# - 、 等•合理使用空白、缩进增强Prompt可读性帮助模型区分不同的内容块•清晰的标题和子标题帮助模型快速识别每个部分的主题3.3.2 合理归纳提问•复杂问题拆解将复杂问题拆解成更小、更易于理解的子问题引导模型逐一回答确保子问题得到充分考虑和解答。随后将子问题的答案汇总形成全面回答。•追问根据回答去做追问。3.3.3 善用心理暗示•角色扮演为大模型设定一个详尽的角色。在指令中包含具体属性、职责、知识和技能。•情景代入将特定情境下所需的专业知识、历史背景等信息嵌入到模型的响应中。4、 AI Agent如果最近有关注科技新闻一定会被一款名为 Manus 的AI Agent刷屏。Manus一经发布就引起广泛关注内测资格甚至一度被炒至高价。到底什么是AI AgentAI Agent与大模型又是什么关系4.1 为什么需要AI Agent设想一个场景我们想要规划一次跨国旅行涉及到机票的预定、酒店的选择、当地天气以及景点推荐等方面。如果借助大模型帮助我们规划的话需要我们自己先思考将任务拆分成订酒店、订机票、推荐景点等任务然后我们需要根据拆分好的任务不断输入任务指令不断调整才能完成这件事。任务是交互式的即通过提示词一步一步来回答问题。如果有一个智能助手也就是Agent我们只需要给出“规划一次跨国旅行”的指令由助手帮助我们拆解任务、执行任务不需要我们自己动脑子、做格外的操作我们只关心助手最终反馈的结果。总结来说需要Agent的理由如下•能够处理复杂任务单一工具如LLM无法直接完成多步骤、多工具协作的任务•能够自主决策能根据用户偏好如预算、时间自动调整计划例如优先选择低价航班或高评分酒店•能够弥补大模型的不足大模型无法直接访问实时数据如最新航班价格但Agent可以通过API获取。4.2 什么是AI Agent如果查询Agent的中文释义意思是代理人代理商或是经纪人。可以将Agent理解为一个中间人的角色代替别人做事。如艺人的经纪人帮助艺人去完成商务活动的谈判、对接等工作无需艺人自己操心艺人只关心结果。AI Agent可以理解为用户和大模型LLM之间的中间人由Agent代替用户去操作大模型。用户只需要给出简单指令Agent便会自己独立解决问题而不是“指哪打哪”整个过程无需用户的干预。4.2 AI Agent与LLM是什么关系Agent LLM大模型 Planning规划 Memory记忆 Tools工具AI Agent是一种能利用大模型进行自主的任务规划、决策与执行的系统。如果把Agent看作一个人那么大模型LLM就是Agent的大脑。如果说大模型是一本百科全书而AI Agent就像一个办事能力强的助手。助手会根据需求把任务拆解成多个步骤并主动找到资源或工具来完成任务。Agent关键组成部分如下规划PlanningAgent通过规划来决定如何实现目标把大任务拆解为子任务并规划执行任务的流程并在任务执行的过程中进行思考和反思决定是继续执行任务或判断任务完结并终止运行。记忆MemoryAgent拥有的存储器可用来存储短期记忆或长期记忆。•短期记忆执行任务过程中的上下文会在子任务的执行过程产生和暂存在任务完结后被清空•长期记忆如记录使用者的任务历史、个人信息、兴趣偏好等长时间保留的信息一般存到外部数据库。工具ToolsAgent的手脚。可以自动调用各种工具API例如计算器、搜索工具、代码执行器、数据库查询工具等。有了这些工具API可以扩展Agent的能力执行任务。行动Action智能体根据规划的结果采取的实际行动。总结来说LLM 扮演了 Agent 的 “大脑”在 Agent 这个系统中提供推理、规划等能力。5、检索增强生成RAG5.1 为什么需要RAG举个常见的例子让大模型比较13.8和13.11哪个大它可能会很自信地告诉你13.11更大。这种明显违背数学常识的回答暴露了大模型在回答某些问题时可能会存在一本正经胡说八道的情况。正如上述例子展示的那样大模型并非无所不能有些时候会胡言乱语即产生“幻觉”。可以从两方面去理解幻觉•模型自身导致的“幻觉”。大模型实际上是依赖于统计概率来预测下一个最可能的词语而非基于事实查询。由于训练数据和参数学习上的不足可能会出现“幻觉”即生成看似合理实则逻辑混乱或者违背事实的回答。•训练数据导致的“幻觉”。大模型的回答都是从已有的知识数据中学习到的而知识可能存在以下问题•知识过时训练模型时所用的数据是过时的数据•知识边界垂直领域或者私有的知识大模型可能不清楚•知识偏差训练数据的正确性无法保证可能存在错误的知识。针对大模型存在的“幻觉”问题可以通过增强检索生成RAG技术来补足短板从而提高大模型的回答质量。5.2 什么是RAGRAGRetieval-Augmented Generation检索增强生成建立一个外部数据库将大模型不知道的知识存储在外部数据库中供大模型进行检索调用用于提高大模型回答的质量。用户提问后根据用户的问题到外部数据库中检索得到上下文context得到的上下文与用户的问题整合后作为Prompt提示词送入大模型供大模型搜索答案。5.3 RAG三大好处• 减少大模型的幻觉• 为大模型提供最新的知识帮助大模型生成质量更高的答案• 相较于模型微调效率更高 、成本更低。5.4 RAG工作流程5.4.1.1 向量嵌入向量嵌入Vector Embeddings将复杂数据如图像、文本、音频等转换为数值向量的过程和结果。向量通常是高维的数字数组向量中可以体现数据间的语义信息语义相近的数据向量值接近在向量空间中距离更近。例如给定三个词Cat、kitty、Apple将这三个词转换为向量可以看到语义相近的Cat、kitty向量值比较接近而Apple与其他词值相差较大体现在向量空间中语义相近的词距离更近。5.4.1.2 嵌入模型嵌入模型Embedding Model将复杂数据如词语、句子或文档等转换为向量的技术。5.4.1.3 向量数据库向量数据库Vector Database用于存储和检索高维向量数据的数据库处理与相似性搜索相关的任务通过语义来搜索。可作为AI的长期记忆库。相似性搜索Similarity Search利用向量空间中对象间的接近程度来识别和检索相似的对象这种基于相似度检索的方法就是相似性搜索。5.4.2 RAG工作流程详解总体流程可分为四步•构建外部知识库针对知识库中各类格式的文档如PDF、Word等进行处理。对知识库中的文档进行分割Split将分割后的文本块Text Chunk利用嵌入模型转为嵌入向量存储到向量数据库中。文档分割的质量决定了检索的准确性和生成模型的效果。•检索Retreive: 将用户输入的问题利用嵌入模型转换为向量到向量数据库中进行相似性搜索找到相似度最大的向量输出为上下文Context。•增强Augment上下文与用户问题结合作为提示词Prompt送入大模型。•生成Generation大模型根据提示词Prompt生成回答生成的回答返回给用户。作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。最后近期科技圈传来重磅消息行业巨头英特尔宣布大规模裁员2万人传统技术岗位持续萎缩的同时另一番景象却在AI领域上演——AI相关技术岗正开启“疯狂扩招”模式据行业招聘数据显示具备3-5年大模型相关经验的开发者在大厂就能拿到50K×20薪的高薪待遇薪资差距肉眼可见业内资深HR预判不出1年“具备AI项目实战经验”将正式成为技术岗投递的硬性门槛。在行业迭代加速的当下“温水煮青蛙”式的等待只会让自己逐渐被淘汰与其被动应对不如主动出击抢先掌握AI大模型核心原理落地应用技术项目实操经验借行业风口实现职业翻盘深知技术人入门大模型时容易走弯路我特意整理了一套全网最全最细的大模型零基础学习礼包涵盖入门思维导图、经典书籍手册、从入门到进阶的实战视频、可直接运行的项目源码等核心内容。这份资料无需付费免费分享给所有想入局AI大模型的朋友扫码免费领取全部内容部分资料展示1、 AI大模型学习路线图2、 全套AI大模型应用开发视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 大模型学习书籍文档4、AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、大模型大厂面试真题整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题涵盖基础理论、技术实操、项目经验等维度每道题都配有详细解析和答题思路帮你针对性提升面试竞争力。6、大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。扫码免费领取全部内容这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】