2026/2/15 14:15:55
网站建设
项目流程
网站怎么做站内美化,百度代理公司怎么样,网站建设与微信公众号绑定,西夏区建设交通网站是评测#xff0c;或者说是基准测试(Benchmark)。
为什么#xff1f;
因为我们已经有足够的技术方案#xff0c;只要定义清楚我们要解决的问题#xff08;基准测试#xff09;#xff0c;就能解决它。
存储大量知识的预训练模型#xff08;先验知识#xff09;…是评测或者说是基准测试(Benchmark)。为什么因为我们已经有足够的技术方案只要定义清楚我们要解决的问题基准测试就能解决它。存储大量知识的预训练模型先验知识并知道怎么持续训练它通过这个模型做思考推理并执行动作的 Agent 能力环境强化学习算法为预训练模型补充先验知识 → Agent为模型补充工具能力→强化学习激发知识的运用整个方案已经标准化能很好地泛化所有场景都适用能快速攻破一个又一个的基准测试。重点会变成我们应该定义什么样的基准测试我们已经有涵盖数学推理编程等领域非常多的基准测试经常大模型发布刷分刷得飞起但对现实世界的影响却并没有那么大。显然我们应该定义更能贴近现实世界问题的基准测试只要定义了用上述方案就能持续优化解决它基准测试引导收集现实世界的数据→提升预训练模型先验知识→强化学习激发模型往基准测试方向输出。而定义的基准测试越贴近现实世界对世界产生的影响和价值就越大。这就是 AI 下半场最重要的问题也是做好 AI Agent 最重要的问题。AI Agent 就是目前 AI 的代表大模型有先验知识和推理能力Agent 给大模型装上环境感知和行动能力要解决现实世界的问题一定需要 Agent是什么什么是贴近现实世界的基准测试过去大量的基准测试基本是封闭世界的固定任务例如数学题、算法题、围棋、游戏能明确定义问题、规则、答案定义这样的基准测试是比较容易的规则和过程都是现成的推理也可以属于这一类大模型发展到这个阶段解决这些问题也是相对容易的。但这些任务与现实世界大家日常要解决的问题距离太远并不是现实世界的环境因为之前缺乏感知和处理现实世界海量复杂规则任务的能力现在大模型和 Agent 已经初步具备了这个能力。目前有比较多横切面上单一维度的基准测试包括 规划能力PlanBench、AutoPlanBench等、工具调用能力ToolBench、BFCL等、反思能力LLF-Bench、LLM-Evolve等也有大统一的通用任务完成能力的基准测试主要是操作浏览器和操作电脑方面例如 OpenAI 的 browsecomp 评测复杂信息检索和理解能力学术界的 OSWorld 评测理解 GUI 操作完成任务的能力。但这些横切面或者通用的基准测试可能并不是用户关心的。AI Agent 要实用用户角度上更关注的是垂直任务上的能力例如它能不能帮我写好代码做好客服创作出好的故事给出好的调研报告等。当前行业处于早期先把基础通用的问题做好基准测试去解决达到一定阈值后垂直领域任务上的基准测试才是更重要的。如果简单分类可以把这些任务分为两类目标明确和不明确的任务。目标明确的任务现实中有些任务有很明确的结果是否正确的定义能像数学那样有标准答案但过程中又是需要跟现实环境不断交互。典型的是 AI Coding程序能不能跑通bug有没有修复都是能明确验证的。其他的还有像客服、数据分析等。这一类是最容易被 AI 突破但要定义出好的基准测试也不容易。发展得最好的 AI Coding在这个领域最权威的基准测试是 SWE-Bench它已经在尽量贴近现实世界去定义问题以解决 github 上的真实 issue 为出发点但它还是很难衡量实际 coding 场景中不同模型的效果。o1、DeepSeek R1、Claude 3.5 分数都在 49% 左右但实际用起来Claude 3.5 在可用性上高出一个档次没有其他基准测试能反映 Claude 3.5 断档的效果而 Claude 3.7 分数高达70%但实际体验上跟 3.5 的差距没有分数上差距这么大。除了模型搭配上工具后windsurf、cursor、trae、argument 等几十个 AI Coding 工具他们实际效果差异怎样如何评测衡量都是不清楚的。SWE-Bench 只覆盖了 Coding 的一部分大型项目理解能力、视觉动画开发能力、代码CR、需求理解等要补的基准测试还有很多现在也有 SWE - bench Multimodal、AgentBench、SWELancer 这些基准测试在不断推出试图覆盖。其他领域还没看到有相关的基准测试。目标不明确的任务大部分现实世界的任务都是结果难以明确定义的不是非黑即白。例如调研报告、旅行规划、简历筛选面试各种涉及文字/图片/视频创作的场景比如营销、故事创作、邮件回复沟通等结果的好坏很多只有人能判断。Deepseek 年初的一波火爆除了各项分数刷爆外其中有一个原因是它输出的中文质量很好但这个点并没有基准测试能衡量到因为确实是很难定义什么样的文字是明确的好跟文化/偏好品味/逻辑性/多样性等都有关系。图片视频生成也一样过了一定门槛后生成的图片怎样才算更好也是有很多维度和人的主观判断目前没有基准测试能做到。如何做好这类任务的评测靠人工例如对于图片生成常见的做法是分维度人工打分给不同模型生成的结果人工打分综合对比文章/视频也可以是同样的评测方式。另外也有在线盲测PK做大批量结果PK对比按总得分区分各模型的排行。对于自己产品内部迭代也可以通过上线后的采纳率等数据去评估好坏。但这些需要人参与主观成分大难以形成公认的标准基准测试。靠模型模型理解能力逐渐增强它能拥有人一样的评估能力就可以把上述靠人工的评估转为靠模型评估。例如对图片的评估当前像4o这样的多模态模型理解能力越来越强是能评估出部分好坏。文字也一样可以有评估模型去评估模型还可以根据场景自主给出评估的维度。如果大家公认某个模型的评估能力OK定义好相关数据集、评估维度就可以是一个基准测试只是目前模型还没达到能与人工评估媲美的程度。靠任务分解不衡量整体结果只衡量中间可明确定义的部分把任务部分转成上面提到的目标明确的任务。例如邮件沟通只评估邮件内是否含有需要的关键信息旅行规划只评估是否符合定性的偏好如最低价、订机票API调用等操作是否正确。如果要让 Agent 在各个领域上能很好发挥作用产出价值可能每个领域都有自己的垂类 Agent也都需要定义自己的一个或多个基准测试去覆盖这个领域AI Coding 领域跑得最快已经有多个像客服、电商、营销、创作、医疗、教育等等每个大课题下都会有小的垂类任务每一类任务可能都需要一个基准测试去衡量谁在这个任务上做得最好去促进这个任务成功率的提升。如果要做一个垂类 Agent最值得做的是把基准测试定义好比较像软件开发的TDD(测试驱动开发)在 AI 时代这种做法可能更重要它明确问题定义指引优化方向提供优化数据不会受到模型升级的影响是这个领域 Agent 的重要资产。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】