网站备案转服务器公司做网站费用计入什么科目
2026/3/30 13:52:37 网站建设 项目流程
网站备案转服务器,公司做网站费用计入什么科目,HTML发布网站,谷歌浏览器入口每次推送变更时#xff0c;进行恰当的评估也有助于确保一切不会失控。 本文分为两部分。若您是新手#xff0c;第一部分会简要介绍BLEU和ROUGE等传统指标#xff0c;提及大语言模型基准测试#xff0c;并引入在评估中使用大语言模型作为评判者的理念。 若您对此已不陌生进行恰当的评估也有助于确保一切不会失控。本文分为两部分。若您是新手第一部分会简要介绍BLEU和ROUGE等传统指标提及大语言模型基准测试并引入在评估中使用大语言模型作为评判者的理念。若您对此已不陌生可跳过这部分。第二部分将深入探讨不同类型大语言模型应用的评估。我们过去的做法若您熟知自然语言处理NLP任务的评估方式及公开基准测试的工作原理可跳过第一部分。若您不了解那么了解准确率、BLEU等早期指标的原始用途及工作原理同时理解我们如何针对MMLU等公开基准进行测试会很有帮助。评估自然语言处理任务评估分类、翻译、摘要等传统自然语言处理任务时我们会采用准确率、精确率、F1值、BLEU和ROUGE等传统指标。这些指标如今仍在使用但主要用于模型输出单一、易比较的“正确”答案的场景。以分类为例其任务是为每个文本分配单一标签。为测试这一点我们可通过比较模型分配的标签与评估数据集中的参考标签判断是否正确来计算准确率。规则很明确若分配错误标签得0分若分配正确标签得1分。这意味着若我们为包含1000封邮件的垃圾邮件数据集构建分类器且模型正确标记了其中910封那么准确率即为0.91。对于文本分类我们通常还会使用F1值、精确率和召回率。在摘要生成和机器翻译等自然语言处理任务中人们常使用ROUGE和BLEU来衡量模型生成的译文或摘要与参考文本的匹配程度。这两种分数都会统计重叠的n元语法尽管比较方向不同但本质上共享的词语块越多分数就越高。这种方式相当简单化因为若输出使用不同措辞分数就会偏低。当一个回应只有唯一正确答案时这些指标效果最佳但对于我们如今构建的大语言模型应用它们往往并非理想选择。大语言模型基准测试每次发布新版本的大语言模型时都会参照一些基准测试MMLU Pro、GPQA或Big-Bench。这些是通用评估其准确术语实为“基准测试”而非评估我们稍后会介绍评估。尽管每个模型还会接受多种其他评估包括毒性、幻觉和偏见评估但最受关注的评估更像是考试或排行榜。MMLU等数据集为选择题形式已存在相当长时间。我实际上浏览过该数据集发现它颇为杂乱。部分问题和答案相当模糊这让我认为大语言模型供应商会尝试在这些数据集上训练模型以确保模型能正确回答。这引发了公众的一些担忧大多数大语言模型在这些基准测试中表现出色可能只是过拟合也正因如此我们需要更新的数据集和独立评估。大语言模型评分器在这些数据集上进行评估时通常可使用准确率和单元测试。但如今的新变化是增加了一种名为“大语言模型即评判者”的方式。为给模型做基准测试各团队大多会采用传统方法。因此只要是选择题或只有唯一正确答案只需将答案与参考答案进行精确匹配即可无需其他操作。MMLU和GPQA等含多项选择题答案的数据集便是如此。对于编码测试HumanEval、SWE-Bench评分者只需运行模型的补丁或函数。若所有测试通过则问题视为已解决反之则未解决。然而可想而知若问题模糊或为开放式答案可能会有波动。这种差距催生了“大语言模型即评判者”的兴起即由GPT-4等大语言模型对答案进行评分。我们让大语言模型对含推理过程的答案进行评分MT-Bench是使用大语言模型作为评分者的基准测试之一它向GPT-4输入两个相互竞争的多轮答案并询问哪个更好。我认为原本使用人工评分的Chatbot Arena如今也通过引入“大语言模型即评判者”来扩大规模。为保证透明度您也可使用BERTScore等语义标尺来比较语义相似度。为简洁起见此处略过其他相关内容。因此团队可能仍会使用BLEU或ROUGE等重叠指标进行快速合理性检查或在可能的情况下依赖精确匹配解析但新做法是让另一个大语言模型来评判输出结果。我们对大语言模型应用的做法如今的主要变化是我们不仅测试大语言模型本身还测试整个系统。我们评估的是整个系统的输出而非仅大语言模型的输出只要有可能我们仍会像以前一样使用程序化方法进行评估。对于更细致的输出我们可先使用BLEU或ROUGE等成本低且确定性强的指标来查看n元语法重叠情况但如今大多数现代框架会使用大语言模型评分器进行评估。有三个领域值得探讨如何评估多轮对话、检索增强生成RAG和智能体包括评估方式及可采用的指标类型。您可在下方看到这三个领域中已定义的大量指标。在介绍相关辅助框架前我们先简要讨论所有这些内容。多轮对话首先是为多轮对话即我们在聊天机器人中看到的对话构建评估。与聊天机器人互动时我们希望对话自然、专业希望它记住关键信息。我们希望它在整个对话过程中紧扣主题并切实回答我们的问题。人们在此处追踪的标准指标相当多。首先可谈谈相关性/连贯性和完整性。相关性用于追踪大语言模型是否恰当回应用户查询并紧扣主题若最终结果切实达成用户目标则完整性得分较高。也就是说若我们能追踪整个对话过程中的满意度就能追踪它是否真的“降低支持成本”、提高信任度同时实现较高的“自助服务率”。第二部分是知识保留和可靠性。即它是否记住对话中的关键细节我们能否相信它不会“迷失方向”仅记住细节还不够它还需能够自我纠正。这是我们在一些氛围编码工具中看到的情况它们会忘记自己犯过的错误然后反复犯错。我们应将此记录为较低的可靠性或稳定性。第三部分可追踪角色一致性和提示对齐。这用于追踪大语言模型是否坚守被赋予的角色以及是否遵循系统提示中的指令。接下来是与安全性相关的指标如幻觉和偏见/毒性。幻觉是一个重要的追踪指标但也颇具挑战性。人们可能会尝试通过网络搜索来评估输出或将输出拆分为不同声明由更大型的模型以“大语言模型即评判者”的方式进行评估。还有其他方法如SelfCheckGPT它通过在相同提示上多次调用模型检查模型的一致性看其是否坚守初始答案及偏离次数。对于偏见/毒性您可使用其他自然语言处理方法如经过微调的分类器。您可能想要追踪的其他指标可能是针对应用定制的例如代码正确性、安全漏洞、JSON格式正确性等。至于评估方式并非始终需要使用大语言模型尽管在大多数情况下标准解决方案会使用。在可提取正确答案的情况下如解析JSON我们自然无需使用大语言模型。如前所述许多大语言模型供应商也会使用单元测试来对与代码相关的指标进行基准测试。不言而喻用于评判的大语言模型并非始终超级可靠就像它们所评估的应用一样但我此处没有具体数据因此您得自行查找。检索增强生成RAG在多轮对话可追踪内容的基础上我们可转而探讨使用检索增强生成RAG时需要衡量的内容。对于检索增强生成系统我们需将过程分为两部分分别衡量检索指标和生成指标。需要衡量的第一部分是检索以及所获取的文档是否与查询相关。若检索方面得分较低我们可通过设置更好的分块策略、更换嵌入模型、添加混合搜索和重排序等技术、使用元数据过滤及类似方法来调整系统。为衡量检索效果我们可使用依赖精心整理数据集的旧指标也可使用以大语言模型为评判者的无参考方法。我需先提及经典的信息检索IR指标因为它们最早出现。对于这些指标我们需要“黄金”答案即设置一个查询然后为该特定查询对每个文档进行排名。尽管您可使用大语言模型构建这些数据集但我们不会使用大语言模型进行衡量因为我们已有数据集中的分数可用于比较。最著名的信息检索指标是Precisionk前k精度、Recallk前k召回率和Hitk前k命中率。这些指标分别衡量获取的相关文档数量、基于黄金参考答案检索到的相关文档数量以及结果中是否至少包含一个相关文档。RAGAS和DeepEval等较新的框架引入了无参考、“大语言模型评判式”的指标如上下文召回率和上下文精确率。这些指标通过使用大语言模型进行评判统计基于查询的前k列表中包含多少真正相关的块。也就是说基于查询系统是否确实返回了相关文档或者是否有太多不相关文档导致无法正确回答问题为构建用于评估检索的数据集您可从真实日志中挖掘问题然后由人工整理。您也可在大语言模型的帮助下使用数据集生成器这些生成器大多存在于各类框架中或作为YourBench等独立工具存在。若您要使用大语言模型设置自己的数据集生成器可按如下方式操作。# 用于生成问题的提示 qa_generate_prompt_tmpl \ 上下文信息如下。 --------------------- {context_str} --------------------- 根据上述上下文信息不借助先验知识仅基于该上下文生成{num}个问题和{num}个答案。 ....若我们转向检索增强生成系统的生成部分现在要衡量的是它如何使用提供的文档来回答问题。若这部分表现不佳我们可调整提示、微调模型设置如温度等、完全更换模型或针对领域专业知识对其进行微调。我们还可迫使它使用思维链CoT风格的循环进行“推理”、检查自我一致性等。对于这部分RAGAS的指标很有用答案相关性、忠实性和噪声敏感性。这些指标用于衡量答案是否真正回应了用户的问题、答案中的每个声明是否都有检索到的文档支持以及少量不相关的上下文是否会使模型偏离方向。看看RAGAS对于第一个指标它可能会让大语言模型“从0到1打分评估该答案在多大程度上直接回应了问题”并向其提供问题、答案和检索到的上下文。这会返回一个原始的0-1分数可用于计算平均值。因此总而言之我们将系统分为两部分进行评估尽管您可使用依赖信息检索指标的方法但也可使用依赖大语言模型进行评分的无参考方法。我们需要介绍的最后一点是除了我们已涵盖的内容外智能体如何扩展我们现在需要追踪的指标范围。智能体对于智能体我们不仅关注输出、对话和上下文。现在我们还评估它的“行动方式”它能否完成一项任务或工作流程、完成效率如何以及是否在正确的时间调用了正确的工具。不同框架对这些指标的命名不同但本质上您最想追踪的两个指标是任务完成度和工具正确性。为追踪工具使用情况我们想知道是否为用户查询使用了正确的工具。我们确实需要某种内置真实结果的黄金脚本来测试每次运行但您可编写一次然后在每次变更时使用。对于任务完成度评估方式是读取整个轨迹和目标返回0到1之间的数值并附上理由。这应能衡量智能体完成任务的效率。对于智能体根据您的应用您仍需要测试我们已涵盖的其他内容。即使有相当多已定义的指标可用您的用例也会有所不同因此了解常见指标很有价值但不要认为它们就是追踪您应用的最佳指标。接下来让我们概述一下可提供帮助的主流框架。辅助框架有不少框架可帮助您进行评估但我想谈谈几个主流框架RAGAS、DeepEval、OpenAI和MLFlow的Evals并分析它们的优势及适用场景。您也可使用不少特定于框架的评估系统如LlamaIndex尤其适用于快速原型设计。OpenAI和MLFlow的Evals是附加组件而非独立框架而RAGAS主要作为评估检索增强生成应用的指标库而构建尽管它们也提供其他指标。DeepEval可能是所有框架中最全面的评估库。但值得一提的是它们都能在您自己的数据集上运行评估以某种方式适用于多轮对话、检索增强生成和智能体支持“大语言模型即评判者”允许设置自定义指标且适合持续集成CI。如前所述它们的不同之处在于全面性。MLFlow主要用于评估传统机器学习管道因此对于基于大语言模型的应用它们提供的指标数量较少。OpenAI是一个非常轻量级的解决方案期望您自行设置指标尽管它们提供了一个示例库来帮助您入门。RAGAS提供了相当多的指标并与LangChain集成因此您可轻松运行这些指标。DeepEval提供了很多现成功能包括RAGAS的指标。框架对比若我们查看所提供的指标就能了解这些解决方案的广泛程度。值得注意的是提供指标的框架在命名上并不总是遵循标准。它们可能意思相同但名称不同。例如一个框架中的“忠实性”可能与另一个框架中的“基于事实性”意思相同“答案相关性”可能与“响应相关性”相同等等。这通常会给系统评估带来很多不必要的混淆和复杂性。尽管如此DeepEval仍脱颖而出提供了40多个指标还提供了一个名为G-Eval的框架可帮助您快速设置自定义指标使其成为从想法到可运行指标的最快方式。OpenAI的Evals框架更适合您需要定制逻辑的场景而非仅需要快速评判的场景。根据DeepEval团队的说法自定义指标是开发人员设置最多的因此不要纠结于谁提供了什么指标。您的用例是独特的评估方式也会如此。那么在什么情况下应使用哪个框架若您需要用于检索增强生成管道的专门指标且设置最少可使用RAGAS。若您想要一个完整的、现成的评估套件可选择DeepEval。若您已在使用MLFlow或更喜欢内置的跟踪和用户界面功能MLFlow是个不错的选择。OpenAI的Evals框架最基础因此若您依赖OpenAI基础设施且需要灵活性它是最佳选择。最后DeepEval还通过其DeepTeam框架提供红队测试该框架可自动化对大语言模型系统的对抗性测试。市面上也有其他框架做这件事尽管可能没有这么全面。普通人如何抓住AI大模型的风口领取方式在文末为什么要学习大模型目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 大模型作为其中的重要组成部分 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 为各行各业带来了革命性的改变和机遇 。目前开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景其中应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。随着AI大模型技术的迅速发展相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业人工智能大潮已来不加入就可能被淘汰。如果你是技术人尤其是互联网从业者现在就开始学习AI大模型技术真的是给你的人生一个重要建议最后只要你真心想学习AI大模型技术这份精心整理的学习资料我愿意无偿分享给你但是想学技术去乱搞的人别来找我在当前这个人工智能高速发展的时代AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料能够帮助更多有志于AI领域的朋友入门并深入学习。真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】大模型全套学习资料展示自我们与MoPaaS魔泊云合作以来我们不断打磨课程体系与技术内容在细节上精益求精同时在技术层面也新增了许多前沿且实用的内容力求为大家带来更系统、更实战、更落地的大模型学习体验。希望这份系统、实用的大模型学习路径能够帮助你从零入门进阶到实战真正掌握AI时代的核心技能01教学内容从零到精通完整闭环【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块内容比传统教材更贴近企业实战大量真实项目案例带你亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌02适学人群应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。vx扫描下方二维码即可【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】本教程比较珍贵仅限大家自行学习不要传播更严禁商用03入门到进阶学习路线图大模型学习路线图整体分为5个大的阶段04视频和书籍PDF合集从0到掌握主流大模型技术视频教程涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向新手必备的大模型学习PDF书单来了全是硬核知识帮你少走弯路不吹牛真有用05行业报告白皮书合集收集70报告与白皮书了解行业最新动态0690份面试题/经验AI大模型岗位面试经验总结谁学技术不是为了赚$呢找个好的岗位很重要07 deepseek部署包技巧大全由于篇幅有限只展示部分资料并且还在持续更新中…真诚无偿分享vx扫描下方二维码即可加上后会一个个给大家发【附赠一节免费的直播讲座技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等欢迎大家~】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询