2026/2/16 0:16:04
网站建设
项目流程
做网站 需要多少钱,网站建设电,wordpress rds,如果给公司网站做网络广告一、背景
近年来#xff0c;人工智能技术正以快速的发展重塑各行各业。大模型(LLM)的突破性进展#xff0c;使得自然语言理解、生成与推理能力显著提升#xff0c;AI不再局限于图像识别或推荐系统#xff0c;而是逐步向复杂决策和自主执行演进。在这一背景下#xff0c;“…一、背景近年来人工智能技术正以快速的发展重塑各行各业。大模型(LLM)的突破性进展使得自然语言理解、生成与推理能力显著提升AI不再局限于图像识别或推荐系统而是逐步向复杂决策和自主执行演进。在这一背景下“Data Agent”成为企业智能化升级的一个探索方向。1.1 数据研发提效历史积累带来的治理挑战猫超数据资产历经十年建设已形成规模庞大的数据体系累计沉淀 数万张表、近万个调度节点其中核心保障任务约占30%。涵盖供应链、交易、日志、商品、直播等数据域。然而长期发展过程中也积累了诸多结构性问题规范问题大量表字段与指标缺乏统一命名标准和清晰语义描述存在“同名异义”和“异名同义”现象冷资产问题因业务变迁、组织融合等原因遗留了无人维护、低使用频率的“僵尸表”与过时口径逻辑口口相传各域虽已逐步厘清内部数据模型但关键业务知识如指标口径、维度解释、依赖关系仍散落在大数据平台脚本、报表系统、内部协作文档等非结构化载体中缺乏统一归集与管理机制。与此同时数据研发团队需同时承担日常站点维护、高频数据答疑、临时取数支持及新需求开发等多重任务导致精力分散难以专注于核心模型建设和资产优化。1.2 AI的需求驱动迈向智能取数的新范式面向猫超小二、助理等一线业务角色日常工作中存在大量数据依赖型任务例如手动汇总多系统数据ERP、报表平台、线下表格定期更新日报、周报、专项分析。当前这些工作普遍依赖人工操作存在三大痛点人力成本高重复性取数与整理耗费大量时间效率低下跨系统取数流程繁琐响应周期长在此背景下我们启动 Matra 项目 —— 一款面向猫超场景的 AI 数据助手旨在通过自然语言交互实现“低门槛、高灵活性”的智能取数与分析服务让AI能像专业的数据工程师、数据分析师一样听懂业务问题、自动规划取数路径、生成并执行SQL并输出洞察结论实现从“人找数”到“AI取数、分析、用数”的转变。然而一个高效、可靠的Data Agent离不开强大且结构化的知识支撑体系。没有高质量的知识库AI难以准确理解语义、正确生成逻辑、稳定交付结果。因此构建一套面向 AI 的、可理解、可检索、可推理的 AI-知识库体系已成为推动数据研发提效、赋能智能取数的核心基础设施。本文将以 Matra-AI 项目实践为基础系统总结我们在知识库方案设计、内容构建、维护挑战、图谱召回及平台化落地等方面的探索与经验旨在打造一个支持 Data Agent 高效运行的“数据认知中枢”。二、知识库设计2.1 方案思考维护方式基于以上数据资产现状在建设Matra知识库时主要考虑以下三点不重构数据模型数据资产太多需求压力大数研精力有限无法面向AI重构数据模型优先在知识库层面让LLM理解现有表设计。知识库可拓展性猫超历史上未建设指标管理中心而前期知识库结构、内容可能会面临不断调整、适配需要一个灵活的知识库前期进行探索通过钉钉表格、文档进行前期知识库维护。知识库质量数据资产质量参差不齐不能全量维护若对所有资产“一刀切”地纳入AI可用范围将导致模型输入噪声大、推理结果不可信筛选核心数据资产进行维护从小而精致的知识库慢慢开始扩展。这样可以通过较小的代价来维护面向AI的数据资产对于初期LLM产品来说这样可以牺牲一些全面性但能提升准确性。维护种类一个好的知识库应该包括哪些信息从数据研发工作角度来看一个数据需求必须要明确以下内容才可以进行开发。指标定义包括指标的名称/公式/是否可加数据粒度数据的聚合粒度数据范围数据底表的范围包括日期限制/业态限制/取数限制等这些信息正好构成了书写SQL中必要信息自然而然我们也分别构建指标Metric Logic/实体Entity/属性Attribute/表Table/字段Columns等知识库。2.2 设计细节大图一览内容构建三、知识库实践效果3.1 知识构建知识库构建经历了2个阶段第一阶段是通过钉钉文档的方式进行快速维护更新主要是核心数据资产并供给知识图谱和下游Agent使用用于跑通POC案例并在实践的过程中不断完善知识库的设计方案。随着下游应用场景的扩展更多的数据资产需要通过知识库维护同时知识库结构相对稳定知识库逐渐走到了第二阶段——产品化建设。3.1.1 前期钉钉文档基于以上方案结合元数据对表、字段、指标等进行了评估和筛选借助大模型能力对提取表、字段关键词并进行泛化对DDL进行优化和标准化构建知识库。以下为重点构建案例。指标/实体/属性清单标准名称支付金额供应商编码现状英文字段div_pay_amt、pay_ord_amt、scitm_pay_ord_amt、gmv等 中文备注成交金额、支付金额、GMV、成交规模英文字段supplier_code 中文备注商家编码、供应商编码、二级供应商等泛化后成交金额,GMV,gmv,支付GMV,成交GMV,支付金额,交易金额,子订单支付金额供应商编码,商家编码,二级供应商编码,supplier_code实践效果问GMV能正确找到对应字段查找商家、供应商都能定位到商家维表表和DDL维护示例交易明细表场域汇总表表备注描述清楚业务范围、数据内容、数据粒度、回刷策略、取数限制等信息重点描述表的使用方法交易指标需按照先按照order_id分组其他字段max计算ipv需先按照user_iditem_id分组其他字段取max等特殊用法说明。关键词拆组套交易明细闪购拆组套交易明细DDL字段与标准指标和标准属性进行绑定在原备注后新增指标:xxx属性:xxx等信息字段与标准指标和标准属性进行绑定在原备注后新增指标:xxx属性:xxx等信息实践效果问GMV能正确理解表的使用方法问百补GMV能理解通过场域表获取3.1.2 正在产品化痛点和挑战在经历过S1的产品迭代知识库的结构已经相对稳定同时维护过程中发现表DDL人工修正的维护SOP中暴露出许多问题。以下从有效性、保鲜性、维护成本三个方面分析。1.有效性知识库结构中需要同时维护 实体、属性、指标、表、DDL信息 五类知识这些知识必须是可关联的信息才可以被大模型理解否则问数任务在大模型执行中可能因某个知识无法与其他知识关联扩大大模型幻觉的概率。2.保鲜性当表中维护的知识发生改变需要依赖研发自发的修正其他知识中关联该变更的部分如果不能及时修改则知识库知识会失效。例如表实际DDL修改、表下线等问题。3.维护成本从知识库概览图中可以看发现知识库中强依赖知识间的联动因此每一次修改都需要联动修改很多绑定部分并且知识库需避免冗余知识冗余知识会显著增加模型推理相同问题的不确定性和时间这不是问数所需要的因此在人工维护的情况下无疑是巨大维护成本。信息填充中大部分是简单且重复的工作可被规则或者AI替代却浪费大量的人时仅仅维护一个域的4个中间层表就需要研发2人时的精力主要分为四种成本变更成本高某一知识产生变更后所有相关项需要手工扫描并更改。扩展泛化词为保证大模型理解用户问数中的维度和指标并成功关联数据表的字段需要人工填写多套可能的相似中英词组合。唯一性校验产生新知识后需要人工扫描所有知识以保证该知识与泛化词不会和历史所有的知识有重叠。重复写入新增了指标或者属性后仍需要去DDL中将该标准知识重复维护在对应字段的备注中。产品设计为了知识库可以长期维护知识库的管理工具从静态文档必须转为半自动化的平台能力但考虑到团队主要投入业务需求、技术栈不匹配、QPS低自研平台性价比低因此通过与AI自然语言交互搭建了一套资产维护平台研发中主要承担产品构思而非工程落地极大解放人时同时具备极高的拓展性。平台功能如下图平台秉承着在保障知识准确的情况下实现知识间尽量独立但强关联且极大减少了研发人工操作仅需要确认实现了知识库的半自动化有效解决了手工维护知识库中遇到的三种问题。产品搭建通过建知识库维护页面同时支持启用数据库从而保存维护内容并可回流ODPS进行数据管理页面功能点如下功能描述实现页面表1.新增ODPS数据表数据表格式{项目名}.{表名}系统会自动解析 表是否在ODPS中是否存在以及根据表名解析 项目空间、数据层级、业务范围、数据域、注释并自动填充其他输入框研发进行验证并选择补充 详情URL以及 确认该表是否定期回刷。 2.研发必须输入项仅ODPS表名字段1.作为知识光维护表是不够的还需要维护表中的字段进入到字段管理中 2.配置字段中正常流程中研发必须且仅需维护 是否粒度告知这张表的主键。 3.研发不需要完全维护这张表的所有字段这张表最终也不会完全透出透出范围仅由关联到 指标/维度的选项 清单范围决定。 4.系统会自动 根据 字段名/字段备注优先字段名结合维护的知识库元数据自动识别 具体的指标/维度原则上研发不需要自己进行操作只需要确认。业务范围1.业务范围、基础描述、词根必填业务范围是中文单词比如天猫超市基础描述应该是这个业务范围的实际经营范围词根是中译英的单词缩写也应当与 建表规范一致。数据域1.数据域是用于做 元数据信息负责任的归属。 2.小组长就是数据域的归属小组长下可以维护成员。后续所有数据域 关联的 知识和元数据变更都会将审批流程发到 小组长。实体1.实体名称、泛化名称 负责数据域 是必填项。 2.实体名称和泛化词均会和系统里的历史记录进行重复校验。属性1.属性名、实体必填 2.属性名称和泛化词均会和系统里的历史记录进行重复校验。 3.属性枚举值 就是 属性应该保证的值同属性名不允许出现两套枚举值标准。这里的枚举值 会用于之后做 指标公式的校验。指标1.指标名称、指标类型、计算公式、负责数据域必填 2.指标名称和泛化词均会和系统里的历史记录进行重复校验。 3.指标类型划分为简单指标和复合指标 a.简单指标适用于自身指标求和或单属性去重计算简单指标是通过匹配属性/指标自动生成公式 b.复合指标适用于其他所有指标而复合指标只输入公式系统自动校验公式是否符合语法并识别属性/指标如果发现不合法子字符串则该公式会被打上无效标签不会给到大模型维护对比效果如下新老对比钉钉文档知识库平台有效性在指标新增支付金额字段后必须保证DDL中的pay_ord_amt的注释也叫支付金额大模型才可以正确理解平台中经过标准校验只有唯一绑定知识的字段才会在透出给 大模型保鲜性因为钉钉文本是静态所以表变更不会被及时监控到消费数据平台的元数据每一张表的DDL都定时重新解析及时对DDL进行调整维护成本大模型需要的高质量知识需要人工确保这四块知识包括关联的部分必须完全正确存在大量判重校验/重复维护的问题平台通过上图的产品设计首先尽量减少重复输入用关联替代输入。其次利用数据库查询和大模型文本生成的能力泛化词生成和判重已经不需要人工写入。3.2 图谱构建数据资产通常涉及大量的数据表及字段传统的RAG方法存在一定局限性例如难以准确刻画多表之间的关联关系、易产生“幻觉表”即不存在的表名或字段、以及召回和推理过程的可解释性较弱。为提升管理和智能分析的能力我们采用 GraphRAG 技术通过构建结构化的知识图谱全面表达和推理数据表与字段之间的关联关系从而显著提高召回结果的准确性。3.3 图谱召回在接收到用户查询后首先对 query 进行分词和实体映射处理。借助模糊词库和公式库识别并标准化 query 中的模糊表达与相关业务公式。例如对于“今年猫超主站美妆百亿补贴渠道的笔单价是多少”这一问题“美妆”可映射为标准实体名“大组名称”“笔单价”可通过公式识别为“笔单价 支付金额 / 支付父订单量”。模糊词和公式替换完成后再将分词结果映射到知识图谱中的标准实体上得到目标实体集合。获得实体集合后下一步是从知识图谱中检索能够覆盖所有目标实体的最优路径。具体而言首先依据业务意图确定检索的社区然后针对涉及的每个实体名确定搜索的锚点实体通常为指标类实体。锚点实体可能在多张表中存在如“支付金额”指标存在于订单、场域、商品等表中因此需要结合用户的问题基于节点所归属的数据表及相关属性进行筛选选取 Top K 表中的核心节点作为锚点。以这些锚点为起点搜索能够覆盖所有目标实体的最小子树最短路径并最终输出 Top K 的路径结果每条路径包含若干连接在一起的表节点和实体节点。3.4 Agent框架3.4.1 面临挑战Matra底层的算法能力尚未对基座模型进行Supervised Fine-Tuning仅通过基座模型的编排和串联实现这对于算法框架设计、知识库查询的速度和准确性、Prompt设计有更高的要求。在实现选品、问数、分析等多场景的NL2SQL的过程中我们主要面临三个关键问题用户意图识别与数据表召回困难如何准确理解用户的真实需求并快速找到正确可用的数据底表。自然语言映射SQL难题如何把用户输入的自然语言准确转换成数据库能执行的查询语句。复杂任务执行风险当需要处理多个数据表或复杂计算时如何确保整个过程不出错。针对上述问题我们设计了三个核心模块来解决意图识别知识图谱模块通过意图识别知识图谱对用户问题进行精准识别并召回对应数据表。搭建ReAct框架ReAct框架通过提示词工程引导大模型进行分步推理如识别字段映射、计算规则并利用上下文验证机制对生成SQL的语法与语义进行双重校验。搭建PlanExecute框架利用PlanExecute框架将任务拆解为原子子查询使用任务调度器管理中间状态与依赖关系优化任务拆解的准度与计算链路的执行效率。3.4.2 方案设计整体框架实现了从自然语言输入到数据输出的全链路过程通过分层模块化设计意图解析→执行规划→任务执行→结果输出确保取数Agent的可扩展性和稳定性。用户需求输入与意图解析对用户输入进行意图识别解析例如“今年618期间百亿补贴渠道的gmv是多少”提取其中日期、渠道以及计算指标并与用户二次确认。取数核心流程核心Agent整合意图识别结果和知识库信息启动PlanExecute Planer框架。Planning节点对任务生成生成分步执行计划如先筛选时间范围再关联区域表。Execute节点调用ReAct框架的子Agent对子任务进行执行。取数Agent中包括data_collector与sql_executor两个子Agent分别负责数据收集与SQL生成。当检测执行异常时如SQL语法错误/数据缺失触发Replan节点进行重新规划。当所有子任务执行结束启用Summarize节点验证完整性后进入输出阶段。输出形式Markdown表格适合前端展示。Excel文件包含完整数据集的可编辑文件。3.5 应用实践3.5.1 资产查询AI资产找表面面俱到面向猫超的技术同学包括数开、数科、前后端技术同学等8月上线并进行推广累计问答数数千知识库范围内准确率85%。用户输入模型返回亮点说明货品交易并给出SQL代码正确返回相应的货品交易表并提供货品维度的成交SQL定位单表正确 货品交易表取数限制正确、统计维度和指标正确-SQL正确行业线维度的周转怎么获取返回周转汇总表以及行业线配置表并提供行业线维度的周转SQL定位多表正确 库存表取数限制正确、关联逻辑正确、统计指标正确-SQL正确3.5.2 智能问数AI探索灵活取数新解法面向猫超的业务同学8月上线并进行推广累计问答数数千知识库范围内准确率75%。用户输入模型返回亮点说明FYTD/QTD/最近双周/月销量计划准确率多少对比销量预测准确率达成多少指标和现有看板数值一致 多个时间周期的值均有返回我需要获取猫超闪购8月全月采购小二维度的父订单数和子订单数导出excel格式。猫超闪购新业务维护一两条标签即可在问数取数 模型理解闪购识别逻辑 多表关联正确找到小二mapping表3.5.3 维护案例开发提效真实需求传统开发流程Matra流程需要在多个看板增加核心品类维度猫超重点考核核心品类的成交。1.商品标签表增加核心品类字段 2.各个ADS增加核心品类维度/核心品类指标 3.各个数据集、报表调整工时多则4个人日少则2个人日1.知识库维护、图谱更新 2、效果支持场域、大盘等场景的核心品类*各种指标的问数、取数四、未来规划当前Matra-AI知识库已在指标理解、语义映射、基础召回等方面取得阶段性成果初步支撑了自然语言取数场景的落地。但面对更复杂、多变、高精度的业务需求我们仍处于“能用”的初级阶段距离“好用、可信、自进化”的理想状态还有较大差距。未来我们将围绕 准确性提升、知识持续保鲜、能力边界拓展 三大方向持续推进打造一个更具智能性与生命力的知识基础设施。4.1 提升召回准确率从“找得到”到“答得准”当前AI在解析用户问题时仍存在因语义歧义、别名覆盖不全、上下文缺失导致的误匹配现象原文如下用户输入模型返回错误分类错误原因2025年7月天猫超市的用户购买行为新客、老客、88vip分别的购买客单价和购买笔数是多少同比2024年7月的数据是怎样的SQL问题纯新客不会在用户标签表(t-2)关联不到的为纯新客特殊逻辑没有处理天猫超市最近1个月ipv uv表现最好的几个场域是什么SQL问题场域表一个订单会在多个场域里需要去重计算为此下一步将重点提升知识库的语义表达能力和推理精度我们在以下几个方向探索拓宽边界建立案例库收录高频、典型SQL模版以及解决方案在BAD CASE复盘中我们发现了一个现象,对于部分设计复杂的表Marta生成 SQL可用性会大大降低这些案例通常会稳定复现对于这类用法稍显特殊或者复杂的表我们的解法是给出案例库BY表给出一些典型的CASE SQL。当用户问到该类问题时将案例SQL作为知识输入prompt辅助使用该表。资产质量知识库维护质量从表、字段、指标、维度的维护质量、召回质量、回答质量进行建立打分机制推动高质量的数据资产维护避免“数据中毒”。4.2 实现知识保鲜让知识库“活”起来如今我们正在依托平台能力搭建了简单的数据资产维护系统但知识库的价值不仅在于“建得好”更在于“跟得上”。业务迭代、表结构调整、口径变更频繁发生若知识无法同步更新AI输出的结果将迅速“过期”。目前我们对知识保鲜方面在以下几个方向探索事前强化研发维护意识将知识登记纳入关键交付节点如需求上线、模型发布提升团队主动维护意愿事中当业务方提交新取数需求时系统自动比对现有指标库判断是否已有可复用口径若发现“未建设”等问题强制跳转至资产管理平台进行确认或注册在研发流程中嵌入知识沉淀动作事后建立多通道的知识更新触发机制通过监听元数据变更事件如ODPS表DDL修改、节点下线触发告警并提示责任人更新知识库解析借助线上代码以及大模型解析实现知识自动补全。主动式智能导购 AI 助手构建为助力商家全天候自动化满足顾客的购物需求可通过百炼构建一个 Multi-Agent 架构的大模型应用实现智能导购助手。该系统能够主动询问顾客所需商品的具体参数一旦收集齐备便会自动从商品数据库中检索匹配的商品并精准推荐给顾客。那么如何系统的去学习大模型LLM作为一名深耕行业的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套 《2025全新制作的大模型全套资料》扫码获取~大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全 最易懂的小白专用课