2026/4/17 0:23:36
网站建设
项目流程
建立网站的链接结构有哪几种形式?简述其各自的优缺点,互联网论坛,电商网站建设讯息,网站举报在哪举报在构建 RAG 系统时#xff0c;开发者面临的第一道关卡往往是#xff1a;如何切分文档#xff08;Chunking#xff09;#xff1f;
传统的做法是“一刀切”——每 200 个 Token 切一块#xff0c;简单粗暴。但最近一年#xff0c;**语义分块#xff08;Semantic Chunki…在构建 RAG 系统时开发者面临的第一道关卡往往是如何切分文档Chunking传统的做法是“一刀切”——每 200 个 Token 切一块简单粗暴。但最近一年**语义分块Semantic Chunking**成了大火的技术它利用 Embedding 模型分析上下文在语义发生转折的地方才动刀。听起来很高级对吧然而来自 Vectara 的 Renyi Qu 等研究者发表了一篇标题扎心的论文《语义分块真的值得那昂贵的计算成本吗》。他们的结论可能会让不少追求“炫技”的开发者感到意外。Is Semantic Chunking Worth the Computational Cost? https://arxiv.org/pdf/2410.13070什么是语义分块简单来说固定尺寸分块Fixed-size Chunking就像是盲目切割的火腿而语义分块则像是“顺着纹路切”的厨师。固定尺寸分块不管一句话有没有说完到字数就切断。语义分块计算相邻句子的向量相似度当相似度大幅下降意味着话题变了时才划定边界。如何切分文档Chunking传统的做法是“一刀切”——每 200 个 Token 切一块简单粗暴。但最近一年**语义分块Semantic Chunking**成了大火的技术它利用 Embedding 模型分析上下文在语义发生转折的地方才动刀。听起来很高级对吧论文系统地比较了三种主流的分块策略它们就像三种不同风格的“切割师”固定尺寸分块Fixed-size Chunker 这是最基础的策略。不管一句话有没有说完到字数就切断。为了弥补断句带来的信息损失通常会设置“重叠区Overlap”。基于断点的语义分块Breakpoint-based Semantic Chunker 这是目前 LangChain 等框架常用的方法。它扫描相邻句子的向量相似度当发现两句话之间的“语义距离”突然增大超过阈值时就认为话题变了并在该处切一刀。基于聚类的语义分块Clustering-based Semantic Chunker 这是论文提出的新方法。它不局限于先后顺序而是用聚类算法如 DBSCAN把语义相近的句子“拎”到一起。实验结果优势只存在于人造环境在表 1 的数据中你会发现Breakpoint断点分块在前几个数据集如 Miracl, NQ中表现极好遥遥领先。反转来了这些数据集是研究者故意“缝合”出来的Stitched Datasets。他们把不相关的短文强行拼在一起模拟出话题极其混乱的文档。在真实的、结构正常的长文档如 HotpotQA, MSMARCO中固定尺寸分块的表现反而更出色。 除非你的文档集像大杂烩一样混乱否则语义分块并没有优势。在更细粒度的“找证据句子”测试中见表 2固定尺寸分块在 5 个数据集中的 3 个拿到了第一。不同策略之间的 F1 分数差距微乎其微往往不到 1%。研究者发现无论你怎么切最后检索回来的 Top-K 块里包含的核心证据句子其实都差不多。起决定作用的是你的Embedding向量模型强不强而不是你切得准不准。到了最关键的“生成答案”环节见表 3三者的 BERTScore 几乎完全重合都在 0.65 或 0.76 左右徘徊。这意味着无论你怎么费劲切分最后模型生成的回答质量几乎没有差别。为什么语义分块“性价比”极低之前的行业假设比如 LangChain 或 LlamaIndex 的一些宣传可能过于乐观了。在大多数 RAG 生产场景下追求极致的语义切分可能是在做“过度工程”。论文指出了一个被很多人忽视的现实冗余性语义分块试图通过算法找话题转折点但其实句子本身的物理位置已经包含了很强的语义连续性。算力黑洞语义分块需要对每一句话进行向量化并计算相似度。处理一万篇文档固定尺寸分块可能只需要几秒而语义分块可能让你多付几百倍的 API 费和等待时间。模型是关键实验显示使用更强的 Embedding 模型如论文中用的stella_en_1.5B_v5对性能的提升远比折腾分块策略要大得多。基于这篇论文的结论我们在构建 RAG 系统时可以采取更务实的策略默认选择固定分块使用带 Overlap重叠的固定尺寸分块作为你的 Baseline。它简单、高效、且在真实文档上表现更稳。把钱花在刀刃上与其把算力浪费在语义分块的计算上不如换一个参数量更大、效果更好的Embedding 模型或者加上Rerank重排序环节。警惕“人造指标”不要被那些在特定合成数据集上刷出的高分所迷惑要看你的文档是否真的存在极高的话题多样性。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】