2026/4/16 12:20:49
网站建设
项目流程
网站连锁店查询怎么做,小程序推广模式和营销方案,万户做的网站安全吗,公司网站建设项目的成本计划一篇面向工程师与技术决策者的向量数据库知识科普文章一、背景#xff1a;我们为什么开始谈“向量”
在传统信息系统中#xff0c;数据主要以结构化或半结构化形式存在#xff1a;
数据库中的表、字段、行文档系统中的关键词、标签搜索引擎中的倒排索引
这类体系在处理 “确…一篇面向工程师与技术决策者的向量数据库知识科普文章一、背景我们为什么开始谈“向量”在传统信息系统中数据主要以结构化或半结构化形式存在数据库中的表、字段、行文档系统中的关键词、标签搜索引擎中的倒排索引这类体系在处理“确定性、精确匹配”的问题上非常高效例如where id 1001title like %数据库%keyword PostgreSQL但随着业务逐渐智能化出现了一类全新的问题“相似”比“相等”更重要。例如这段话和另一段话“意思是否接近”这张图片和哪些图片“看起来像”用户当前行为和历史哪些用户“最相似”这个问题和我之前问过的哪个问题“语义相近”这类问题无法用传统 SQL 或关键词索引优雅解决于是向量化表示 相似度搜索成为新的基础能力。而“向量数据库”正是为此而生。二、什么是向量数据库Vector Database1. 一句话定义向量数据库是一种以“向量”为核心数据模型专门用于高效存储、索引和检索高维向量并支持相似度搜索的数据库系统。它解决的核心问题是在海量高维数据中快速找到“最相似的那些”。2. 什么是“向量”在这里“向量”并不是数学课本里的抽象概念而是现实世界对象在“特征空间”中的数值化表示。常见示例对象向量来源典型维度文本Embedding 模型BERT / Qwen / OpenAI384 / 768 / 1536图片CNN / ViT512 / 1024音频声学模型256 / 512用户行为特征工程几十到几百例如“MySQL 是一个数据库”在经过 embedding 模型后可能变成[0.021, -0.113, 0.887, ..., -0.045]这个向量在数学空间中的“位置”就代表了这段文本的语义含义。3. 向量数据库里存什么一个典型的向量数据库存储的并不只是向量本身而是(id, vector, metadata)id唯一标识vector高维浮点数组metadata结构化信息JSON / KV / 标签例如{id:doc_1024,vector:[0.12,-0.88,...],metadata:{title:向量数据库入门,source:blog,date:2026-01-01}}三、为什么传统数据库不适合做向量搜索1. 高维空间的“维度灾难”传统数据库索引B-Tree、Hash适用于低维可排序精确匹配但向量搜索面临的是几百到几千维连续浮点数近似匹配Top-K在高维空间中距离函数退化、索引剪枝失效、全表扫描不可避免。2. SQL 对“相似度”并不友好你很难用 SQL 优雅表达“找出和这个向量最接近的 10 条记录”即便某些数据库支持ORDERBYcosine_distance(vec,:query_vec)LIMIT10;在数据规模达到百万、千万级时性能通常不可接受。3. 向量搜索需要“近似”而不是“绝对正确”工程上向量搜索通常追求的是速度优先可接受误差这与传统数据库强调的ACID强一致性精确结果在设计哲学上存在根本差异。四、向量数据库是如何工作的1. 核心流程原始数据 ↓ Embedding 模型 ↓ 高维向量 ↓ 向量索引ANN ↓ 相似度检索2. 相似度度量方式常见距离函数余弦相似度Cosine Similarity欧氏距离L2内积Dot Product向量数据库会根据索引类型和模型特性选择合适的度量方式。3. 核心技术ANNApproximate Nearest Neighbor向量数据库的灵魂在于近似最近邻搜索算法常见包括HNSW图结构当前事实标准IVF / IVF-PQLSHAnnoy它们的共同目标是在可控误差下将搜索复杂度从 O(N) 降到接近 O(log N)。五、为什么“现在”向量数据库变得重要1. 大模型时代的基础设施在 LLM 体系中向量数据库是RAGRetrieval-Augmented Generation的核心组件Agent 的长期记忆多模态系统的统一语义索引层一句话总结没有向量数据库大模型只能“即兴发挥”。2. 非结构化数据爆炸现实世界的数据中文本、图片、音频、视频占比远高于结构化表向量数据库是连接非结构化世界与计算系统的桥梁。3. 业务从“规则”走向“相似性”越来越多系统的核心逻辑是推荐匹配搜索召回而这些本质都是在向量空间中找邻居。六、向量数据库能做什么典型应用1. 语义搜索不再依赖关键词支持“意思相近即可”2. RAG / 知识问答文档向量化问题向量化检索 生成3. 推荐系统用户向量内容向量行为相似性4. 多模态检索以图搜图以文搜图跨模态匹配七、向量数据库 ≠ 传统数据库的替代需要明确的是向量数据库不是用来替代关系型数据库的。更合理的架构是关系型数据库事务 / 结构化数据 向量数据库相似度 / 语义层 对象存储原始文件它们是互补关系而非竞争关系。八、总结向量数据库解决的是“相似性检索”这一全新维度的问题它以高维向量 ANN 索引为核心在大模型、RAG、多模态、推荐系统中已成为基础设施它并不取代传统数据库而是扩展了数据系统的能力边界当你的系统开始关心“像不像”而不是“是不是”你就需要向量数据库。