2026/3/29 20:46:09
网站建设
项目流程
推广网站有效的免费方法,安徽网站优化多少钱,wordpress取消邮箱注册,杭州seo 云优化科技Prompt 工程很强#xff0c;但替代不了「模型训练」本身。下面我们从底层视角拆开看看#xff1a;Transformer 在干嘛#xff1f;Prompt 在干嘛#xff1f;训练在干嘛#xff1f;它们的边界到底在哪里#xff1f;1 LLM的本质
可以把一个大模型抽象成一个条件概率分布但替代不了「模型训练」本身。下面我们从底层视角拆开看看Transformer 在干嘛Prompt 在干嘛训练在干嘛它们的边界到底在哪里1 LLM的本质可以把一个大模型抽象成一个条件概率分布训练在海量文本数据上通过梯度下降更新 θ让模型更好地拟合真实数据分布。Prompt在θ 固定不变的前提下修改 context从而改变输出。2 Prompt工程的本质可以把已经训练好的模型看成一个巨大、固定但非常通用的推理函数。Prompt 工程做的事情其实只有一件设计一个巧妙的 context让 fθ 以想要的方式工作。典型手段少样本 / 多样本示例few-shot / many-shotChain-of-thought显式推理链角色设定你是一个 xxx 专家模板化结构指令 约束 示例 输出格式这些都属于输入重构底层并没有任何「学习」模型只是调用它在预训练阶段已经学会的统计模式和内隐算法。3 大模型训练的本质训练包括预训练和微调是干一件 Prompt 做不到的事把外部数据里的模式、知识和算法编码进参数 θ。分三层表层 知识记忆事实谁是谁、公式、API、网络协议…中层 表示学习把语义、语法、逻辑、代码结构等压缩成一个高维流形上的分布。深层 元学习能力模型会在上下文内看几个示例 → 推测任务 → 模仿模式。4 信息论角度 Prompt vs 训练4.1 信息存储位置不一样训练信息被写进模型参数 θ参数空间是长期记忆。Prompt信息被塞进 context上下文窗口里是短期记忆。上下文窗口是有限的比如 128K tokens。不可能靠 Prompt 把一个 10GB 的知识库长期写进模型最多是临时塞一点进去。4.2 可压缩性差异训练的过程本质是做一个高效压缩用 N 个参数泛化地表达巨量数据中稳定的模式和规律。而 Prompt 是在线重复描述每次用的时候都要把关键信息重新丢进 context 里模型现场计算。同一个任务如果通过训练微调prompt 可以短得多性能也更稳定。只靠 prompt需要提供大量示例和解释浪费上下文和 token推理成本高。5 Prompt工程的极限在哪5.1 可以做的事情在已有通用能力上指定任务instruction。用少量示例让模型临时学会某个映射模式。通过思维链触发模型更稳定的推理路径。搭配工具 / 检索RAG构造「外挂记忆」与「外挂算力」。5.2 不能做的事情模型「能力缺口」过大时拿一个只在自然语言上预训练的模型让它做 Verilog 综合优化。模型里根本没有这方面的模式与表示只能胡扯。想象你跟一个没学过微积分的人说你是一个顶级微积分大师从现在开始这样那样思考……。对方气势可以很足但不会突然会算偏导。域内大量、细粒度知识医疗影像某个细分类别诊断标准极细分工业场景的报警与策略映射某企业内部业务流程、历史 bug、私有 API。安全、合规、风格一致性企业定制化安全策略品牌语气、话术统一要求强约束输出格式例如特定 schema 的 JSON错误要非常少。6 上下文学习能否替代模型训练既然模型可以在上下文里「看几个示例 → 学会一个任务」那我们是不是可以完全靠 prompt few-shot 来代替微调本身就是训练出来的能力它不是替代训练而是训练的产物。批量样本受上下文长度限制能塞的示例就那么多几百个已经很夸张了。微调可以吃几百万、几亿样本。每次推理都要重新学习一遍微调是学完写进参数之后可以直接用。7 RAGPrompt能否替代模型训练现在流行RAG检索增强生成模型只管读懂资料和生成真正的知识放在外部向量库里那是不是以后都不用训练新模型了只要 RAGpromptRAG解决的是知识时效性和外部大知识库接入它避免了频繁重新训练模型来更新知识确实很有价值。但 RAG 依赖的关键能力是模型要能理解检索结果能把检索到的多段文档进行融合、推理、比较、归纳这些高层能力仍然是预训练 微调写进参数里的。8 未来的格局是分层协作底层 大规模预训练学语言、代码、逻辑推理的通用能力学上下文学习机制看几例就会模仿任务。中层 微调、对齐对齐安全、价值观、企业规范领域专精医疗、法律、工业控制、金融。底层 大规模预训练*学语言、代码、逻辑推理的通用能力学上下文学习机制看几例就会模仿任务。中层 微调、对齐对齐安全、价值观、企业规范领域专精医疗、法律、工业控制、金融。上层 Prompt工程RAG工具调用Agent框架把一个通用、对齐、专精后的模型通过 prompt 组装成各种应用形态动态接入外部知识、数据库、API、程序。