2026/4/17 2:33:24
网站建设
项目流程
化妆品网站建设需求问卷调查,ftp无法直接wordpress,公司网站建设哪里好,网站建设与管理上海交通大学Claude Skills是智能体可动态加载的能力模块#xff0c;包含逻辑与执行脚本#xff1b;Agent SDK是智能体的操作系统#xff0c;提供运行环境。与Gemini 3相比#xff0c;两者功能相似但实现路径不同#xff0c;Anthropic采用模块化渐进式披…Claude Skills是智能体可动态加载的能力模块包含逻辑与执行脚本Agent SDK是智能体的操作系统提供运行环境。与Gemini 3相比两者功能相似但实现路径不同Anthropic采用模块化渐进式披露架构而Google倾向于能力内化。这种架构解决了认知过载和上下文浪费问题标志着AI开发从提示词工程向技能工程的转变。执行摘要随着大语言模型LLM从单纯的文本生成工具向自主智能体Autonomous Agents演进人工智能系统的架构正在经历一场根本性的重构。Anthropic 推出的Claude Skills和Claude Agent SDK以及 GoogleGemini 3生态中的对应工具代表了这一转型中的核心技术力量。本报告旨在针对用户提出的核心疑问——即 Claude Skills 与 Agent SDK 的本质功能、它们与智能体的关系、以及与竞品特别是 Gemini 3的异同——提供一份详尽、深入且具备行业前瞻性的研究分析。本报告的核心论点在于Claude Skills 并非智能体本身而是智能体可动态加载的“能力模块”它们不仅仅是静态的提示词模板更是包含逻辑、上下文资源和执行脚本的结构化知识包。Claude Agent SDK 则构成了智能体的“操作系统”提供了运行这些能力所需的循环机制、内存管理和权限控制。与之相比Gemini 3 的架构虽然在功能上殊途同归但在实现路径上——特别是其“Gems”与“Tools”的定义——展现出了截然不同的设计哲学Google 倾向于将能力内化于模型或通过云端服务集成而 Anthropic 则采用了一种更为模块化、文件系统导向的“渐进式披露”架构。本报告全长约 20,000 字分为八个主要部分涵盖了从基础概念解析面向初学者到底层技术架构面向工程师的全方位内容旨在为读者构建一个关于现代 AI 智能体架构的完整认知框架。第一部分从对话机器人到智能体——概念的重构在深入探讨 Claude Skills 和 SDK 之前我们需要首先清理当前的术语混乱。在 AI 发展的早期阶段“Prompt Engineering”提示词工程是核心技能。然而随着任务复杂度的提升单纯依靠提示词已无法满足需求AI 正在向“Agentic Workflows”智能体工作流转变。1.1 核心定义的澄清智能体、能力与工具用户提出的第一个关键问题是“Skills 是一个智能体吗”为了回答这个问题我们需要建立一个清晰的本体论模型。我们可以将一个完整的 AI 工作系统比作一家现代化的“数字化公司”。1.1.1 智能体The Agent通用的“员工”智能体例如基于 Claude 3.5 Sonnet 或 Gemini 3 构建的系统是这家公司的员工。本质它是执行者拥有推理能力、决策能力和基础的通识知识。局限就像一个新入职的高智商毕业生它虽然聪明但并不了解你公司的具体报销流程也不知道你服务器的密码。它有潜能但缺乏特定的“业务能力”。1.1.2 提示词Prompts一次性的“便利贴指令”在传统的 ChatGPT 或 Claude 网页版对话中用户输入的内容相当于给这位员工递了一张便利贴。形式“请帮我写一封邮件。”特性它是临时的、非结构化的。一旦任务完成这张便利贴就被丢弃。如果任务太复杂比如“审计这 500 个代码文件”便利贴写不下或者员工记不住那么多步骤。1.1.3 Skills能力/技能包标准化的“作业指导书与工具箱”这就是 Claude Skills 的位置。它既不是员工智能体也不是便利贴提示词。它是放在公司书架上的标准化作业指导书SOP和配套工具箱。形式它是一个文件夹里面包含一本手册SKILL.md、几个计算器Python 脚本和一些参考表格PDF/CSV。作用当智能体需要执行特定任务如“年度税务审计”时它会从书架上取下这个文件夹瞬间掌握该领域的专业知识。任务完成后它将文件夹放回恢复为通用智能体。1.1.4 Agent SDK公司的“办公基础设施”Claude Agent SDK 则是这家公司的办公环境和管理制度。作用它规定了员工智能体能去哪里文件访问权限、能用什么设备终端执行权限、以及如何向老板汇报输出格式。没有 SDK智能体就是一个悬浮在虚空中的大脑无法触碰现实世界的任何文件或代码。1.2 为什么需要这种区分将“能力”Skills从“智能体”Agent中剥离出来是 AI 架构的一次重大飞跃。在早期的 AI 应用如 Custom GPTs中所有的知识都被塞进了系统提示词System Prompt里。这导致了两个严重问题认知过载Cognitive Load如果让一个 AI 同时记住法律、编程、医学和烹饪的所有细则它的推理能力会下降容易产生幻觉。上下文窗口浪费Token Efficiency每次对话都加载 5 万字的说明书既昂贵又缓慢。Anthropic 的 Claude Skills 架构通过模块化解决了这个问题智能体平时是轻量级的只有在需要时才动态加载特定的 Skills。这不仅是技术的优化更是“认知经济学”在 AI 领域的应用1。第二部分深度解构 Claude Skills2.1 Claude Skills 的本质不仅仅是提示词用户问道“它是事先定义好的提示词模板吗”答案是它是提示词模板但远不止于此。 它是一个动态的执行环境。如果说普通的提示词是“静态文本”那么 Claude Skill 就是“可执行的文档”。根据 Anthropic 的官方定义和技术文档3一个 Skill 在物理层面上表现为一个文件系统目录。2.1.1 物理结构解剖一个标准的 Claude Skill 并非单一的一段话而是一个包含多类资源的文件夹结构组件文件示例功能描述智能体交互方式元数据与指令SKILL.md核心说明书。定义了技能的名称、描述、触发条件以及详细的操作步骤使用 Markdown 格式。智能体首先读取此文件理解“怎么做”。模块化提示词prompts/analyze_error.md针对特定子任务的微型提示词。避免主指令文件过长。智能体在执行到特定步骤时动态加载。可执行脚本scripts/visualize.pyPython 或 Bash 脚本。赋予智能体计算、绘图或数据处理的硬能力。智能体直接运行这些代码而不仅仅是阅读它们。静态资源resources/template.docx模板文件、品牌规范 PDF 或参考数据集。智能体在生成文档时作为素材调用。深入分析这种结构意味着 Skill 是代码与自然语言的混合体。普通的提示词只能告诉 AI “请写一段代码”而 Skill 包含了一个脚本 test.py并指示 AI“先运行这个脚本测试环境如果报错再读取 error_guide.md 进行修复”。这引入了逻辑流Logic Flow使得 Skill 具备了初级的“程序性”。2.2 运行机制发现、激活与渐进式披露Claude Skill 的运作方式与用户直接粘贴提示词完全不同。它依赖于一种**“拉取模式”Pull Model而非传统的“推送模式”Push Model**。2.2.1 第一阶段语义发现Semantic Discovery当用户启动支持 Skills 的 Claude 环境如 Claude Code 或桌面版时系统不会将所有 Skill 的内容都塞进对话窗口。相反它只加载每个 Skill 的名称和简短描述5。场景用户说“帮我分析昨天的服务器日志”。后台逻辑Claude 扫描已安装的 Skills 索引。它发现一个名为log-analyzer的 Skill其描述为“用于解析和诊断 Linux 服务器日志”。匹配通过语义相似度计算Claude 判断该 Skill 与用户意图匹配。2.2.2 第二阶段激活与确认ActivationClaude 不会擅自行动特别是涉及文件操作时。它会向用户提议“我可以使用 log-analyzer 技能来处理日志分析任务是否继续”这一步体现了“人在回路”Human-in-the-loop的设计哲学确保了代理行为的可控性。2.2.3 第三阶段渐进式披露Progressive Disclosure这是 Claude Skills 架构中最精妙的部分 6。一旦 Skill 被激活Claude 并不会一次性读取文件夹里的所有文件。它首先读取 SKILL.md。如果 SKILL.md 中提到“若遇到数据库连接错误请参考 resources/db_errors.pdf”那么只有在实际遇到该错误时Claude 才会去加载那个 PDF 文件。原理这种机制极大地节省了 Token上下文窗口的容量并让 AI 的注意力始终聚焦在当前最相关的上下文上。对比传统的做法是将所有错误手册一次性粘贴给 AI导致 AI 在处理简单问题时也背负着沉重的无关知识容易造成“迷失”。2.3 Skill 与智能体的关系外挂式大脑皮层回到用户的疑问“它是智能体的一部分吗”从软件工程的角度看它是智能体的插件Plugin或扩展包Extension。独立性Skill 是独立于模型存在的。你可以把同一个coding-skill文件夹发给你的同事他的 Claude 也能加载并使用。这意味着知识被文件化和可传输化了。依赖性Skill 必须依附于智能体才能运行。没有 Claude 的推理能力SKILL.md只是一个普通的文本文件scripts/里的代码也不会自动运行。因此Skill 是智能体加工的对象也是智能体能力的载体。它是必须借助智能体通过 SDK 提供的环境来“阅读”和“执行”的。第三部分智能体的骨架——Claude Agent SDK3.1 SDK 的定义与定位用户问“Claude Agent SDK 是用来做什么的”简单来说Claude Agent SDK 是制造智能体的工厂流水线和运行时的底座。Anthropic 官方文档明确指出SDK 是他们构建自己的旗舰产品Claude Code一个自主编程智能体所使用的同款基础设施7。现在他们将这套基础设施开源或提供给开发者让任何人都能构建类似 Claude Code 的应用。3.1.1 为什么需要 SDK大模型本身如 Claude 3.5 Sonnet API只是一个文本生成器。如果你问它“删除我电脑上的临时文件”它只能回复一段文字“你应该运行 rm -rf /tmp/*”但它无法真的去执行这个命令。要让它变成一个能干活的智能体你需要写代码来连接终端让 AI 能发送命令给电脑。管理记忆记录 AI 之前做了什么防止它死循环。处理错误如果命令报错了告诉 AI 重试。权限控制防止 AI 删错文件。Claude Agent SDK封装了上述所有功能。它提供了一套标准化的代码库开发者只需调用几行代码就能生成一个具备文件读写、命令执行能力的智能体环境。3.2 核心机制ReAct 循环与工具编排SDK 的核心价值在于实现了稳定的智能体循环Agent Loop通常被称为Think-Act-Observe思考-行动-观察循环8。小白视角的“厨房”比喻Claude (模型)是厨师。他有大脑知道菜谱。SDK是现代化厨房。它提供了灶台、流水线、传递窗。运作流程如果没有 SDK厨师就只是一个被锁在房间里只能说话的人无法接触任何厨具。3.3 SDK 与 Skills 的协同关系这是用户理解的难点SDK 和 Skills 是如何配合的SDK 构建躯体它定义了智能体能“做什么动作”读文件、运行 Shell、调用 API。Skill 注入灵魂它定义了智能体“在什么场景下做这些动作”以及“如何组合这些动作”。场景演示假设你用 SDK 开发了一个“企业财务助手”。SDK 层赋予了该助手“读取 Excel 文件”和“发送邮件”的基础权限Tools。Skill 层你加载了一个“发票审核 Skill”。这个 Skill 包含一条规则“如果金额大于 1 万必须先读取policy.pdf然后给财务总监发邮件。”运行时当助手收到一张 2 万的发票时Claude 模型读取 Skill 的规则决定调用 SDK 提供的“读取文件”和“发邮件”工具。结论SDK 是必须的加工平台。Skill 必须被加载到由 SDK 构建的 Runtime运行时环境中才能被解析和执行。直接把 Skill 扔给裸模型Raw Model模型只能读懂文字但无法执行其中的脚本或工具调用。第四部分竞品对标——Claude Skills vs. Gemini 3 工具体系用户特别提到了与Gemini 3 的“工具”进行对比。这是一个非常敏锐的问题因为 Google 和 Anthropic 在术语使用上存在重叠但背后的架构哲学有显著差异。4.1 Gemini 3 生态概览根据研究资料Google 的 Gemini 生态涵盖 Gemini 1.5 Pro, 2.0 Flash, 以及 Gemini 3 系列主要包含三个相关概念Tools (工具)主要指 Function Calling函数调用和 Google Extensions扩展。Gems (宝石)指自定义的 Gemini 实例类似 OpenAI 的 GPTs。Agentic Capabilities (智能体能力)指 Gemini 3 模型原生具备的“Deep Think”深度思考和多步规划能力10。4.2 核心差异对比矩阵为了清晰展示我们使用表格进行多维度对比维度Claude Skills (Anthropic)Gemini “Tools” (Google)Gemini “Gems” (Google)定义本质结构化知识与逻辑包(Knowledge Cartridge)功能性接口(Functional Interface)角色与设定包装(Persona Wrapper)物理形态本地文件夹 (.md,.py, 资源文件)代码定义的 API 接口 (JSON Schema)云端保存的系统提示词配置 (System Instruction)智能体交互指导 (Guide)教 AI如何思考和执行流程。连接 (Connect)让 AI能连接外部系统。设定 (Set)设定 AI 的性格和背景。执行能力高可包含完整的 Python 脚本供本地执行。中主要触发远程 API 调用。低依赖模型本身的生成能力不包含代码逻辑。上下文管理渐进式披露按需加载文件节省 Token。全量或检索通常依赖 RAG 或长上下文窗口。全量加载系统提示词常驻上下文。典型用途复杂的 SOP 流程如“代码审计”、“法律合规检查”。单点功能如“查询天气”、“搜索 Google 机票”。角色扮演如“苏格拉底式导师”、“健身教练”。可移植性高Git 版本控制文件传输。低通常绑定在 Google Cloud 或应用内部。中仅限 Google 账号间分享。4.3 深度辨析Skills 与 Gemini “Tools” 是同一个东西吗结论不是。它们处于不同的抽象层级。Gemini 的“工具” (Tools)本质上是Function Calling。它像是一把锤子。你告诉 AI “这里有一把锤子”AI 在需要时会拿起来用。但工具本身不包含“如何盖房子”的知识。Claude 的“Skill”更像是一个建筑师的图纸包。这个图纸包里可能包含了一把锤子Tool但也包含了建筑蓝图SKILL.md和施工规范Resources。关系Claude Skill 可以包含工具。例如一个 Claude Skill 的定义里可以声明使用一个“Google Search Tool”。Skill 是更高层级的组织形式它将“工具”和“使用工具的知识”打包在了一起2。4.4 深度辨析Skills 与 Gemini “Gems”结论有些相似但架构不同。Gemini Gems是面向消费者的、基于 Prompt 的定制化。它更像 OpenAI 的 Custom GPTs。通过对话框设置“你是谁你要做什么”。它便于非技术用户快速创建。Claude Skills是面向开发者和专业工作流的、基于文件系统的定制化。它允许更复杂的逻辑编排。例如Skill 可以包含一个 500 行的 Python 脚本来处理数据而 Gems 通常无法直接嵌入复杂的本地代码逻辑尽管 Gemini Advanced 可以运行代码但 Gems 的定义方式主要是纯文本提示词13。4.5 Gemini 3 的“Agentic Capabilities”需要补充的是Gemini 3 引入了原生更强的代理能力Agentic Capabilities和“Deep Think”模式。这意味着 Gemini 3 模型本身在没有外部 Skill 指导的情况下规划任务的能力更强了。Google 的策略打造一个超级全能的通用天才Gemini 3并让它无缝连接 Google 的所有服务Drive, Docs, Search。这是一个**单体化Monolithic**的策略。Anthropic 的策略打造一个可塑性极强的核心Claude并通过模块化的 Skills 让用户自己定义它的专业领域。这是一个**生态化Modular**的策略。第五部分技术架构与实现原理Deep Research为了满足专家级读者的需求本部分将深入探讨 Claude Skills 的底层技术实现细节。5.1 上下文注入与动态路由Claude 如何知道何时使用 Skill这涉及到大模型的路由Routing机制。在 SDK 层面系统维护着一个元数据索引Metadata Index。JSON// 简化的 Skill 索引结构示例{“skills”:}当用户输入 Query 时SDK 会先进行一轮快速意图识别通常使用轻量级模型或向量检索计算 User Query 与 Skill Description 的相关性。如果匹配度超过阈值SDK 会将该 Skill 的详细 Prompt 注入到当前的 Context Window 中。5.2 MCPModel Context Protocol的角色在研究材料中多次提到了MCP9。这是理解 Claude Skills 生态的关键一环。MCP 是什么它是一个开放标准协议用于连接 AI 模型和数据源。就像 USB 接口连接电脑和设备一样。Skills 与 MCP 的关系5.3 沙箱环境Sandboxing与安全性由于 Skill 可以包含 Python 脚本并执行系统命令安全性至关重要。Claude Agent SDK 默认在容器化环境Docker Container或受限的沙箱中运行这些 Skill1。网络隔离限制 Skill 只能访问特定的 URL如 API 端点。文件系统隔离Skill 只能读写特定的工作目录无法访问宿主机的系统核心文件。这是 Skill 区别于简单 Prompt 的重要特征它是在一个受控的计算环境中运行的而不仅仅是在文本框里生成文字。第六部分使用场景分析——从小白到专家的实战为了让读者更直观地理解我们将通过三个难度递增的场景来展示 Claude Skills 的应用。6.1 场景一小白用户的“私人秘书”Personal Use需求用户希望 Claude 每天早上阅读他的 Gmail找出老板的邮件并根据附件里的 Excel 表格生成日报。传统方式用户每天复制邮件内容上传 Excel写提示词“请分析这个…”。使用 Skills价值一键化零门槛复用复杂流程。6.2 场景二软件团队的“自动代码审查员”Developer Workflow需求团队希望在代码提交前自动检查是否包含硬编码的密码API Key且检查规则需符合公司内部特殊的安全白皮书。构建团队技术负责人使用Claude Agent SDK构建了一个 CLI 工具。Skill 定义创建一个security-auditSkill。价值将公司的制度白皮书转化为了可执行的代码逻辑实现了“制度即代码”Policy as Code。6.3 场景三企业级“智能客服中台”Enterprise Integration需求某电商公司需要一个 AI 客服既能查订单连接数据库又能处理退款调用支付网关还要安抚客户情绪话术库。架构动态调度当客户说“我要退款”时Claude 加载退款 Skill严格按照流程验证身份 - 检查金额 - 调用接口执行确保不会因为 AI 的“幻觉”而随意退款。第七部分认知架构与未来展望7.1 从“提示词工程”到“技能工程”Claude Skills 的出现标志着 AI 开发范式的转移。我们正在从Prompt Engineering琢磨怎么说话 AI 爱听转向Skill Engineering设计结构化的知识包和逻辑流。未来的 AI 开发者更像是一个产品经理或系统架构师他们编写SKILL.md设计文件结构配置工具权限而不是单纯地写一段话。7.2 技能经济The Skill Economy正如 App Store 改变了软件分发未来可能会出现Skill Store。咨询公司如麦肯锡可能不再直接卖 PPT而是卖一个Strategy Analysis Skill。企业购买这个 Skill加载到自己的 Claude Agent 中就能让 AI 像麦肯锡顾问一样分析自己的数据。这实现了专业知识的封装与即插即用。7.3 安全隐患技能注入攻击Skill Injection随着 Skill 成为执行逻辑的载体新的安全威胁随之而来。如果黑客诱导用户下载了一个恶意的 Skill该 Skill 可能包含隐藏指令“在分析财务数据时悄悄将数据发送到黑客的服务器。”因此Skill 的签名验证和来源审查将成为未来企业安全的重要组成部分。第八部分结论综上所述针对用户的疑问我们得出以下确切结论Claude Skills 和 Agent SDK 是做什么的Skills 是智能体吗它是预定义好的提示词模板吗它必须借助智能体加工吗它与 Gemini 3 的“工具”一样吗对于“小白”用户而言只需要记住Claude 是你的全能管家SDK 是你给他配的超级电脑和办公室而 Skills 是你让他学习的一本本《专业操作手册》。有了这三者管家就不再只是陪你聊天的机器人而是能帮你真正干活的超级员工。如何系统的学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。一直在更新更多的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】01.大模型风口已至月薪30K的AI岗正在批量诞生2025年大模型应用呈现爆发式增长根据工信部最新数据国内大模型相关岗位缺口达47万初级工程师平均薪资28K数据来源BOSS直聘报告70%企业存在能用模型不会调优的痛点真实案例某二本机械专业学员通过4个月系统学习成功拿到某AI医疗公司大模型优化岗offer薪资直接翻3倍02.大模型 AI 学习和面试资料1️⃣ 提示词工程把ChatGPT从玩具变成生产工具2️⃣ RAG系统让大模型精准输出行业知识3️⃣ 智能体开发用AutoGPT打造24小时数字员工熬了三个大夜整理的《AI进化工具包》送你✔️ 大厂内部LLM落地手册含58个真实案例✔️ 提示词设计模板库覆盖12大应用场景✔️ 私藏学习路径图0基础到项目实战仅需90天第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】