2026/5/18 16:50:24
网站建设
项目流程
网站建设那种语言好,wp如何做引擎网站,企业网站备案需要法人拍照吗,网站执行速度过去一年#xff0c;LLM 发展迅速#xff0c;能力和应用场景都在不断扩展。从基于可验证奖励的强化学习#xff0c;到本地运行的智能代理#xff0c;再到“Vibe 编程”和图形化界面#xff0c;AI 正以前所未有的方式进入我们的工作和生活。 在这样的背景下#xff0c;AI …过去一年LLM 发展迅速能力和应用场景都在不断扩展。从基于可验证奖励的强化学习到本地运行的智能代理再到“Vibe 编程”和图形化界面AI 正以前所未有的方式进入我们的工作和生活。在这样的背景下AI 大牛 Andrej Karpathy 在个人博客上分享了自己对 2025 年 LLM 发展的独特观察既揭示了技术趋势也提供了对未来智能形态的思考非常值得一读。https://karpathy.bearblog.dev/year-in-review-2025/作者 | Andrej Karpathy编译 | ChatGPT、苏宓出品 | CSDNIDCSDNnews2025 年是大语言模型LLM快速推进、变化密集的一年。下面列出的是一些在我看来尤为重要、且多少有些出乎意料的“范式转变”——它们在概念层面上改变了整体格局。基于可验证奖励的强化学习RLVR在 2025 年初几乎所有实验室中 LLM 的标准生产训练流程大致如下预训练Pretraining约 2020 年的 GPT-2/3监督微调Supervised FinetuningSFT约 2022 年的 InstructGPT基于人类反馈的强化学习Reinforcement Learning from Human FeedbackRLHF约 2022 年这一组合在相当长一段时间内都是训练生产级 LLM 的成熟且行之有效的方法。进入 2025 年后基于可验证奖励的强化学习RLVR逐渐成为事实上的新增关键阶段并被纳入这一训练体系。RLVR 的核心做法是在多个可自动验证奖励的环境中例如数学或代码类任务对 LLM 进行强化学习训练。在这一过程中模型会自发地发展出在人的视角下类似“推理”的策略——它们学会将问题拆解为一系列中间计算步骤并掌握多种反复试探、回溯求解的策略可参考 DeepSeek R1 论文中的示例。在此前的训练范式下这类能力很难通过直接设计获得因为我们并不清楚对 LLM 而言最优的推理轨迹和纠错路径究竟应当是什么样子模型必须通过围绕奖励函数的优化自行找到对自己有效的方式。与 SFT 和 RLHF 这两个相对“轻量、短周期”的阶段不同RLVR 依赖的是客观、不可被投机利用的奖励函数因此允许进行更长时间、更充分的优化。实践表明RLVR 在“能力提升 / 成本”这一比值上表现极高甚至消耗了原本计划用于预训练的大量算力。结果是2025 年 LLM 能力的主要进展很大程度上来自各大实验室对这一新阶段算力“积压”的集中释放模型规模大致相近但强化学习的运行时间显著拉长。此外这一新阶段还引入了一个此前不存在的重要调节维度以及与之对应的尺度定律可以通过在测试阶段生成更长的推理轨迹、增加“思考时间”来控制模型能力。OpenAI 的 o12024 年末是 RLVR 模型的首次公开展示而在 2025 年初发布的 o3则成为明显的拐点——人们已经可以直观地感受到这种差异。幽灵 vs. 动物 / 锯齿状智能Jagged Intelligence2025 年是我我想整个行业也是如此第一次开始以更直观的方式真正理解 LLM 智能“形态”的一年。我们并不是在“进化或培育动物”而更像是在“召唤幽灵”。LLM 技术栈的各个层面都与生物智能截然不同——无论是神经架构、训练数据、训练算法还是尤其关键的优化压力。因此我们在智能空间中得到的必然是完全不同类型的存在用“动物”的视角去理解它们本身就并不合适。从监督信号的角度看人类的神经网络是为了在原始环境中保障群体生存而被优化的而 LLM 的神经网络则是为了模仿人类文本、在数学与代码等任务中获取奖励以及在 LM Arena 上赢得人类的点赞而被优化的。随着可验证任务领域逐步引入 RLVRLLM 在这些领域附近的能力会出现“尖峰式”提升而在整体表现上则呈现出一种颇为有趣的锯齿状特征它们一方面像是博学多才的天才通才另一方面又像是困惑且认知能力受限的小学生随时可能被一次越狱诱骗从而泄露你的数据。人类智能蓝色AI 智能红色。因为它指出了一个常被忽略的事实人类智能本身也是“锯齿状的”只是锯齿的形态与 AI 不同。与上述讨论密切相关的是我在 2025 年对各类基准测试逐渐产生的冷淡态度甚至可以说是信任的流失。核心原因在于基准测试在结构上几乎天然就是“可验证环境”因此会立刻暴露在 RLVR 及其更弱形式例如通过合成数据生成实现的变体之下。在典型的“刷榜”过程中LLM 实验室的团队往往不可避免地会围绕基准测试在嵌入空间中构造出一些相邻的小环境区域并刻意“长出”足以覆盖这些区域的能力锯齿。在测试集上训练正在成为一门新的艺术。这也引出了一个耐人寻味的问题如果一个模型可以碾压所有基准测试但仍然没有实现 AGI那它究竟缺了什么关于本节所讨论的主题我在下面这些文章中有更为深入的阐述Animals vs. Ghostshttps://karpathy.bearblog.dev/animals-vs-ghosts/Verifiabilityhttps://karpathy.bearblog.dev/verifiability/The Space of Mindshttps://karpathy.bearblog.dev/the-space-of-minds/Cursor / LLM 应用的新一层在我看来Cursor 最值得关注的地方除了它今年的爆发式增长之外在于它令人信服地揭示了 “LLM 应用”这一全新层级的存在——人们开始频繁讨论“某某领域的 CursorCursor for X”。正如我今年在 Y Combinator 演讲中所强调的那样https://www.donnamagi.com/articles/karpathy-yc-talk像 Cursor 这样的 LLM 应用本质上是在特定垂直领域内对 LLM 调用进行打包与编排它们负责完成“上下文工程”在后台编排多次 LLM 调用将其串联成结构日益复杂的 DAG有向无环图并在性能与成本之间进行精细权衡为“人机交互”提供面向具体应用场景的 GUI提供一个“自治程度滑杆”在 2025 年很多人围绕这一新应用层“到底有多厚”展开了大量讨论所有应用最终都会被 LLM 实验室直接吞并还是 LLM 应用本身依然存在广阔的机会空间我个人的判断是LLM 实验室可能会培养出“能力一般的大学生水平”的模型但 LLM 应用则会通过提供私有数据、传感器、执行器和反馈回路对这些模型进行组织、微调并真正将它们激活组建成能够在特定垂直领域落地的专业团队。Claude Code / 在你电脑上运行的 AIClaude Code简称 CC是第一个让人直观感受到 LLM Agent 形态的产品——它能够以循环的方式将工具使用与推理串联起来用于解决更复杂、长期的问题。对我来说CC 另一大亮点在于它能够直接运行在你的电脑上并且使用你的私有环境、数据和上下文。相比之下我认为 OpenAI 在这方面走偏了他们早期的 Codex/Agent 研究主要聚焦于云端部署通过 ChatGPT 容器进行编排而没有充分考虑在本地运行的可能性。虽然在云端运行的 Agent Swarms 看起来像是“AGI 的终极目标”但现实世界中我们处在一个能力增长锯齿状、起飞较慢的中间阶段因此直接在开发者的电脑上运行 Agent 更为合理。需要注意的是这里真正关键的区别并不是 AI 操作究竟运行在云端还是本地而在于其他所有因素已经启动并运行的电脑、安装环境、上下文、数据、机密信息、配置以及低延迟的交互体验。Anthropic 在这一点上抓住了正确的优先顺序并将 CC 打包成一个简洁且极具魅力的 CLI 形式这改变了人们对 AI 的感知——它不再只是一个像 Google 一样需要访问的网站而是一种“小精灵/幽灵”真正“居住”在你的电脑上。这标志着与 AI 互动的一种全新、独立的范式。Vibe 编程2025 年是 AI 实现突破的一年——它可以只用英文指令就生成各种令人印象深刻的程序几乎不用理会代码本身。有趣的是我第一次提出“vibe 编程”这个术语是在一条随手灵感发的推文里当时完全没想到它会发展得这么远。通过 Vibe 编程编程不再严格局限于专业编码人员任何人都可以参与。从这个角度来看它正是我在《赋能大众》Power to the People中提到的例子之一LLM 彻底颠覆了技术扩散的方式——与以往所有技术相比普通人从 LLM 中获得的收益远超专业人士、企业甚至政府。Vibe 编程不仅让普通人能够接触编程还让训练有素的专业人士能够撰写大量原本可能永远不会出现的软件。在 NanoChat 中我通过 Vibe 编程用 Rust 实现了自己定制的高效 BPE 分词器而无需采用现成库也不需要在 Rust 上达到多深的水平。今年我用 Vibe 编程实现了很多项目作为快速应用演示来验证我想要存在的功能例如 menugen、llm-council、reader3、HN 时间胶囊。我甚至用 Vibe 编程快速生成了整个短生命周期应用只为了找出一个 bug——为什么不呢代码突然变得自由、短暂、可塑、一次性可丢弃。Vibe 编程将重塑软件生态并改变工作岗位的定义。Nano Banana / LLM GUIGoogle Gemini 的 Nano Banana 是 2025 年最令人惊叹、具有范式颠覆性的模型之一。在我的世界观里LLM 是下一代重要的计算范式类似于 20 世纪 70、80 年代的计算机。因此我们将看到类似的创新原因与当年计算机时代类似会出现个人计算机的对应形态、微控制器认知核心的对应形态甚至是由 Agent 构成的「互联网」式系统诸如此类。特别是在 UI/UX 方面与 LLM 进行“聊天”有点像在 1980 年代向计算机控制台发出命令。文本是计算机以及 LLM最原生、首选的数据表示形式但对人类来说文本并不是最理想的输入形式——人类其实不喜欢阅读文本它既慢又费力。人们更喜欢以视觉化和空间化的方式获取信息这也是传统计算机中 GUI图形用户界面被发明的原因。同理LLM 也应该以我们偏好的形式与我们交流——通过图像、信息图、幻灯片、白板、动画/视频、Web 应用等。目前早期的尝试形式当然包括 emoji 和 Markdown它们通过视觉化方式“装饰”和布局文本使信息更易于理解如标题、加粗、斜体、列表、表格等。但谁来真正构建 LLM GUI 呢在这个视角下Nano Banana 提供了一个早期的线索展示了未来 LLM GUI 的可能形态。值得注意的是它不仅仅是图像生成本身更重要的是文本生成、图像生成与世界知识的联合能力这些能力都在模型权重中紧密交织。总结2025 年是 LLM 发展令人兴奋且略有惊讶的一年。LLM 正在显现为一种全新的智能形态——它们在某些方面比我预期的更聪明在某些方面又比我预期的更笨。无论如何它们极具实用价值而整个行业目前对它们的潜力认知甚至还不到 10%。同时有太多新想法值得尝试从概念上来看这个领域仍然广阔开放。正如我今年早些时候提到的我虽然表面上说法似乎矛盾但实际上相信一方面我们会看到快速且持续的进展另一方面仍有大量工作需要完成。请系好安全带。推荐阅读跳出超级 App 之争鸿蒙系统级智能如何改写 AI 赛道规则“用自己服务器也要向GitHub交钱”微软新规引开发者众怒官方紧急喊停首批鸿蒙极客开发圈“金IP”的硬核实力