西安商城网站开发建筑设计资料集
2026/2/5 3:50:25 网站建设 项目流程
西安商城网站开发,建筑设计资料集,服务比较好的网页传奇,wordpress 网页很慢本文详细分析了2023年至2025年6月大型语言模型的架构演进历程#xff0c;从GPT-4时代的规模扩张#xff0c;到效率驱动的MoE架构和新型注意力机制#xff0c;再到推理(Thinking)范式的兴起#xff0c;最后展望具身智能与后Transformer架构。文章指出#xff0c;现代AI架构…本文详细分析了2023年至2025年6月大型语言模型的架构演进历程从GPT-4时代的规模扩张到效率驱动的MoE架构和新型注意力机制再到推理(Thinking)范式的兴起最后展望具身智能与后Transformer架构。文章指出现代AI架构已形成效率、推理与智能体三大支柱标志着LLM从文本预测器向通用问题解决系统的转变。一、2023年的GPT-4开始唯参数规模论时代的终结1.1 2023年基线GPT-4范式在2023年初LLM领域的发展遵循着一条清晰而有力的轨迹规模决定能力所以当年的爆火词就是Scaling Laws更大的参数更大的计算量更大的数据规模。这一理念的顶峰体现便是OpenAI的GPT-4作为2023年当时最先进的AIGPT-4被呈现为一个大规模的典范基础架构依然是Transformer但是拉长参数量看上去就可以很好的work。尤其它在多种专业和学术基准测试中展现出与人类相当的水平例如在模拟律师资格考试中取得了排名前10%的成绩而前身GPT-3.5的得分则位于后10%。相较于GPT-3.5GPT-4的关键进步体现在几个方面。首先是上下文窗口长度的极大扩展提供了8K和32K两种规格的上下文长度远超前代的4K和2K有点像当年软盘时代内存从1K到1M的变化。这使得模型能够处理更长、更复杂的任务OpenAI也宣称GPT-4在可靠性、创造力甚至处理细微指令的能力上均优于GPT-3.5。不过GPT-4的发布也让OpenAI有了个别名CloseAI就是因为架构保密。在技术报告中OpenAI明确表示出于竞争格局和大规模模型的安全影响的考量将不提供关于架构包括模型参数大小、硬件、训练计算量、数据集构建或训练方法的任何细节。这个决定引发了社区关于透明度的广泛讨论也使得外界对内部工作原理的理解主要依赖于间接推测和性能分析。当时一直有说法GPT-4拥有高达1760B的巨大参数量但这从未得到官方证实可它进一步强化了当时业界普遍持有的 Scaling-is-all-you-need 的信念当时很多说法都是 GPU集群/数据量/更大的参数量 is all you need。GPT-4的成功给整个领域指明了一条通过不断扩大模型规模和数据量来提升智能水平的路径。1.2 Scaling范式中浮现的裂痕随后到2024年直到年底一年多的时间该挖的数据、该买的算力、该请的人才都到位了但还没出现GPT5唯规模论的范式迎来了深刻反思和系统性挑战。这一时期的模型演进并非由单一技术突破驱动而是源于对现有范式局限性的多方面冲击。对效率的迫切需求传统Transformer架构的注意力机制具有与序列长度成二次方关系的计算复杂度O(L^2)复杂度加之密集型Dense模型高昂的推理成本共同构成了一个严重的性能瓶颈。这极大地限制了上下文长度的扩展和模型的实际部署从而催生了对稀疏架构和新型注意力机制的迫切需求。对推理的迫切需求业界逐渐认识到单纯的规模扩张并不能赋予模型强大的、多步骤的逻辑推理能力。模型在面对需要复杂规划和逻辑演绎的任务时依然表现不佳。这一瓶颈促使研究方向发生根本性转变从完全依赖预训练阶段的计算投入转向在推理阶段分配额外计算资源即思考thinking模型的诞生。智能体的迫切需求随着模型推理能力的增强下一个重点目标是让模型能够根据推理结果采取行动。这要求模型不仅能思考还能与外部工具和环境进行交互从而执行复杂任务这标志着智能体AIAgentic AI时代的产生。这三者有相互关联的驱动力并非孤立存在而是构成了一条紧密相连的因果链清晰地勾勒出2023至2025年间前沿模型架构的演进脉络。效率的提升是实现经济可行的推理模型的前提而强大的推理能力则是构建有效智能体的基石。这条演进路径的逻辑为需要对架构进行改进密集型Transformer模型的计算和内存开销是核心痛点。为了处理更复杂的现实世界问题模型需要更大的上下文窗口来容纳所有相关信息并需要更复杂的内部处理流程。然而O(L^2)的复杂度和巨大的KV缓存使得这一需求在经济上和技术上都难以为继。因此架构上的效率创新成为第一要务。混合专家MoE架构通过稀疏激活来降低计算量而线性注意力等机制则直接攻击了二次方复杂度的瓶颈。这些在第二部分将详细分析的创新为后续发展铺平了道路。需要提升可解释性找到新的增长范式一旦模型的基础架构在效率上得到优化实验室便有了资本去探索计算成本更高的推理过程。在推理时进行thinking也就是让模型在给出最终答案前进行一系列内部的、复杂的思考步骤只有在底层架构已经足够高效的前提下才具有经济可行性不然thinking一次巨长时间又巨贵没什么可用性。没有MoE或线性注意力等技术降低基础成本为每一次查询增加数倍乃至数十倍的thinking计算量是无法想象的。需要有商业价值有用一个能够进行多步推理并形成复杂计划的模型固然强大但一个能够利用工具去影响其他系统做出实践的模型才具有真正的变革性。因此Agent能力的开发成为应用推理能力的自然延伸。它是这条因果链的第三个环节也是最高阶的体现。一个模型只有在能够高效地进行深度思考之后才能可靠地决定何时、如何以及使用何种工具来完成任务。二、2024年至今对效率的迫切需求2.1 稀疏化的兴起混合专家MoE架构混合专家Mixture-of-Experts, MoE架构是这一时期应对效率挑战最核心的策略之一基本思想是用大量小型的专家网络替换Transformer中密集的、计算量巨大的前馈网络FFN层。这样对于输入序列中的每一个token一个门控网络gating network或称为路由器router的机制会动态地选择一小部分专家来处理它。按这个模式模型的总参数量可以急剧增加比如R1直接到671B的总参数量但每次前向传播即推理时实际激活的参数量和计算量FLOPs却只占一小部分比如R1实际上只激活37B从而实现了经济的训练和高效的推理。2.1.1 DeepSeek的开创性MoE推进DeepSeek是推广和开源MoE架构的重要部分从V2开始到R1等系列模型清晰地展示了MoE架构的演进和威力到现在基本全是MoE的模型。DeepSeek-V2该模型引入了名为DeepSeekMoE的稀疏MoE架构。在236B2360亿参数的版本中每个token仅激活21B210亿参数。这展示了超过10:1的总参数与激活参数之比是MoE理念的经典体现这种设计使得模型能够在保持巨大知识容量的同时显著降低推理成本。DeepSeek-V2-Lite为了便于学术研究和更广泛的部署DeepSeek推出了16B参数的轻量版MoE模型每个token仅激活2.4B参数。其技术报告详细说明了其实现方式除了第一层外所有FFN层都被MoE层取代。每个MoE层包含2个所有token共享的专家shared experts和64个路由选择的专家routed experts每次会为每个token激活6个路由专家。这种细粒度的设计共享专家处理通用模式路由专家处理特定子问题展示了MoE架构的灵活性和复杂性。DeepSeek R1作为一款专为推理设计的模型R1同样基于MoE架构。它有惊人的671B总参数而每个token的激活参数量为37B这其实进一步证明了MoE架构是实现数千亿级别参数模型的可行路径尤其是在HPC高性能计算协同设计的加持下。2.1.2 Qwen的混合产品组合策略阿里的Qwen团队采取了独特的市场策略Qwen3系列同时提供了密集模型最高32B和MoE模型如30B-A3B235B-A22B。这个策略是对不同市场需求的应对性玩法密集模型通常具有更可预测的性能和更简单的微调流程适合寻求稳定性的企业用户。MoE模型则代表了技术前沿以极致的规模和性能吸引高端用户和研究者这种双轨并行的产品线让Qwen能够在不同的细分市场中都保持竞争力尤其是二次开发的衍生模型Qwen一直在HF都是排名第一的衍生模型大量的科研和二次开发都是基于Qwen2.5用LLaMA的越来越少。2.1.3 Minimax-m1的混合MoE最近6月刚发且开源的Minimax的m1模型也采用了混合MoE架构拥有32个专家。模型总参数量为456B每个token激活45.9B参数。这再次印证了约10:1的总参数与激活参数之比已成为大型MoE模型的一个行业基准主要也带来了超长上下文方面的提升整体的性能可以看表还是表现的很不错的。2.2 注意力机制革命超越二次方缩放如果说MoE解决了FFN层的计算开销那么新的注意力机制则旨在攻克Transformer架构的另一个核心瓶颈自注意力机制self-attention与序列长度L的二次方计算复杂度O(L^2)这一瓶颈是限制模型处理超长上下文如百万级token的主要障碍。2.2.1 DeepSeek的多头潜在注意力MLA机制DeepSeek的Multi-Head Latent Attention (MLA) 是一种创新的注意力机制它通过将长序列的Key和Value向量即KV缓存压缩成一个单一的、低秩的潜在向量latent vector来解决KV缓存瓶颈。这极大地减少了存储历史信息所需的内存使它在支持128K上下文长度的同时KV缓存相较于前代模型减少了93.3%。在V3中的演进在DeepSeek-V3中MLA得到了进一步的优化引入了更复杂的动态管理策略。例如动态低秩投影Dynamic Low-Rank Projection可以根据序列长度自适应地调整压缩强度短序列少压缩以保留保真度超长序列如32K-128K则深度压缩以控制内存增长。分层自适应缓存Layer-Wise Adaptive Cache会在模型的更深层修剪掉较早的KV条目进一步优化了在极端长上下文场景下的内存使用这些演进表明对注意力机制的优化已进入精细化、动态化的阶段。2.2.2 Minimax-m1的闪电注意力Lightning Attention机制Minimax-m1采用了更为激进的混合注意力方案。大部分Transformer层使用的是一种名为闪电注意力Lightning Attention的线性复杂度O(L)机制。然而为了防止模型表达能力和性能的过度损失架构中每隔七个使用线性注意力的Transformer块就会插入一个使用标准softmax注意力的完整Transformer块。影响这种设计在处理长序列时极大地降低了计算负荷。在生成长度为100K个token时m1消耗的FLOPs仅为DeepSeek R1的25%这直接能够支持高达100万token的超长上下文长度这是一种在效率和性能之间进行权衡的设计。2.2.3 Qwen2.5分组查询注意力GQAQwen2.5在技术报告中明确提到了架构中集成了分组查询注意力Grouped Query Attention, GQA以实现更高效的KV缓存利用。虽然GQA不像MLA或闪电注意力那样具有革命性但它已成为现代LLM中一项标准的、必不可少的优化技术用于在性能和效率之间取得平衡。2.2.4 效率作为战略护城河对效率架构的选择已不仅仅是技术层面的决策更是一种核心的商业战略深刻地定义了各个AI实验室的竞争地位。开源社区和闭源巨头在此展现出截然不同的策略。一方面以DeepSeek和Qwen为代表的开源力量选择将架构创新公之于众。他们详细地公布了MLA、MoE的具体实现方式以及稀疏注意力框架的技术细节。核心价值主张是以远低于专有模型的成本提供接近业界SOTA的性能并附加了架构透明度方便开发者进行定制和研究。这一战略直接冲击了AI技术的高成本壁垒通过开源和性价比来占领市场。另一方面以OpenAI和Anthropic为代表的闭源领导者同样在效率上投入巨资例如GPT-4o的API价格比GPT-4 Turbo便宜50% 但他们选择将具体的实现细节作为商业机密。他们将效率提升所节省下来的计算资源再投资到计算成本更高昂的专有功能上例如扩展思考extended thinking或智能体工具使用agentic tool use。对他们而言护城河并非效率本身而是由效率所解锁的、难以复制的独特能力。这种战略分化创造了一个动态的竞争格局开源模型不断拉低标准推理服务的价格迫使闭源领导者必须持续创新推出新的、能证明高昂定价和专有性质的尖端功能。因此对效率的追求成为了整个领域发展的引擎它既驱动了基础能力的“商品化”也催生了新功能前沿的不断开拓。三、2025年来推理Thinking走向台前3.1 CoT的逐渐拉长这个新范式将计算开销的重心从预训练阶段部分转移到了推理阶段。核心理念是模型在生成最终答案之前花费额外的计算资源来生成一段内部的思考链CoTchain of thought从而在需要逻辑、数学和规划的复杂任务上实现性能的巨大飞跃。这标志着模型从静态的知识检索向动态的问题解决能力的演进。3.1.1 OpenAI的o系列o1, o3, o4-mini机制o系列模型是这一范式的开创者它们在回答问题前会明确地花费时间进行Thinking。这个过程会生成一个长的、对用户隐藏的思考链这段内部独白对于模型推导出正确答案至关重要。OpenAI以安全和竞争优势为由禁止用户探查这个思考链。影响这种方法在重推理的基准测试上带来了惊人的性能提升。例如o1解决了83%的AIME美国数学邀请赛问题而GPT-4o仅为13%。这有力地证明了对于特定类型的问题推理时计算test-time compute比预训练计算能带来更大的价值。o系列还包括o1-mini、o4-mini这些变体它们更快、更便宜专为编码和STEM等不太需要广泛世界知识的任务进行了优化很适合对话用。3.1.2 Anthropic的Claude系列的混合推理机制Claude 3.7是首个以“混合推理模型”hybrid reasoning model为卖点的模型它允许用户在快速响应和更深度的“扩展思考”extended thinking之间进行选择。随后的Claude 4Opus和Sonnet版本进一步将此功能完善为两种明确的模式允许开发者根据具体应用场景在延迟和准确性之间做出权衡。3.1.3 Google的Gemini 2.5屠榜的存在Gemini 2.5 pro preview 0605最近屠榜了样样都是第一直接看下图。另外还短时期流传出了Kingfall这个模型也支持推理模式据说性能极其的牛但我还没试过可以参考这篇文章如何评价Google泄露AI模型KingFall其性能和现有顶尖模型相比有提升么https://www.zhihu.com/question/1917689645715677739/answer/19180684801686915533.1.4 Qwen的方法Qwen3同样引入了“思考”和“非思考”模式并在API中直接提供了一个名为思考预算thinking budget的参数表明这一范式已成为行业共识。思考模式专用于处理复杂的逻辑、数学和编码任务而非思考模式则用于高效的通用聊天。3.2 为推理而训练强化学习的演进角色强化学习RL的角色在这一时期发生了根本性的转变。它不再仅仅是用于对话对齐如RLHF的工具 而是成为了教授模型如何进行推理的核心方法推理时间也成为了新的Scaling Laws。Thinking范式的出现为扩展AI性能引入了一个全新的、正交的轴线推理时计算。这从根本上改变了AI实验室的经济模型和发展重点。在此之前AI的进步主要沿着训练时计算和参数数量这两个轴线来衡量。主流的假设是用更多数据训练一个更大的模型它就会变得更聪明。这是2024年之前的旧轴线。然而o系列及同类模型证明对于一组固定的模型权重通过增加推理期间使用的计算量可以极大地提升模型在复杂任务上的表现。o1的技术分析中有一张图表明确显示在AIME基准上的准确率随着测试时计算量的增加而提升这便是新轴线的直接证据。这一转变带来了深远的、高阶的影响。首先它预示着对推理硬件的需求将大规模增长而不仅仅是训练硬件。运行一次查询的成本不再是固定的而是根据问题的难度动态变化这为硬件市场带来了新的增长点。其次它将研究重点从单纯地扩大预训练规模转向开发更高效的推理算法如在思考链中进行更优的搜索或规划和更有效的RL技术来引导推理过程。另外它也催生了新的产品设计和商业模式Model is the product的商业模式正在演变以适应这个新维度催生了如Gemini Flash与Pro、o4-mini与o3这样的分层产品其中Thinking成为一个关键特性和差异化卖点允许客户根据任务需求购买相应水平的智能。3.2.1 DeepSeek-R1的RL优先流水线机制DeepSeek-R1的训练过程是一个以RL为中心的多阶段流程。在通过SFT监督微调进行Cold Start后模型会进入一个大规模的RL阶段该阶段专注于基于规则的评估任务以激励模型生成准确且结构清晰的推理过程。此后再进行更多的SFT和一个最终用于通用对齐的RL阶段。目标这种RL优先的方法促进模型自发地涌现出自我验证和错误修正等高级行为产生了Aha moment从而减少对大规模人工标注推理数据集的依赖所以GRPO基本是目前广泛使用的模式很多变体都是基于这个进行改进。3.2.2 Minimax-m1的CISPO算法机制Minimax为训练大型模型开发了一种新颖的RL算法CISPOClipping Importance Sampling Policy Optimization这个也是GRPO的变体算法通过裁剪重要性采样权重而非使用信任域约束来稳定训练过程。影响这一算法创新对于成功训练庞大的456B混合专家模型至关重要。它在处理需要长远规划的复杂任务时相比之前的方法实现了2倍的训练速度提升仅用三周时间就完成了整个RL训练周期花了五百多万美元的GPU hours很具有性价比。3.3 从理想到行动智能体工具使用的黎明一旦模型具备了推理和规划的能力合乎逻辑的下一步就是让它能够通过与外部工具交互来执行计划。这正是AI智能体的定义。3.3.1 OpenAI的o3和o4-mini这些模型是首批被描述为具备“智能体工具使用”agentic tool use能力的模型。它们能够自主地决定何时以及如何组合使用网页搜索、Python代码分析和DALL-E图像生成等工具来解决一个复杂的用户请求。例如模型可以多次搜索网页分析返回结果并根据分析动态调整后续策略。3.3.2 Anthropic的Claude 4Claude 4的发布伴随着一套专为构建智能体而设计的新API功能一个代码执行Sandbox、一个用于访问本地文件的Files API和一个MCP工具。这些功能再结合独特的“计算机使用”computer use能力即生成鼠标和键盘操作使Claude成为构建能够与数字信息和图形用户界面UI进行交互的强大智能体的理想平台目前Claude Code也给Cursor这些带来很大的危机感。四、当前综合与竞争格局4.1 各大模型的架构哲学比较OpenAI专注于开创“推理计算”范式以o系列模型引领潮流并利用先发优势打造新一类智能体模型。其战略是能力优先架构细节作为核心竞争优势保持专有。DeepSeek奉行清晰的开源共享战略。他们在MoE、MLA等公开透明的架构上积极创新并采用GRPO这些强化学习的方法以更低成本提供与SOTA相媲美的模型直接挑战专有生态系统在国际上都有很高的评价。Anthropic采取“安全优先能力驱动”的路线。他们紧随OpenAI进入推理“混合推理”和智能体“计算机使用”、智能体API领域但通常更强调可控、可理解的过程和企业级的可靠性并且目前更加强调代码能力。Google实施“平台与产品组合”战略。通过Gemini 2.5家族Pro, Flash, Lite他们提供了一套基于统一“思考模型”架构的分层模型并深度集成到Google Cloud生态系统Vertex AI中为企业提供具有明确性能权衡控制的解决方案。Qwen采用“灵活产品组合”战略。通过同时提供密集和MoE模型Qwen3并开创超长上下文Qwen2.5-1M他们满足了广泛的用例需求并在多个战线尤其是在多语言和开源领域展开竞争。Minimax展现了新颖混合的探索精神。其m1模型将多种前沿但不同的思想MoE、线性/softmax混合注意力、新颖RL算法融合到一个强大的开源权重模型中显示出他们探索独特架构组合的意愿。4.2 这两年主要LLM架构列表对比4.3 推理与Coding的Benchmark表现截止到今年6月的表现如下模型架构的演进直接导致了Benchmark评估的分化。传统的NLP基准测试如MMLU大规模多任务语言理解正迅速变得饱和对于区分前沿模型的能力越来越有限。与此同时一类专注于复杂推理如GPQA, AIME和智能体执行如SWE-bench, Terminal-bench的新基准已成为衡量SOTA的真正标准。这一转变的背后逻辑是随着模型普遍能力的提升它们在MMLU等知识密集型、选择题式的基准上的得分开始聚集在高端区间难以拉开差距。2025年AI指数报告明确指出了MMLU、GSM8K和HumanEval等传统AI基准的饱和。作为回应学术界和工业界将注意力转向了能够有效测试新一代推理能力的基准。AIME高难度数学竞赛、GPQA需要研究生水平知识的问答以及特别是SWE-bench要求模型像软件工程师一样修复真实的GitHub问题现在已成为Claude 4、o3和DeepSeek-R1等模型发布公告中反复引用的事实标准。这一转变的更高阶影响是SOTA的定义本身发生了变化。它不再是一个单一的、普适的头衔。一个模型可能在一个维度上是SOTA但在另一个维度上则不是。例如根据SWE-bench的领先表现Anthropic的Claude 4被定位为SOTA的编码智能体。而OpenAI的o3/o4-mini则凭借在AIME上的卓越成绩成为数学和推理领域的SOTA。Google的Gemini 2.5 Pro则在上下文处理和多模态能力上独占鳌头。这种由架构选择驱动的专业化意味着选择最佳模型已成为一个依赖于具体用例的决策过程反映出一个日益成熟和多样化的市场。如何学习AI大模型如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享这份完整版的大模型 AI 学习和面试资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】这是一份大模型从零基础到进阶的学习路线大纲全览小伙伴们记得点个收藏第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。100套AI大模型商业化落地方案大模型全套视频教程200本大模型PDF书籍学会后的收获• 基于大模型全栈工程实现前端、后端、产品经理、设计、数据分析等通过这门课可获得不同能力• 能够利用大模型解决相关实际项目需求 大数据时代越来越多的企业和机构需要处理海量数据利用大模型技术可以更好地处理这些数据提高数据分析和决策的准确性。因此掌握大模型应用开发技能可以让程序员更好地应对实际项目需求• 基于大模型和企业数据AI应用开发实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能 学会Fine-tuning垂直训练大模型数据准备、数据蒸馏、大模型部署一站式掌握• 能够完成时下热门大模型垂直领域模型训练能力提高程序员的编码能力 大模型应用开发需要掌握机器学习算法、深度学习框架等技术这些技术的掌握可以提高程序员的编码能力和分析能力让程序员更加熟练地编写高质量的代码。LLM面试题合集大模型产品经理资源合集大模型项目实战合集获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询