2026/3/28 14:39:53
网站建设
项目流程
企业首页网站属于什么类型网站,西安专业做网站建设费用,指数查询,网店设计英文数字时代#xff0c;人工智能#xff08;AI#xff09;及其相关技术正日益成为许多领域的热门话题。其中#xff0c;生成式人工智能#xff08;Gen AI#xff09;和大型语言模型#xff08;LLMs#xff09;引起了广泛的兴趣和讨论。然而#xff0c;尽管这些术语在科技…数字时代人工智能AI及其相关技术正日益成为许多领域的热门话题。其中生成式人工智能Gen AI和大型语言模型LLMs引起了广泛的兴趣和讨论。然而尽管这些术语在科技界和专业领域中频繁出现网络工程师对其的理解却不多。什么是生成式人工智能和大型语言模型本文将为大家介绍大型语言模型和生成式人工智能的基本概念、应用领域及大语言模型的运行原理阅读本文后您将更全面地了解这些领域的前沿技术我们一同踏上这段探索新领域的科普之旅吧什么是生成式人工智能和大型语言模型“生成式人工智能Generative AI一般简称为Gen AI”是一种人工智能技术专注于创造或生成新的内容例如图像、文本或音乐。这些内容不是直接复制或派生自现有的示例而是由计算机自己创造的。生成式AI的一个重要应用是生成文本比如自动写作、诗歌创作或对话生成。“大型语言模型Large Language ModelsLLMs”是一类生成式AI它们通过深度学习算法在大量自然语言数据上进行训练。这些模型学习人类语言的模式和结构并能够对各种书面输入或提示生成类似人类的回应。最近的LLMs表现出了接近人类的水平例如GPT-3.5它能够产生几乎完美的文本回应。这些近乎完美的类人化回应包括来自chatGPT和其他最近的LLMs得益于模型架构的进步。这些模型采用高效的具有数十亿个参数的深度神经网络DNNs经过大规模数据集的训练得出其中大部分参数被用于训练和推理的矩阵权重。而训练这些模型的浮点运算次数FLOP几乎与参数数量和训练集大小成线性关系。这一系列运算是在专门用于矩阵运算的处理器上执行的例如图形处理单元GPUs、张量处理单元TPUs和其他专用的AI芯片等。GPU、TPU、AI加速器以及它们之间的通信互联技术的进步让庞大模型训练成为现实。LLMs有哪些应用大型语言模型LLMs具有许多用例几乎每个行业都可以从中受益。不同的组织可以根据自身的特定需求和领域对模型进行微调。微调是指在特定数据集上对预先存在的语言模型进行训练使其更专业化并适应特定任务。通过微调组织可以在利用这些训练模型预先存在能力的同时将其调整得能够满足自己得独特需求这让模型能够获取领域特定的知识从而提高其生成组织用例所需输出的能力。通过微调的模型组织可以在多个用例中使用LLMs。例如根据公司文档进行微调的LLMs可用于客户支持。LLMs可以通过创建代码或支持他们创建部分代码来帮助软件工程师。当与组织的专有代码库进行微调时LLMs有可能生成类似于并符合现有代码库的软件。LLMs的众多用例包括用于评估客户反馈的情绪分析、将技术文档翻译成其他语言、总结会议和客户电话以及生成工程和营销内容。随着这些LLMs的规模持续呈指数级增长对计算和互连资源的需求也显着增加。只有当模型的训练和微调以及推理有足够成本效益时LLMs才会被广泛采用。LLMs如何使用深度学习算法进行训练为了使用自然语言文本训练LLM通常需要收集大量数据包括网络抓取爬取网页、维基百科、GitHub、Stack Exchange、ArXiv等。大多数模型通常使用开放数据集进行训练。这些数据集中的大量文本首先会进行标记化通常使用字节对编码等方法。标记化将来自互联网的原始文本转换为整数序列标记tokens。一个标记唯一整数可以表示一个字符或一个单词甚至可以是单词的一部分。例如单词“unhappy”可能会被分成两个标记——一个表示子词“un”另一个表示子词“happy”。比如这段文本先被标记化再被编码化根据数据集的不同可能会有成千上万个唯一标记数据集本身可能映射到数千亿个标记。序列长度是模型在训练过程中预测下一个标记时要考虑的连续标记的数量。GPT-3和LLaMAMeta的LLM的序列长度约为2000。一些模型使用的序列长度甚至达到10万。表1比较了GPT-3和LLaMA模型的训练参数。为了训练模型标记被分成大小为batch_sizeBx序列长度的数组然后将这些批次馈送给大型神经网络模型。训练通常需要几周甚至几个月并且需要大量的GPU集群。模型参数GPT-3 LargeLLaMA词汇量大小50,25732,000序列长度2,0482,048最大训练模型参数1750亿650亿训练数据集中的标记数3000亿1到1.3万亿GPU数量10,000 x V100 GPUs2,048 x A100 GPUs训练时间一个月21天一旦基础模型训练完成通常会进行监督微调Fine-TuningSFT。这是一个可以让LLMs扮演助手角色回答人们提示问题的重要步骤。在有监督微调中人们会创建一个精心策划的数据集数量较少但质量很高的数据集其中包含提示和响应的形式然后使用这个数据集重新训练基础模型。经过训练的SFT模型会成为一个能对用户提示作出类似人类回应的助手。以上是对LLMs的简单解释接下来将直接讲述LLMs的模型计算过程。敲黑板上强度了模型计算一个具有1750亿参数的模型通常需要超过1TB的内存来存储参数和计算过程中的中间状态。它还需要存储检查点的训练状态以防在训练迭代过程中遇到硬件错误。一万亿个标记通常需要4TB的存储空间。像Nvidia的H100这样的高端GPU具有80GB的集成HBM内存如果想用H100装下一个一万亿标记的模型需要4TB➗80GB51.2张卡。一个GPU的内存是无法容纳模型参数和训练集的。根据维基百科的说法大型语言模型LLM通常每个参数和标记需要进行六次浮点运算FLOP。这相当于对GPT-3模型进行训练需要进行3.15 x 10^23次浮点运算其中GPT-3模型的训练耗时为三周。因此在这三周的时间内它需要5.8 x 10^16次每秒的浮点运算能力FLOPs。一卡难求的H100长这样然而尽管Nvidia的最高性能H100 GPU在FP32模式下可以达到约67 TeraFLOPS每秒万亿次但在许多训练工作负载中由于内存和网络瓶颈GPU的利用率通常只能维持在30%左右。因此为了满足训练需求我们需要三倍数量的GPU大约是6,000个H100 GPU。原始的LLM模型表1是使用较旧版本的GPU进行训练的因此需要10,000个GPU。由于有成千上万个GPU模型和训练数据集需要在这些GPU之间进行分区以实现并行运行。并行性可以在多个维度上发生。数据并行性数据并行性Data Parallelism涉及将训练数据分割到多个GPU上并在每个GPU上训练模型的副本。典型流程包含数据分布、数据复制、梯度计算、梯度聚合、模式更新和重复等。数据分布训练数据被划分为小批量并在多个GPU之间分布。每个GPU获得一个独特的小批量训练集。模型复制模型的副本被放置在每个GPU上也称为工作节点。梯度计算每个GPU执行一次模型训练迭代使用其小批量数据进行前向传播以进行预测并进行反向传播以计算梯度这些梯度指示模型参数在下一次迭代之前应如何调整。梯度聚合来自所有GPU的梯度被汇总在一起。通常通过计算梯度的平均值来完成此步骤。模型更新汇总的梯度被广播到所有GPU。各个GPU更新其本地模型参数并进行同步。重复此过程重复多次直到模型完全训练完成。数据并行性可以在使用大型数据集时显著加快训练速度。然而它可能会导致大量的GPU间通信因为每个GPU都必须与训练中涉及的其他GPU通信。这种全对全的通信All-to-All可能会在每次训练迭代中在网络中产生大量的流量。训练大型语言模型LLMs时我们使用了一些方案例如环形全局归约Ring All-Reduce将梯度以环形模式从一个GPU发送到另一个GPU。在这个过程中每个GPU将其从前一个GPU接收到的梯度与本地计算的梯度进行聚合然后将其发送到下一个GPU。然而这个过程非常缓慢因为梯度聚合分布在多个GPU之间最终结果需要在环形拓扑中传播回所有GPU。如果网络拥塞GPU之间的流量会因等待聚合梯度而停滞。此外具有数十亿参数的LLMs无法适应单个GPU。因此仅靠数据并行性无法满足LLM模型的需求。模型并行性模型并行性Model Parallelism旨在解决模型无法适应单个GPU的情况通过将模型参数和计算分布到多个GPU上。典型的流程包含模型分区、前向传播、反向传播、参数更新、重复等。模型分区将模型划分为若干个分区每个分区分配给不同的GPU。由于深度神经网络通常包含一系列垂直层因此按层次划分大型模型是合乎逻辑的其中一个或一组层可能分配给不同的GPU。前向传播在前向传播过程中每个GPU使用“整个”训练集计算其模型部分的输出。一个GPU的输出作为下一个GPU的输入传递。下一个GPU在接收到前一个GPU的更新之前无法开始处理。反向传播在反向传播过程中一个GPU的梯度传递给序列中的前一个GPU。在接收到输入后每个GPU计算其模型部分的梯度。与前向传播类似这在GPU之间创建了顺序依赖关系。参数更新每个GPU在其反向传播结束时更新其模型部分的参数。需要注意的是这些参数不需要广播到其他GPU。重复此过程重复多次直到模型在所有数据上训练完成。流水线并行性流水线并行性Pipeline Parallelism将数据并行性和模型并行性相结合其中训练数据集的每个小批量进一步分成几个微批量。在上面的模型并行性示例中一个GPU使用第一个微批量计算输出并将该数据传递给序列中的下一个GPU。与在反向传播中等待从该GPU获取输入不同它开始处理训练数据集的第二个微批量依此类推。这增加了GPU之间的通信因为每个微批量都需要在序列中相邻的GPU之间进行前向传播和反向传播的通信。张量并行性张量并行性Tensor Parallelism是一种用于加速深度学习模型训练的技术。与模型并行和流水线并行技术不同张量并行性在操作级别或“张量”级别上划分模型而不是在层级别上划分。这种方法允许更精细的并行处理对某些模型来说更高效。具体来说张量并行性的步骤如下模型分区将模型划分为多个操作或“张量”每个操作分配给不同的GPU。这样每个GPU只负责计算部分操作的输出。前向传播在前向传播过程中每个GPU使用整个训练集计算其操作部分的输出。一个GPU的输出作为下一个GPU的输入传递。这样模型的计算被分散到多个GPU上。反向传播在反向传播过程中梯度从一个GPU传递到序列中的前一个GPU。每个GPU计算其操作部分的梯度。与前向传播类似这也创建了GPU之间的顺序依赖关系。参数更新每个GPU在其反向传播结束时更新其操作部分的参数。这些参数不需要广播到其他GPU。数据并行性、模型并行性、流水并行性、张量并行性……没搞懂不同并行技术的处理逻辑下面这个案例或许可以给你一些启发相信作为网工的你一定能很快理解~假设我们有2台机器node0和node1每台机器上有8块GPUGPU的编号为0~15。我们使用这16块GPU做MP/DP/TP/PP混合并行如下图MP模型并行组Model Parallism假设一个完整的模型需要布在8块GPU上则如图所示我们共布了2个model replica2个MP。MP组为[[g0, g1, g4, g5, g8, g9, g12, g13], [g2, g3, g6, g7, g10, g11, g14, g15]]TP张量并行组Tensor Parallism对于一个模型的每一层我们将其参数纵向切开分别置于不同的GPU上则图中一共有8个TP组。TP组为[[g0, g1], [g4, g5],[g8, g9], [g12, g13], [g2, g3], [g6, g7], [g10, g11], [g14, g15]]PP流水线并行组Pipeline Parallism对于一个模型我们将其每一层都放置于不同的GPU上则图中一共有4个PP组。PP组为[[g0, g4, g8, g12], [g1, g5, g9, g13], [g2, g6, g10, g14], [g3, g7, g11, g15]]DP数据并行组Data Parallism经过上述切割对维护有相同模型部分的GPU我们就可以做数据并行则图中共有8个DP组。DP组为[[g0, g2], [g1, g3], [g4, g6], [g5, g7], [g8, g10], [g9, g11], [g12, g14], [g13, g15]]读完本文相信你对训练大语言模型LLMs的三个步骤已经很熟悉通过网络抓取等方式进行数据集集成将源文本分割为标记通过模型参数并行处理的方式进行模型训练相信你也对大数据模型的多种并行类型有了初步认识无论使用何种并行性类型LLM 凭借其参数和数据集的庞大规模都会通过连接这些 GPU 的结构产生大量的 GPU 间流量。结构中的任何拥塞都可能导致训练时间过长且 GPU 利用率极低。之后将继续推出AI系列科普文为大家介绍GPU/TPU 集群设计以了解互连以及它们如何进行 LLM 训练。实际应用中训练完大语言模型LLMs之后需要对模型进行微调以满足不同组织企业的个性化需求该如何优化LLMs模型后续的推文将为您解答这些疑惑。作为一家网络公司为什么会那么关注AI、LLMs这些看似与自身业务关系不大的领域甚至开辟专栏为网络工程师科普相关知识主要出于技术和市场竞争方面的考虑。1.技术方面网络在大语言模型LLMs的训练过程中至关重要LLMs训练之初便需要通过网络抓取大量的数据集成数据集数据集中的大量参数和数据需要通过网络传输到GPU上进行并行处理网络连接的质量直接影响了数据传输的速度和效率。LLMs的训练会涉及到多个GPU的协同工作连接这些GPU的网络结构会产生大量的GPU间流量如果网络拥塞数据传输会受到影响导致训练时间过长且GPU利用效率降低。因此网络的稳定性、速度和带宽都对LLMs的训练效果至关重要。网络拥塞可能导致训练效率下降因此需要优化网络架构确保数据传输的高效性。2.市场竞争方面AI离不开LLMs训练市场潜力无穷人工智能作为人们高度关注的热点话题在许多领域拥有巨大的市场潜力。LLMs训练完毕后大模型与用户的交互过程中如chatGPT爆火全球很多用户都在使用的情况网络质量会直接影响用户对Gen AI应用的体验。想入门 AI 大模型却找不到清晰方向备考大厂 AI 岗还在四处搜集零散资料别再浪费时间啦2025 年AI 大模型全套学习资料已整理完毕从学习路线到面试真题从工具教程到行业报告一站式覆盖你的所有需求现在全部免费分享扫码免费领取全部内容一、学习必备100本大模型电子书26 份行业报告 600 套技术PPT帮你看透 AI 趋势想了解大模型的行业动态、商业落地案例大模型电子书这份资料帮你站在 “行业高度” 学 AI1. 100本大模型方向电子书2. 26 份行业研究报告覆盖多领域实践与趋势报告包含阿里、DeepSeek 等权威机构发布的核心内容涵盖职业趋势《AI 职业趋势报告》《中国 AI 人才粮仓模型解析》商业落地《生成式 AI 商业落地白皮书》《AI Agent 应用落地技术白皮书》领域细分《AGI 在金融领域的应用报告》《AI GC 实践案例集》行业监测《2024 年中国大模型季度监测报告》《2025 年中国技术市场发展趋势》。3. 600套技术大会 PPT听行业大咖讲实战PPT 整理自 2024-2025 年热门技术大会包含百度、腾讯、字节等企业的一线实践安全方向《端侧大模型的安全建设》《大模型驱动安全升级腾讯代码安全实践》产品与创新《大模型产品如何创新与创收》《AI 时代的新范式构建 AI 产品》多模态与 Agent《Step-Video 开源模型视频生成进展》《Agentic RAG 的现在与未来》工程落地《从原型到生产AgentOps 加速字节 AI 应用落地》《智能代码助手 CodeFuse 的架构设计》。二、求职必看大厂 AI 岗面试 “弹药库”300 真题 107 道面经直接抱走想冲字节、腾讯、阿里、蔚来等大厂 AI 岗这份面试资料帮你提前 “押题”拒绝临场慌1. 107 道大厂面经覆盖 Prompt、RAG、大模型应用工程师等热门岗位面经整理自 2021-2025 年真实面试场景包含 TPlink、字节、腾讯、蔚来、虾皮、中兴、科大讯飞、京东等企业的高频考题每道题都附带思路解析2. 102 道 AI 大模型真题直击大模型核心考点针对大模型专属考题从概念到实践全面覆盖帮你理清底层逻辑3. 97 道 LLMs 真题聚焦大型语言模型高频问题专门拆解 LLMs 的核心痛点与解决方案比如让很多人头疼的 “复读机问题”三、路线必明 AI 大模型学习路线图1 张图理清核心内容刚接触 AI 大模型不知道该从哪学起这份「AI大模型 学习路线图」直接帮你划重点不用再盲目摸索路线图涵盖 5 大核心板块从基础到进阶层层递进一步步带你从入门到进阶从理论到实战。L1阶段:启航篇丨极速破界AI新时代L1阶段了解大模型的基础知识以及大模型在各个行业的应用和分析学习理解大模型的核心原理、关键技术以及大模型应用场景。L2阶段攻坚篇丨RAG开发实战工坊L2阶段AI大模型RAG应用开发工程主要学习RAG检索增强生成包括Naive RAG、Advanced-RAG以及RAG性能评估还有GraphRAG在内的多个RAG热门项目的分析。L3阶段跃迁篇丨Agent智能体架构设计L3阶段大模型Agent应用架构进阶实现主要学习LangChain、 LIamaIndex框架也会学习到AutoGPT、 MetaGPT等多Agent系统打造Agent智能体。L4阶段精进篇丨模型微调与私有化部署L4阶段大模型的微调和私有化部署更加深入的探讨Transformer架构学习大模型的微调技术利用DeepSpeed、Lamam Factory等工具快速进行模型微调并通过Ollama、vLLM等推理部署框架实现模型的快速部署。L5阶段专题集丨特训篇 【录播课】四、资料领取全套内容免费抱走学 AI 不用再找第二份不管你是 0 基础想入门 AI 大模型还是有基础想冲刺大厂、了解行业趋势这份资料都能满足你现在只需按照提示操作就能免费领取扫码免费领取全部内容2025 年想抓住 AI 大模型的风口别犹豫这份免费资料就是你的 “起跑线”