2026/2/16 12:10:30
网站建设
项目流程
南宁网站建设哪家公,龙岩小程序app,wordpress授权怎么破解,东莞网站建设和制作vLLM 里的 Swap 和 Recompute 是两个专门解决 GPU显存不足 的“救星功能”。核心目标都是:在有限显存下,让你能跑更大的模型、处理更长的序列,不用因为显存不够就被迫降低模型规模或缩短文本长度。
先铺垫一个关键背景: LLM推理时,KV Cache 是显存占用的“头号大户”(比…vLLM 里的Swap和Recompute是两个专门解决GPU显存不足的“救星功能”。核心目标都是:在有限显存下,让你能跑更大的模型、处理更长的序列,不用因为显存不够就被迫降低模型规模或缩短文本长度。先铺垫一个关键背景:LLM推理时,KV Cache是显存占用的“头号大户”(比如跑 LLaMA-70B 处理 8k 序列,KV Cache 能占几十G显存)。其次是模型参数本身,最后是推理过程中产生的中间计算结果。Swap 和 Recompute 就是针对这两类“显存消耗大户”的优化策略——一个是**“挪走暂时不用的数据”,一个是“重新计算代替存储数据”**。一、 入门级:先搞懂核心概念(小白一眼明白)用一个通俗类比贯穿始终:把GPU显存比作你家的桌面(空间小,但拿东西最快);把CPU内存比作抽屉(空间大,拿东西比桌面慢一点);把硬盘比作仓库(空间超大,拿东西最慢);把推理需要的数据(KV Cache/中间结果)比作桌面上的文件。1. Swap:显存不够,“挪走”暂时不用的 KV Cache(1) 核心定义Swap 直译是“交换”,在 vLLM 里特指KV Cache Swap——把暂时用不上的 KV Cache 数据,从 GPU 显存“挪”到 CPU 内存,甚至硬盘里;等需要的时候,再“搬”回 GPU 显存继续用。(2) 原理类比(小白秒懂)你在桌面写论文,摊开的资料太多,桌面堆满了。第一步:把暂时不用的参考资料放进抽屉(内存),桌面空了,继续写;需要某份资料时,再从抽屉拿出来放桌面。第二步:如果抽屉也满了,就把不常用的资料放进仓库(硬盘),等要用到时再搬回来。对应 vLLM 的 Swap 逻辑:存储层级类比速度作用GPU 显存桌面