2026/5/18 21:55:47
网站建设
项目流程
常州网站制作套餐,企业管理咨询合同模板,中石化第四建设有限公司网站,叫任何一个人一个小时做网站零基础教程#xff1a;手把手教你用vLLM启动DeepSeek-R1轻量化大模型
本教程将带你从零开始#xff0c;在本地环境中使用 vLLM 成功部署并运行 DeepSeek-R1-Distill-Qwen-1.5B 轻量化大模型。无论你是AI初学者还是希望快速搭建推理服务的开发者#xff0c;本文都提供了完整…零基础教程手把手教你用vLLM启动DeepSeek-R1轻量化大模型本教程将带你从零开始在本地环境中使用vLLM成功部署并运行DeepSeek-R1-Distill-Qwen-1.5B轻量化大模型。无论你是AI初学者还是希望快速搭建推理服务的开发者本文都提供了完整、可复现的操作流程。1. 环境准备与系统要求在开始之前请确保你的硬件和软件环境满足以下条件1.1 硬件要求GPUNVIDIA 显卡推荐至少8GB显存如 GTX 4060 Ti / RTX 3070 或更高内存≥16GB RAM存储空间≥20GB 可用磁盘空间用于模型下载和缓存1.2 软件依赖组件版本/说明操作系统Windows 10/11支持WSL2或 LinuxUbuntu 20.04WSL2必须启用仅Windows用户需要CUDA Toolkit≥11.8Python≥3.10建议通过 Anaconda 管理vLLM最新版本支持 OpenAI API 兼容接口注意vLLM 目前不支持原生 Windows 运行必须通过 WSL2 在 Windows 上部署 Linux 子系统来完成安装。2. 安装运行环境以Windows为例2.1 启用WSL2并安装Linux发行版打开 PowerShell管理员权限依次执行以下命令# 启用WSL功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart # 启用虚拟机平台 dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart重启电脑后下载并安装 WSL2 内核更新包。设置默认版本为 WSL2wsl --set-default-version 2从 Microsoft Store 安装 Ubuntu 22.04 LTS安装完成后启动并设置用户名和密码。2.2 安装Anaconda3进入 WSL2 终端下载并安装 Anacondacd /mnt/d wget https://repo.anaconda.com/archive/Anaconda3-2024.06-1-Linux-x86_64.sh bash Anaconda3-2024.06-1-Linux-x86_64.sh按提示完成安装并确认是否将conda添加到.bashrc。安装完成后验证conda -V若未生效手动添加路径echo export PATH$PATH:/home/your-username/anaconda3/bin ~/.bashrc source ~/.bashrc2.3 安装CUDA驱动WSL内NVIDIA 已为 WSL 提供专用 CUDA 支持。执行以下命令安装wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/11.8.0/local_installers/cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-11-8-local_11.8.0-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-11-8-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda安装完成后重启 WSLwsl --shutdown重新进入终端后检查 GPU 是否可见nvidia-smi应能看到类似输出----------------------------------------------------------------------------- | NVIDIA-SMI 535.129.03 Driver Version: 537.58 CUDA Version: 12.2 | |--------------------------------------------------------------------------- | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | || | 0 NVIDIA GeForce ... On | 00000000:01:00.0 Off | N/A | | N/A 48C P8 10W / N/A | 120MiB / 8192MiB | 5% Default | ---------------------------------------------------------------------------2.4 创建Python虚拟环境并安装vLLMconda create -n env-vllm python3.12 -y conda activate env-vllm pip install vllm验证安装成功vllm --help3. 下载DeepSeek-R1-Distill-Qwen-1.5B模型该模型可通过 ModelScope 或 Hugging Face 获取。我们推荐使用 Git LFS 方式下载。3.1 安装Git LFScurl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs git lfs install3.2 克隆模型仓库假设你已将模型保存至 E:\models映射为/mnt/e/modelsmkdir -p /mnt/e/models cd /mnt/e/models git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git等待下载完成约 3~5 分钟取决于网络速度。最终目录结构如下/mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B/ ├── config.json ├── model.safetensors ├── tokenizer_config.json └── ...4. 使用vLLM启动模型服务激活虚拟环境并启动服务conda activate env-vllm vllm serve /mnt/e/models/DeepSeek-R1-Distill-Qwen-1.5B \ --gpu-memory-utilization 0.92 \ --max-model-len 900004.1 参数说明参数作用--gpu-memory-utilization 0.92设置GPU内存利用率避免OOM--max-model-len 90000支持超长上下文9万token--port 8000自定义端口默认8000--host 0.0.0.0允许外部访问调试时可用启动成功后你会看到日志中出现INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit)表示模型服务已在本地8000端口监听。5. 测试模型服务是否正常运行5.1 查看模型信息你可以通过 curl 请求获取模型列表curl http://localhost:8000/v1/models预期返回包含模型名称的信息。5.2 编写Python客户端调用测试创建一个测试脚本test_model.pyfrom openai import OpenAI # 初始化OpenAI兼容客户端 client OpenAI( base_urlhttp://localhost:8000/v1, api_keynone # vLLM不需要真实API Key ) # 发起聊天请求 response client.chat.completions.create( modelDeepSeek-R1-Distill-Qwen-1.5B, messages[ {role: user, content: 请用中文介绍一下人工智能的发展历史} ], temperature0.6, max_tokens512 ) print(AI回复) print(response.choices[0].message.content)运行脚本python test_model.py如果输出一段关于AI发展史的合理回答则说明部署成功。6. 高级使用技巧与最佳实践6.1 推荐参数配置根据官方建议使用 DeepSeek-R1 系列模型时应遵循以下配置参数推荐值说明temperature0.6控制生成多样性过高易发散过低重复system prompt不使用所有指令应放在 user 消息中数学问题提示词请逐步推理并将最终答案放在\\boxed{}内。提升解题准确性强制换行在输出开头加\n防止跳过思维链示例数学提问messages [ {role: user, content: \\n请逐步推理并将最终答案放在\\boxed{}内。\n求解方程x^2 - 5x 6 0} ]6.2 流式输出实现对于长文本生成推荐使用流式响应提升用户体验import asyncio from vllm import AsyncEngineClient async def stream_inference(): engine AsyncEngineClient(http://localhost:8000) async for chunk in engine.generate(你好世界, model): print(chunk.text, end, flushTrue) # 注意需配合异步框架使用或使用 OpenAI SDK 的流模式stream client.chat.completions.create( modelDeepSeek-R1-Distill-Qwen-1.5B, messages[{role: user, content: 写一首关于秋天的诗}], streamTrue ) for chunk in stream: if chunk.choices[0].delta.content: print(chunk.choices[0].delta.content, end, flushTrue) print()7. 常见问题排查7.1 模型加载失败CUDA out of memory解决方案降低--gpu-memory-utilization至0.8减小--max-model-len到32768关闭其他占用显存的应用7.2 WSL中无法识别GPU确保主机已安装最新版 NVIDIA 驱动≥535检查 WSL2 是否正确安装 CUDA执行wsl --update更新内核7.3 模型服务无法访问检查防火墙设置若需远程访问启动时加上--host 0.0.0.0确认端口未被占用lsof -i :80008. 总结本文详细介绍了如何在本地环境特别是 Windows 平台中使用vLLM成功部署DeepSeek-R1-Distill-Qwen-1.5B模型的全过程涵盖WSL2 环境搭建CUDA 与 vLLM 安装模型下载与加载API 服务启动与调用实际应用中的参数优化建议通过本教程你已经具备了独立部署轻量级大模型的能力可用于本地开发、测试、教育演示或小型项目集成。下一步你可以尝试 - 将服务封装为 Docker 容器 - 结合 LangChain 构建智能应用 - 使用 Web UI如 Gradio提供图形化交互界面掌握这些技能后即可轻松构建属于自己的私有化大模型推理平台。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。