全国做网站的公司有哪些谷歌浏览器在线打开
2026/4/16 23:34:32 网站建设 项目流程
全国做网站的公司有哪些,谷歌浏览器在线打开,西安网站建设云速网络,网络规划设计师视频从0开始微调DeepSeek-R1#xff1a;修改模型自我认知实战教程 1. 前言 在大模型应用落地过程中#xff0c;模型的自我认知#xff08;Self-Identity#xff09;定制化是一个关键需求。例如#xff0c;企业希望部署的AI助手能明确回答“我是由XX公司自主研发的AI模型”修改模型自我认知实战教程1. 前言在大模型应用落地过程中模型的自我认知Self-Identity定制化是一个关键需求。例如企业希望部署的AI助手能明确回答“我是由XX公司自主研发的AI模型”而非默认的开源项目描述。这种能力不仅增强品牌识别度也提升用户信任感。本文将围绕DeepSeek-R1-Distill-Qwen-1.5B模型手把手带你完成一次完整的自我认知微调实践。我们将使用 LLaMA-Factory 工具进行高效微调并通过 Ollama 实现本地化部署与 API 服务封装。整个流程无需深度学习背景适合初学者快速上手。本教程涵盖 - 微调前后的效果对比 - 使用 LLaMA-Factory 进行指令微调SFT - 模型导出与格式转换GGUF - 多种方式在 Ollama 中部署微调后模型 - 性能优化建议与常见问题排查2. 准备工作2.1 环境依赖确保以下工具已安装并配置好工具版本要求安装方式Python3.10官网下载Conda/Mamba推荐 Mambaconda install mamba -n base -c conda-forgeGit2.30apt install git或官网安装CUDA (GPU可选)11.8NVIDIA官网2.2 下载基础模型前往 ModelScope 下载预训练模型modelscope download --model_id deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5b或手动访问https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5b保存路径示例D:\git-project\model\DeepSeek-R1-Distill-Qwen-1.5B3. 使用LLaMA-Factory进行微调3.1 安装LLaMA-FactoryLLaMA-Factory 是一个开源的大模型微调框架支持多种主流架构和低资源微调技术如 LoRA。git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git cd LLaMA-Factory mamba create -n llama_factory python3.10 conda activate llama_factory pip install -e .[torch,metrics]启动 Web UInohup python src/webui.py train_web.log 21 访问地址http://localhost:7860提示若远程服务器运行请使用--server_name 0.0.0.0 --port 7860启动参数开放端口。3.2 构建自我认知数据集我们采用内置的身份微调模板文件data/identity.json其结构如下[ { instruction: 你是谁, input: , output: 我是{{name}}由{{author}}开发的人工智能语言模型。 }, { instruction: 介绍一下你自己, input: , output: {{name}}是由{{author}}独立研发的语言模型专注于提供专业、安全、高效的对话服务。 } ]修改变量值将{{name}}替换为你的模型名称如[Talk-Bot]将{{author}}替换为公司名如zibiao最终保存为自定义数据集文件例如data/custom_identity.json✅推荐做法可在原始 identity.json 基础上增加更多问答对提高泛化能力。3.3 配置微调参数进入 Web 界面后按以下设置填写参数项推荐值模型路径D:\git-project\model\DeepSeek-R1-Distill-Qwen-1.5B数据集custom_identity.json上传或替换原文件对话模板deepseek3必须选择否则推理异常微调方法LoRA显存不足时首选学习率2e-4学习率调度器cosine收敛稳定批次大小4根据显存调整梯度累积步数8CPU训练需降低至2~4最大序列长度512训练轮数3输出目录saves/deepseek-lora-train/显存不足应对策略显存情况建议配置8GB GPU使用 LoRA batch_size1~2CPU训练关闭 flash_attention梯度累积≤4INT8量化开启quantization_bit8点击【开始】按钮等待训练完成进度条达100%。4. 验证与导出微调模型4.1 加载检查点验证效果训练结束后在 LLaMA-Factory 的【Inference】页面中选择模型路径saves/deepseek-lora-train/checkpoint-xxx输入测试问题“你是谁”观察输出是否符合预期✅ 正常输出应类似我是[Talk-Bot]由zibiao开发的人工智能语言模型。如果未生效请检查 - 是否选择了正确的deepseek3模板 - 数据集中变量是否正确替换 - LoRA 权重是否成功加载4.2 导出完整模型进入【Export】页面执行以下操作选择训练好的 LoRA 检查点设置输出路径D:\git-project\trained-model\train_DeepSeek-R1-1.5B-Distill勾选“合并权重”选项Merge Adapter生成完整模型格式选择Hugging Face导出完成后目录结构如下train_DeepSeek-R1-1.5B-Distill/ ├── config.json ├── pytorch_model.bin ├── tokenizer_config.json ├── special_tokens_map.json └── ...该模型即可用于后续部署。5. 使用Ollama部署微调模型5.1 安装OllamaWindows 用户可直接下载安装包 https://ollama.com/download/OllamaSetup.exeLinux 用户执行curl -fsSL https://ollama.com/install.sh | sh验证安装ollama --version5.2 方式一从 Safetensors 权重部署推荐创建 Modelfile 文件FROM D:\git-project\trained-model\train_DeepSeek-R1-1.5B-Distill PARAMETER temperature 0.6 PARAMETER top_p 0.95 TEMPLATE {{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ : .Messages }} {{- $last : eq (len (slice $.Messages $i)) 1}} {{- if eq .Role user }}User{{ .Content }} {{- else if eq .Role assistant }}Assistant{{ .Content }}{{- if not $last }}end▁of▁sentence{{- end }} {{- end }} {{- if and $last (ne .Role assistant) }}Assistant{{- end }} {{- end }} 说明 -TEMPLATE必须与 DeepSeek-R1 官方一致否则输出混乱 - 可通过ollama show --modelfile deepseek-r1:1.5b获取参考模板构建模型ollama create my-tuned-deepseek -f Modelfile启动并测试ollama run my-tuned-deepseek 你是谁 我是[Talk-Bot]由zibiao开发的人工智能语言模型。5.3 方式二导入 GGUF 格式模型跨平台兼容适用于无 GPU 设备或边缘部署场景。转换为 GGUF 格式先克隆 llama.cppgit clone --depth 1 https://github.com/ggerganov/llama.cpp.git cd llama.cpp pip install -r requirements.txt执行转换脚本python convert_hf_to_gguf.py \ D:\git-project\trained-model\train_DeepSeek-R1-1.5B-Distill \ --outfile D:\git-project\trained-model\model.gguf \ --outtype q8_0支持量化类型q4_0,q8_0等数值越高质量越高但体积越大创建新 ModelfileFROM D:\git-project\trained-model\model.gguf PARAMETER temperature 0.6 PARAMETER top_p 0.95 TEMPLATE {{- if .System }}{{ .System }}{{ end }} {{- range $i, $_ : .Messages }} {{- $last : eq (len (slice $.Messages $i)) 1}} {{- if eq .Role user }}User{{ .Content }} {{- else if eq .Role assistant }}Assistant{{ .Content }}{{- if not $last }}end▁of▁sentence{{- end }} {{- end }} {{- if and $last (ne .Role assistant) }}Assistant{{- end }} {{- end }} 构建与运行ollama create my-tuned-gguf -f Modelfile ollama run my-tuned-gguf6. API调用与集成Ollama 兼容 OpenAI API 协议便于快速接入现有系统。发送请求示例Pythonimport requests url http://localhost:11434/v1/chat/completions headers {Content-Type: application/json} data { model: my-tuned-deepseek, messages: [{role: user, content: 你是谁}], temperature: 0.6, top_p: 0.95, stream: False } response requests.post(url, jsondata, headersheaders) print(response.json()[choices][0][message][content]) 默认端口11434 文档Ollama API Docs7. 模型量化与性能优化7.1 为什么要量化内存占用减少 40%~75%推理速度提升 20%~50%支持在消费级设备运行如笔记本、树莓派7.2 使用 Ollama 量化模型ollama create my-quantized -f Modelfile --quantize q4_K_M支持的量化等级类型位宽适用场景Q4_K_M4-bit平衡精度与性能推荐通用场景Q5_K_S5-bit高精度任务如数学推理Q8_08-bit接近 FP16 表现适合服务器部署Q2_K2-bit极低资源环境牺牲部分质量⚠️ 注意仅支持从 FP16/FP32 原始模型进行首次量化无法二次量化。8. 总结本文详细演示了如何从零开始微调DeepSeek-R1-Distill-Qwen-1.5B模型实现对其自我认知的完全定制化。核心步骤包括准备环境与模型下载基础模型并搭建 LLaMA-Factory 微调平台构建身份数据集通过修改identity.json实现角色定义执行 LoRA 微调低资源条件下高效训练导出融合模型生成可用于部署的完整权重多方式部署支持原生 HuggingFace 和 GGUF 格式API 集成与量化满足生产级性能与兼容性需求。实践建议优先使用 LoRA 微调节省显存且易于迭代避免系统提示注入遵循官方建议所有指令放 user prompt保护商业信息不要在公开模型中暴露敏感公司信息持续评估效果多次测试取平均值判断稳定性通过本次实践你已经掌握了轻量级大模型私有化定制的核心技能可进一步扩展至客服机器人、知识库问答、垂直领域专家系统等应用场景。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询