江阴市建设局网站韦恩图在线制作网站
2026/5/13 23:36:26 网站建设 项目流程
江阴市建设局网站,韦恩图在线制作网站,商城版免费网站制作,北京事务所网页设计LLMs之MoE之Thinking#xff1a;LongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略 目录 LongCat-Flash-Thinking-2601的简介 1、特点 XXX的安装和使用方法 1、安装 2、使用方法 聊天模板概览 部署 在线体验 3、代码示例 多轮对话 (Multi-Tur…LLMs之MoE之ThinkingLongCat-Flash-Thinking-2601的简介、安装和使用方法、案例应用之详细攻略目录LongCat-Flash-Thinking-2601的简介1、特点XXX的安装和使用方法1、安装2、使用方法聊天模板概览部署在线体验3、代码示例多轮对话 (Multi-Turn Dialogue)工具调用 (Tool Calling)LongCat-Flash-Thinking-2601的案例应用LongCat-Flash-Thinking-2601的简介LongCat-Flash-Thinking-2601 是美团发布的 LongCat-Flash-Thinking 系列的更新版本。它是一款功能强大且高效的大型推理模型Large Reasoning Model, LRM基于创新的专家混合Mixture-of-Experts,MoE架构构建。该模型的总参数量达到5600 亿激活参数量为270 亿。它不仅继承了先前版本的领域并行训练方法在传统推理基准上保持了极高的竞争力还通过一个精心设计的流程系统性地增强了其“智能体思维”agentic thinking能力。该流程结合了环境扩展environment scaling、后续任务合成task synthesis以及可靠高效的大规模多环境强化学习。为了更好地适应现实世界智能体任务中固有的噪声和不确定性模型在多种类型和级别的环境噪声下进行了系统的分析和课程学习curriculum training使其在非理想条件下也能表现出强大的性能。因此LongCat-Flash-Thinking-2601 不仅在智能体工具使用、智能体搜索和工具集成推理等基准测试中取得了顶级性能还在任意的分布外out-of-distribution真实世界智能体场景中展现了显著提升的泛化能力。此外该模型还引入了“重思考模式”Heavy Thinking Mode通过密集的并行思考进一步增强了模型在应对极端挑战性任务时的表现。Huggingface地址https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-26011、特点LongCat-Flash-Thinking-2601 的核心优势体现在以下几个方面环境扩展与多环境强化学习- **高质量环境构建**模型构建了一系列多样化的高质量环境作为强化学习的“训练场”。每个环境包含超过60个工具这些工具组织在一个密集的依赖关系图中为构建复杂任务和大规模探索提供了充足的复杂度。研究发现随着训练环境数量的增加模型在领域外评估中的表现持续提升表明其泛化能力得到加强。- **高质量任务构建**为了保证训练任务的质量模型明确地控制了任务的复杂性和多样性。每个任务都在从高质量环境中采样出的连通子图上定义并通过要求在子图内协调使用尽可能多的工具来控制任务复杂度。为了促进任务多样性先前已选择工具的采样概率会逐渐降低。- **多环境强化学习**模型扩展了其强化学习基础设施DORA以支持大规模的多环境智能体训练。来自多个环境的任务以平衡的方式被共同组织在每个训练批次中并根据任务的复杂度和当前训练状态分配不同的推演预算rollout budgets。针对噪声环境的稳健性训练- **模拟真实世界**认识到现实世界的智能体环境本质上是充满噪声和不完美的模型在训练过程中明确地引入了环境缺陷以增强其稳健性。- **系统性噪声注入**团队系统性地分析了智能体场景中现实世界噪声的主要来源并设计了一个自动化流程将这些噪声注入到训练环境中。- **课程学习策略**在强化学习期间模型采用了一种课程学习策略随着训练的进行逐步增加噪声的类型和强度。得益于这种稳健性训练模型对环境的不确定性表现出强大的韧性并在非理想条件下持续获得性能提升。重思考模式- **目标**旨在将模型的推理能力推向新的边界。- **两阶段过程**将挑战性问题的解决分解为两个互补的阶段并行思考parallel thinking和总结summarization从而同时扩展推理的深度和广度。- **推理广度扩展**在“重思考模式”下模型以并行方式独立生成多个推理轨迹从而对推理路径进行广泛探索。通过应用合理较高的推理温度inference temperature来确保路径的多样性。- **推理深度扩展**在总结阶段提炼出的轨迹可以被递归地反馈给总结模型形成一个支持逐步深化推理的迭代循环。- **专项训练**通过一个额外的、专门为训练总结能力而定制的强化学习阶段进一步释放了此模式的潜力。您可以在龙猫AI平台https://longcat.chat/上体验此模式。LongCat-Flash-Thinking-2601的安装和使用方法1、安装模型下载地址https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601/tree/main2、使用方法模型本身无需特殊安装可以通过标准的 transformers 库进行加载和使用。核心步骤是使用 AutoTokenizer 和 AutoModelForCausalLM 从 Hugging Face Hub 加载模型和分词器。from transformers import AutoModelForCausalLM, AutoTokenizer model_name meituan-longcat/LongCat-Flash-Thinking-2601 # 加载分词器和模型 tokenizer AutoTokenizer.from_pretrained(model_name) # model AutoModelForCausalLM.from_pretrained(model_name) # 加载模型的标准方式聊天模板概览模型的使用核心在于其独特的聊天模板Chat Template通过 apply_chat_template 方法应用。为了支持高级工具使用场景和复杂的推理模式聊天模板进行了重要更新。基本用法text tokenizer.apply_chat_template( messages, toolstools, tokenizeFalse, enable_thinkingTrue, # 启用思考模式 add_generation_promptTrue, save_history_reasoning_contentFalse # 默认不保存历史思考内容 )- **模板关键特性**:1. **工具声明 (Tool Declaration)**: 在会话开始时声明可用工具以激活模型的工具使用能力并定义可用动作的范围。2. **交错式思考 (Interleaved Thinking)**: 默认模式。在此模式下最终的回答会被保留而先前用户交互中的思考内容会被丢弃以维持一个简洁的上下文窗口。工具调用和响应会被保留以提供必要的执行历史。3. **推理保留 (Reasoning Retention)**: 如果需要跨轮次保留模型的思考内容可以将 save_history_reasoning_content 设置为 True。部署模型已在 SGLang 和 vLLM 中实现了基本适配以支持部署。详细的部署说明请参考项目文件中的 Deployment Guide。在线体验您可以在官方网站 https://longcat.ai 上与 LongCat-Flash-Thinking-2601 进行聊天。请注意在提交请求前需要开启“Think”中文为“深度思考”按钮。3、代码示例以下是使用 apply_chat_template 方法处理不同场景的两个具体代码示例。多轮对话 (Multi-Turn Dialogue)此示例演示了模板如何处理对话历史和思考内容。from transformers import AutoTokenizer #, AutoModelForCausalLM model_name meituan-longcat/LongCat-Flash-Thinking-2601 tokenizer AutoTokenizer.from_pretrained(model_name) # model AutoModelForCausalLM.from_pretrained(model_name) # 假设模型已加载 messages [ { role: system, content: You are a helpful assistant. }, { role: user, content: Please tell me what is $$1 1$$ and $$2 \\times 2$$? }, { role: assistant, reasoning_content: This question is straightforward: $$1 1 2$$ and $$2 \\times 2 4$$., content: The answers are 2 and 4. }, { role: user, content: Check again? } ] # 应用聊天模板不保存历史思考内容以节省token text tokenizer.apply_chat_template( messages, tokenizeFalse, enable_thinkingTrue, add_generation_promptTrue, save_history_reasoning_contentFalse ) # 打印生成的模板化文本结构 # 预期结构: longcat_systemYou are a helpful assistant.longcat_userPlease tell me what is $$1 1$$ and $$2 \times 2$$?longcat_assistantThe answers are 2 and 4/longcat_slongcat_userCheck again? /think_on longcat_assistantlongcat_think\n print(text) # # --- 模型生成部分 --- # model_inputs tokenizer([text], return_tensorspt).to(model.device) # generated_ids model.generate( # **model_inputs, # max_new_tokens32768 # ) # output_ids generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # response tokenizer.decode(output_ids, skip_special_tokensTrue).strip(\n) # print(response) # 示例输出: # The user wants a double-check. Since $$1 1 2$$ and $$2 \times 2 4$$ are basic arithmetic truths, the previous answer is correct.\n/longcat_think\nI have verified the calculations: $$1 1 2$$ and $$2 \times 2 4$$. The initial answer remains correct./longcat_s**说明**: 在这个例子中由于 save_history_reasoning_content 为 False第一轮助手的 reasoning_contentThis question is straightforward...在构建第二轮输入的提示时被丢弃只保留了最终回答 contentThe answers are 2 and 4.。模型在生成新一轮回答时会先生成新的思考过程longcat_think.../longcat_think然后再给出最终答案。工具调用 (Tool Calling)此示例展示了如何在推理框架内集成函数调用。# from transformers import AutoTokenizer, AutoModelForCausalLM # model_name meituan-longcat/LongCat-Flash-Thinking-2601 # tokenizer AutoTokenizer.from_pretrained(model_name) # model AutoModelForCausalLM.from_pretrained(model_name) # 假设模型已加载 tools [ { type: function, function: { name: func_add, description: Calculate the sum of two numbers, parameters: { type: object, properties: { x1: {type: number, description: The first addend}, x2: {type: number, description: The second addend} }, required: [x1, x2] } } } ] messages [ { role: system, content: You are a helpful assistant. }, { role: user, content: Please tell me what is $$125679 234519$$? }, { role: assistant, reasoning_content: This calculation requires precision; I will use the func_add tool., tool_calls: [{ type: function, function: { name: func_add, arguments: {x1: 125679, x2: 234519} } }] }, { role: tool, name: func_add, content: {ans: 360198} } ] text tokenizer.apply_chat_template( messages, toolstools, tokenizeFalse, enable_thinkingTrue, add_generation_promptTrue, save_history_reasoning_contentFalse ) # # --- 模型生成部分 --- # model_inputs tokenizer([text], return_tensorspt).to(model.device) # # 根据工具结果生成响应 # generated_ids model.generate( # **model_inputs, # max_new_tokens32768 # ) # output_ids generated_ids[0][len(model_inputs.input_ids[0]):].tolist() # response tokenizer.decode(output_ids, skip_special_tokensTrue).strip(\n) # print(response)**说明**: 在这个例子中messages 列表包含了完整的工具调用流程1. 用户提出需要计算的问题。2. 助手assistant角色决定使用工具并在 tool_calls 中指定了要调用的函数 func_add 及其参数。3. 工具tool角色返回了函数执行的结果。4. 接下来模型将基于这个工具返回的结果{ans: 360198}生成最终的人类可读的回答。LongCat-Flash-Thinking-2601的案例应用更新中……

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询