2026/5/18 18:31:38
网站建设
项目流程
大连可以做网站的公司,做服务网站发展背景,wordpress 常量,宝塔面板怎么做多个网站智谱发布并开源具备原生工具调用能力的GLM-4.6V多模态模型系列#xff0c;同步开源让手机自动驾驶的AutoGLM#xff0c;并上线基于SOTA语音模型的桌面端输入法。此次发布的GLM-4.6V系列包含两个版本#xff0c;106B参数的各种高算力场景基座模型#xff0c;以及9B参数的端侧…智谱发布并开源具备原生工具调用能力的GLM-4.6V多模态模型系列同步开源让手机自动驾驶的AutoGLM并上线基于SOTA语音模型的桌面端输入法。此次发布的GLM-4.6V系列包含两个版本106B参数的各种高算力场景基座模型以及9B参数的端侧轻量化模型训练上下文长度扩展至128k。在视觉理解精度上达到同参数规模SOTA并首次在模型架构中将工具调用能力原生融入视觉模型。与此同时AutoGLM开源了核心模型与Phone Use手机使用能力框架GLM-ASR语音识别模型则通过输入法产品将语音转文字、代码编写与润色功能带入PC桌面。它们共同构成了一个完整的技术叙事AI不再仅仅是聊天框里的文字生成器它拥有了原生的视觉、听觉以及直接操控数字设备的手。原生多模态工具调用GLM-4.6V的核心进化传统的大语言模型在使用工具时存在明显的断层。模型通常需要将图像、视频等多模态信息转化为纯文本描述再传递给工具。这一过程不仅繁琐更会导致关键视觉信息的丢失。GLM-4.6V彻底改变了这一路径。它实现了原生的多模态工具调用。图片、截屏、文档页可以直接作为参数传递给工具无需预先转译为文字。模型能够直接看懂工具返回的结果。无论是搜索结果的缩略图、统计图表还是网页渲染截图GLM-4.6V都能将其纳入推理链条生成包含丰富视觉信息的最终回复。这种能力让感知-理解-执行的闭环变得紧凑且高效。在电商购物场景中GLM-4.6V 模型可以独立完成从看图、比价、生成导购清单的完整链路。上传一张街拍图下达“搜同款”指令模型识别出购物意图并自主规划调用相关工具。在京东、唯品会、拼多多等平台返回的多模态、非结构化结果基础上模型自动完成信息清洗、字段归一化与结果对齐过滤噪声和重复项。最终生成一张标准化导购表格包含平台与店铺来源、价格、商品缩略图、匹配度与差异说明以及可直接跳转的购买链接。在富文本内容的理解与创作上GLM-4.6V展现了端到端的能力。面对论文、研报或PPT模型能自动生成图文并茂的结构化内容。它能理解包含图表、公式的复杂文档。在生成过程中它会自主调用工具裁剪关键视觉素材。它甚至能对素材进行视觉审计筛选掉无关噪点像一位专业的编辑那样排版。最终产出的是一篇可以直接发布在社交媒体或知识库中的高质量图文文章。甚至能多份文档自动汇总对比分析在长窗口条件下依然保持关键信息不丢失。前端开发的设计到代码周期被大幅压缩。GLM-4.6V针对前端场景进行了专项优化。用户上传一张截图或设计稿模型即可识别布局、组件和配色。它能直接生成高保真的HTML、CSS和JS代码实现像素级复刻。交互修改变得符合直觉。用户只需在页面截图上圈出区域用自然语言下达左移按钮、改深蓝色等指令。模型会自动定位代码片段并完成修改。长上下文理解能力是GLM-4.6V的另一块基石。128k的视觉编码上下文长度相当于单次推理能处理150页复杂文档、200页幻灯片或1小时视频。在金融研报分析场景中它能同时处理4家上市公司的财报。模型抽取核心指标合成对比分析表关键细节毫发无损。在视频理解方面它既能进行全局摘要也能捕捉时间线上的细微线索。例如在整场足球比赛视频中它能精准总结进球事件及其具体时间点。GLM-4.6V在MMBench、MathVista等20多个主流多模态评测中取得了开源模型中的SOTA目前最佳成绩。技术实现上GLM-4.6V引入了大规模长上下文图文数据进行持续预训练。它借鉴了Glyph的视觉语言压缩对齐思想增强了视觉编码与语言语义的协同。10亿级规模的多模态感知与世界知识数据集被引入预训练。这构建了多层次的概念系统大幅提升了跨模态问答的准确性。针对Agent智能体训练GLM-4.6V扩展了MCP模型上下文协议。它使用URL统一资源定位符来标识多模态内容解决了文件传输的限制。这允许模型在多图上下文中精准操作特定图片。在输出端模型采用了草稿-选图-润色的端到端机制确保图文混排的流畅性。强化学习被引入工具调用训练。这让模型在复杂的工具链中能更好地规划任务、遵循指令。视觉反馈循环机制让模型能根据渲染结果自我修正代码验证了智能体自我进化的可能。现在用户可以在Z.ai平台、智谱清言App体验GLM-4.6V或通过OpenAI兼容API接入应用。权重文件已在HuggingFace和ModelScope上架支持vLLM等高吞吐推理框架。AutoGLM开源把手机操作权交还给用户AutoGLM的愿景很简单让AI像人一样拿起手机把事情从头做到尾。它不应只停留在聊天框而应走进App帮用户点外卖、处理通知、完成重复性工作。为了实现这一目标智谱探索了32个月。从2023年4月起团队从零构建了Phone Use手机使用能力框架。早期版本充满了乱点和死循环。团队花了近一年时间将点击、滑动、输入等基础动作抽象化。模型学会了将自然语言拆解为稳定的操作步骤。它学会了应对网络波动、弹窗广告等真实世界的脏信息。2024年10月AutoGLM发布成为首个具备真机操作能力的AI Agent智能体。11月它发出了人类历史上第一个由AI在手机上完成的红包。这不是脚本录制而是模型看见界面、理解含义后的一步步操作。2025年AutoGLM 2.0发布。它引入了MobileRL移动端强化学习等算法在数千个虚拟设备中进行训练。为了安全AutoGLM选择在云端虚拟手机中运行。操作可以回放、审计敏感数据严格隔离。它不会在用户真实手机的微信里肆意操作。现在智谱选择将其开源。因为手机操作能力不应掌握在少数厂商手中。它应该成为行业的公共底座。开发者可以将其作为积木构建自己的系统。数据和隐私的控制权必须留在使用方一侧。企业可以在私有环境中完整掌控数据和权限。智谱希望通过开源让所有人站在同一起跑线上。开源内容包括训练好的核心模型AutoGLM-Phone-9B、Phone Use能力框架、可跑通的Demo演示以及Android适配层。模型采用MIT协议代码采用Apache-2.0协议。GLM-ASR与智谱AI输入法指尖即模型语音交互是人机交互的重要一环。智谱发布并开源了GLM-ASR系列语音识别模型。GLM-ASR-2512是云端模型字符错误率仅为0.0717。GLM-ASR-Nano-2512是1.5B参数的端侧模型却取得了当前开源语音识别方向的SOTA表现并在部分测试中优于若干闭源模型。实现了低延迟与高隐私保护的平衡。基于模型能力智谱AI输入法正式上线桌面端。它不再只是把话变成字。它实现了所选即所改。用户在输入框内即可调用模型进行翻译、扩写、润色。理解、执行、替换一气呵成无需切换应用。输入法支持千人千面的人设切换。面对老板时它将口语转化为逻辑严谨的汇报。面对伴侣时它将文字变得温柔俏皮。对于开发者Vibe Coding语感编程功能尤为实用。通过语音开发者可以快速输入代码逻辑、查找Linux指令或编写脚本。设计师也能用语音指令辅助设计工作。针对公共场所输入法优化了耳语捕捉能力。轻声说话也能精准识别避免了办公室语音输入的尴尬。它支持导入专属词汇和项目代号一次设置永久生效。目前云端模型已在bigmodel.cn开放调用。端侧模型权重及推理代码已在社区开源。智谱AI输入法面向所有用户开放下载并免费提供2000积分。智谱正式打通了从视觉、听觉感知到工具执行的最后一公里我们离解放双手让电脑、手机操作自动化不远了。智谱AI输入法https://autoglm.zhipuai.cn/autotyper/参考资料https://z.ai/blog/glm-4.6vhttps://github.com/zai-org/GLM-Vhttps://huggingface.co/collections/zai-org/glm-46vhttps://modelscope.cn/collections/GLM-46V-37fabc27818446https://github.com/zai-org/Open-AutoGLMhttps://huggingface.co/zai-org/AutoGLM-Phone-9Bhttps://huggingface.co/zai-org/GLM-ASR-Nano-2512