2026/4/8 19:11:52
网站建设
项目流程
网站备案域名备案,wordpress自定义搜索功能,深圳在线,在线教育平台Open-AutoGLM使用全攻略#xff1a;支持50应用一键操作
1. 这不是科幻#xff0c;是你的手机新能力
你有没有想过#xff0c;手机能听懂你说话#xff0c;还能自己动手完成任务#xff1f;不是语音助手那种“帮你查天气”#xff0c;而是真正理解屏幕、思考步骤、点击滑…Open-AutoGLM使用全攻略支持50应用一键操作1. 这不是科幻是你的手机新能力你有没有想过手机能听懂你说话还能自己动手完成任务不是语音助手那种“帮你查天气”而是真正理解屏幕、思考步骤、点击滑动、输入文字——就像有个数字分身在替你操作手机。Open-AutoGLM 就是这样一套开源框架。它不依赖云端识别不上传截图所有视觉理解、意图分析、动作规划都在本地或你可控的服务器上完成。你说一句“打开小红书搜‘周末咖啡馆推荐’”它会自动解锁手机、找到App图标、点击进入、定位搜索框、输入文字、点击搜索整个过程无需你碰一下屏幕。这不是概念演示而是已支持美团、淘宝、微信、抖音、小红书、B站、高德、12306等50主流应用的真实能力。它背后是智谱AI开源的 AutoGLM-Phone-9B 多模态模型结合 ADBAndroid Debug Bridge自动化控制技术构建出“观察→思考→执行”的完整智能闭环。本篇不讲抽象原理只聚焦一件事让你从零开始用最短路径跑通第一个任务并掌握日常可用的全部操作方式。无论你是完全没接触过ADB的新手还是想快速集成到工作流的开发者都能在这里找到对应路径。2. 准备工作三步到位不卡在第一步别被“AI”“多模态”吓住——Open-AutoGLM 的部署门槛其实比很多Python项目还低。我们把准备工作压缩成三个清晰动作装好工具、连上手机、配对环境。每一步都有明确验证方式失败立刻可知。2.1 装两个关键工具Python 和 ADB你不需要编译源码也不需要配置CUDA除非你想用GPU加速。只需要两个基础工具Python 3.10用于运行控制端代码ADB 工具用于和安卓手机通信验证方式打开终端Windows用CMD/PowerShellMac用Terminal分别输入python --version adb version如果都显示版本号如Python 3.10.12和Android Debug Bridge version 1.0.41说明已就绪。❌ 如果提示“命令未找到”请按以下方式补装Python去 python.org 下载安装包安装时务必勾选“Add Python to PATH”ADB去 Android平台工具官网 下载对应系统压缩包解压后将文件夹路径添加到系统环境变量Windows在“系统属性→高级→环境变量→Path”中新增Mac在~/.zshrc中追加export PATH$PATH:/your/path/to/platform-tools小提醒Mac用户若用Homebrew可直接运行brew install android-platform-tools一步到位。2.2 让手机“认得”你的电脑安卓手机默认不信任任意电脑。你需要手动开启“开发者模式”并授权调试权限。三步操作全程手机设置内完成打开手机「设置」→「关于手机」→连续点击「版本号」7次直到弹出“您已处于开发者模式”返回「设置」→「系统」→「开发者选项」→开启「USB调试」用数据线连接手机与电脑 → 手机屏幕会弹出“允许USB调试吗”提示 → 勾选「始终允许」→ 点击「确定」验证方式终端输入adb devices正常应返回类似List of devices attached ABC123456789 device其中ABC123456789是你的设备ID“device”表示连接成功。若显示unauthorized说明手机未授权请检查第3步是否完成若为空列表尝试换USB口、换数据线或重启ADB服务adb kill-server adb start-server2.3 安装ADB Keyboard中文输入的关键这是最容易被忽略、却直接影响体验的一环。普通输入法无法被ADB调用而Open-AutoGLM要帮你在搜索框里打字必须用专用输入法。操作很简单下载 ADBKeyboard.apkGitHub官方发布页安全可靠终端执行安装命令adb install ADBKeyboard.apk手机上进入「设置」→「系统」→「语言和输入法」→「虚拟键盘」→ 启用ADB Keyboard将其设为默认输入法部分机型需长按输入框→“选择输入法”→切换验证方式在手机任意可输入位置如微信聊天框点一下看顶部状态栏是否出现“ADB Keyboard”字样。3. 部署核心模型服务 控制端两套代码各司其职Open-AutoGLM 是典型的“前后端分离”架构后端模型服务负责“看图”“思考”运行视觉语言模型前端控制端负责“连接手机”“发送指令”“执行动作”即你本地运行的Open-AutoGLM项目二者通过标准API通信你可以把模型服务部署在高性能服务器上控制端放在笔记本里互不干扰。3.1 模型服务用vLLM快速启动推荐CPU用户你不需要从头训练模型。AutoGLM-Phone-9B 已预训练完成只需下载启动。国内用户强烈推荐用魔搭ModelScope镜像速度远超Hugging Face。下载模型约18GBgit clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git安装推理引擎vLLMpip install vllm启动服务一行命令python -m vllm.entrypoints.openai.api_server \ --model ./AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --chat-template-content-format string验证方式看到终端输出Uvicorn running on http://0.0.0.0:8000即启动成功。你可以在浏览器访问http://localhost:8000/docs查看OpenAI兼容API文档。无GPU也能跑上述命令默认使用CPU。若你有NVIDIA显卡且已装CUDAvLLM会自动启用GPU加速响应速度提升3–5倍。3.2 控制端克隆、安装、即用这才是你每天打交道的部分。它轻量、纯Python无需编译。四步完成# 1. 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM # 2. 安装依赖含ADB通信库、图像处理等 pip install -r requirements.txt # 3. 安装为可导入模块支持后续Python API调用 pip install -e . # 4. 验证安装 python -c from phone_agent.adb import list_devices; print(list_devices())若输出设备列表说明控制端已准备就绪。4. 第一次运行从“打开设置”到“订一份外卖”别急着写复杂指令。先用最简单的任务确认整条链路畅通。我们分两种方式带你上手命令行快速试用和Python脚本灵活控制。4.1 命令行模式一句话启动结果实时可见这是最快验证的方式。打开终端进入Open-AutoGLM目录执行python main.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开设置你会看到类似输出 思考过程: 当前在桌面需要打开设置应用 执行动作: {action: Launch, app: 设置} 动作完成已启动设置应用同时你的手机屏幕上会真实打开「设置」App。再试一个稍复杂的python main.py \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开微信给张三发消息‘今天会议改到三点了’它会自动解锁手机 → 找到微信图标 → 点击进入 → 在通讯录中搜索“张三” → 进入对话 → 点击输入框 → 调用ADB Keyboard输入文字 → 点击发送。关键优势所有操作基于实时截图分析不是靠固定坐标点击。即使APP图标位置变化、界面改版只要视觉可识别它就能适应。4.2 Python API模式嵌入脚本批量处理更自由当你需要循环执行、条件判断、或集成进其他系统时Python API是更自然的选择。一个真实可用的示例自动回复未读消息from phone_agent import PhoneAgent from phone_agent.model import ModelConfig # 配置指向本地模型服务 model_config ModelConfig( base_urlhttp://localhost:8000/v1, model_nameautoglm-phone-9b, ) # 创建智能体实例 agent PhoneAgent(model_configmodel_config) # 执行任务支持中文长句 result agent.run(查看微信未读消息对前3条来自同事的消息统一回复‘收到马上处理’) print(f执行结果: {result})你能做什么批量给10个好友发节日祝福每天上午9点自动打开高德查通勤路况监控拼多多订单发货后自动截图保存结合OCR工具从图片中提取文字再搜索它不是一个黑盒指令工具而是一个可编程的手机自动化引擎。5. 实战技巧让50应用真正为你所用Open-AutoGLM 支持的应用不是“列表里写着”而是经过实测、可稳定触发的。我们整理了高频场景的真实可用指令模板照着写基本一次成功。5.1 生活服务类点外卖、叫车、订票场景推荐指令注意事项美团点餐打开美团搜索‘附近评分4.8以上的火锅店’进入第一家点‘双人套餐’加入购物车建议首次使用时关闭“自动支付”避免误操作滴滴打车打开滴滴出行输入目的地‘北京西站’呼叫快车需提前在滴滴App内完成实名认证12306购票打开12306查询今天北京到上海的高铁选择G101次提交订单登录态需保持建议提前手动登录验证技巧先用打开XXX确认App能启动再逐步叠加动作。5.2 电商购物类淘宝、京东、拼多多场景推荐指令关键点淘宝比价打开淘宝搜索‘无线降噪耳机’按销量排序截图前三名商品标题和价格截图是内置动作结果会保存在本地京东下单打开京东搜索‘小米手环8’选择黑色标准版加入购物车去结算支持识别颜色、版本等规格描述拼多多砍价打开拼多多进入‘砍价免费拿’活动对‘iPhone15’助力3次可识别活动页面结构自动点击“助力”按钮提示遇到验证码、短信验证等人工环节系统会自动暂停并提示“需人工接管”你完成验证后输入continue即可继续。5.3 社交娱乐类微信、抖音、小红书场景推荐指令效果说明微信管理打开微信进入‘家庭群’将最新一条带图片的消息转发给妈妈支持图文识别、群聊定位、消息筛选抖音运营打开抖音搜索‘AI教程’关注前5个粉丝超10万的账号可识别粉丝数、关注按钮状态小红书种草打开小红书搜索‘油皮夏季粉底液’收藏前3篇笔记点赞第2篇支持“收藏”“点赞”“评论”等完整互动6. 进阶掌控远程控制、敏感保护、自定义优化当基础功能跑通你可以进一步释放Open-AutoGLM的潜力。这些不是“炫技功能”而是解决真实痛点的设计。6.1 WiFi远程控制摆脱数据线束缚不用USB线一样能操控。适合手机放在支架上长期运行多台设备集中管理开发调试时避免反复插拔操作流程USB连接手机执行adb tcpip 5555断开USB确保手机和电脑在同一WiFi下终端输入adb connect 192.168.1.100:5555将IP换成你手机实际IP验证adb devices应显示192.168.1.100:5555 device之后所有命令中的--device-id参数直接填这个IP即可python main.py --device-id 192.168.1.100:5555 --base-url http://localhost:8000/v1 打开B站6.2 敏感操作确认支付、删除、隐私操作必经关卡安全不是口号。Open-AutoGLM 内置两级防护自动拦截检测到“支付”“删除聊天”“清除数据”等关键词立即暂停人工接管终端弹出明确提示如需要确认即将在美团支付28.5元是否继续(y/n)你输入y才继续输n则终止。你还可以自定义确认逻辑def my_confirm(msg): import os # 发送企业微信通知等待审批 os.system(fcurl -X POST https://qyapi.weixin.qq.com/... --data {msg}) return input(审批通过(y/n): ) y agent PhoneAgent( model_configmodel_config, confirmation_callbackmy_confirm )6.3 自定义提示词让AI更懂你的领域模型通用能力很强但针对特定场景微调效果立竿见影。修改phone_agent/config/prompts.py中的SYSTEM_PROMPT例如强化电商导购能力SYSTEM_PROMPT 你是一名资深电商购物助手专注在淘宝、京东、拼多多帮用户买到高性价比商品。 请严格遵守 1. 优先按销量排序而非价格 2. 主动识别“学生党”“宝妈”“程序员”等身份标签推荐适配商品 3. 对比至少3个竞品指出核心差异如“这款电池续航比A多2小时但比B重15g” 保存后重启main.py指令中带上“学生党”“宝妈”等词AI会主动按此逻辑分析。7. 故障排查90%的问题三步内解决部署中遇到报错别翻日志大海捞针。我们按发生频率整理了最可能卡住你的问题及直给方案。现象最可能原因一句话解决adb devices不显示设备USB调试未授权或未开启重新插拔数据线 → 手机点“允许” → 终端adb kill-server adb start-server模型服务启动报OSError: CUDA out of memory显存不足尤其RTX3060以下启动时加参数--device cpu强制CPU运行AI识别不了屏幕一直说“未找到元素”手机锁屏或截图权限被禁解锁手机 → 设置中开启“无障碍服务”和“截屏权限” → 重启服务中文输入乱码或不出现ADB Keyboard未启用为默认手机设置→语言输入法→切换默认输入法为ADB Keyboard → 重启手机运行时报ModuleNotFoundError: No module named phone_agent控制端未正确安装确保在Open-AutoGLM根目录下执行pip install -e .终极建议遇到任何问题先执行adb devices和curl http://localhost:8000/health检查模型服务健康状态80%的问题根源就在这两个命令的返回里。8. 总结你已经拥有了一个可编程的手机分身回看这一路你装好了Python和ADB让电脑和手机建立了信任你下载了18GB模型启动了一个能“看图思考”的本地AI服务你克隆了Open-AutoGLM用一行命令让手机自动打开设置你试了订外卖、刷抖音、回微信发现50应用真的可以听你指挥你学会了WiFi远程、敏感确认、自定义提示词把能力握在自己手里。Open-AutoGLM 的价值不在于它多酷炫而在于它足够实在——对个人把重复操作交给AI每天省下20分钟对开发者提供干净的Python API30行代码就能做出自动化工具对企业可私有化部署数据不出内网满足合规要求。它不是终点而是起点。接下来你可以 用Python写个脚本每天自动汇总工作群重要消息 给父母手机装上教他们用语音“帮我查快递” 在公司测试机集群上部署实现APP回归测试自动化真正的AI不该是遥不可及的概念。它应该像电一样开箱即用融入日常。--- **获取更多AI镜像** 想探索更多AI镜像和应用场景访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_sourcemirror_blog_end)提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。