广州佛山网站建设地址企业建网站 优帮云
2026/4/8 12:12:36 网站建设 项目流程
广州佛山网站建设地址,企业建网站 优帮云,室内装饰设计装修,国内互动网站建设每天重复操作太烦#xff1f;让Open-AutoGLM帮你一键完成 你是否也经历过这些时刻#xff1a; 打开小红书搜美食#xff0c;点开、输入、翻页、截图#xff0c;重复十次#xff1b; 给十个客户发同一条微信#xff0c;复制、切换、粘贴、发送#xff0c;手指酸到发麻让Open-AutoGLM帮你一键完成你是否也经历过这些时刻打开小红书搜美食点开、输入、翻页、截图重复十次给十个客户发同一条微信复制、切换、粘贴、发送手指酸到发麻每天固定时间刷抖音关注新博主点进主页、找关注按钮、点击确认机械得像机器人……这些不是“该做的事”而是“本不该由人来做的事”。Open-AutoGLM 正是为此而生——它不教你写代码也不让你调参数只听你一句自然语言指令就替你把手机上的事全干了。1. 这不是遥控器是能看懂屏幕的AI助手1.1 它到底能做什么Open-AutoGLMPhone Agent不是传统意义上的自动化脚本。它不依赖预设坐标、不硬编码UI路径、不靠XPath或ID定位元素。它真正的能力在于一边看屏幕一边理解界面一边思考下一步一边动手操作。举几个真实可运行的例子“打开美团搜‘附近2公里内的川菜馆’把前三家店名和评分截图发到微信文件传输助手”“登录淘宝进入我的订单找到最近一笔未评价的订单点进去写‘菜品新鲜配送很快’并提交评价”“打开小红书搜索‘通义万相’点进第一条笔记长按保存图片然后返回首页”这些指令你不用拆解成“先点应用图标→再点搜索框→再输入文字→再点放大镜……”AI会自己判断当前界面状态、识别可点击区域、规划最优路径并通过ADB精准执行。1.2 和普通自动化工具的本质区别对比项传统ADB脚本 / Auto.jsOpen-AutoGLM理解能力完全不懂界面内容只认坐标或控件ID用视觉语言模型“看懂”当前屏幕按钮在哪、文字是什么、页面类型适应性换个手机分辨率或APP版本就失效坐标归一化多模态理解适配不同设备与界面变化指令方式需写代码“tap(500,300) → swipe(200,1000,200,300) → type(‘美食’)”自然语言“帮我搜美食选评分最高的那家”容错能力页面加载慢/弹窗出现/跳转失败 → 整个流程卡死AI实时感知状态自动加Wait、点Back、重试或请求人工接管中文支持ADB原生命令不支持中文输入内置ADB Keyboard广播机制完美输入中文、emoji、标点它不是“更聪明的脚本”而是第一个真正具备手机端GUI认知能力的开源Agent框架。1.3 谁在背后支撑它Open-AutoGLM 的能力来自三层协同视觉层每一步都截取当前屏幕转为base64图像传给模型AI层AutoGLM-Phone-9B模型基于GLM-4.1V微调同时接收图像文本指令输出带思考链的动作指令执行层ADB控制模块将AI输出的do(actionTap, element[500,300])安全解析、坐标转换、精准执行。三者环环相扣缺一不可。而整个过程你只需说一句话。2. 三分钟上手从连手机到跑通第一条指令2.1 硬件和环境准备极简版你不需要服务器、GPU或复杂配置。只要满足以下三点就能本地跑起来一台Windows/macOS电脑Python 3.10一部Android 7.0真机或模拟器推荐MuMu模拟器一根USB线WiFi连接可选但首次建议用USB注意这不是云端服务所有AI推理默认走你自己的云服务器或本地vLLM但控制端完全在你本地运行你的手机数据不会上传到任何第三方。2.2 手机端三步设置5分钟搞定别被“开发者模式”吓到这三步你肯定做过开开发者选项设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”开USB调试设置 → 系统 → 开发者选项 → 打开“USB调试”勾选即可装ADB Keyboard关键下载 ADB Keyboard APK安装后进入手机“设置 → 语言与输入法 → 当前输入法”把默认输入法切换为ADB Keyboard验证成功标志用USB线连电脑在命令行输入adb devices看到一串设备ID如emulator-5554或xxxxxx device说明ADB已通。2.3 控制端部署复制粘贴即可在你的电脑终端中依次执行# 1. 克隆项目国内用户建议用清华源加速 git clone https://gitee.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖自动处理ADB、Pillow、requests等 pip install -r requirements.txt pip install -e . # 3. 运行测试指令替换为你自己的设备ID python main.py \ --device-id emulator-5554 \ --base-url http://localhost:8000/v1 \ --model autoglm-phone-9b \ 打开微信搜索联系人‘张三’给他发消息‘明天会议提前半小时’设备ID怎么查运行adb devices第一列就是。base-url怎么填如果你还没部署模型服务先跳过这步用我们提供的免费API见下文“零门槛体验”。2.4 零门槛体验不用搭模型也能马上试不想折腾vLLM或租GPU没问题。Open-AutoGLM官方提供了公开可用的推理API端点限学习与演示python main.py \ --device-id emulator-5554 \ --base-url https://api.zai.org/v1 \ --model autoglm-phone-9b \ 打开抖音搜索‘AI Agent’点进第一个视频点赞并分享到微信无需注册、无需密钥、不限次数非商用场景。你看到的每一句思考、每一个动作都是真实模型在推理——不是mock不是demo。3. 实战演示一条指令五步自动完成我们以“打开小红书搜美食”为例全程录屏日志还原真实执行流3.1 第一步你只说一句它开始工作python main.py 打开小红书搜美食控制台立刻输出[INFO] Connected to device: emulator-5554 [INFO] Taking screenshot... [INFO] Current app: System Home [INFO] Sending multimodal request to model...3.2 第二步AI“看”屏幕“想”怎么做思考链输出屏幕上是手机桌面AI收到截图后第一反应是think 当前在系统桌面需要启动小红书应用。 小红书图标通常位于桌面第二页或应用抽屉中。 先尝试滑动到第二页查找若未找到则打开应用抽屉。 /think answerdo(actionSwipe, start[500,1000], end[500,200])/answer→ 它没瞎点而是根据常识判断图标位置并选择滑动而非盲目点击。3.3 第三步执行滑动再截新图继续“看”控制台显示[INFO] Executing: Swipe from (500,1000) to (500,200) [INFO] Taking new screenshot... [INFO] Current app: System Home新截图传来AI发现小红书图标已在视野中think 小红书图标已出现在屏幕左上角坐标约[200,300]。 点击该图标启动应用。 /think answerdo(actionTap, element[200,300])/answer3.4 第四步启动App等待加载识别搜索框几秒后小红书首页加载完成。AI再次分析截图think 已进入小红书首页顶部有搜索栏文字提示‘搜索小红书’。 点击搜索框激活输入法。 /think answerdo(actionTap, element[500,150])/answer3.5 第五步输入文字触发搜索此时ADB Keyboard已就绪AI发出输入指令think 搜索框已激活现在输入‘美食’二字。 注意使用中文输入法确保字符正确。 /think answerdo(actionType, text美食)/answer→ 控制台显示Inputting text: 美食 via ADB Keyboard手机屏幕实时出现“美食”二字回车键自动触发搜索。全程耗时约12秒你只说了7个字。没有一行脚本没有一次手动点击没有一次坐标校准。4. 它为什么能“稳”四个关键设计保障真实可用很多AI Agent项目Demo惊艳落地即崩。Open-AutoGLM在工程细节上做了大量“反Demo化”设计让它真正扛得住日常使用。4.1 坐标不靠猜靠归一化0-999的通用坐标系不同手机分辨率从720p到4K绝对坐标毫无意义。Open-AutoGLM强制AI输出0-999范围的相对坐标[0,0] 左上角[500,500] 屏幕正中心无论1080x2400还是1440x3200[999,999] 右下角执行时再动态换算x_abs int(element[0] / 1000 * screen_width) # 例500/1000 * 1080 540 y_abs int(element[1] / 1000 * screen_height) # 例300/1000 * 2400 720效果同一套Prompt、同一组训练数据直接泛化到所有安卓设备。4.2 中文不乱码靠广播不靠ADB原生ADBinput text命令对中文支持极差。Open-AutoGLM采用成熟方案ADB Keyboard Android广播。流程如下自动检测并切换输入法为ADB Keyboard用adb shell am broadcast -a ADB_INPUT_TEXT --es msg 美食发送UTF-8字符串输入完成后自动切回你原来的输入法效果输入“火锅、烧烤、川菜、、”全部原样呈现无乱码、无丢失。4.3 敏感操作不越界靠人工接管兜底遇到支付页、密码框、人脸识别系统会主动“刹车”截图失败 → 返回纯黑图 → AI识别为敏感页 → 输出do(actionTake_over, message请手动完成支付)收到该指令 → 触发你预设的回调函数如弹出提示框或打印文字→ 你手动操作 → 按回车继续效果既不强行操作引发风险也不静默失败全程可控、可审计、可中断。4.4 内存不爆炸靠“用完即删”策略一张1080p截图base64编码约1.2MB。如果10步都保留光图像就占12MB内存海量token。Open-AutoGLM的解法很朴素每步只传当前截图动作执行完毕立刻从历史消息中删除图像字段只留文本描述后续步骤仅携带“当前App小红书”、“页面已加载”等轻量状态效果100步任务内存占用稳定在20MB内推理速度不随步数衰减。5. 超越“自动化”它还能帮你做什么Open-AutoGLM的设计目标从来不是“替代点击”而是扩展人的操作半径。以下是开发者和普通用户都在用的真实场景5.1 个人效率把重复劳动交给AI信息采集每天固定时间抓取某电商商品价格生成Excel发邮箱社交管理批量给新粉丝发欢迎语自动识别头像性别并个性化称呼内容创作辅助在小红书搜“AI绘画教程”自动保存TOP10笔记封面图整理成素材库用户反馈“以前花2小时整理竞品海报现在设个定时任务早上咖啡没喝完图已存好。”5.2 开发者测试告别手工点点点UI回归测试写一条指令“登录→进个人中心→修改昵称→退出”每日自动跑截图对比差异多机型兼容验证同一指令批量在华为、小米、OPPO真机上执行自动生成兼容报告异常路径覆盖模拟网络断开、权限拒绝、弹窗出现测试App健壮性工程师说“我们把它集成进CI流水线每次发版前自动跑50条核心路径漏测率下降70%。”5.3 无障碍支持让视障用户“触摸”屏幕将屏幕内容实时语音播报接入TTS用户语音说“点右上角三个点”AI定位并点击结合OCR朗读图文笔记全文社区项目已基于此框架开发出简易版无障碍助手获2024中国信息无障碍大赛创新奖。6. 常见问题与避坑指南来自真实踩坑记录6.1 “为什么点不准”——不是AI问题是你的设置❌ 现象AI说点[500,300]但实际点了别的地方解决检查手机是否开启“开发者选项→最小宽度”或“字体缩放”这些会改变逻辑分辨率。关闭即可。进阶在phone_agent/config/apps.py中为你的设备添加专属适配如xiaomi: {scale_factor: 1.2}6.2 “中文输成方块”——ADB Keyboard没生效❌ 现象输入框显示□□□解决进入手机“设置→语言与输入法→当前输入法”确认已选ADB Keyboard在命令行运行adb shell ime list -s输出应含com.android.adbkeyboard/.AdbIME若无重新安装APK并重启手机6.3 “一直卡在‘正在加载’”——页面没刷新完就操作❌ 现象AI在空白页上乱点解决在Prompt中加入明确等待指令如“等待页面底部导航栏出现后再操作”。更优启用--wait-for-ui参数框架会自动检测关键UI元素如“搜索”文字、首页图标出现后再继续。6.4 “能控制iOS吗”——目前不支持但有路标❌ 现状iOS需通过WebDriverAgent或XCUITest架构与ADB完全不同进展智谱已发布iOS适配技术白皮书核心思路是“将XCUITest操作抽象为与ADB一致的action接口”预计Q3开源预览版。7. 总结它不是终点而是你手机智能体的第一站Open-AutoGLM的价值不在于它今天能做多少事而在于它证明了一件事让AI真正理解并操作GUI技术上已经可行工程上已经可用。它没有用晦涩的强化学习术语包装没有堆砌“多智能体”“分层规划”等概念而是用最朴实的方式——截图、看图、说话、动手——完成了从0到1的跨越。对你而言这意味着不用学编程自然语言就是你的API不用调模型开箱即用的推理服务就在那里不用怕失效归一化坐标状态感知人工接管三重保险不用等未来今天插上手机就能让它开始干活。那些每天重复的、琐碎的、消耗注意力的操作本就不该属于你。把它们交给Open-AutoGLM然后去做真正需要你思考、创造和感受的事。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询