做网站找谁网页设计作业笔记
2026/2/5 16:52:50 网站建设 项目流程
做网站找谁,网页设计作业笔记,菏泽官方网站,汉沽集团网站建设手机自动化新玩法#xff01;Open-AutoGLM实战案例分享 1. 这不是科幻#xff0c;是今天就能用上的手机AI助理 你有没有过这样的时刻#xff1a; 想查个快递#xff0c;却在一堆App里来回切换#xff1b; 想给朋友发张截图#xff0c;结果点错三次才找到“截屏”按钮Open-AutoGLM实战案例分享1. 这不是科幻是今天就能用上的手机AI助理你有没有过这样的时刻想查个快递却在一堆App里来回切换想给朋友发张截图结果点错三次才找到“截屏”按钮想关注一个博主光是找入口、输ID、点关注就花了半分钟——而这些动作其实完全能交给AI来完成。Open-AutoGLM 就是这样一套真正落地的手机端AI Agent框架。它不靠预设脚本不依赖固定界面结构而是像人一样“看”屏幕、“想”步骤、“动”手指——用自然语言一句话就能让手机自动执行一整套操作。这不是概念演示也不是实验室玩具。它已支持真实安卓设备Android 7.0通过标准 ADB 协议控制结合视觉语言模型理解界面语义再生成可执行的动作序列。整个过程无需Root、不越狱、不安装特殊权限App安全可控隐私本地化。更关键的是它足够“傻瓜”。你不需要写代码、不关心坐标、不用学XPath只要会说话就能指挥手机干活。下面我们就从零开始带你亲手跑通一个真实案例用一句话让手机自动打开小红书搜索“川味火锅”并点击第一条笔记进入详情页。全程不碰屏幕只敲一行命令。2. 三步走通环境准备 → 设备连接 → 指令执行2.1 本地电脑要装什么别被“AI”“Agent”吓住——这套工具对本地电脑的要求非常友好操作系统Windows 10/11 或 macOS Monterey 及以上Python 版本3.10 或 3.11推荐 3.10.12ADB 工具Android SDK Platform-Tools官网下载约30MB额外注意不需要GPU本地电脑只负责发指令和传图AI推理跑在云端或你自己的服务器上小贴士如果你之前用过 Android 开发或刷机大概率已经装好了 ADB。打开终端输入adb version能显示版本号就说明环境就绪。2.2 手机端只需三步设置5分钟搞定这三步是唯一需要你在手机上手动操作的部分之后所有任务都可全自动开启开发者模式设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在处于开发者模式”启用USB调试设置 → 系统与更新 → 开发者选项 → 打开“USB调试”开关首次开启会弹窗提示勾选“始终允许”安装并启用 ADB Keyboard关键下载 ADB Keyboard APKv1.2安装后进入手机“设置 → 语言与输入法 → 当前输入法”将默认输入法切换为ADB Keyboard这一步让AI能真正“打字”——比如搜索时自动输入关键词而不是靠模拟点击软键盘注意部分国产手机如华为、小米可能在“开发者选项”里还有一项叫“USB调试安全设置”需一并开启OPPO/vivo 用户请关闭“USB安装”和“USB调试验证应用”两个开关否则ADB会拒绝连接。2.3 连接方式选哪个USB还是WiFi方式优点缺点推荐场景USB直连稳定、延迟低、免配IP需线缆、移动不便首次部署、调试阶段、追求成功率WiFi远程无线自由、可隔墙控制、支持多设备首次需USB配网、WiFi不稳定时易断连日常使用、批量测试、远程办公我们建议先用USB跑通第一个任务再切WiFi。WiFi配置只需两行命令首次adb tcpip 5555 adb connect 192.168.1.100:5555 # 替换为你手机的局域网IP手机IP可在“设置 → WLAN → 当前网络详情”中查看。3. 实战案例一句话操控小红书全流程3.1 准备工作启动模型服务云端或本地Open-AutoGLM 的核心AI能力由AutoGLM-Phone-9B模型提供。它不是轻量小模型而是专为手机UI理解优化的9B参数视觉语言模型能准确识别图标、文字、按钮状态和层级关系。你有两种部署选择方案A推荐新手用CSDN星图镜像广场一键启动访问 CSDN星图镜像广场搜索“Open-AutoGLM”选择预置镜像点击“一键部署”。系统自动拉起 vLLM 服务暴露http://公网IP:8000/v1接口无需任何配置。方案B进阶用户本地vLLM启动python3 -m vllm.entrypoints.openai.api_server \ --model zai-org/AutoGLM-Phone-9B \ --served-model-name autoglm-phone-9b \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --limit-mm-per-prompt {image:10}启动成功后终端会显示Uvicorn running on http://localhost:8000。验证服务是否就绪浏览器访问http://localhost:8000/v1/models应返回JSON含id:autoglm-phone-9b。3.2 控制端部署三行命令搞定在你的本地电脑Windows/macOS上执行git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .这会安装phone_agent包及其依赖包括adbutils、Pillow、requests等同时注册命令行工具main.py。3.3 发出指令真正的一句话自动化确保手机已通过USB或WiFi连接adb devices能看到设备ID然后运行python main.py \ --device-id 1234567890ABCDEF \ # 替换为 adb devices 输出的ID --base-url http://192.168.1.200:8000/v1 \ # 替换为你的模型服务地址 --model autoglm-phone-9b \ 打开小红书搜索‘川味火锅’点击第一条笔记执行过程你会看到清晰日志[INFO] 截取当前屏幕 → 上传至模型 [INFO] 模型理解屏幕为小红书首页底部有“发现”“同城”等Tab [INFO] 规划动作1. 点击搜索框 → 2. 输入“川味火锅” → 3. 点击搜索按钮 → 4. 等待结果加载 → 5. 点击第一条笔记 [INFO] 执行动作1/5点击坐标 (540, 120) [INFO] 执行动作2/5输入文本 “川味火锅” ... [SUCCESS] 任务完成已进入笔记详情页整个流程耗时约12–18秒取决于网络和手机性能期间你完全不用干预。3.4 为什么它能“看懂”界面——背后的关键技术Open-AutoGLM 不是靠OCR识别文字也不是靠模板匹配图标。它的多模态理解能力来自三个协同模块视觉编码器ViT将整张手机截图压缩为高维特征向量保留布局、颜色、大小、相对位置信息UI语义解码器把特征向量映射为结构化描述例如“顶部状态栏显示时间14:22中间是搜索框带放大镜图标下方是5个横向Tab当前选中‘发现’”动作规划器LLM基于自然语言指令 UI描述生成原子动作序列tap / swipe / input / back / home并自动处理异常如页面未加载完则等待举个真实例子当你说“点右上角三个点”模型会先定位“右上角区域”再识别该区域内所有可点击元素图标/文字/按钮最后根据语义“更多”“菜单”“设置”选择最可能的目标——而不是死记硬背坐标。4. 超越Demo这些真实场景它已稳定跑通Open-AutoGLM 的价值不在炫技而在解决具体问题。我们在实测中验证了以下高频场景均使用真机日常App4.1 电商类任务淘宝/京东/拼多多“打开京东搜索‘降噪耳机’按销量排序进入价格最低的商品页”“在拼多多领新人红包跳过所有弹窗截图保存到相册”成功率92%失败主因App临时更新UI模型需少量微调4.2 社交与内容平台微信/小红书/抖音“在微信里找到‘张三’发送‘周末聚餐’并附上昨天拍的餐厅照片”“打开小红书进入‘美食探店’话题页下滑刷新3次保存最新3篇笔记封面”关键能力跨App跳转、识别头像/昵称/消息气泡、处理图片选择弹窗4.3 工具与效率类设置/文件/邮件“把手机亮度调到50%关闭蓝牙打开Wi-Fi并连接‘Home-5G’”“在邮箱App中搜索‘发票’打开最近一封下载附件PDF到‘Download’文件夹”优势理解系统级设置路径如“设置→显示→亮度”无需预设菜单树4.4 安全边界设计它不会乱来所有涉及支付、转账、删除联系人、清除数据的操作模型会主动暂停并输出提示“检测到敏感操作【删除全部短信】请确认是否继续”在登录页、验证码输入页、二次验证弹窗出现时自动切换为“人工接管模式”等待你手动输入后继续所有ADB指令均通过白名单校验禁止执行adb shell rm -rf /等危险命令5. 进阶玩法用Python API定制你的专属助理命令行适合快速验证但真正融入工作流得靠代码。Open-AutoGLM 提供简洁的Python接口几行代码就能封装成业务函数5.1 基础调用封装一个“自动下单”函数from phone_agent import PhoneAgent from phone_agent.model import ModelConfig def auto_order_on_jd(keyword: str): 在京东自动搜索并进入商品页 model_config ModelConfig( base_urlhttp://192.168.1.200:8000/v1, model_nameautoglm-phone-9b, ) agent PhoneAgent(model_configmodel_config) # 一句指令自动完成 result agent.run(f打开京东搜索‘{keyword}’点击销量最高商品) return result.get(final_state, 未知状态) # 调用示例 state auto_order_on_jd(无线充电宝) print(f当前页面{state}) # 输出类似“商品详情页标题Anker 无线充电宝”5.2 批量任务一次下发10个指令from phone_agent.adb import ADBConnection conn ADBConnection() conn.connect(192.168.1.100:5555) # 连接设备 tasks [ 打开微博搜索‘AI新闻’保存前5条热搜截图, 打开高德地图搜索‘最近的咖啡馆’导航到第一家, 在设置里开启深色模式重启系统动画, ] for i, task in enumerate(tasks, 1): print(f\n--- 任务 {i}{task} ---) result agent.run(task) print(f 完成{result.get(summary, 无摘要)})5.3 调试技巧单步执行 截图回溯开发时最怕“黑盒执行”。Open-AutoGLM 支持全程截图存档agent PhoneAgent( model_configmodel_config, screenshot_dir./debug_screenshots, # 自动保存每步截图 debug_modeTrue # 输出详细动作日志 ) result agent.run(登录微信) # 查看 ./debug_screenshots/ 目录可逐帧分析模型决策依据6. 常见问题与避坑指南来自真实踩坑记录6.1 连接总失败先查这三点adb devices显示unauthorized→ 手机弹窗没点“允许”或开启了“USB调试安全设置”adb connect IP:5555返回failed to connect→ 手机和电脑不在同一局域网或路由器启用了AP隔离模型服务返回404 Not Found→ 检查URL末尾是否有/v1vLLM启动时是否加了--served-model-name参数6.2 操作总点错试试这些设置手机分辨率太高如2K屏→ 在config/phone_config.py中调整scale_factor 0.75App启动慢导致模型误判 → 在指令末尾加等待“...点击搜索等待3秒再点击第一条”中文输入法冲突 → 确保 ADB Keyboard 是唯一启用的输入法其他输入法全部停用6.3 想支持新App只需两步在config/app_mapping.json中添加App包名和常用入口Activitycom.xingin.xhs: { launch_activity: com.xingin.xhs.MainActivity, search_box_id: com.xingin.xhs:id/search_input }提供3–5张典型界面截图用examples/label_ui.py标注关键元素开源社区欢迎PR7. 总结手机自动化终于从“能用”走向“好用”Open-AutoGLM 不是一个孤立的工具它是手机AI Agent生态的重要拼图。它证明了一件事真正的自动化不在于多快而在于多“懂”。它不依赖固定坐标所以App更新后仍可用它不硬编码逻辑所以一句新指令就能解锁新功能它把复杂的技术VLM ADB 规划算法封装成“说人话”的接口让产品经理、运营、甚至普通用户都能上手。当然它还有成长空间目前对游戏类App支持较弱复杂表单填写准确率待提升多语言界面识别需加强。但开源的意义正是让这些短板在社区协作中快速补齐。如果你也厌倦了重复点击想让手机真正听懂你的话——现在就是最好的入场时机。从连接一台手机开始用一句话重新定义人机交互。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询