2026/4/16 3:30:55
网站建设
项目流程
ai免费模板网站,饥荒网站这么做,提升网站权重的方法,logo在线设计软件AutoGLM-Phone自动化办公#xff1a;日报生成与消息推送案例
1. 什么是AutoGLM-Phone#xff1f;一个真正能“看懂屏幕、动手操作”的手机AI助理
你有没有想过#xff0c;让手机自己完成那些重复又琐碎的操作#xff1f;比如每天早上自动打开企业微信#xff0c;截图工作…AutoGLM-Phone自动化办公日报生成与消息推送案例1. 什么是AutoGLM-Phone一个真正能“看懂屏幕、动手操作”的手机AI助理你有没有想过让手机自己完成那些重复又琐碎的操作比如每天早上自动打开企业微信截图工作群消息整理成日报发到邮箱或者在收到重要通知时立刻弹出醒目提醒、同步语音播报甚至自动回复确认——这些不再是科幻场景而是AutoGLM-Phone正在真实落地的能力。AutoGLM-Phone不是另一个聊天机器人也不是只能回答问题的语音助手。它是智谱开源的、专为安卓设备打造的端云协同AI Agent框架核心能力有两点看得懂和动得了。它用视觉语言模型VLM实时理解你手机屏幕上显示的每一个按钮、文字、图标和布局就像人眼大脑一样识别当前界面状态再通过ADBAndroid Debug Bridge这条“数字神经”直接模拟点击、滑动、输入、返回等真实操作。你不需要写脚本、不用学编程只要说一句“把今天钉钉群里的项目进度汇总成表格发给张经理”它就能一步步执行解锁手机→打开钉钉→切换到指定群→逐条读取消息→提取关键信息→生成Excel→填写收件人→发送邮件。这种“自然语言指令→视觉感知→动作规划→自动执行”的闭环正是Phone Agent区别于传统自动化工具的本质——它不依赖固定UI路径也不怕界面改版而是像一个真正熟悉手机操作的同事灵活应对各种变化。更关键的是它把安全放在第一位所有涉及账号登录、支付、短信等敏感操作前都会主动暂停并等待人工确认验证码弹窗出现时会截图上传由你远程输入整个过程支持USB直连与WiFi远程双模式开发调试和日常使用都足够稳定。2. 办公提效实战从零搭建“日报自动生成企业微信消息推送”流水线我们以一个高频办公需求为例每日9点自动抓取企业微信工作群中的任务更新生成结构化日报含负责人、截止时间、状态并通过邮件发送给主管同时在手机桌面弹出强提醒。这个任务过去需要手动操作5分钟以上现在只需一次配置后续全自动运行。下面带你一步步实现全程无需修改源码全部基于Open-AutoGLM官方控制端完成。2.1 环境准备三步搞定本地控制端别被“ADB”“VLM”这些词吓到——实际部署比安装一个微信还简单。你只需要三样东西一台电脑、一部安卓手机、以及10分钟耐心。你的电脑Windows/macOS均可安装Python 3.10官网下载安装包勾选“Add Python to PATH”下载Android SDK Platform-Tools即ADB工具包Windows用户解压后右键“此电脑”→属性→高级系统设置→环境变量→系统变量→Path→新建→粘贴ADB解压路径验证命令adb versionmacOS用户终端执行export PATH${PATH}:/your/path/to/platform-tools建议写入~/.zshrc永久生效你的安卓手机Android 7.0开启开发者模式设置→关于手机→连续点击“版本号”7次开启USB调试设置→开发者选项→启用“USB调试”安装ADB KeyboardGitHub Release页下载APK→设置→语言与输入法→选择“ADB Keyboard”为默认输入法这是实现自动输入的关键连接方式选择日常调试推荐USB直连稳定、免配网远程值守选WiFi连接需手机与电脑同局域网2.2 一键部署克隆代码、安装依赖、连接设备打开终端Windows用CMD/PowerShellmacOS用Terminal依次执行# 1. 克隆官方控制端代码Open-AutoGLM git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境推荐避免依赖冲突 python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装全部依赖 pip install -r requirements.txt pip install -e . # 4. 检查设备是否识别成功 adb devices # 正常输出类似XXXXXXX device如果adb devices返回空或unauthorized请在手机上弹出的授权窗口中点击“允许”。首次连接WiFi时先用USB线连一次再执行# 切换ADB为网络模式端口5555 adb tcpip 5555 # 断开USB用WiFi连接替换为你的手机IP adb connect 192.168.1.100:5555小贴士手机IP在哪找设置→WLAN→点击当前网络→查看“IP地址”。如果连接失败重启手机ADB服务adb kill-server adb start-server2.3 核心指令设计让AI听懂你的“办公语言”AutoGLM-Phone的强大一半在模型一半在指令表达。它不是关键词匹配而是真正理解语义。所以写指令时要像对同事布置任务一样清晰、具体、带上下文。以下是我们为“日报生成消息推送”设计的真实可用指令可直接复制运行python main.py \ --device-id emulator-5554 \ --base-url http://192.168.1.200:8800/v1 \ --model autoglm-phone-9b \ 现在是工作日早上9点请执行1. 解锁手机2. 打开企业微信3. 进入名为项目A-每日站会的群聊4. 向上滚动两屏截取最近10条含今日任务或待办字样的消息5. 提取每条消息中的负责人姓名、任务内容、截止时间若未写则填待确认、当前状态进行中/已完成/阻塞6. 将结果整理成带表头的Markdown表格7. 复制表格内容8. 打开Gmail应用9. 新建邮件收件人zhangcompany.com主题【日报】项目A-20240520正文粘贴表格10. 发送邮件11. 返回桌面在通知栏发送一条高优先级通知标题日报已发送内容项目A日报已通过邮件提交请查收12. 锁屏。注意几个关键细节--device-id填adb devices显示的ID如emulator-5554或WiFi地址如192.168.1.100:5555--base-url指向你部署好的云端模型服务如何部署vLLM服务不在本文展开但Open-AutoGLM文档提供了完整Docker镜像指令中明确写了时间条件“现在是工作日早上9点”、操作序列1.2.3...、内容判断逻辑含“今日任务”字样、容错处理截止时间未写则填“待确认”——这正是多模态Agent的智能所在它能结合视觉识别与文本推理动态决策2.4 Python API进阶封装成可调度的任务函数命令行适合快速验证但真正融入办公流需要用代码封装。以下是将上述流程封装为Python函数的精简示例支持定时触发如配合APSchedulerfrom phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent def generate_daily_report(): # 初始化ADB连接自动检测设备 conn ADBConnection() devices conn.list_devices() if not devices: print(❌ 未检测到可用设备) return False device_id devices[0].device_id print(f 使用设备: {device_id}) # 初始化AI代理指向你的云服务 agent PhoneAgent( device_iddevice_id, base_urlhttp://192.168.1.200:8800/v1, model_nameautoglm-phone-9b ) # 发送自然语言指令 instruction ( 现在是工作日早上9点请执行1. 解锁手机2. 打开企业微信 3. 进入名为项目A-每日站会的群聊4. 截取最近10条含今日任务的消息 5. 提取负责人、任务、截止时间、状态6. 整理成Markdown表格 7. 通过Gmail发送给zhangcompany.com8. 发送桌面通知9. 锁屏。 ) try: result agent.run(instruction, timeout300) # 5分钟超时 print(f 任务完成最终状态: {result.status}) print(f 输出摘要: {result.summary[:100]}...) return True except Exception as e: print(f❌ 执行失败: {str(e)}) return False # 调用示例 if __name__ __main__: generate_daily_report()这段代码的核心价值在于把AI操作变成了一个可调用、可监控、可重试的标准函数。你可以轻松接入CronLinux/macOS或Task SchedulerWindows设置每天9:00自动运行也可以集成到内部OA系统当项目经理点击“生成日报”按钮时后台静默触发。3. 不止于日报这些办公场景AutoGLM-Phone已经跑通日报只是冰山一角。我们在真实测试中发现AutoGLM-Phone在多个办公高频场景中表现稳定且远超传统RPA工具的适应性。以下是已验证的典型用例3.1 消息类跨平台强提醒与智能响应场景销售团队需及时响应客户微信消息但常因会议错过实现“当微信收到新消息且发件人昵称含‘客户’或‘VIP’时立即在手机顶部弹出红色横幅通知并语音播报‘重要客户消息请速查’若30秒内无操作则自动回复‘您好正在开会稍后详聊’。”优势传统方案需Root或特殊权限而AutoGLM-Phone仅靠ADB屏幕识别即可实现无需越狱。3.2 数据类多APP数据聚合与格式转换场景财务需每日汇总钉钉审批、飞书报销、企业微信收款单实现“依次打开钉钉→审批→我的申请→截图近3条打开飞书→工作台→报销→截图近3条打开企业微信→我→支付→截图近3条将三组截图中的金额、日期、事由提取出来合并去重生成统一Excel保存到‘/sdcard/Download/每日财务汇总.xlsx’。”优势不同APP界面结构千差万别但VLM能泛化识别无需为每个APP单独写XPath。3.3 流程类复杂业务链路一键触发场景HR入职流程创建企业微信账号→分配钉钉组织→开通邮箱→发送欢迎邮件实现“根据剪贴板中的新员工姓名、部门、邮箱依次1. 打开企业微信管理后台添加该员工2. 打开钉钉管理后台将其加入对应部门3. 打开邮箱管理后台创建账号4. 打开Outlook发送欢迎邮件附件含《入职指南》PDF。”优势整个流程跨越4个Web后台1个客户端AutoGLM-Phone通过ADB操控手机浏览器PC端远程ADB桥接实现全链路打通。4. 实战避坑指南那些踩过的坑帮你省下3小时调试时间再好的框架落地时也难免遇到“看似简单实则卡壳”的问题。以下是我们在真实部署中总结的高频问题与解法按发生概率排序4.1 设备连接类90%的问题出在这里现象根本原因快速解法adb devices显示????????或unauthorized手机未授权USB调试拔插USB线手机弹窗点“允许”或adb kill-server adb start-serverWiFi连接后adb shell响应极慢手机省电策略限制后台网络设置→电池→关闭“智能省电”或“后台冻结”或改用USBadb connect IP:5555成功但adb shell报错closedADB服务端口被防火墙拦截关闭电脑防火墙或在路由器中放行5555端口4.2 模型执行类让AI“听话”的关键细节指令总被忽略→ 检查是否遗漏了前置动作。例如“打开小红书搜美食”必须加“先解锁手机”否则锁屏状态下VLM无法获取屏幕。截图内容不全→ 在指令中明确要求“向上滚动两屏”或“滑动到底部”AutoGLM-Phone会自动执行滑动动作后再截图。输入文字失败→ 确认已安装ADB Keyboard并设为默认输入法若仍失败指令中加一句“长按输入框选择‘粘贴’”。验证码无法识别→ 当前VLM对扭曲验证码识别率有限。正确做法是指令中写明“遇到验证码弹窗时截图并上传至你的服务器URL等待人工输入后继续”。4.3 安全与稳定性生产环境必设的三道防线敏感操作白名单在config.yaml中配置sensitive_actions: [send_sms, access_contacts, make_payment]所有涉及列表内动作的指令强制暂停并等待人工确认。超时熔断机制每次agent.run()必须设置timeout参数建议120-300秒避免某一步卡死导致整条流水线挂起。失败自动重试对非敏感步骤如打开APP、截图可在代码中封装try-excepttime.sleep(5)重试逻辑提升鲁棒性。5. 总结为什么AutoGLM-Phone是自动化办公的下一个拐点回顾整个实践AutoGLM-Phone带来的改变不是“多了一个工具”而是重构了人机协作的范式它把“写脚本”的门槛降到了“说人话”的程度。市场专员不用学Python也能让手机自动抓取竞品小红书笔记HR不用懂XPath也能一键同步百人组织架构。它用视觉理解替代了脆弱的坐标点击。APP升级改版界面元素位置变动对AutoGLM-Phone来说只是“换了个样子”核心逻辑完全不变。它把AI从“回答者”变成了“执行者”。不再满足于告诉你“怎么操作”而是直接替你点、滑、输、发——这才是真正意义上的“智能助理”。当然它并非万能目前对强反爬网站如部分银行APP、极端低分辨率截图、或需要生物识别的场景仍需人工介入。但它的进化速度极快——开源社区已贡献了OCR增强、多步动作缓存、离线轻量模型等补丁。如果你正被重复性手机操作困扰或者想为团队打造一个“永不疲倦的数字员工”AutoGLM-Phone值得你花一个下午部署验证。真正的自动化不该是让人类去适应机器而是让机器学会理解人类的语言与意图。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。