2026/4/17 0:43:57
网站建设
项目流程
index.html网站怎么做,淘宝运营跟做网站哪种工资高,江苏省建设工程考试网站,打死都不想干电商运营了5分钟上手智谱Phone Agent#xff0c;AI自动玩转小红书抖音
你有没有想过#xff0c;让AI像真人一样操作你的手机#xff1f;不是简单的语音唤醒#xff0c;而是真正“看”懂屏幕、“点”进App、“搜”出内容#xff0c;甚至帮你关注博主、点赞视频、查找攻略。听起来像科…5分钟上手智谱Phone AgentAI自动玩转小红书抖音你有没有想过让AI像真人一样操作你的手机不是简单的语音唤醒而是真正“看”懂屏幕、“点”进App、“搜”出内容甚至帮你关注博主、点赞视频、查找攻略。听起来像科幻片现在借助Open-AutoGLM这个开源项目这一切已经可以实现。更关键的是——你不需要高端显卡也不用自己训练大模型。只需要一台普通电脑、一部安卓手机再配合智谱的API就能在5分钟内搭建一个属于自己的AI手机助理。本文将带你从零开始快速部署并实测它如何自动操作小红书和抖音。1. 什么是 Open-AutoGLMOpen-AutoGLM 是由智谱开源的手机端 AI Agent 框架核心名为AutoGLM-Phone。它不是一个固定脚本而是一个具备“视觉语言决策”能力的智能体。它的运作方式非常接近人类使用手机的过程看通过 ADB 截图获取手机当前界面。想把截图和你的自然语言指令如“打开小红书搜美食”一起传给视觉语言模型VLM让它理解当前页面结构和可操作控件。做模型输出下一步动作点击坐标、滑动方向、输入文字等再通过 ADB 发送到手机执行。整个过程无需手动干预直到任务完成。你可以把它理解为一个“会动手的大模型”。2. 准备工作软硬件与环境配置要让 AI 接管手机我们需要三样东西本地控制端电脑、安卓设备手机或模拟器和云端推理服务智谱 API。2.1 硬件与系统要求操作系统Windows 或 macOS推荐 Python 3.10安卓设备Android 7.0 及以上版本连接方式USB 数据线 或 同一局域网下的 WiFi 连接工具依赖ADBAndroid Debug Bridge2.2 安装 ADB 工具ADB 是连接电脑与安卓设备的核心工具。你可以从 Android 官方平台工具页面 下载。Windows 配置步骤解压下载包到任意目录例如C:\platform-tools。打开“系统属性” → “高级” → “环境变量”。在“系统变量”中找到Path点击编辑添加 ADB 解压路径。打开命令行输入adb version若显示版本号则说明安装成功。macOS 配置方法在终端中执行以下命令假设解压路径为~/Downloads/platform-toolsexport PATH${PATH}:~/Downloads/platform-tools建议将该行写入.zshrc或.bash_profile文件避免每次重启终端都要重新设置。3. 手机端设置开启调试与输入法3.1 开启开发者模式与 USB 调试这是必须的操作否则电脑无法识别设备。进入手机“设置” → “关于手机” → 连续点击“版本号”约 7~10 次直到提示“您已进入开发者模式”。返回设置主菜单进入“开发者选项”。启用“USB 调试”功能。注意部分品牌手机如小米、华为可能还需额外开启“OEM解锁”或“USB调试安全设置”请根据机型查阅相关说明。3.2 安装 ADB Keyboard 输入法由于 AI 需要向输入框发送文本比如搜索关键词但标准 ADB 不支持中文输入因此需要安装专用输入法。下载 ADBKeyboard.apk。使用命令行安装adb install -r ADBKeyboard.apk安装完成后在手机“语言与输入法”设置中将默认输入法切换为ADB Keyboard。这样AI 就能通过 ADB 命令直接输入中文了。4. 部署控制端代码接下来我们在本地电脑上部署 Open-AutoGLM 的控制程序。4.1 克隆项目并安装依赖打开终端执行以下命令git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 创建虚拟环境推荐 python -m venv venv source venv/bin/activate # Linux/macOS # 或 venv\Scripts\activate # Windows # 安装依赖 pip install -r requirements.txt pip install -e .4.2 获取智谱 BigModel API Key我们不打算本地部署大模型那需要高性能 GPU而是调用智谱提供的云端 API成本低且易用。访问 智谱 AI 开放平台 并注册账号。进入“我的 API Key”页面创建一个新的密钥。复制保存你的API Key后续会用到。新用户通常有免费额度足够日常测试使用。5. 连接设备并启动 AI 代理一切准备就绪现在开始让 AI 接管手机。5.1 检查设备连接状态确保手机通过 USB 连接到电脑并在弹出的授权窗口中点击“允许”。在终端运行adb devices如果看到类似如下输出说明设备已正确连接List of devices attached 1234567890abc device记下这串设备 ID后面要用。5.2 启动 AI 执行单条指令我们可以直接传入一条自然语言指令让 AI 自动完成全流程操作。python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开小红书搜索南京旅游攻略参数说明--device-id通过adb devices获取的设备标识。--base-url智谱 API 的接入地址。--model指定使用的模型名称。--apikey你的 API 密钥注意保留引号。最后的字符串你要下达的任务指令。执行后你会看到 AI 开始截图、分析界面、规划动作并逐步完成“打开小红书 → 点击搜索框 → 输入‘南京旅游攻略’ → 查看结果”的全过程。6. 使用交互模式进行多轮操作如果你希望连续下达多个指令而不是每次都重新启动可以进入交互模式。只需去掉最后的指令字符串即可python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here程序启动后会出现提示符Enter your task:这时你可以输入任何任务例如“刷新一下首页”“点赞当前页面的第一个视频”“进入个人主页查看收藏笔记”AI 会持续监听并执行直到你手动终止程序。7. 实测案例AI 自动操作抖音让我们来做一个真实测试让 AI 帮我找到某个特定抖音号并关注。指令如下python main.py \ --device-id 1234567890abc \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey your_api_key_here \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他执行过程如下AI 截图当前桌面识别出抖音图标点击打开。进入首页后定位底部导航栏的“放大镜”图标搜索点击进入。找到输入框调用 ADB Keyboard 输入指定抖音号。点击搜索按钮等待结果加载。在搜索结果中找到目标用户点击进入其主页。检测“关注”按钮是否存在若未关注则点击完成操作。整个流程全自动耗时约 30 秒主要时间花在网络加载和截图传输上。实测成功率高达 90% 以上即使界面略有变化也能自适应调整。8. 常见问题与解决方案8.1 Windows 下出现编码错误在运行check_deployment_cn.py或其他脚本时可能会遇到如下报错UnicodeDecodeError: gbk codec cant decode byte 0xb4 in position 80这是因为 Windows 默认使用 GBK 编码读取文件而项目文件是 UTF-8 格式。解决方法修改相关 Python 文件中的open()调用显式指定编码with open(args.messages_file, encodingutf-8) as f: messages json.load(f)对所有涉及读取 JSON 或文本文件的地方都做此处理。8.2 ADB 连接不稳定或断开USB 连接不稳定尝试更换数据线或关闭手机的“仅充电”模式提示。WiFi 连接失败先用 USB 执行adb tcpip 5555再断开 USB 执行adb connect 手机IP:5555。防火墙拦截确保云服务器或本地网络未屏蔽 ADB 端口默认 5555。8.3 模型响应慢或无响应检查 API Key 是否有效。确认--base-url地址正确。查看智谱平台是否有调用频率限制或额度耗尽。可尝试减少指令复杂度分步执行。9. 它是如何工作的深入原理简析虽然我们不需要懂底层代码也能使用但了解其工作流程有助于更好地调试和优化。9.1 四步闭环感知 → 理解 → 决策 → 执行截图上传每一步操作前程序通过adb shell screencap获取当前屏幕图像。多模态推理图像 用户指令被送入视觉语言模型VLM模型输出结构化动作指令如{action: tap, x: 540, y: 800}动作执行程序解析指令调用对应 ADB 命令例如adb shell input tap 540 800循环迭代执行后再次截图判断任务是否完成否则继续下一轮推理。9.2 支持的动作类型tap点击某坐标swipe滑动上/下/左/右type输入文本back返回键home回到桌面这些动作组合起来就能模拟几乎所有手动操作。10. 总结AI 助理的未来已来通过本次实践我们可以清晰地看到Open-AutoGLM 智谱 API 的组合已经能让 AI 真正“动手”操作手机。无论是刷小红书找攻略还是在抖音关注达人都能一键自动化完成。它的优势非常明显门槛低无需显卡普通电脑即可运行。易上手几条命令就能部署自然语言驱动。扩展性强可用于自动化测试、内容采集、远程协助等多种场景。安全性高内置敏感操作确认机制支持人工接管验证码等环节。当然目前也存在一些局限比如响应延迟受网络影响、复杂 UI 可能误判等但随着模型能力提升和优化这些问题正在快速改善。更重要的是这种“具身智能”的雏形预示着大模型不再只是聊天机器人而是能真正与物理世界交互的“数字员工”。也许不久的将来我们会习惯说“帮我让 AI 去订餐、买票、回消息。”而现在你已经迈出了第一步。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。