2026/3/31 21:36:38
网站建设
项目流程
网站开发团队排行榜,wordpress中文免费企业模板下载,做阿里巴巴小企业网站,济南营销型网站公司项目背景#xff1a;2025 年 12 月#xff0c;字节跳动联合中兴发布了「豆包手机助手」#xff0c;可自动操作手机完成复杂任务。但首批工程机一机难求#xff0c;二手市场价格居高不下。 于是有了「肉包」 —— 一个完全开源、基于视觉语言模型#xff08;VLM#xff09…项目背景2025 年 12 月字节跳动联合中兴发布了「豆包手机助手」可自动操作手机完成复杂任务。但首批工程机一机难求二手市场价格居高不下。于是有了「肉包」—— 一个完全开源、基于视觉语言模型VLM的 AI 手机自动化助手。名字来源很简单作者不爱吃素。一、项目亮点无需电脑完全摆脱 ADB 数据线与 PC 端 Python 环境安装 App 即可使用。原生 Android 实现基于 Kotlin 开发截图、分析、决策、执行全部在手机本地完成。多 Agent 协作机制借鉴 Claude Code 的设计思想采用 Tools / Skills 双层架构实现任务规划与执行解耦。高度可定制支持通义千问、GPT-4V、Claude 以及本地 Ollama 等多种模型后端。二、方案对比特性肉包Roubao豆包手机助手其他开源方案是否需要电脑❌ 不需要❌ 不需要✅ 多数需要是否依赖专用硬件❌ 不需要✅ 需要3499❌ 不需要实现语言✅ Kotlin原生✅ 原生❌ 多为 Python是否开源✅ MIT❌ 闭源✅ 开源架构设计✅ Tools / Skills 双层❓ 未公开❌ 通常无明确分层自定义模型✅ 支持❌ 仅豆包模型⚠️ 部分支持三、整体技术架构肉包的核心设计理念是将复杂的 GUI 自动化过程拆解为两个正交维度原子能力How系统可以“做什么”用户意图What用户“想要什么”3.1 Tools 层原子能力集合Tools 层负责执行最底层、可复用的物理或系统操作包括但不限于search_apps智能搜索已安装应用支持拼音与语义匹配。deep_link通过协议直接跳转到 App 内指定页面。shell / http执行系统命令或调用外部 HTTP API。screenshot / tap / swipe基础屏幕采集与触控操作能力。这些工具本身不具备“目标感”只负责可靠执行。3.2 Skills 层用户意图封装Skills 层面向最终用户负责将自然语言意图映射为可执行策略支持两种核心模式Delegation委托模式直接通过 DeepLink 调用本身具备 AI 能力的应用如小美、即梦等特点是速度快、路径短、成功率高。GUI 自动化模式面向普通应用采用“截图 → 分析 → 操作 → 再截图”的闭环由 Agent 逐步完成任务。四、界面与交互展示肉包采用Material 3设计规范整体风格简洁现代支持流畅动画与完整的中英文双语切换。五、关键依赖为什么需要 Shizuku出于系统安全考虑Android 普通应用默认无法模拟其他应用的点击操作读取或分析其他应用的界面内容传统解决方案通常依赖电脑端 ADB这与“随时随地自动化”的目标相悖。Shizuku提供了一种优雅且合规的中间方案用户仅需通过无线调试启动一次 Shizuku 服务肉包即可在非 Root 情况下获得ADB 级别能力所有敏感信息如 API Key均采用AES-256-GCM加密存储一旦检测到支付类页面系统会自动中止操作避免风险。六、快速上手6.1 前置条件Android 8.0 及以上设备已安装并启动 Shizuku一个可用的 VLM API Key国内用户推荐使用阿里云百炼6.2 使用示例直接对肉包输入自然语言指令例如“帮我点个附近好吃的汉堡”“打开网易云音乐并播放每日推荐”“把我手机里最后一张照片发到微博”七、项目路线图已完成v1.x原生 Kotlin 核心框架智能应用分类与语义搜索Delegation 快速路径支持开发中v2.0无障碍服务混合模式索引点击与坐标点击自动切换UI 树感知能力减少纯视觉分析带来的误判宏脚本系统支持操作序列的录制与回放长期规划多应用协作跨 App 联动完成复杂工作流边缘侧 AI支持本地运行轻量级 VLM实现离线自动化八、开发者指南如需自行构建与安装# 克隆仓库gitclone https://github.com/Turbo1123/roubao.gitcdroubao# 构建并安装./gradlew assembleDebug ./gradlew installDebug项目地址https://github.com/Turbo1123/roubao