2026/6/1 10:41:07
网站建设
项目流程
网站建设教程搭建汽岁湖南岚鸿专注,centos6 wordpress,天津如何做seo优化服务,python 手机网站开发备用下载链接
最近我在科技圈看到一个很火的演示视频#xff1a;对着手机说一句“帮我点一杯冰美式”#xff0c;手机居然自己打开了外卖软件#xff0c;找到星巴克#xff0c;选好咖啡#xff0c;最后停在支付页面等着确认。关键是#xff0c;演示用的不是什么还没发布…备用下载链接最近我在科技圈看到一个很火的演示视频对着手机说一句“帮我点一杯冰美式”手机居然自己打开了外卖软件找到星巴克选好咖啡最后停在支付页面等着确认。关键是演示用的不是什么还没发布的概念机就是一台很普通的安卓手机。当时我就去查了一下原来这是智谱AI和清华团队搞出来的东西叫AutoGLM。前两天他们把这个项目的核心代码开源了名字叫 Open-AutoGLM。作为一个平时喜欢折腾软件的人我马上就去下载试了试。今天就跟大家聊聊这个东西到底是个什么鬼好不好用以及如果你也想玩得注意点什么。什么是Open-AutoGLM我为啥要关注它简单来说Open-AutoGLM 就是一个能接管你手机和电脑屏幕的“AI大脑”。以前我们用的语音助手比如Siri或者小爱同学你让它们定个闹钟还行但如果你说“帮我把刚才拍的照片发给微信置顶的朋友”它们通常就傻眼了或者直接给你弹出一个百度搜索结果。这是因为传统的语音助手主要靠系统接口API办事接口没开放的功能它们就做不到。Open-AutoGLM 的逻辑完全不一样。它像人一样是通过“看”屏幕来操作的。它背后用了一个叫 GLM-4V 的视觉语言模型。当你发出指令后它会先给手机屏幕截个图分析屏幕上有哪些按钮、图标、输入框然后决定手指该点哪里、该往哪滑、该输入什么字。我之所以选择折腾它主要看重三点一是门槛低。这不需要你买那种几千块的主打AI的最新款手机只要是安卓机理论上都能跑。对于我们这种不想为了尝鲜AI就换手机的人来说这很友好。二是能跨软件操作。这是最吸引我的。比如我可以让它从大众点评找一家评分最高的餐厅然后直接跳到微信发给朋友。这种跨APP的操作以前只有人能做现在AI也能做了。三是开源免费。开源意味着代码是公开的不仅免费而且相对安全。数据是在自己手里跑还是传到服务器这些都比较透明。而且会有很多大神去魔改它以后玩法会越来越多。核心功能它到底能干啥我下载配置好环境后主要测试了这么几个场景也是官方宣传里比较核心的功能。APP自动化操作这是最基础的。我试着对它说“给我的朋友圈第一条动态点赞”。它的反应过程是这样的先打开微信 - 点击发现 - 点击朋友圈 - 识别出第一条动态的点赞按钮 - 点击点赞。虽然速度比我自己点要慢几秒因为它要截图分析但它真的做到了。我也试了点外卖和打车只要指令说得清楚比如“在美团点一份麦当劳的巨无霸套餐”它基本能走到支付前的那一步。网页浏览助手除了手机APP它还有一个浏览器插件版本AutoGLM-Web。装在电脑的Chrome浏览器上它能帮你查资料。比如我说“帮我查一下杭州明天的天气并把穿衣建议总结一下”。它会自己打开百度搜索天气然后把关键信息抓取下来发给我。这对于需要做资料收集工作的人来说是个省力的工具。长流程任务处理这个比较考验它的“智商”。我试了一个稍微复杂的“去淘宝找一款销量最高的男士洗面奶然后把链接复制发到微信的文件传输助手”。这个任务中间涉及了打开淘宝 - 搜索 - 筛选销量 - 进详情页 - 点分享 - 复制链接 - 切换微信 - 粘贴发送。测试了三次成功了两次。有一次卡在了淘宝的弹窗广告上它不知道怎么关掉那个广告就愣住了。但这已经比传统的脚本强大太多了因为它是在实时分析屏幕而不是死板地按坐标点击。安装和使用过程中的坑虽然软件很强大但我必须得泼盆冷水。目前的 Open-AutoGLM 绝不是一个“下载即用”的傻瓜式APP。如果你想自己部署是有一定门槛的。环境配置挺麻烦你需要在电脑上安装 Python 环境还要会用 GitHub 下代码。如果你从没用过终端或者命令行这一步可能就会劝退。它涉及到安装很多依赖库光是配环境我就折腾了一个多小时中间还遇到了几个报错全靠去搜索引擎找答案才解决。硬件配置有要求虽然说是可以在端侧运行但如果你想在本地跑那个庞大的模型对显卡是有要求的。如果你的电脑显卡不行或者手机芯片太老跑起来会非常卡点一下反应半分钟那就没法用了。不过它也支持调用云端的 API智谱的接口这样对本地硬件要求就低了但需要联网而且 API 调用可能会产生费用目前有免费额度。由于是“看”屏幕容易受干扰在使用过程中我发现如果手机突然弹出一个微信消息通知或者APP突然弹出一个“双十一大促”的广告AI 可能会被干扰导致误触或者操作中断。它毕竟不是真的人对于突发状况的应变能力还没那么强。隐私授权要谨慎因为它需要截屏权限和辅助功能权限Accessibility Service才能模拟点击这两个权限在安卓系统里是很高的。虽然是开源项目代码可见但在给权限的时候大家心里还是要有个底建议先在备用机上测试。与其他同类软件的对比为了让大家更直观地了解 Open-AutoGLM 处于什么水平我拿它和平时大家接触到的工具做个对比表格。维度Open-AutoGLM手机自带语音助手 (Siri/小爱)自动化脚本工具 (按键精灵/Tasker)操作原理视觉识别 (像人眼看屏幕)系统接口 (厂家写死的)坐标点击/固定逻辑灵活性极高(能应对UI变化)低 (只能干系统允许的事)低 (界面改版就失效)安装难度困难(需配置代码环境)无 (开机即用)中 (需编写规则)跨APP能力强(逻辑连贯)弱 (很难连续跳跃)中 (容易断链)容错率中 (偶尔发呆)高 (做不到会直接说不行)极低 (稍微错位就乱点)费用开源免费 (API可能收费)免费免费或收费真实感受折腾了一圈下来我觉得 Open-AutoGLM 就像是一个刚刚学会走路的孩子。它确实代表了未来的方向。你想想以前我们操作手机是人去适应机器我们要记住所需要的按钮藏在哪个菜单里。而 Open-AutoGLM 这种 Agent智能体是让机器适应人我说出需求它自己去找路径解决。但是现阶段它还不能完全替代你的手指。它反应偏慢偶尔会因为广告弹窗而“发呆”安装过程对普通用户也不够友好。如果你只是想找个工具帮你省事现在的它可能反而会让你觉得费事。但如果你是一个极客或者对 AI 落地应用感兴趣那它绝对值得一玩。它让我们看到了“贾维斯”那种助手的雏形——不是只会陪聊而是真的能帮你干活。目前这个项目还在快速更新中据说以后会出打包好的安装包到时候门槛应该会降低不少。我会继续关注这个项目如果出了更方便的版本再来跟大家汇报。大家如果手里有闲置的安卓机愿意去 GitHub 上啃代码的可以去搜一下 Open-AutoGLM 试试。记得回来评论区告诉我你的 AI 帮你点的第一份外卖是什么。