粉丝7334获赞12.8万

免费了,不要三四九九,也不要九块九,不包手机的平替智普的开源项目 open auto gm, 配合它的开源模型 auto g o m 九 d, 咱们也能实现手机 agent 的 自由。我用手上这台安卓手机和 mac 电脑搭好的环境,让他来帮我购物, 这是执行效果,提示词是在淘宝上找到帮宝适黑金刚 l 码最低价的商品,加入购物车,然后发微信告诉我商品选好了。我来看看。这套开源方案和豆包手机最大的区别有三点,第一, 一,运行级别不同。开源方案只能在前台运行,豆包手机可以在后台自己默默的运行。第二,手机的便携性不同。开源方案手机和电脑必须用数据线连接,或者是在同一个 wifi 下,豆包手机可以只拿着手机到处走。三、智能程度不同。 开源方案接的是九 b 参数的小模型,能完成大部分的基础场景,但是极限智能比不上豆包手机。推荐两种适合的使用场景。 场景一,操作电脑忙不开的时候,比如快下班时提前叫车,当同事还在等车的时候,你已经上车回家了。场景二,需要在手机上多个 app 之间切换,收集数据,分析并且最终操作手机的场景。比如说在双十二购物选择最低价格商品时,我的微信收到消息了,任务完成。 牛逼!那么这么牛逼的手机, a 镜的方案会不会很难配置呢?完全没问题,我摸索了一套极简方案,只需要一行命令和一句话就能配置好。 首先看我这期视频,一行命令把 cloud code 安装好,然后打开 cloud code, 告诉他这句话,一路点同意就能安装完成整个配置过程,需要用数据线把安卓手机 在电脑上这么简单都能就能搞定,快去配置一套试试吧!你还有什么场景想用手机 app 来解决的?详细的安装过程和常见问题我会总结成文档,方便大家查看。关注我,玩转 ai 编程。

就在昨天,全世界所有的安卓手机都可以用上真 ai 了,中国的智谱正式宣布啊,他们把全世界第一个为手机而生的通用 agent auto gm 给开源了,是的,完全免费开源了。也就是说,从今天开始,世界上任何一台安卓手机啊,都可以用 ai 来完全操控了。 ai 会自己看屏幕,理解界面,然后自己规划思考, 最后模拟出你手部的点击,滑动输入,帮你完成各种各样的操作,而你全程都不需要碰屏幕,完全交给 ai 就 可以了。现在我跟 ai 说帮我点三杯冰美式, 看,他就可以自己思考自己操作了,一步一步点击,完全不用我管,我们再试一个,如果让他对比一下这个显示器在哪个平台更便宜,帮我决定一个,自己下单。然后你看啊,他是真的开始了多步骤操作,现在淘宝搜了一下,然后把价格记下来,然后再去京东搜了一下,把价格记下来,结果还去拼多多看了一圈,然后真的帮我选了一款真的很便宜很便宜的款,这个羊毛真的给它薅到了, 操作的过程就跟真人人手一模一样。最后我们再试一个超级无敌难的版本,我下周六要去长春玩,帮我总结一下这个页面上推荐景点,然后在高德地图上收藏一下这个景点,看一下门票的价格,然后再去一二三六订一张上午实验从北京去长春的高铁票,然后再把香味信息整理好给我,他就开始自己干活,自己搜索,一个一个搞, 打开一二三零六开始帮我看动车票了,而我自己只需要最后付款那一步看一下,确认一下就可以了,你看这个过程是不是真的超级夸张,这个已经不是简单的那种自动化脚本了,而是真的完全用 ai 来去驱动,也就是一个住在你手机里的数字生命。我觉得这个才是我心里面的 siri 该有的样子。 这次可以做到这么猛的效果,也是因为 autim 他 们用上一套视觉语言模型,他可像人一样自己去看懂屏幕上内容,知道哪里是按钮,哪里是输入框,然后再模拟人的点击、滑动、输入这些操作。所以理论上它是可以操控任何一个 app 的, 根本就不需要其他厂家的配合,而是直接变成了一个人类的用户。 我看一下开源社区他们的界面啊,现在已经支持了五十多款主流的 app, 大家关心的微信、淘宝、抖音、 b 站、携程这些全部都可以用。而自古这次把它开源了,我觉得这个意义真的非常重大,因为它解决了一个大家都很关心的问题,隐私问题。如 如果要操作我的手机,那我的聊天记录、支付密码怎么办?而现在因为代码是开源的,所以你可以完全把它部署在你自己的手机跟电脑上,我们就是一台五零九零显卡去跑的, 所有的数据都在你的本地,根本就不会上传到云端。而且有了开发的社区,大家一起去完善这个项目,速度只会越来越快,可以做的事情也越来越多。而从今年开始,像 google、 苹果,还有其他那些巨头大厂,大家都在试着让 ai 真正学会操作手机这件事情, 没想到智普直接在年底就开园了,现在每个人都可以下载来直接用了,所以我觉得二零二六年的手机市场跟 ai 市场啊,应该又会迎来一波腥风血雨了。

今天给大家分享一个豆包手机同款的开源项目,也就是最近特别火的智普,他们开源的 open oto g l m 是 专门用于控制这种托管手机的智能体。这个是一个框架,也是一个项目,但是这个总体来讲它的亮点大于实践, 主要有两个比较大的创新。第二个就是他们这个框架是可以进行这种手机的 连接,其实它跟按键精灵是差不多的,甚至它比按键精灵要小或者简单很多,实现了电脑和手机的远程操作,可以直接连 usb 或者直接在一个 wifi 里面就可以进行对接和联通。 我也详细梳理了一下这个项目,它开源的话其实并没有开源特别多的东西,像一些 memory 记忆体啊,这些记忆模块都没有开源,而且它只有一个智能体模块,它更像一个 simon, 而不是实际的一个项目。因为他在去年的时候其实是呃发了一个 app 的, 也是 otoglm, 但是在后面就没有特别多的推广了,而且效果也一般。 但是由于这一次豆包手机大火了之后,他借着这个风也做了开源,让大家也看到了这个项目。 我们详细来梳理一下这个项目。首先它的主要的架构就是你可以支持用它自己的本地模型,当然它都是使用的这种 best url 的 方式,你可以用本地的,也可以直接用现成的,但是那个模型必须要支持能元素定位, 现在币源的模型几乎都可以多模态的,最近的微软也开源了一个三 b 的 模型,应该性能也是蛮不错的,做元素定位,而且思考的模型 应该性能也是蛮不错的,但是他没有跟这个模型做一下对比,不知道他们九 b 的 这模型跟这个微软开源的三 b 的 模型比起来怎么样,应该大差不差,因为微软这个模型稍微小一点点,但是测试起来效果还是蛮不错的,而且小了之后才能在我们这种本地的这种显卡上面跑。九 b 还是挺大的,不算小了, 但是他有量化的,不过肯定是需要二十四 g 才能跑的,三 b 的 话做一些量化操作的话,也是可以让他实现在十二 g 内存上面跑的。 我重点比较疑惑的就是它到底有哪些工具和它这个智能体,它是什么样的一个智能体?它智能体只有一个智能体,然后我也没有 memory, 也没有记忆的规则,然后主要就是典型的 react 智能体, 整个流程就是典型的感知、思考、行动的这样的一个循环。然后每一次它做任务的时候或者下发任务的时候,它就会把整个 手机的系统去构建一个上下文,他的系统有什么应用这些,还有他的截图,就构建这样整体的一个上下文,加上你的一个任务规划, 然后他通过思考思考了之后去规划出来一个计划,然后去做执行,每一次执行了之后,他再进行一次思考,然后再进行执行,直到完成任务为止。当然他还有一些敏感操作,比如说验证码,比如说 要进行付款呀,这个是要人工介入的,它会主动的提示你们,我重点是想要知道它有哪些工具,或者可以执行哪些操作,是怎么样执行的?然后我就让它梳理了下,我是用的这个 deepweek 来做的,梳理它的工具也 跟按键精灵是差不多的,甚至比按键精灵要简单很多。首先就是启停指定的应用,然后手机上面关键的那几个按钮,还有就是滑动输入文本,返回上一页,还有点击,这些都都是可以的, 主要用的就是滑动文本和点击这几个,然后启启停应用,切换应用,这都是标准的按键精灵里面的东西。然后就是操作他的其实是一个相当于方寸扣领,点击某一个按钮去调用这某一个工具,然后有一些比较标准的规则, 应该执行前要检查应用,然后最多呢连续的等待三次,验证这个操作是否可以 进行操作。然后就是完成之后检查一下它的准确度,其实整体看起来它是一个 demo 的 形式,它并不是一个特别完整的项目,只是一个 非常简单的 demo, 稍微复杂一点的可能就是它搭起来了这样的一个框架,你自己可以去加一些 memory, 或者说加一些什么东西,然后我去可以放在你的手机里面,可以进行继续的二次开发。 总体来讲这个项目还是不能直接拿来做实际的运行的,可以做二开,这个是可以的。然后我都还专门让它梳理了一下它的记忆模块有没有,它是没有记忆模块的,它只有它模型上下文 token 的 这样一个上下文,然后这些提示词它都是用的中文呢?然后必须遵循的一些规则, 这些提示词其实还可以拿来做一些借鉴这些智能体的提示词借鉴还是蛮不错的。还有像这些执行动作某一个 app, 然后这就是它们方选透的一些东西了,当然做成 mcp 其实也是可以的。

别眨眼啊,只要两分钟的时间啊,你家里的任何一个老破手机就能瞬间变成一个 a i 手机啊,就像最近的这个豆包手机一样,直接帮你在手机上订票、点咖啡,甚至帮你在手机上答题,帮你考试,帮你剪辑视频。 而且啊,这还不是一个功能演示,它是真的开始自己操作手机了。比如说啊,我随手说帮我买一张去上海的高铁票,紧接着你都能看到这个 ai 就 像一个真人一样,在手机上帮你查票、选班次、下单,这所有的完整流程一步步走通。 这是因为啊,智普团队刚才把他们打磨了两年多的核心技术 auto g l m 直接给开源了,这简直是太离谱了啊,要不然很多人说 ai 一 天地上一年呐, 一两周前啊,多少人还在感到稀奇的 ai 操作手机的能力,现在就成了人人可用的开源神器,让 ai 可以 真正的接受任何设备,把结果直接交付到你的手里。 而且啊,这次开源的还不仅仅是一个手机智能体的完整执行框架,还有一个叫做 auto g l m 风九 b 的 大模型啊,这个大模型直接开放给所有人, 它可以用视觉语言模型进行整个屏幕的感知,然后再结合智能的规划能力来生成并执行操作流程。用户只需要用自然语言描述需求,比如说打开某个 app 搜索美食并自动比价,然后呢,就能自动的去拆解用户的意图,理解当前的界面,规划下一步的动作,并且完成整个流程。 而且它还内置了敏感操作的确认机制,一旦需要付钱登录或者收验证码的时候,它就会马上让你二次确认,同时啊,还支持远程控制, 你完全可以一边在外地旅游啊,一边让 ai 在 手机上帮你操作钉钉或者是企微给你的老板汇报工作,他 把一个原来被视为大场合武器的技术,直接变成了所有普通人唾手可得的一个工具。所以啊,巨头们他或许可以去围绞豆包手机,但是呢,他不能围绞千千万万个基于开源框架自建的个性化的智能体。 而且啊,这整个过程呢,可以完全在本地运行,数据根本就不离开你自己的掌控。所以之前很多人担心的被豆包获取一切个人数据的问题啊,就这样迎刃而解了。因为九 b 这样的小模型啊,完全可以把模型和数据都放在自己本地的电脑上面。 所以从此之后啊,你的手机很可能就再也不是一个手机啊,而是一个长期在线,只为你一个人服务的超级私人智能体。 前几天啊,我看到很多人都在讨论豆包手机和平台入口的这么一个争夺,但是完全没想到这样的一个入口很快就会变成一个全民普惠的能力。就 像 deepsea 把高高在上的 open ai 打得措手不及,甚至是频频降价。这次的 auto g l m 的 发布啊,最关键的地方就是让我们不用再担心某家大厂垄断你的手机操作能力,它就像当年的安卓一样,可以被无数的人模改驯化叠加,最终呢,就会被调教成每一个用户最喜欢的样子。 所以具体怎么才能让你的手机变成 ai 手机呢?非常简单,大家跟着我操作啊,只要打开 github 上面我给的这个项目的网址,然后呢,里面的介绍全是中文的啊。然后你直接开启你老手机的 root 权限,然后下载模型进行操作就可以了,赶紧去试一试吧!关注 c 哥,了解更多 ai 前沿!

ai 手机开源这个事情呢,我是做了二次开源的,就是针对智普开源的那个版本做了二次开源,那这二次开源有一个特点,就是你可以通过语音,通过说话的方式啊,直接去控制另外一台手机,你不需要通过这个啊,命令行,通过输入文字这种方式去控制这个手机, 会非常的方便。第二个我想说的就是我把这个二次开源也是开源了,然后你可以直接在抖音主页的公开群里面去领取这个开源的地址。很多人会告诉我说我不会部署,因为你是个小白,你不太会懂这个部署的方式是什么,很多命令自己不会去弄这个点,我其实也非常想问大家,你们真的很需要这样的 详细的部署的教程吗?如果你们非常需要的话啊,可以在评论区告诉我,我会看一下要不要单独的做一些这样的长视频啊,去帮助更多人去学会部署,学会去使用。 很多人还有一个疑问,就是说我的电脑没有那么高的配置行不行?其实你没有那么高配置,也可以有其他方法,比如说你可以去用智普官方的 a p i 啊,他部署的那个服务,你直接去调用他的结果就可以了,这样的话你的电脑就不用去安装,你也去不用去租用一台服务器啊,这个也是非常方便的,所以 无论你是小白,你有没有高级的电脑啊,你都是可以去使用这个文档去操作你的安卓手机,所以评论区告诉我。

没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。

手机圈子天又塌了,豆包手机的发布让我们的智能手机变成了逗逼手机,让所有人见识到什么叫真正的 ai 手机。但是我们同时也见识了资本的力量,一号发布,二号微信立马封杀,紧接着阿里这些巨头也全部跟上,共同抵制。 九号智普 ai 突然宣布将核心产品 auto g l m 彻底开源,这意味着任何手机厂商,任何开发者都 都能立刻拥有制作、训练 ai 手机的能力。但有件事很耐人寻味,智普 ai 和字节并没有商业关联,反倒是阿里也腾讯、美团这些巨头是它的核心投资方。这波大义灭亲还真是挺有意思。 智能手机取代按键手机用了小十年,现在有了开源技术, ai 手机取代智能手机也许只需要一年。真的是太神奇了,怎么下载,怎么配置?怎么让你的手机变成 ai 手机?问下豆包去吧!


智普 ai 这波挺搞笑啊,网上有很多博主说豆包手机被封,智普 ai 作为兄弟立刻开源,让全民都能创造自己的个人助理,你可以放掉一个豆包手机,一个产品,但是你放不掉全民的创造,我觉得胡说八道啊。 我觉得更有可能的是智普 ai 觉得这部分的工作虽然花了时间,其实门槛不高, 更重要的是现在这种呃,你的手机像被黑客一样控制,点来点去,点来点去,这种体验是很糟糕的,最后的结果一定是大厂平台 各种互联网服务是要妥协的,他们一定会开放接口给这些个人助理现在的这种操作方式,支付、开元这些东西包括豆包手机现在的这种交互体验,它一定是个中间过程, 所以他开放这部分代码一定是对整个行业的发展是有贡献的,但也仅此而已,他知道这是个中间过程,未来一定不是这个样子的。