今天给大家分享一个豆包手机同款的开源项目,也就是最近特别火的智普,他们开源的 open oto g l m 是 专门用于控制这种托管手机的智能体。这个是一个框架,也是一个项目,但是这个总体来讲它的亮点大于实践, 主要有两个比较大的创新。第二个就是他们这个框架是可以进行这种手机的 连接,其实它跟按键精灵是差不多的,甚至它比按键精灵要小或者简单很多,实现了电脑和手机的远程操作,可以直接连 usb 或者直接在一个 wifi 里面就可以进行对接和联通。 我也详细梳理了一下这个项目,它开源的话其实并没有开源特别多的东西,像一些 memory 记忆体啊,这些记忆模块都没有开源,而且它只有一个智能体模块,它更像一个 simon, 而不是实际的一个项目。因为他在去年的时候其实是呃发了一个 app 的, 也是 otoglm, 但是在后面就没有特别多的推广了,而且效果也一般。 但是由于这一次豆包手机大火了之后,他借着这个风也做了开源,让大家也看到了这个项目。 我们详细来梳理一下这个项目。首先它的主要的架构就是你可以支持用它自己的本地模型,当然它都是使用的这种 best url 的 方式,你可以用本地的,也可以直接用现成的,但是那个模型必须要支持能元素定位, 现在币源的模型几乎都可以多模态的,最近的微软也开源了一个三 b 的 模型,应该性能也是蛮不错的,做元素定位,而且思考的模型 应该性能也是蛮不错的,但是他没有跟这个模型做一下对比,不知道他们九 b 的 这模型跟这个微软开源的三 b 的 模型比起来怎么样,应该大差不差,因为微软这个模型稍微小一点点,但是测试起来效果还是蛮不错的,而且小了之后才能在我们这种本地的这种显卡上面跑。九 b 还是挺大的,不算小了, 但是他有量化的,不过肯定是需要二十四 g 才能跑的,三 b 的 话做一些量化操作的话,也是可以让他实现在十二 g 内存上面跑的。 我重点比较疑惑的就是它到底有哪些工具和它这个智能体,它是什么样的一个智能体?它智能体只有一个智能体,然后我也没有 memory, 也没有记忆的规则,然后主要就是典型的 react 智能体, 整个流程就是典型的感知、思考、行动的这样的一个循环。然后每一次它做任务的时候或者下发任务的时候,它就会把整个 手机的系统去构建一个上下文,他的系统有什么应用这些,还有他的截图,就构建这样整体的一个上下文,加上你的一个任务规划, 然后他通过思考思考了之后去规划出来一个计划,然后去做执行,每一次执行了之后,他再进行一次思考,然后再进行执行,直到完成任务为止。当然他还有一些敏感操作,比如说验证码,比如说 要进行付款呀,这个是要人工介入的,它会主动的提示你们,我重点是想要知道它有哪些工具,或者可以执行哪些操作,是怎么样执行的?然后我就让它梳理了下,我是用的这个 deepweek 来做的,梳理它的工具也 跟按键精灵是差不多的,甚至比按键精灵要简单很多。首先就是启停指定的应用,然后手机上面关键的那几个按钮,还有就是滑动输入文本,返回上一页,还有点击,这些都都是可以的, 主要用的就是滑动文本和点击这几个,然后启启停应用,切换应用,这都是标准的按键精灵里面的东西。然后就是操作他的其实是一个相当于方寸扣领,点击某一个按钮去调用这某一个工具,然后有一些比较标准的规则, 应该执行前要检查应用,然后最多呢连续的等待三次,验证这个操作是否可以 进行操作。然后就是完成之后检查一下它的准确度,其实整体看起来它是一个 demo 的 形式,它并不是一个特别完整的项目,只是一个 非常简单的 demo, 稍微复杂一点的可能就是它搭起来了这样的一个框架,你自己可以去加一些 memory, 或者说加一些什么东西,然后我去可以放在你的手机里面,可以进行继续的二次开发。 总体来讲这个项目还是不能直接拿来做实际的运行的,可以做二开,这个是可以的。然后我都还专门让它梳理了一下它的记忆模块有没有,它是没有记忆模块的,它只有它模型上下文 token 的 这样一个上下文,然后这些提示词它都是用的中文呢?然后必须遵循的一些规则, 这些提示词其实还可以拿来做一些借鉴这些智能体的提示词借鉴还是蛮不错的。还有像这些执行动作某一个 app, 然后这就是它们方选透的一些东西了,当然做成 mcp 其实也是可以的。
粉丝8471获赞9.8万

极简版,把你的手机变成豆包手机第一步,搜索 open article 开源代码仓第二步,安装 python 和 git 第三步,把终端切换到目标文件夹第四步,执行 git clone 下载项目第五步,终端输入 cd open article, 进入项目目录 第六步,安装依赖第七步,用 vs code 打开 examples 文件夹中的视力脚本,点击运行或终端执行。第八步,安装并修改手机输入法,然后就可以在电脑上操控手机,自动完成这些 app 中的操作了。 怎么样,你学会了吗?不会也没关系,仓库中有详细的步骤教程,现在支持超过五十种国民 app 覆盖衣食住行,快去试试吧!

来了来了,全网都在找的豆包手机同款 ai 工具,智谱开源 autobot 膜给你们找到了,操作简单而且免费,小白也会试用,同时支持安卓、苹果、鸿蒙。 下面我速分享给大家。首先点视频右下角分享键分享复制链接,然后打开这个工具包, 没有的去下载一个就会弹出资源包,没有弹出的去首页输入鱼饼大全,然后打开这个文件包,右下角去保存就可以了。

别眨眼啊,只要两分钟的时间啊,你家里的任何一个老破手机就能瞬间变成一个 a i 手机啊,就像最近的这个豆包手机一样,直接帮你在手机上订票、点咖啡,甚至帮你在手机上答题,帮你考试,帮你剪辑视频。 而且啊,这还不是一个功能演示,它是真的开始自己操作手机了。比如说啊,我随手说帮我买一张去上海的高铁票,紧接着你都能看到这个 ai 就 像一个真人一样,在手机上帮你查票、选班次、下单,这所有的完整流程一步步走通。 这是因为啊,智普团队刚才把他们打磨了两年多的核心技术 auto g l m 直接给开源了,这简直是太离谱了啊,要不然很多人说 ai 一 天地上一年呐, 一两周前啊,多少人还在感到稀奇的 ai 操作手机的能力,现在就成了人人可用的开源神器,让 ai 可以 真正的接受任何设备,把结果直接交付到你的手里。 而且啊,这次开源的还不仅仅是一个手机智能体的完整执行框架,还有一个叫做 auto g l m 风九 b 的 大模型啊,这个大模型直接开放给所有人, 它可以用视觉语言模型进行整个屏幕的感知,然后再结合智能的规划能力来生成并执行操作流程。用户只需要用自然语言描述需求,比如说打开某个 app 搜索美食并自动比价,然后呢,就能自动的去拆解用户的意图,理解当前的界面,规划下一步的动作,并且完成整个流程。 而且它还内置了敏感操作的确认机制,一旦需要付钱登录或者收验证码的时候,它就会马上让你二次确认,同时啊,还支持远程控制, 你完全可以一边在外地旅游啊,一边让 ai 在 手机上帮你操作钉钉或者是企微给你的老板汇报工作,他 把一个原来被视为大场合武器的技术,直接变成了所有普通人唾手可得的一个工具。所以啊,巨头们他或许可以去围绞豆包手机,但是呢,他不能围绞千千万万个基于开源框架自建的个性化的智能体。 而且啊,这整个过程呢,可以完全在本地运行,数据根本就不离开你自己的掌控。所以之前很多人担心的被豆包获取一切个人数据的问题啊,就这样迎刃而解了。因为九 b 这样的小模型啊,完全可以把模型和数据都放在自己本地的电脑上面。 所以从此之后啊,你的手机很可能就再也不是一个手机啊,而是一个长期在线,只为你一个人服务的超级私人智能体。 前几天啊,我看到很多人都在讨论豆包手机和平台入口的这么一个争夺,但是完全没想到这样的一个入口很快就会变成一个全民普惠的能力。就 像 deepsea 把高高在上的 open ai 打得措手不及,甚至是频频降价。这次的 auto g l m 的 发布啊,最关键的地方就是让我们不用再担心某家大厂垄断你的手机操作能力,它就像当年的安卓一样,可以被无数的人模改驯化叠加,最终呢,就会被调教成每一个用户最喜欢的样子。 所以具体怎么才能让你的手机变成 ai 手机呢?非常简单,大家跟着我操作啊,只要打开 github 上面我给的这个项目的网址,然后呢,里面的介绍全是中文的啊。然后你直接开启你老手机的 root 权限,然后下载模型进行操作就可以了,赶紧去试一试吧!关注 c 哥,了解更多 ai 前沿!

没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。

hello, 大家好,最近这个豆包手机助手它很火呀,然后随后这个 auto gm 就 开源了他们这个智浦家的这个手机助手的这个开源项目, 然后我做了一个这样的一个制装包,这样可以让更多的小伙伴可以很方便的就拥有自己的这么一个手机助手。然后大家可以到时候下载这个安装包,然后点那个启动文件,然后在这里 这个,然后点击启动程序。好,这边是有两个模式啊,如果家里有这个 gpu 条件允许的话,可以用这个本地模式去补水,如果没有的话,我们就选择二,这里有个云端,就是直接去对接支付家的 api 啊,现在这个地方是这个 api k 申请的地方,就是大家注册账号之后,在这里新建一个自己的 api k, 然后去复制这个 api k, 然后粘贴到这个位置之后就可以直接用,但是现在默认用的是我自己的,但是大家收到之后我可能会取消掉这个平台,大家可以自己申请,这个是免费的, 然后这样就启动成功了,启动成功之后呢,我们就可以输入我们的这个命令,然后让他去执行,我现在是让他打开拼多多,给我搜一个哑铃,最近在家有点无聊健身了, 然后大家可以看到这个东西打开之后先挑出了一个广告,然后我们的 ai 是 比较聪明的,哎,也不能说聪明吧,是,反正是这个问题他解决掉了,因为他目前这个是采用视觉方案去处理的, 然后这里搜了一下,然后这个任务执行完之后呢,这里会有一个反馈,大家可以看一下, 效果还是不错的,包括响应速度啊,也是可以看这个是任务完成的一个反馈啊,让他打开第二个任务,我让他打开网易云,然后给我播放一首安河桥, 这个估计有个一两秒的出力时间吧,然后呢跳转到了这个网易云,然后大家可以看到这有个 one 搜索出了这个安河桥啊, 然后现在给他打开之后就可以给我们进行播放了,哎,对,就是这个全部过程他都是自己执行的,然后同样他也是输出了一个这样的运行结果。 然后后面我会把这个整个这个一键包发到我们的评论区啊,大家可以去下载交流,包括有任何问问题啊反馈都可以直接来找我。 ok, 谢谢大家观看。

大家都知道,最近豆包手机的发布,让阿里、腾讯等大厂连夜开会,纷纷给豆包手机助手设置封禁权限。然后前两天智普开源了他的 auto g l m, 这是一款类似豆包手机助手的软件,既然开源了,那我们肯定要测试一下。 打开应用商城,搜索 auto g l m, 点击安装,这就安装好了。然后我们来测试一下功能,帮我用美团点一份三公里范围内卖的最好的奶茶, 帮我打开微博,进入刘亦菲的主页, 帮我用 qq 音乐播放一首林俊杰的歌曲, 帮我用携程订一张十二月十四日下午北京到上海的高铁票, 整个过程还是很流畅的。要知道豆包手机目前是秒断货,二手市场甚至加价几千再卖。 auto g l m 作为开源的模型,我们还能直接拿框架进行二次创作,比如可以集成到现在热门的人形机器人身上,提升这类具身智能的沟通能力。 随着 ai 的 迅速发展,我们更多地倾向于通过这些大厂开发出来的 ai 落地应用,欢迎一起探索 ai 的 可执行方案。


接下来我将演示如何花一下午让自己的手机变成智能 ai 手机。我们这里用到的是十二月九日智补开源的一个 a two g r m 项目, 这个开源项目在网上也是掀起了巨大的讨论,将其称之为新一代人机交互革命的开始。我们将演示这个进入抖音,然后搜索四川日报,点赞并收藏的并评价祖国万岁这个功能。大家可以看到我这里的手机是没有任何操作的,他将自己跳转到抖音,然后去搜索四川日报。 这里另外补充这个,这个项目需要这个显卡,要求比较高,要五零九零级以上,所以部署在云服务器上是最好的选择。他进入了四川日报,然后选的应该是会选第一个视频, 他为什么不动?因为他会等所有的视频加载完成,才会进入第一个页面。他开始进行点赞操作,然后收藏。这是他的第二个第二个动作。不不不, 我们可以看到他这里主播万岁是没有评论上的,但是他的动作还没有停,我们看他会怎样操作。 ok, 他 已经将祖国万岁打出来了,然后发出去,整体项目就已经完成,他输出了一个任务,完成结果 他开始了六步,第一步就是进入抖音应用。第二步,搜索找到四川日报官方账号。第三步,打开了四川日报的视频内容。第四步,然后第四步,点赞,第五步,收藏。第六步,发表评论。所有操作均已完成。


我哥前几天想买那个豆包手机,但又舍不得给黄牛加钱,说是想体验那种干任何事说句话就能让 ai 去做的皇帝感。然后就在网上找了半天,找了个开源项目能在自己手机上部署,问我靠不靠谱。 我看了一下这个 openwater 开源项目模型,确实有那么点靠谱,可以说它已经不是模型了,它是 aint 加模型加手机执行器了。 饭喂你嘴边了,看你会不会张口了。都知道豆包手机其实就是字节跳动。找了中兴通讯代工生产的努比亚 m 幺五三 豆包,找中兴旗下的努比亚生产了豆包手机,那豆包助手服务是不是得运装在手机的系统层里?这和你在应用商店下的豆包完全不一样,系统权限不在一个层面,就跟租客和房东一样,租客虽然进入到这栋房子里,但权限肯定不如房东多, 所以豆包手机才可以跨 app 自动化操作。那 openwater gym 可不可以部署进你手机里,像豆包 os 那 样跨 app 自动化操作,而且不受权限限制呢?在技术上很难,让我哥用上肯定更难。 首先这个开源项目的执行通道用的是 adb 加 accessibility, 豆包手机小米、澎湃、华为、小 e 都或多或少用了 adb, 因为在前几年, adb 靠着可以打字截图、强制开关 app 文件读写、获取数据这些能力深受技术喜欢, 还能进行连续滑动、自定义速度滑动、模拟人类的 pad 滑动等等,不让 app 发现。技术上 ok 的 情况下, adb 当时确实是执行通道的主流。但谁说你和中标公司资质一样你就能中标啊,你手机还要开发着模式,别人厂商可是直接白名单开路, 有内部接口和系统鲜明相助, adb 早落伍了,出来混要有实力,要有背景。你哪个大厂的?你没背景想靠微型做精准点击,但现在每个 app 的 弹窗位置 ui 图形都不一样,隔一段时间 app 更新去换一下,就算 ai 能力强,延迟也高。 不好意思啊,前段时间这里修路忙到被占了,盲人不能精准走路,还是别出来了。我知道 ai 手机可能是未来,但是我哥一个普通人代码都看不全,你敢给你手机装能无障碍通行的 a 进的进来,信息数据盗取怕不怕?后台运行怕不怕? 更何况部署还要服务器或者电脑,何必呢?还让子弹先飞一会儿。欧菲华米这些大厂都还在观望呢,如果都把手机突破了这些 app 的 封锁,那到时候就像外卖大战一样,百家争鸣,你肯定可以用上让你满意的。 但如果豆包手机没突破封锁昙花一现的话,那我讲实话,你就算是钢铁侠贾维斯来了也白搭,听懂了吗?哇哦,你真聪明啊。

火爆全网的豆包手机今天正式开园了,没错,从现在开始呢,任何人都能够拥有属于自己的 ai 手机操作员。就在前几天呢,智普突然放出了一个大招,把整整研究了三十二个月,能像真人一样去操控手机的 autolm 连模型、代码框架全部免费公开。重点来了,它的能力呢,几乎和豆包手机是一模一样的。为了证明不是噱头,支付还给出了一段官方的演示,只要给 ai 一个任务,规划行程,发送消息,完成购票结果。 autem 展示出的操作呢,让所有人倒吸一口凉气。 自动打开了不同的 app, 自动精准的定位页面,自动输入内容,自动滑动界面,自动选择行程和时间,自动完成了下单流程,整个过程稳准,像真人一样自然流畅。重点是呢,它的推理链路全 全程都是透明的,每一步都能看得见。另外,开源之所以会被全网刷爆,原因还有两个,第一就是安全,代码给到你,数据留在本地,手机里面发生的一切都在你的掌控范围内,不需要担心外传后台上传隐私的风险。第二呢,就是门槛低,任何人都能把它装进想要装的应用里。就像当年安卓开源,让智能手机从少数 咱的玩具变成了所有人的标配。而奥特 g m 开源呢,意味着 ai 的 操控设备呢,即将走向全民普及。智谱呢,把奥特 g m 公布出来,不是独占技术,而是把真正的创新呢,诞生在每一个愿意动手的人手里。