没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。
粉丝452获赞8129


火爆全网的豆包手机今天正式开园了,没错,从现在开始呢,任何人都能够拥有属于自己的 ai 手机操作员。就在前几天呢,智普突然放出了一个大招,把整整研究了三十二个月,能像真人一样去操控手机的 autolm 连模型、代码框架全部免费公开。重点来了,它的能力呢,几乎和豆包手机是一模一样的。为了证明不是噱头,支付还给出了一段官方的演示,只要给 ai 一个任务,规划行程,发送消息,完成购票结果。 autem 展示出的操作呢,让所有人倒吸一口凉气。 自动打开了不同的 app, 自动精准的定位页面,自动输入内容,自动滑动界面,自动选择行程和时间,自动完成了下单流程,整个过程稳准,像真人一样自然流畅。重点是呢,它的推理链路全 全程都是透明的,每一步都能看得见。另外,开源之所以会被全网刷爆,原因还有两个,第一就是安全,代码给到你,数据留在本地,手机里面发生的一切都在你的掌控范围内,不需要担心外传后台上传隐私的风险。第二呢,就是门槛低,任何人都能把它装进想要装的应用里。就像当年安卓开源,让智能手机从少数 咱的玩具变成了所有人的标配。而奥特 g m 开源呢,意味着 ai 的 操控设备呢,即将走向全民普及。智谱呢,把奥特 g m 公布出来,不是独占技术,而是把真正的创新呢,诞生在每一个愿意动手的人手里。

就在前几天大火的豆包手机被各大 app 联合封杀后,智普直接就掀桌子了,都不让用是吧?我直接就把相关技术都开源了,以前只有大厂才能搞的 ai 助手,现在人人都可以拿来用。要知道豆包手机和市面上你能看到的 ai 助手都不一样,它 是刻在系统底层的代码,能在各种不同的 app 里来回跑,让他点个外卖,发条微信,想要买什么东西,豆包都会给你找出最低价, 甚至它还能帮你完成游戏的每日任务,而且这些任务都是可以在后台进行的,这简直就是我梦想中的 ai 手机。但也就是因为豆包实在是太能干了,什么都让你干了,用户根本就不会点开我们的应用,那我们还怎么活下去? 于是各大 app 说着保护用户安全和隐私,立马就封杀了豆包手机。眼看 a i 手机的火苗要被掐灭了,是否接过了火种,宣布正式开园?研发了三十二个月的 o t g l m。 这就相当于每个人都可以在自己的手机里做一个能帮你干活的 ai 助手,并且它还支持本地部署, 你的任何操作和数据都只会烂在你的手机里,不会上传到云端,隐私和安全都得到了保障。如果是你,你会支持 a i 手机,还是会坚持现在的手机使用习惯?

大家好,我是老周,那么上一期的话,我们说到豆包出了个豆包手机,那么果然在啊,最近的话就是全网啊,出现了他的竞争对手,那这个是谁呢?就是十二月九号啊,就是智普那么宣布开源的一个 ai agent, 就是 auto g l m, 那 么呃,它有什么作用?它就说,嗯,任何厂商,任何设备,任何开发者都可以基于它附设一个能够看得懂屏幕能够点,能够滑,能够输的 a i a 键啊。 那么现在的话就是啊,智普他的豆包的手机的竞争对手出来了啊,这个是一个啊, open auto gm 的 一个项目啊,怎么有个项目介绍,他原来就是一个叫 phone agent 的 这么一个项目啊,那么我们看一下他的一个重点啊,那么首先的话就是,呃, 我们看官网上面写的就是全球首个能够操作手机和电脑的一个通用 a 帧, a 帧就智能体啊,那么我们看一下它的亮点啊。第一个的话就是能力的组建化,那么 auto g l m 它是直接把这层能力就变成一个组建, 让任何厂商都可以在自己手机上去还原这个链路,也就是说这个通用性,那么就是让那个就 am 它在 ai 手机中的竞争啊,就会啊,跟豆包手机会不一样啊,其实它是有点像我们软件开发中的中间件这种概念啊,反正 不管是谁都能用的上,都可以用我的,我都跟谁都可以合作。那第二点的话,就是他的一个识别并理解屏幕的这个能力哈,因为呃 autogm 它是采用的 g u i 的 一个 a 整,那么它是可以绕开这个对于开发人的依赖, 就是他可以模型啊,直接是对着屏幕去判断的,他是智能的,他不是说我们说的是斜死的,他并非这样子,就是,呃,他相当于是 ai 的 一个眼睛吧。 那第三点的话就是任务量,就是我们实际看要考虑的一个问题,就是比如说 按钮到底能不能现在这种点,或者说弹窗底部那个菜单是怎么样的?那么页页面跳转成不成功,要不要回退?那么中流程中断的时候 怎么办,对吧?从哪里去继续,这都是很现实的一个场景的问题,那这个这个问题解决的好不好,那么是非常影响的用户体验 啊,那么这就,呃,并非说简短的一个脚本录制就可以了,对吧?比如说我们的 ipa, 就 啊这样简单就就就可以录制, 是啊,并不可以的,那么它是需要的就是模型具备自我的一个纠错能力,规划能力,那么 ai 的 话,它就是不需要录顺着录好的一个流程走啊,而是理解了画面之后自己去规划这个操作路径,对吧?然后在几十步的一个长的任务链中保持着一个稳定的工作 啊,这是目前的任务练的啊,就,呃, auto g m 是 有这个能力。那么第四点就是生态的支持,那么下面这个图啊,是目前支持的啊,这个应用啊,就是目前其实应该获得了 很多厂商的应用,那么初步形成了一个生态矩阵啊,也就说独乐乐不如众乐乐哈,就是啊,这样的打法是不一样的,我们看到就是很多的一些头部的 app 其实也是可以支持的, 像那个幺二三零六啊,还有这微信啊这些,都还有淘宝闪购啊这些,嗯, 但是呢,第二点我们看一下他面临的问题啊,啊,就说首先的话,就是权限问题啊,就是奥德 g m 跟豆包手机其实是一样的,他也是面临一个权权限的问题,这个是要不过去的,因为权限的争议的本质,他不是技术问题,而是系统的规则的问题啊, 就比如说一些事件注入啊,屏幕读取跟模拟输入,谁都都是属于一种系统级别的一个高敏感的一些权限,那么 那么手机厂商愿不愿放开,这是第一方面,那么 app 本身的风控怎么能不能放开?也是另外一方面啊,因为,呃,互联网平台它是有一个风控风控体系的,就是它的安全啊,那么几十年来,其实它都会识别一些通过脚本啊,识别些 啊,或者系统监控啊,识别些脚本,或者说一些异常行为。那么 ai 其实它目前的特征呢?其实是很类似的啊,那么有没有可能误判呢? 可能会有误判,对吧?所以说这个是权限问题啊。那第二个就是安全问题,同样也是面临的一个安全的防范机制,比如说网络安全啊,误操作啊这些问题啊,同样是要误开的,也是需要解决的。那么第三点就是看法 啊,首先的话,第一点就是其实本质上豆包手机跟那个 auto gm 它其实也是啊,就是掀起 s 的 手机时代嘛,对吧?只是说目前来看各自实现路径不太一样, 那么对用户来讲,其实最应该考虑就是说未来你的那个手机的操作系统啊,到底要不要交给 ai, 就是 愿不愿意交给 ai, 这是用户要考虑的一个地方 啊。第二点的话就质朴方面表示,就是啊,他开放这个奥拓 gm, 其实就是第一场是初衷就是把这一层能力变成了整个行业可以共同拥有,可以共同打磨的这个几种,这是开源的目的嘛?就因为这个,他认为这个事情, 呃,一一个公司在做肯定是不够的,他要形成一个生态,那么他就第一个站出来啊,把它开源了。 那第三点的话就是从趋势上看,其实目前来讲,从豆包的那个单点突破到目前的澳洲 g m 的 所谓的一个生态共建,那么其实它阶段已经 已经演化了啊,已经更进一步,那么权限问题有没有可能被那个新的协议性的电镀或者新的机制去解决?其实,呃,其实很多问题啊,只要生态愿意去解决,肯定能够找到办法的,对吧?但只是说可能涉及他的利益问题啊,或者说一些竞争的问题 啊,其实从技术上讲,这些并不是说没法去解决的啊。那么还有就是系统跟 app 的 关系会因为啊这个代理机制成熟就被重新定义, 就如果这个爱手机已经后面成熟了,那么还有没有可能有 app 的 存在的必要呢?对吧? 那么手机的未来,你看也是因为 ai 的 加入,就会从人去操作这个手机啊,变成机器替人去操作,就说可能你直接跟他说句话,他就帮你操作了,对吧?而且未来这个能力会不会成为一个很普遍的这种 这种现象啊?这个也是有可能的,那对我们来讲就是说我们思考就是豆包手机模式,或者说奥特 g i 模式,开源模型的模式,其实啊,哪种会更会被看?好了, 那咱们就在评论区去见哈,大家可以发表自己看法。好,那本次的分享就到这里,谢谢。
