如何让 ai 来控制你的手机,帮你做事情?之前豆包手机这么做了,但是后来遭到了很多限制,于是给他哈普这么一个项目火了, oppo gm, 我 们直接来看一下效果,这里我让他打开抖音,给影视巨峰的随便一条视频点一个赞, 现在可以看到他是一边思考一边执行,经过一段时间的等待之后,可以看到他成功的给视频点了一个赞,这时候程序就可以宣告结束了, 那么我再试一下,打开微信,帮我给好友 lbi 发一条问候消息,但是我不说具体的消息内容是什么,让他自己生成,再次运行看一下效果,也是成功打开微信了。接下来他来到了搜索界面,输入好友的名字,查询到了好,点击在聊天框打字,最后点击发送。 好了,那么以上就是这个项目的体验,感兴趣的话大家可以自己去尝试一下,不知道你看完这个视频的感受是什么呢?
粉丝33.9万获赞320.4万


近日,豆包一点五 pro 超前体验豆包新一代音频视频创作模型,能够支持生成声音与画面相匹配的有声视频功能,音画同步,配音口型 音效可同时搞定。还会根据场景以及描述的提示词,自动调整视频的视角、运镜、景别等,能够使视频更加丝滑流畅,使画面更自然。还能精准音画同步与多语言方言支持,通过简单描述直接生成电影级运镜控制。接下来我将教大家如何使用豆包生成音画同步的视频。首先打开豆包, 点击开始创作,点击视频生成,点击参考图,先上传一张图片,使用豆包模型一点五 pro 输入简单的视频描述与台词,我输入的是拉布布,向镜头前招手,使用粤语说话,豆包就会所描述的内容。直接生成一个带有自动配音与自动生成背景音效的视频,一次就能搞定, 无需多抽卡。我还生成一个 b g d 娃娃的剪刀手的视频,背景音效都是自动生成。还有这个运动员的音效也是自动生成。 看看这个运动员的运镜,只是简单的描述,就能够直接生成丝滑流畅的运镜效果,滑雪动作自然流畅,双人对话的也能够精准的分清, 自动对应双人配音。我还在制作了一个直播带货的视频,口型表情很到位,精准抓住介绍产品的痛点,还可以用于短距离。像这种带有强烈情绪的微短剧剧本最考验 a a 的 逻辑,只是通过简单描述便可直接生成,达到想要的效果,这眼神里的空洞太真实了,非常的自然。 豆包这次升级直接一口气把精准音画同步、多语言方言支持和电影级运镜全部点满。最后我们一起来看看成品效果吧!你好,我叫莱布布 茄子, 中午你想吃什么?妹妹,我想吃麻辣烫,要特辣。 this is the new hand cream it has a really cooling feel when you apply it。 祝卿得偿所愿,来世定不再相遇,误了你我。

刚刚我发现了豆包手机有一个特别逆天的功能,到底有多恐怖?给大家看看啊!豆包豆包,打开向日葵,然后呢,再在图库上找到第一张图片,识别图片里面的验证码,输入进去,控制我的电脑,在电脑桌面上打开 i g 浏览器, 大家到底看看有多吓人啊?他先啊打开了向日葵,然后 查看了我的图库,找到了第一张图片,看它识别记录了这个验证码的信息啊,然后找到返回到向日葵,点击控制,看能不能控制, 看厉不厉害。用豆包控制电脑了,而且是用语音控制的,点击按键,你看它识别到了这个桌面的按键, 看能不能打开啊,等待按键打开,双击六不六,牛不牛?是不是很恐怖?

豆包手机抢不到?别抢了,装上这个 app, 你 的安卓机一秒变身豆包手机,把我车的回响打开, 给我在美团上点一杯深夜拿铁,全自动下单,我最后只需要付个款就行, 是不是很强?其实它的内核是基于智普开源的 auto grm, 但我做了一个重要的改进,我用安卓系统的无障碍服务,完美替代了原来复杂的 adb 底层控制, 彻底告别电脑,告别数据线。现在安装难度呢?直接较为打击,就像你平时装个 app 一 样简单下载安装开启权限,然后填入智普的 a p i k, 搞定。想要尝鲜的朋友下载的二维码我已经放在我的个人主页了, 但必须严肃提醒大家,无障碍权限非常敏感,请务必谨慎授权。如果你有技术基础,强烈建议直接去我的 github 下载源码,自己编辑安装,这样最安全。 最后呢,感谢 open auto g l m 安卓提供的无障碍思路以及智谱 auto g l m 的 核心 a 键的逻辑。我也已经将我的代码在 github 上进行开源,没有开源社群的建立,也就没有这个豆包手机的平替版。 nice! 我是 喜得湖,用 ai 点的咖啡,你喝到了吗?我们下期见!

今天给大家分享一个豆包手机同款的开源项目,也就是最近特别火的智普,他们开源的 open oto g l m 是 专门用于控制这种托管手机的智能体。这个是一个框架,也是一个项目,但是这个总体来讲它的亮点大于实践, 主要有两个比较大的创新。第二个就是他们这个框架是可以进行这种手机的 连接,其实它跟按键精灵是差不多的,甚至它比按键精灵要小或者简单很多,实现了电脑和手机的远程操作,可以直接连 usb 或者直接在一个 wifi 里面就可以进行对接和联通。 我也详细梳理了一下这个项目,它开源的话其实并没有开源特别多的东西,像一些 memory 记忆体啊,这些记忆模块都没有开源,而且它只有一个智能体模块,它更像一个 simon, 而不是实际的一个项目。因为他在去年的时候其实是呃发了一个 app 的, 也是 otoglm, 但是在后面就没有特别多的推广了,而且效果也一般。 但是由于这一次豆包手机大火了之后,他借着这个风也做了开源,让大家也看到了这个项目。 我们详细来梳理一下这个项目。首先它的主要的架构就是你可以支持用它自己的本地模型,当然它都是使用的这种 best url 的 方式,你可以用本地的,也可以直接用现成的,但是那个模型必须要支持能元素定位, 现在币源的模型几乎都可以多模态的,最近的微软也开源了一个三 b 的 模型,应该性能也是蛮不错的,做元素定位,而且思考的模型 应该性能也是蛮不错的,但是他没有跟这个模型做一下对比,不知道他们九 b 的 这模型跟这个微软开源的三 b 的 模型比起来怎么样,应该大差不差,因为微软这个模型稍微小一点点,但是测试起来效果还是蛮不错的,而且小了之后才能在我们这种本地的这种显卡上面跑。九 b 还是挺大的,不算小了, 但是他有量化的,不过肯定是需要二十四 g 才能跑的,三 b 的 话做一些量化操作的话,也是可以让他实现在十二 g 内存上面跑的。 我重点比较疑惑的就是它到底有哪些工具和它这个智能体,它是什么样的一个智能体?它智能体只有一个智能体,然后我也没有 memory, 也没有记忆的规则,然后主要就是典型的 react 智能体, 整个流程就是典型的感知、思考、行动的这样的一个循环。然后每一次它做任务的时候或者下发任务的时候,它就会把整个 手机的系统去构建一个上下文,他的系统有什么应用这些,还有他的截图,就构建这样整体的一个上下文,加上你的一个任务规划, 然后他通过思考思考了之后去规划出来一个计划,然后去做执行,每一次执行了之后,他再进行一次思考,然后再进行执行,直到完成任务为止。当然他还有一些敏感操作,比如说验证码,比如说 要进行付款呀,这个是要人工介入的,它会主动的提示你们,我重点是想要知道它有哪些工具,或者可以执行哪些操作,是怎么样执行的?然后我就让它梳理了下,我是用的这个 deepweek 来做的,梳理它的工具也 跟按键精灵是差不多的,甚至比按键精灵要简单很多。首先就是启停指定的应用,然后手机上面关键的那几个按钮,还有就是滑动输入文本,返回上一页,还有点击,这些都都是可以的, 主要用的就是滑动文本和点击这几个,然后启启停应用,切换应用,这都是标准的按键精灵里面的东西。然后就是操作他的其实是一个相当于方寸扣领,点击某一个按钮去调用这某一个工具,然后有一些比较标准的规则, 应该执行前要检查应用,然后最多呢连续的等待三次,验证这个操作是否可以 进行操作。然后就是完成之后检查一下它的准确度,其实整体看起来它是一个 demo 的 形式,它并不是一个特别完整的项目,只是一个 非常简单的 demo, 稍微复杂一点的可能就是它搭起来了这样的一个框架,你自己可以去加一些 memory, 或者说加一些什么东西,然后我去可以放在你的手机里面,可以进行继续的二次开发。 总体来讲这个项目还是不能直接拿来做实际的运行的,可以做二开,这个是可以的。然后我都还专门让它梳理了一下它的记忆模块有没有,它是没有记忆模块的,它只有它模型上下文 token 的 这样一个上下文,然后这些提示词它都是用的中文呢?然后必须遵循的一些规则, 这些提示词其实还可以拿来做一些借鉴这些智能体的提示词借鉴还是蛮不错的。还有像这些执行动作某一个 app, 然后这就是它们方选透的一些东西了,当然做成 mcp 其实也是可以的。

先说一下这个豆包手机的核心原理啊,我用比较大白话通俗易懂的话去讲,它的核心原理是怎么控制我们手机的,而且是自动化。那首先就是它可以不截屏不读这种权限去直接去拿屏幕的数据, 对吧?因为那种普通 app 要么去截屏读屏幕啊,申请这种无障碍的权限去拿到一些信息。但是豆包手机它不走寻常路,它有一个叫 auto action 的 核心附件, 它是直接从手机的 gpu 的 图形缓冲去拿原始画面啊,就相当于说绕开了这种 app 的 限制,就是你禁止截屏照样能拿数据, 就相当于说它不是经过 app 的, 它从最底层去拿这个图像,并且呢,它还会开一个和你手机屏幕一样大的这种虚拟的后台的屏幕,就是运行这种操作啊,你前台刷视频啊,什么它是不受影响的? 那第二个就是他核心的,他手机本地有一个叫 acorn 的 核心进程,相当于一个管家一样的,就是他是负责承接一些任务,包括指令啊。但是真正去思考的是云端的 ai, 就 他本地会把我们刚才说那个虚拟屏的画面, 对吧?可能每三到五秒发一次啊,用小图片传到服务器上,他分析之后呢,返回指令,本机在操作啊,就是说有一个类似于核心的进程,他是指挥这个 远端的 ai, 包括本地拿到的数据进行一个运转,对吧?你本地拿到数据,通过他发给这个 ai, ai 分 析好了,发给通过,他再发挥本地本地在操作,对吧?然后第三就是说他直接是操控的手机的, 就是它模拟你手机的手指的点击滑动输入,相当于直接去按屏幕啊,它是有一种隐藏的权限,就可以绕开很多 app 的 这种说话限制。那它为什么会抵制呢?首先就是 隐私,它没有保证吗?对吧?你 app 的 隐私你是需要用户同意的,它这个绕开 app 它从底层拿,对吧?第二就是那既然它能绕过底层, 相比说它可以自动去操作的话,那你本身你原来去操控 app 你 需要看广告啊,等等,你现在不需要看了,都是通过豆包来的,对吧?那些 app 的 广告怎么办呢?所以说 从商业包括隐私角度来讲,他可能会被抵制,原因在这里啊。嗯,当然如果你需要前端解决,需要前端去陪跑,你可以找我啊,付费可以报名,因为我也交了很多这种学员,对吧?如果你前端找工作遇到问题了。

打开抖音搜索美女主播,给前三名点上关注, 如何安装,你也不需要去一步一步的操心怎么写指令,你直接把这个地址,直接把这个地址扔给啊切克 ppt, 或者扔给啊通讯签文,扔给豆包,他直接帮你生成一个安装的一个指令,但首先是安装那个对,安装 python 相关的一个环境, 那我们需要去安装一个 v o m 的 一个啊框架,然后再去下载一个模型,对,然后直接啊可以在本地啊启动服务,对,我们还要在手机中去安装一个 a d b 的 一个啊驱动,然后打开 usb 的 一个调试, 那就可以了。安装的过程中你直接的遇到任何的问题报错,然后直接丢给 a, 然后他会对直接帮你去啊找到一个相关的解决方案。
