粉丝1269获赞2117


今天教你用上豆包手机同款的智能体,不需要买新手机,全程本地运行,没有隐私问题。腾讯阿里联手封杀豆包手机之后,昨晚熬夜把这台 redmi k 八零直接改造成为了全自动特工。看好了,我只需要动动嘴,你看,我只需要运行这样一行命令。 ok, 它会自动跳过广告和弹窗搜索对应的机票,然后还会增加限制条件, 会选择默认的乘机源完成提交。到最后一步支付的时候,他会把控制权交给你,所以不需要担心支付错误的情况。 用的就是智普刚刚掀桌子也要开源的 open a do g i m。 底层是风九 b 的 模型,通过 a d b 连接手机,而视觉模型去看屏幕,模拟人的手去滑动手机,全程本地部署数据,部署手机, 你的隐私全在自己的手里。说实话,这个效果巨头们当然会害怕了,只需要输入这个指令,马上就已经在执行了,会自动向下滑动,查看各种咖啡店的咖啡价格信息。 ok, 他 已经选好了一本标准美式最终的结算步骤了,我只需要结算就可以完成。以前的我是流量韭菜,得到 app 里面来回去切换,给各大互联网商付过路费。但现在, ai 让巨头们成为了纯粹的工具人,失去了入口,失去了用户的时长,这不就是在砸他们的饭碗吗? 但是大事是挡不住的,我们不想做重复的动作,不想看广告,不想被反复去折腾。真正的结局应该是 app 们去适应新的规则,跟 agent 共生质朴, 我们每个人一颗种子。而豆 open gm 让我们可以拥有一台只在本地设备运行,只为我服务的智能机。所以要不要把自己闲置的手机也变成跟我一样同款二十四小时在线的手机? a 整呢?保姆级的部署教程已经整理好了,想要的拿走。主页更多 ai 技巧,我是卡,我们下期见。




万万没想到,这两大巨头居然联手了,就为了封杀豆包的 ai 手机。这个看似技术领域的对抗,背后却牵扯着一块巨大的蛋糕,而这蛋糕的核心,正是我们每天都在交,却很少察觉的隐形税。 因此,这其实不是技术的战争,而是一场关于过路费规则的战争。你想象一下这个场景,晚上你想点个外卖当晚餐,以前你得打开两三个外卖 app, 一个个看完弹窗广告,在不同店铺间搜索比价,计算满减凑单,最后才能下单付款。现在呢,你只需要对豆包的 ai 手机说,帮我点一份最便宜的披萨,然后它就会瞬间帮你打开所有外卖平台, 自动对比各家的价格,最后给你一个最优方案。你甚至不知道这份披萨最后是从哪个平台里送出来的。但巨头们为什么这么慌?因为你跳过了开屏广告,跳过了信息流推荐,跳过了平台精心设计的比价页面,你没给他们交一分钱的过路费? 说白了,我们每个人每天上网都在交三种看不见的税。第一种是时间税,每次打开 app 那 三到五秒的开屏广告,你的时间就是平台的收入。第二种是选择税,为什么你总是先看到那几个商家?因为他们付了推广费,平台决定让你看什么。 第三种是交易税,每一笔订单,平台都要出成从百分之几到百分之三十不等, 这些隐形的成本,最终其实都转嫁到了我们消费者和商家头上。而 ai 要做的就是建一条免税通道,让你直达商品,让商家直达客户。那面对这样的变化,我们普通人该怎么办呢?别光看巨头打架,我分享三个立刻就能用的建议。 第一,马上检查一下你的生意或者服务,能被 ai 看懂吗?试着用一句话说清楚你做什么。比如深圳宝安区提供当日鲜花配送,而不是笼统的说我们卖花越简单明确,越容易被 ai 识别和推荐。 第二,开始建立你自己的客户血池,哪怕只是一个五十人的某性群,一个五百粉的公众号,这都是你自己能掌控的流量。 我有一个做母婴用品的学员,就用企微加满了三个群,现在他上新品的销量比单纯靠电商平台的时候还稳定。 第三,立即找出你工作中最重复、最耗时间的那个环节,测试一下 ai 能不能帮你。是每天回复几十条同样的客户,问题是每周都要写产品文案,还是整理杂乱的数据表格?从最简单的一件事开始,是成本最低。 我知道很多人看到这种新闻会焦虑,觉得 ai 又要来抢饭碗了。但我想说,历史的规律一直是,会用新工具的人淘汰不用工具的人。这不是 ai 的 问题,这是学习速度的问题。 记住,当巨头们在为保护地盘打架的时候,往往正是新机会出现的时候。别只当看客。时代在变,工具箱也在更新,聪明人已经开始挑趁手的工具了。

今天给大家分享一个豆包手机同款的开源项目,也就是最近特别火的智普,他们开源的 open oto g l m 是 专门用于控制这种托管手机的智能体。这个是一个框架,也是一个项目,但是这个总体来讲它的亮点大于实践, 主要有两个比较大的创新。第二个就是他们这个框架是可以进行这种手机的 连接,其实它跟按键精灵是差不多的,甚至它比按键精灵要小或者简单很多,实现了电脑和手机的远程操作,可以直接连 usb 或者直接在一个 wifi 里面就可以进行对接和联通。 我也详细梳理了一下这个项目,它开源的话其实并没有开源特别多的东西,像一些 memory 记忆体啊,这些记忆模块都没有开源,而且它只有一个智能体模块,它更像一个 simon, 而不是实际的一个项目。因为他在去年的时候其实是呃发了一个 app 的, 也是 otoglm, 但是在后面就没有特别多的推广了,而且效果也一般。 但是由于这一次豆包手机大火了之后,他借着这个风也做了开源,让大家也看到了这个项目。 我们详细来梳理一下这个项目。首先它的主要的架构就是你可以支持用它自己的本地模型,当然它都是使用的这种 best url 的 方式,你可以用本地的,也可以直接用现成的,但是那个模型必须要支持能元素定位, 现在币源的模型几乎都可以多模态的,最近的微软也开源了一个三 b 的 模型,应该性能也是蛮不错的,做元素定位,而且思考的模型 应该性能也是蛮不错的,但是他没有跟这个模型做一下对比,不知道他们九 b 的 这模型跟这个微软开源的三 b 的 模型比起来怎么样,应该大差不差,因为微软这个模型稍微小一点点,但是测试起来效果还是蛮不错的,而且小了之后才能在我们这种本地的这种显卡上面跑。九 b 还是挺大的,不算小了, 但是他有量化的,不过肯定是需要二十四 g 才能跑的,三 b 的 话做一些量化操作的话,也是可以让他实现在十二 g 内存上面跑的。 我重点比较疑惑的就是它到底有哪些工具和它这个智能体,它是什么样的一个智能体?它智能体只有一个智能体,然后我也没有 memory, 也没有记忆的规则,然后主要就是典型的 react 智能体, 整个流程就是典型的感知、思考、行动的这样的一个循环。然后每一次它做任务的时候或者下发任务的时候,它就会把整个 手机的系统去构建一个上下文,他的系统有什么应用这些,还有他的截图,就构建这样整体的一个上下文,加上你的一个任务规划, 然后他通过思考思考了之后去规划出来一个计划,然后去做执行,每一次执行了之后,他再进行一次思考,然后再进行执行,直到完成任务为止。当然他还有一些敏感操作,比如说验证码,比如说 要进行付款呀,这个是要人工介入的,它会主动的提示你们,我重点是想要知道它有哪些工具,或者可以执行哪些操作,是怎么样执行的?然后我就让它梳理了下,我是用的这个 deepweek 来做的,梳理它的工具也 跟按键精灵是差不多的,甚至比按键精灵要简单很多。首先就是启停指定的应用,然后手机上面关键的那几个按钮,还有就是滑动输入文本,返回上一页,还有点击,这些都都是可以的, 主要用的就是滑动文本和点击这几个,然后启启停应用,切换应用,这都是标准的按键精灵里面的东西。然后就是操作他的其实是一个相当于方寸扣领,点击某一个按钮去调用这某一个工具,然后有一些比较标准的规则, 应该执行前要检查应用,然后最多呢连续的等待三次,验证这个操作是否可以 进行操作。然后就是完成之后检查一下它的准确度,其实整体看起来它是一个 demo 的 形式,它并不是一个特别完整的项目,只是一个 非常简单的 demo, 稍微复杂一点的可能就是它搭起来了这样的一个框架,你自己可以去加一些 memory, 或者说加一些什么东西,然后我去可以放在你的手机里面,可以进行继续的二次开发。 总体来讲这个项目还是不能直接拿来做实际的运行的,可以做二开,这个是可以的。然后我都还专门让它梳理了一下它的记忆模块有没有,它是没有记忆模块的,它只有它模型上下文 token 的 这样一个上下文,然后这些提示词它都是用的中文呢?然后必须遵循的一些规则, 这些提示词其实还可以拿来做一些借鉴这些智能体的提示词借鉴还是蛮不错的。还有像这些执行动作某一个 app, 然后这就是它们方选透的一些东西了,当然做成 mcp 其实也是可以的。