粉丝1获赞3

豆包手机刚火,各大 app 就 连锁封杀,这背后是一场你想象不到的暗战。让豆包替你回微信账号立刻异常下线,刷淘宝闲鱼疯狂谈验证码,用银行 app 直接禁止支付,表面是安全风控,实则是切断 ai 伸向自己地盘的手。传统 app 靠的是什么? 是你每天泡在里面的时间和注意力。而豆包想当你的终极代理人,一旦你什么都交给 ai 师,原来的入口广告铺天价值就全被下空了。 所以,这根本不是技术问题,而是一场关于谁来控制你的屏幕和保卫战。旧的生态正在拼命抵抗新的规则,你觉得 ai 最终会突破这层围墙吗?

siri 出来了十三年,还是只能帮你设个闹钟,但是豆包手机刚发布就能帮你自动点外卖、刷视频回消息了,这中间到底发生了什么?为什么一些大厂对豆包手机做了限制?这期视频可能会有一点长,但是你看完的话,相信对于豆包手机会有一个新的视角。 先回顾一下第一代语音助手为什么失败?二零一一年,苹果推出了 siri。 二零一四年,微软推出了 gardener。 二零一六年,谷歌推出了 assistant。 二零一七年,三星推出了 bixby。 这些产品都想帮用户操作手机,但是都失败了,为什么?根本的问题就是它们都依赖 a p p, 厂商主动适配 siri 想操作微信,对不起,微信不给你开接口。谷歌的 assistant 需要 app 实现特定的 intent, 愿意适配的厂商寥寥无几。说白了,没有人愿意给竞争对手开后门,这条路是走不 通的。现在的 g u i agent 不 一样,核心的突破是不再依赖 a p i, 而是直接看屏幕来操作,截图、视觉模型分析、输出、点击坐标、执行操作、循环往复。这一切都离不开现在飞速发展的大模型领域。 二零二五年,这个赛道已经非常拥挤了。字节的豆包手机、揭月星辰的 g e lab zero, 智谱的 auto g l m, 国外有 ansorek 的 computer use, open ai 的 operator, 苹果的 apple intelligence, 谷歌的 gemini, 华为的盘古也都在布局。说说豆包手机的技术架构,来自官方的白皮书。端侧有 n p u 推理引擎和 t e e 的 可信执行环境,本地会跑 o c r 多膜态、大模型等。端侧的优势是低延迟、隐私保护,离线也能用。云端是自洁自研的大模型,部署在机密计算容器里,用的是 s、 g x 或者是 t d x 技术,理论上连 自洁工程师都看不到。用户数据传输用的是双向 t l s 认证,还有端到云的二次加密。白皮书明确写了敏感数据不会参与训练,用完即删。安全方面,白皮书提到了六大类的高敏操, 需要用户二次确认。安全设计确实专业,但是开源方案透明度更高。为什么通用多膜态模型做 g u i 操作效果很差?看一组数据, g b t 四 o 的 准确率只有百分之十 九点六, jimmy 是 百分之三十六点六,而专用的 g e lab zero 四 b 达到了百分之七十三点四,差距非常明显。它的原因也很简单, 通用模型没有学到过,看这个界面该点哪里,坐标精度不够也不理解,下拉、刷新、左滑、删除这些手势。专用的模型用了三千一百四十六个人工标注,动作训练还用强化学习,优化策略,这就是为什么专用模型效果更好。但是问题来了, 一些 app 对 于豆包手机做了兼容性的限制,有媒体实测二十三款 app, 八款是使不动的,限制率约百分之三十五。限制手段从技术层面来说,有很多,检测操作间隔和轨迹规律,人的操作有随机性,机器操作太规律了。敏感页面有黑屏保护,这背后有深层的商业考量。 对于平台来说, ai 绕过了广告和推荐算法,减少了用户停留时间,还能自动比价,直接影响收入。对于 ai 厂商来说,这是 争夺入口和声带控制权的关键战场。对于用户来讲,想要效率提升,但是功能在大部分的时候都是受限的。技术路线对比,系统级的集成体验是最好的,但是最容易被检 测。 adb 方案开源灵活,但是需要电脑,普通用户用不了。无障碍服务不需要 root, 但是权限受限。浏览器 agent 的 跨平台,但是只 能操作外部应用。硬件要求,比如说四 b 模型,需要消费级的 gpu 的 显存,在端侧 npu 上跑七 b 模型十分流畅,还需要两到三年目, 目前是没有完美的方案的。我自己也做了一个 demo, 无障碍服务,加上外部模型 a p i, 最开始使用拉默 c p p, 端测部署太慢了,没法用,改成局域网方案了,能用,但是电脑得一直开着。通用模型的效果很差,不同的 r o m 权限差异大,所以也没有开源的打算。未来有三种可能,第一,系统级整合, 手机厂商内置 ai 助手成标配,苹果、谷歌、华为都在布局。第二,开放生态,厂商开放 agent api, 短期内不太可能。第三,持续磨合,平台和 ai 厂商相互适应,可能持续三到五年。 我的判断是短期内手机厂商各自发展,中期可能会有行业标准出现,长期 ai 手机助手一定会成为标配,但是问题是由谁来主导?关键的变量是端测 npu 何时能流畅。跑 七 b 的 模型预计还需要两到三年,其实很多大厂早就在布局了,这个赛道太重要了,下一代的人机交互入口、用户数据入口、 app 分 发新渠道,你只看到了冰山的一角。最后留几个问题给大家讨论,第一,这种限制合理吗?是保护用户安全还是商业考量?第二,谁会胜出?系统厂商? ai 厂商?还是开源社区?第三,端测芯片多久能流畅跑?七 b 的 模型一年?三年还是五年? 第四,是否需要出台行业标准来规范 ai 操作手机?第五, ai 助手应该有多大的权限?隐私边界在哪里?评论区聊聊你的看法,我会一一的回复。我是寒冰巨魔,我们下期再见!



豆包手机出来了,你会去买吗?哈喽,朋友们,那个最近豆包手机不是很火吗?然后很多朋友说,嗯,和我之前想的一样,就是这个手机不就是一个 嗯装了个豆包的手机吗?那和我手机装个豆包有什么区别呢?那是不是很鸡肋呢? 我之前其实也这么想的,所以我之前没有什么特别关注这个问题。然后最近看了一个呃,吕晓彤,就是那个财经主播,他的一个心聊的一个一个想法,我觉得哇,真的是有点醍醐灌顶。就是嗯,他这么说的,就是他跟 那个抖抖包的人,就抖音的人聊天的时候,抖音都问了他这么一个问题,就是你会不会给你的父母买一台豆包的手机? 我,我听到这个时候也觉得这个真的是有可能的,就是我爸妈的手机也是我买的,他们虽然有些在用豆包,我爸在用豆包,但我妈可能用的比较少,我很希望他们能够融入一下这个 ai 这个时代的东西。但是因为他们手机操作本来就不是很很 很精通嘛,虽然用的是苹果手机,苹果手机有很多东西也是很也很复杂的,就是对他们来说显得很麻烦。但这个时候如果有豆包这个手机,他内置了很多 ai 的 功能,他只需要跟他说一下他要做什么,或者说他要选什么东西,马上能弹出来的话, 这个对他来说我感觉简直是就是秒杀,基本上他只要价格合适,我一定会给他买的, 就是他已经,嗯,甚至很多安全系统他都能指路,知道他就是你。很多人都担心老年人会被诈骗啊,会被什么?各种东西,对吧?如果有台智能手机,他能够帮你识别一些东西呢?这意味着 买了一个通向给你父母,给你的父母买了一个通向未来的路口和一个安全的路口,包括。但有些人说中兴做手机不咋地, 但它中心的硬件其实是很强的,而且这下有那个抖音来监制这个问题,就像当年的嗯, 华为去监制那个东风小康一样。夏利斯现在不是卖的很好吗?所以听到看到这个的时候,其实我是 真的是有点醍醐灌顶了,这感觉有点立马想去买中兴的股票了。就是可能后续会更多的关注一下豆包手机这个进程,包括他的上海有公司。这个这个思路我之前真的是一直没有看到,因为 现在我们国家,至少我们国家用 ai 智能体的,不管 dbc 也好,还是阿里还是千万,还是豆包,其实数量都不是特别大,但是用手机的人特别多,尤其是呃, 老龄化越来越严重之后嘛。嗯,那个老人就是年纪比较大的人,他们没那么接触动新时代的人,他们可能会更有这种需求。