粉丝1.3万获赞11.0万


如果你的手机变成一个能听懂、能看见,并且能够替你完成一切的智能助手,你会不会觉得很惊讶?最近的一台豆包 a 手机的工程样机把这个概念推到了我们的面前,三万台被货直接秒光,二手市场意向翻番。他被很多体验者称为 全球第一款真正的 ai 手机。但它究竟是什么?是技术的革命性跃迁,还是一个被过度包装的营销概念呢?这期视频我打算深入它的一个技术核心,让你们理解 a i 手机的发展的来龙去脉以及面临的挑战。内容比较长,建议大家点赞、收藏加关注,感谢!要理解豆包手机,你首先需要明白一个概念叫智能体,也就是我们经常讲的 a i a 键。过去两年呢,我们见证了文青一言、豆包通一千万这些机座大模型的爆发, 他们确实很聪明啊,能说会道,但有一个根本性的局限就是他们只有大脑没有手问他帮我去订一张去上海的机票, 他能给你写出一个完美的步骤,但是订票这个按钮还是得你自己来点。所以呢,智能体在这样一个环境下就 出现了,他的革命性使命就是为大模型装上手和脚。就一个真正的智能体,是需要具备感知、规划、决策、行动和记忆的完整能力的,就他不仅要去能够理解你的话,还要能够去分解任务,去调用工具,最终呢, 完成你的目标。二零幺五年呢,智能体已经成为所有科技大厂的竞争焦点,智捷、阿里、腾讯这些巨头们全力在布局智能体生态和应用,智能体现在已经渗透到了电商、客服、编程各个领域了。 为什么大家很看好智能体,是因为他被视为打通 ai 落地最后一公里的最短路径,所以 ai 的 竞争正在从模型本身的智能转向智能体执行任务的一个效率。所以你理解了智能体,你再来去看豆包手机,他所做的事情就是把智能体的能力推向移动设备的终极形态 g u i agent, 也就是系统及图形界面的智能体。他的目标不是去回答一个问题,而是直接接管你的手机的屏幕操作。这一切是怎么实现的呢?秘密就在于他底层的 u i task 模型,这是一套由志杰和清华团队开源并且持续迭代的模型,专门为看懂和操作图形界面而生的。 这个模型简单理解就是通过海量的 g u i 截图训练,精准的去识别屏幕上的按钮、文字这样一些元素。然后呢,设计跨平台的点击、滑动、 输入等模拟操作来完成人的交互逻辑。更关键点是,通过和手机厂商的深度合作,豆包助手呢,获得了最高的系统权限,它不再是手机里面的一个普通 app, 更像是一个被刻入进系统底层的一个原声能力。 所以这样一个特性就赋予了他两个关键的特权,第一个呢,就是他可以看到你当前屏幕上的任何内容,并且进行一个交互。第二个呢,他可以模拟你的手指去点击滑动任何的应用。但是呢,透过目前的实践方式,也暴露了他最大的局限性,就是 它像一个特洛伊木马,通过获取极高的系统权限,强行模拟人手的操作来破解各个 app, 这种方式简单粗暴,但是问题很多,所以才发布了几天,你像微信、支付宝 多家银行 app 纷纷把豆包手机识别为风险环境,限制登录操作,而且各类 app 厂商也怕豆包绕过他们的抢数据和流量,也开始做各种限制,那豆包手机未来该何去何从呢? 这也是一个值得深度思考的问题。其实呢,本来行业里面是有一个最佳的解决方案,就是 m c p, 也叫模型上下文协议, 它的理想很美好,就是让各个应用按照统一的标准,把核心功能,比如说叫车、支付、点餐 包装成这种 m c p 协议的接口,让 ai 智能体通过 m c p 协议去安全规范地调用这些接口。这样呢, ai 就 不再需要窥屏和模拟点击了,而是像人和人之间协作一样,去通过标准流程来完成任务。其实所有大厂都很看好 m c p 的 价值, 并且呢,也在积极的推进和布局,但问题在于,这又触及到互联网公司的根本利益啊。就如果未来用户都是通过一个统一的 ai 助手入口来订餐、打车和购物的话,那么抖音、微信、淘宝这些超级 app 的 入口价值和广告营收一定会受到巨大冲击的。 所以呢,我们看到大厂的一个矛盾心态就是既怕落后于生态,又怕开放了接口,丢了江山。豆包手机的即兴之处在于他等不及 mcb 生态的缓慢成熟,他用最硬核的技术方案强行实现了全托管的体验。 也就是说,把智能体和现有的互联网生态的根本矛盾提前摆在了台面上,所以不管是面向个人还是企业,豆包手机推向个人应用依然面临巨大的挑战。 而且呢,我们还需要深思一个问题,当 ai 成为实际操作的主体的时候,我们应该怎么去重新定义安全、隐私、公平和责任呢? 这已经不是一个技术问题,更是一个社会和法律的问题。所以总之呢,豆包手机的出现冲破了我们对于手机交互的一个想象边界,他用极致的产品证明了用户需要的不是一个更聪明的聊天机器人,而是能够将自己从重复劳动中解放出来的数字伴侣。我是麦克,我们下期再见。