粉丝15.2万获赞12.0万


今天啊,我们来聊一聊豆包手机助手这个软件啊,这个软件挺有意思的,它将当前最火的 ai 大 模型技术跟你的手机操作系统啊进行了一定的结合,从而实现呢,你直接可以通过对话的方式,就能够去指挥你的手机完成一些比较复杂的任务, 比如说中秋节来了,我想给我的亲朋好友发送一些祝福语,以前呢,我们可能先要去百度一下,看看有没有些合适的祝福语,对吧?然后复制粘贴下来,然后打开你的通讯录,去找到你的亲朋好友,并且逐条的发送短信。那现在呢,你就可以直接给你的手机下载一条任务,你跟你手机说 帮我生成一个中秋节的祝福语,然后发送给我的亲朋好友,那么你的手机会全自动的完成刚才说的一系列的这个操作, 所以这样的一个功能啊,他其实极大的降低了手机的一个使用门槛,那么对于老年人来讲,肯定是特别有帮助的,对吧?当然对于大多数的这个手机用户呢,肯定都能够极大的提升你手机的这个操作效率, 这就是大模型跟操作系统层面结合的一个非常大的优势。当然这个概念啊,其实很早就有啊,在去年的时候啊,微软的 ceo 啊,就已经提出了,想将 ai 大 模型技术跟微软的 windows 操作系统进行一个深度结合,从而实现操作系统层面的一个智能化。 那这个事情呢,是一个比较漫长的一个周期啊,所以呢,分了两个阶段来实现。第一个阶段呢,是先实现将 ai 大 模型跟我们最常用的一些应用软件进行结合,比如说 office 软件, 我们所有人都用过这个 excel, 那 么在用 excel 的 时候呢,在之前啊,你可能要学习一些 excel 的 这个专业的知识,对吧?比如说如何来通过 excel 进行数据分析,如何来制作一个具备上钻下钻功能的 excel 图标。 那现在呢,你可以直接指挥你的 excel, 你 告诉他说我现在有这么一些数据,帮我分析里面的一些数据特征,或者说帮我制作一些图标。那么 excel 呢,它可以基于 ai 大 冒险能力啊,快速的帮你生成这些能力, 所以 excel 呢,对于我们来讲,现在啊,也是非常简单的就可以使用了,对吧?这就是 ai 大 模型给我们带来的一个好处。那当然到了第二阶段的时候呢,我们的 ai 大 模型啊,会跟操作系统完全的结合,不管是手机操作系统,还是你的这个个人电脑, 当他完全的结合之后呢,你就可以直接把你的电脑当做一个人一样,你直接告诉他帮我去完成一些复杂的任务,那么你以前在你的电脑上需要手动操作的大多数任务啊,他都可以全自动的完成,这就非常的强大了,对吧? 当然这个功能啊,其实也受到了很大的一些约束啊,比如说第一个约束呢,就是你的电脑里面肯定有很多的敏感数据,对吧?你不 可能完全放心的交给你的智能体去操作。所以呢,在这个过程中啊,这个微软 ceo 也提出来了,就是它肯定需要大量的授权,比如说我现在找到了一份文件,那这个文件你想清理的时候呢?那这个智能体它可以直接把它清理掉吗?肯定是先需要经过你的授权 之后呢,他才能清理,对吧?这是一个层面上的一个约束,还有第二个约束呢,就是你看我们的手机上有一些微信啊,或者抖音啊等等这些软件,那这些应用软件他真的甘心直接让你的手机接管智能的去操作吗? 其实这里面涉及到很多的一些,这个不管是法律层面上的一些这个风险层面上的一些约束,比如说我操作微信,对吧?我就不能直接通过我的这个智能体去, 呃,通过我手机上的微信啊,是不断的骚扰别人,对吧?所以这里面呢还涉及到了很多的事情啊,要慢慢的去看看有没有一些更好的这个解决方案,那也非常值得我们期待, ok。

如果你的手机变成一个能听懂、能看见,并且能够替你完成一切的智能助手,你会不会觉得很惊讶?最近的一台豆包 a 手机的工程样机把这个概念推到了我们的面前,三万台被货直接秒光,二手市场意向翻番。他被很多体验者称为 全球第一款真正的 ai 手机。但它究竟是什么?是技术的革命性跃迁,还是一个被过度包装的营销概念呢?这期视频我打算深入它的一个技术核心,让你们理解 a i 手机的发展的来龙去脉以及面临的挑战。内容比较长,建议大家点赞、收藏加关注,感谢!要理解豆包手机,你首先需要明白一个概念叫智能体,也就是我们经常讲的 a i a 键。过去两年呢,我们见证了文青一言、豆包通一千万这些机座大模型的爆发, 他们确实很聪明啊,能说会道,但有一个根本性的局限就是他们只有大脑没有手问他帮我去订一张去上海的机票, 他能给你写出一个完美的步骤,但是订票这个按钮还是得你自己来点。所以呢,智能体在这样一个环境下就 出现了,他的革命性使命就是为大模型装上手和脚。就一个真正的智能体,是需要具备感知、规划、决策、行动和记忆的完整能力的,就他不仅要去能够理解你的话,还要能够去分解任务,去调用工具,最终呢, 完成你的目标。二零幺五年呢,智能体已经成为所有科技大厂的竞争焦点,智捷、阿里、腾讯这些巨头们全力在布局智能体生态和应用,智能体现在已经渗透到了电商、客服、编程各个领域了。 为什么大家很看好智能体,是因为他被视为打通 ai 落地最后一公里的最短路径,所以 ai 的 竞争正在从模型本身的智能转向智能体执行任务的一个效率。所以你理解了智能体,你再来去看豆包手机,他所做的事情就是把智能体的能力推向移动设备的终极形态 g u i agent, 也就是系统及图形界面的智能体。他的目标不是去回答一个问题,而是直接接管你的手机的屏幕操作。这一切是怎么实现的呢?秘密就在于他底层的 u i task 模型,这是一套由志杰和清华团队开源并且持续迭代的模型,专门为看懂和操作图形界面而生的。 这个模型简单理解就是通过海量的 g u i 截图训练,精准的去识别屏幕上的按钮、文字这样一些元素。然后呢,设计跨平台的点击、滑动、 输入等模拟操作来完成人的交互逻辑。更关键点是,通过和手机厂商的深度合作,豆包助手呢,获得了最高的系统权限,它不再是手机里面的一个普通 app, 更像是一个被刻入进系统底层的一个原声能力。 所以这样一个特性就赋予了他两个关键的特权,第一个呢,就是他可以看到你当前屏幕上的任何内容,并且进行一个交互。第二个呢,他可以模拟你的手指去点击滑动任何的应用。但是呢,透过目前的实践方式,也暴露了他最大的局限性,就是 它像一个特洛伊木马,通过获取极高的系统权限,强行模拟人手的操作来破解各个 app, 这种方式简单粗暴,但是问题很多,所以才发布了几天,你像微信、支付宝 多家银行 app 纷纷把豆包手机识别为风险环境,限制登录操作,而且各类 app 厂商也怕豆包绕过他们的抢数据和流量,也开始做各种限制,那豆包手机未来该何去何从呢? 这也是一个值得深度思考的问题。其实呢,本来行业里面是有一个最佳的解决方案,就是 m c p, 也叫模型上下文协议, 它的理想很美好,就是让各个应用按照统一的标准,把核心功能,比如说叫车、支付、点餐 包装成这种 m c p 协议的接口,让 ai 智能体通过 m c p 协议去安全规范地调用这些接口。这样呢, ai 就 不再需要窥屏和模拟点击了,而是像人和人之间协作一样,去通过标准流程来完成任务。其实所有大厂都很看好 m c p 的 价值, 并且呢,也在积极的推进和布局,但问题在于,这又触及到互联网公司的根本利益啊。就如果未来用户都是通过一个统一的 ai 助手入口来订餐、打车和购物的话,那么抖音、微信、淘宝这些超级 app 的 入口价值和广告营收一定会受到巨大冲击的。 所以呢,我们看到大厂的一个矛盾心态就是既怕落后于生态,又怕开放了接口,丢了江山。豆包手机的即兴之处在于他等不及 mcb 生态的缓慢成熟,他用最硬核的技术方案强行实现了全托管的体验。 也就是说,把智能体和现有的互联网生态的根本矛盾提前摆在了台面上,所以不管是面向个人还是企业,豆包手机推向个人应用依然面临巨大的挑战。 而且呢,我们还需要深思一个问题,当 ai 成为实际操作的主体的时候,我们应该怎么去重新定义安全、隐私、公平和责任呢? 这已经不是一个技术问题,更是一个社会和法律的问题。所以总之呢,豆包手机的出现冲破了我们对于手机交互的一个想象边界,他用极致的产品证明了用户需要的不是一个更聪明的聊天机器人,而是能够将自己从重复劳动中解放出来的数字伴侣。我是麦克,我们下期再见。