粉丝4055获赞6715


今天给大家分享一个豆包手机同款的开源项目,也就是最近特别火的智普,他们开源的 open oto g l m 是 专门用于控制这种托管手机的智能体。这个是一个框架,也是一个项目,但是这个总体来讲它的亮点大于实践, 主要有两个比较大的创新。第二个就是他们这个框架是可以进行这种手机的 连接,其实它跟按键精灵是差不多的,甚至它比按键精灵要小或者简单很多,实现了电脑和手机的远程操作,可以直接连 usb 或者直接在一个 wifi 里面就可以进行对接和联通。 我也详细梳理了一下这个项目,它开源的话其实并没有开源特别多的东西,像一些 memory 记忆体啊,这些记忆模块都没有开源,而且它只有一个智能体模块,它更像一个 simon, 而不是实际的一个项目。因为他在去年的时候其实是呃发了一个 app 的, 也是 otoglm, 但是在后面就没有特别多的推广了,而且效果也一般。 但是由于这一次豆包手机大火了之后,他借着这个风也做了开源,让大家也看到了这个项目。 我们详细来梳理一下这个项目。首先它的主要的架构就是你可以支持用它自己的本地模型,当然它都是使用的这种 best url 的 方式,你可以用本地的,也可以直接用现成的,但是那个模型必须要支持能元素定位, 现在币源的模型几乎都可以多模态的,最近的微软也开源了一个三 b 的 模型,应该性能也是蛮不错的,做元素定位,而且思考的模型 应该性能也是蛮不错的,但是他没有跟这个模型做一下对比,不知道他们九 b 的 这模型跟这个微软开源的三 b 的 模型比起来怎么样,应该大差不差,因为微软这个模型稍微小一点点,但是测试起来效果还是蛮不错的,而且小了之后才能在我们这种本地的这种显卡上面跑。九 b 还是挺大的,不算小了, 但是他有量化的,不过肯定是需要二十四 g 才能跑的,三 b 的 话做一些量化操作的话,也是可以让他实现在十二 g 内存上面跑的。 我重点比较疑惑的就是它到底有哪些工具和它这个智能体,它是什么样的一个智能体?它智能体只有一个智能体,然后我也没有 memory, 也没有记忆的规则,然后主要就是典型的 react 智能体, 整个流程就是典型的感知、思考、行动的这样的一个循环。然后每一次它做任务的时候或者下发任务的时候,它就会把整个 手机的系统去构建一个上下文,他的系统有什么应用这些,还有他的截图,就构建这样整体的一个上下文,加上你的一个任务规划, 然后他通过思考思考了之后去规划出来一个计划,然后去做执行,每一次执行了之后,他再进行一次思考,然后再进行执行,直到完成任务为止。当然他还有一些敏感操作,比如说验证码,比如说 要进行付款呀,这个是要人工介入的,它会主动的提示你们,我重点是想要知道它有哪些工具,或者可以执行哪些操作,是怎么样执行的?然后我就让它梳理了下,我是用的这个 deepweek 来做的,梳理它的工具也 跟按键精灵是差不多的,甚至比按键精灵要简单很多。首先就是启停指定的应用,然后手机上面关键的那几个按钮,还有就是滑动输入文本,返回上一页,还有点击,这些都都是可以的, 主要用的就是滑动文本和点击这几个,然后启启停应用,切换应用,这都是标准的按键精灵里面的东西。然后就是操作他的其实是一个相当于方寸扣领,点击某一个按钮去调用这某一个工具,然后有一些比较标准的规则, 应该执行前要检查应用,然后最多呢连续的等待三次,验证这个操作是否可以 进行操作。然后就是完成之后检查一下它的准确度,其实整体看起来它是一个 demo 的 形式,它并不是一个特别完整的项目,只是一个 非常简单的 demo, 稍微复杂一点的可能就是它搭起来了这样的一个框架,你自己可以去加一些 memory, 或者说加一些什么东西,然后我去可以放在你的手机里面,可以进行继续的二次开发。 总体来讲这个项目还是不能直接拿来做实际的运行的,可以做二开,这个是可以的。然后我都还专门让它梳理了一下它的记忆模块有没有,它是没有记忆模块的,它只有它模型上下文 token 的 这样一个上下文,然后这些提示词它都是用的中文呢?然后必须遵循的一些规则, 这些提示词其实还可以拿来做一些借鉴这些智能体的提示词借鉴还是蛮不错的。还有像这些执行动作某一个 app, 然后这就是它们方选透的一些东西了,当然做成 mcp 其实也是可以的。

未来,谁将掌控你的手机?短短十天时间,中国 ai 圈发生了一场极其精彩的生死攻防战。从豆包手机助手的惊艳亮相,到大厂门的快速反击,再到制服 ai 的 先桌开园,这场戏看得我是热血沸腾。 十二月一号,豆包手机横空出世。十二月二号,微信开始定点封号。十二月三号,豆包被迫下线微信操作能力。 十二月九号,智普开元,直接掀了桌子。一开始啊,我也没太在意,毕竟手机助手这种东西,不就是像小爱小艺那样,定个闹钟,查个天气吗?但是当我刷到演示视频时,我整个人都震惊了。 他能帮你点外卖,帮你订机票,帮你在淘宝、京东、拼多多全网比价,他甚至还能帮你回复微信消息,帮你玩小程序游戏。过去你想买一件衣服,你得打开淘宝吧,看看首页推荐,刷刷信息流,看看广告, 然后搜索比价,再看看哪款更合适自己,然后才是加入购物车。现在呢,你只需要对豆包手机说,帮我找一件三百元以内的黑色冲锋衣,全网比价最便宜的,加入购物车, 然后豆包手机助手就会直接帮你找出最优解,你直接付款就完了。你甚至都不需要打开淘宝的首页。这哪里是普通的手机助手,这简直就是手机版的全自动驾驶。难怪周鸿祎说 电商和外卖大佬们要彻夜难眠了,他把所有超级 app 十年磨成的流量漏斗一脚踢飞了。资本市场也疯了,中兴通讯直接涨停,据说工程机三千四百九十九元的价格,在二手平台被炒到了上万,你说美团、淘宝、微信这些大厂能干吗? 你绕过了首页,谁看广告?你自动比价,谁还刷信息流?你这动的不是隐私啊,你这动的是人家的印钞机,所以你看不到二十四小时,反击就开始了。 十二月二号晚上,就有用户发现用豆包操作微信时,账号被封了,提示登录环境异常。这些被封的用户全都是用了豆包的微信操作功能。 紧接着,淘宝比价时,频繁触发人机验证闪退和强制登出银行的 app 更狠,检测到录屏或者代理操作,直接拒绝使用。七十二小时内,微信、 阿里银行三条防线全面拉起。理由是安全,但大家都懂,他们这么做到底是为了什么 字节呢?秒怂!十二月三号连夜发公告, pro 模式下线,微信操作被封,账号会陆续解封。毕竟微信是十二亿人的数字,身份证这锅谁也背不起。说实话,看到这条公告的时候,我是有点失望,但万万没想到高潮还在后面。制服 ai 直接掀了桌子, 宣布开源 auto g l m 听不懂技术没有关系啊,你只需要知道,他就是智普版的豆包手机助手。智普把这套自动操控手机的核心技术免费送给了所有人, 代码完全公开,不用大厂授权,不用中兴手机,谁拿去都能造一个自己的豆包手机助手。智普公告里有一句话说的太燃了,大概意思是,这项能力只由一家公司掌握是不够的, 我们希望他成为行业的公共底座,大家一起打磨。意思说的很明白,你大厂能封杀一家公司的产品,但你能封得住成千上万开源社区的开发者吗?封得住无数自建私有化部署的个性化硬件,他吗 这就叫,既然我不进你的门,那我就把围墙给拆了,这才是真正的千桌。这场公房真的到底是什么呢?表面上是隐私安全,微信说你读聊天记录不安全,淘宝说抓取数据不合规, 银行说录屏操作有风险,这些理由对不对?对!但更深次的原因是,流量入口的生死战,真的是你下一眼落在哪里?过去十几年,大厂靠着什么赚钱?靠流量?靠注意力? 打开 app, 先刷首页广告,信息流推荐、搜索排名,每点一次都是钱。现在 ai 来了, 直接绕过这一切直达任务,结果用户的时间被截胡,广告位成了摆设,大厂能不慌吗?这不是隐私问题,这是断财路啊!但技术浪潮是能用风沙挡得住的吗? 开源就是王炸。想想当年 linux 开源击败了微软的围角,成就了云计算和安卓 莱尔玛。开源加速了全球大模型的追赶,每一次开源都是对封闭生态环境的降维打击制服。这一次,就是把 ai 操作系统从少数大厂的私器,变成了人人可用的公共工具。 以后不止自己能做,华为、小米、 oppo, 甚至你自己都能做。大厂封得住一个产品,封得住一个开源社区吗? 微软当年骂 linux 是 癌症,结果后来自己也拥抱了 linux, 还承认自己站错了队。历史总是惊人的相似,二十四年前,微软围搅 linux, 二十四年后大厂围搅 ai 智能体。二十四年前,微软说 linux 是 癌症。二十四年后,大厂说 ai 手机助手侵犯隐私, 二十四年前,纽纽克斯选择了开源。二十四年后,日普也选择了开源。二十四年前,微软以为自己能灭了纽纽克斯,二十四年后,大厂以为自己能封杀 ai 智能企, 结局会怎么样呢?我这里不敢打包票,但我知道大厂能灭一个产品,但灭不了一种趋势。技术、潮流从来就挡不住这场攻防战,将决定我们普通人未来能怎么样用手机。 过去我们买东西要打开淘宝,点外卖要打开美团,聊天要打开微信。未来 ai 助手普及了,你只需要一句话, ai 就 能帮你比价、选品、下单、订票全搞定。 app 界面不重要了,用户注意力分配改变了 互联网商业模式要重写了,那些重复机械的操作交给 ai, 我 们呢?省下时间去做更值得做的事。我相信,虽然历史在重演,但任何反潮流的势力终将被毁灭,谁也无法阻止时代的进步。



国资最爱的大模型公司,可能很快就要上市了。三分钟聊趋势,欢迎回到赛博 nbd。 从清华实验室到估值三百亿,再到率先开启 ipo 进程,他不甘心做中国版叉 gpt。 今天的主角是被称作技术苦行僧的智慧 质朴。这个公司的全名呢,叫北京质朴华章科技股份有限公司,您听听这名字,用中国智慧谱写 ai 新篇章,报复远大。都说呀,中国大模型的半壁江山背后,都站着清华实验室。质朴呢,可以说是清华的底细, 他的创始团队几乎都出自 keg 实验室,也就是清华大学知识工程实验室。成立以来,质朴已经完成了十几轮融资,投资方也是高手云集。除了高领秦创投、军联资本这些知名的投资机构,还有美团、阿里、腾讯、小米这些互联网公司。质朴的融资策略很有讲究,有国资加 产业资本双轮驱动的特点。最夸张的是,一个月前,杭州、珠海、成都三地国资排队注资十八亿元,这创下了地方政府投资 ai 企业的密度记录。这种策略呢,有点资源换市场的意思。地方政府的支持不仅提供了资金, 还推动了他们的商业化落地。比如,质朴与珠海华发集团合作,搭建城市级 glm 大模型空间。再比如,联合成都高新区,打造四川省基座大模型。质朴诸葛 当然受到追捧啊,得靠硬实力。质朴从零搭建了国产 glm 架构,这个架构的核心突破点是自回归空白填充。比如把今天天气空格很好,这中间的空格预测为晴朗。 品质就是这个架构是咱们自己的东西,而且好用。二零二一年,质朴造出国内首个万亿参数模型。二零二二年,质朴开源了咱们中国第一个千亿大模型, 据说是在 openai 的眼皮子底下杀出了一条血路。而在行业还在内卷参数的时候,二零二四年,质朴与清华团队又联合发布了一篇论文,颠覆了行业对大模型必须千亿参数的认知。 让 ai 聪明的不是模型体积,而是训练时损失值的精准控制。就像健身举铁,重量不重要,动作标准才是关键。这套理论也让大家意识到,小模型也能干大事。 质朴在技术和产品上的最新动态是发布了 auto g l m, 沉思特点呢,是边想边干,其实就是现在比较火的 a 镇的产品。质朴说他们已经用这个产品悄悄在小红书运营了生活科普账号,两周时间就积累了五千个粉丝,还接了商单,赚了五百块。质朴啊,是大模型六小虎里头第一个冲向 ipo 的, 算是 ai 产业从技术验证转向价值创造的里程碑,但可能并不会引起大模型板块的 ipo 浪潮。还是那句话,技术和产品发展远位置终止一段时间的领先,值得祝贺。但 ai 是条漫长的赛道,祝福咱中国的 ai 产业蓬勃发展,领先全球!