粉丝11获赞122


手机圈子天又塌了,豆包手机的发布让我们的智能手机变成了逗逼手机,让所有人见识到什么叫真正的 ai 手机。但是我们同时也见识了资本的力量,一号发布,二号微信立马封杀,紧接着阿里这些巨头也全部跟上,共同抵制。 九号智普 ai 突然宣布将核心产品 auto g l m 彻底开源,这意味着任何手机厂商,任何开发者都 都能立刻拥有制作、训练 ai 手机的能力。但有件事很耐人寻味,智普 ai 和字节并没有商业关联,反倒是阿里也腾讯、美团这些巨头是它的核心投资方。这波大义灭亲还真是挺有意思。 智能手机取代按键手机用了小十年,现在有了开源技术, ai 手机取代智能手机也许只需要一年。真的是太神奇了,怎么下载,怎么配置?怎么让你的手机变成 ai 手机?问下豆包去吧!

创业者的周末,豆包豆包,中午吃点什么好呢?帮我在美团上搜一下,我看看。嗯,猪脚饭吧,搜一家猪脚饭两人份,送到免费大数据的地址,要备注 餐具,同时再点两瓶饮料。 看一下 对我们的自主操作常见所有的只是临时工作文件缩影,或者教员没跟上,现在好了就继续用。要是再出问题,就检查一下 spring 相关的依赖包,确保版本对应路径正确就行。哦。刘总的豆包, 看看刘总在干嘛。 你是想解析 radis j 八里的代码逻辑吧,比如港口信息查询,靠港处理这些方法。先看 port 方法,它用 j d b c 连了 sixty i 数据库,查港口的经纬度,半径这些信息。嗯,这个代码有问题,我现在要查这个位位置汇报信息,那个二零二 零二零零里面它有个电压信息,我没有解析出来,应该怎么解析下这个电压,那么 这个他看不出来,没这么快。先看协议里电压字段的字节位置和格式,比如是几位,有没有缩放因子。 像你这 m s g 九二零零的 handle 方法,从 byte buffer 里读数据,要是电压存在某个附加字段里,先确认它在字节流里的起始和长度对比如假设电压,你看啊,这里面写着呢,这个电压就在这里呢。对,我找着了,能看到吗? 看到了,零零零二 f c 九一隐藏内置电压幺二二三三,现在关键是把这段数。对对对,那那那,这个你看,这就是,这就是标准格式啊。然后那个我现在这个代码解决不出来,我应该怎么改? 你看我这个经纬度啊,速度啊,那个这个状态位置全解决好了,就差一个这个电压了,我试了几次都不行。这这个理论上应该是行的,你看这个代码错在哪?这个我之前是觉得应该是通过这里能找到这个电压的, 但是实际上不对。先看好,听你说,你说 先检查 map 里的 key 对 不对,像 a 二三五, a e b 这些得和附加信息的 id 对 应上。 要是电压数据存在另一个 key 里,比如实际是 a 二 f, 你 用 a 二三五就拿不到,然后看数据类型,电压要是数字,得确认 map 里存的是字母串还是数值,转的时候别出错。 另外之前解析附加信息的循环里 a d 和 the touch id 匹配可能有问题,比如 a d 是 实帧制, the touch id 是 十六帧, 看你日制里零零零二终端内置电压幺二二三三。先检查代码里附加信息的 a d 匹配, 你循环里读 a d 是 data byte 括号。如果终端电压的附加信息 id 是 零 x 二 f, 时径至四十七,但代码里用的 a 二三五这些 key 不 对, 得把附加信息 id 和 map 的 key 对 应上。比如电压对应的 a a d, 解析后用 string 点 format a 百分号零二 x a d 生成正确的 key, 向 a 二 f 再从 map 里取。另外电压值一万两千两百三十三可能要处理,比如除以一百,得到实际电压一百二十二点三三。 现在代码里取 key 的 逻辑和实际附加信息 id 对 不上,改 key 的 生成逻辑保证和协议里的 id 一 致。我听不懂就能正确计算压。说的很有道理。是吗?说的很有道理。这个很有道理,我正在找那文档说的那个有可能就是这个问题,很有可能。 这这个说的豆包帮大忙了哈,对吧?其实很有很有可能是对的,因为他说这个就是我曾经想这个, 想到可能问题了,得不得找那个文档呀。对,顺着这个思路,把协议里的字段和代码解析逻辑一一对应,比如电压字段的字节位置、长度、转换规则,逐一验证, 要是还有小问题,就逐步调试,打印中间变量,看数据在哪一步出错,很快就能解决。现在有方向就好,慢慢改肯定能搞定。姐,你不用给我说这些个话,你就给我说,呵呵,好了,那我找了这个。 好,你说,我听着,等你讲完帮你分析。你看这个文档里面有关于那个电压的位置的事。 那赶紧翻到对应版本,找电压字段的定义,比如在哪个协议段占几个字节,是十帧制还是十六帧制和代码里解析的。找到了,你看这里增加协议零 x 一 零零五,用于上传外电压电流至服务器,还有叉, 现在定位到凌晨两百位置汇报里的电压,看文档里位置附加信息的格式,找到电压字段的定义,比如是在附加信息的第几个字节占几位,然后回到代码,再解析凌晨两百包的附加信息。看到豆包的真实实力了吗?果然很牛啊,豆包手机牛逼。

没有想到都跑手机的朋友们,恭喜你省了三千五,因为就在昨天的时候,支付把它的 autgrm 开圆了,它可以直接机关你的手机屏幕,替你思考点击输入场景,覆盖了五十多个高频的中文 app, 比如说微信、淘宝、抖音、美团这些核心的场景,它都是可以跑的。 我拿它做了两个小测试,有亮点,当然也有吐槽点。首先第一个点外卖,它是真的可以跑通,比如说你想在美团上去下单,然后到加购,下单路径是很顺畅,你会产生一种错觉, 好像手机里面住了一个非常懂你小助手一样。第二,他的一个跨平台笔架是很实用的,我可以让他对比淘宝和京东同款拖鞋,他能够自己搜,自己去对比,最终给出你的一个结论,这就不是什么聊天机器人了,这相当于一个端侧 a 阵的他真真正正的上桌了。更关键的是什么?他居然很克制, 比如说他碰到了支付或者验证码之类的敏感操作呢?它会自动停止让你接管,很聪明,不会约借。但有一点很值得吐槽,就是现在的形态对普通人是不够友好的,你要用电脑通过 a、 d、 b 去控制手机体验,实际上更像是你在电脑面前远程控制着你自己的手机,就很奇怪。大家如果想要试试,可以找我拿下开源地址 和它的一个部署教程。智普啊, autolm 开源,我想说的是,它的价值不是在完美的体验,而是说它释放了三个信号。第一, ai 手机的异件可能要被打下来了, 以后的 ai 体验不一定要靠很贵的硬件,说不定就是靠的一个开源框架加它的一个端侧的能。第二就是大厂的 for a 阵固城河开始变浅了,开发者和极客们可以直接拆改做出来自己的版 本。第三呢,无障碍和轻量自动化领域绝对是要爆了。对于一些操作是很方便的人群来说,语音加 ai 操作就等于手机自由。欢迎大家评论区留下你的想法。

我哥前几天想买那个豆包手机,但又舍不得给黄牛加钱,说是想体验那种干任何事说句话就能让 ai 去做的皇帝感。然后就在网上找了半天,找了个开源项目能在自己手机上部署,问我靠不靠谱。 我看了一下这个 openwater 开源项目模型,确实有那么点靠谱,可以说它已经不是模型了,它是 aint 加模型加手机执行器了。 饭喂你嘴边了,看你会不会张口了。都知道豆包手机其实就是字节跳动。找了中兴通讯代工生产的努比亚 m 幺五三 豆包,找中兴旗下的努比亚生产了豆包手机,那豆包助手服务是不是得运装在手机的系统层里?这和你在应用商店下的豆包完全不一样,系统权限不在一个层面,就跟租客和房东一样,租客虽然进入到这栋房子里,但权限肯定不如房东多, 所以豆包手机才可以跨 app 自动化操作。那 openwater gym 可不可以部署进你手机里,像豆包 os 那 样跨 app 自动化操作,而且不受权限限制呢?在技术上很难,让我哥用上肯定更难。 首先这个开源项目的执行通道用的是 adb 加 accessibility, 豆包手机小米、澎湃、华为、小 e 都或多或少用了 adb, 因为在前几年, adb 靠着可以打字截图、强制开关 app 文件读写、获取数据这些能力深受技术喜欢, 还能进行连续滑动、自定义速度滑动、模拟人类的 pad 滑动等等,不让 app 发现。技术上 ok 的 情况下, adb 当时确实是执行通道的主流。但谁说你和中标公司资质一样你就能中标啊,你手机还要开发着模式,别人厂商可是直接白名单开路, 有内部接口和系统鲜明相助, adb 早落伍了,出来混要有实力,要有背景。你哪个大厂的?你没背景想靠微型做精准点击,但现在每个 app 的 弹窗位置 ui 图形都不一样,隔一段时间 app 更新去换一下,就算 ai 能力强,延迟也高。 不好意思啊,前段时间这里修路忙到被占了,盲人不能精准走路,还是别出来了。我知道 ai 手机可能是未来,但是我哥一个普通人代码都看不全,你敢给你手机装能无障碍通行的 a 进的进来,信息数据盗取怕不怕?后台运行怕不怕? 更何况部署还要服务器或者电脑,何必呢?还让子弹先飞一会儿。欧菲华米这些大厂都还在观望呢,如果都把手机突破了这些 app 的 封锁,那到时候就像外卖大战一样,百家争鸣,你肯定可以用上让你满意的。 但如果豆包手机没突破封锁昙花一现的话,那我讲实话,你就算是钢铁侠贾维斯来了也白搭,听懂了吗?哇哦,你真聪明啊。

大家好,我刚刚实测完这个豆包手机助手,他这个就这款手机啊,然后呢有一些感慨,这个不得不说跟大家分享一下。第一点是他这个豆包的这个手机助手是可以在后台运行的,他默认是在后台运行, 这意味着什么?这意味着你的手机可以双开了。我给你举个例子啊,比如说你现在看这个是我的台本啊,然后我就直接跟他说话好了,豆包豆包帮我打开网易云音乐,放一首歌,什么歌都行, 你看他会在这个,对,他会在上面最小化,然后一会他都会放歌了,你知道吧?我们先等着 暂停,我们还是手,我们还是我们还是手动关闭吧。 就是你完全可以在一边写台本的时候,一边跟人聊天的时候,一边直接让他去放歌,这是一个双开。然后我觉得这一点是一个非常丝滑的用户体验。还有一个点我们就不演示了,我直接说啊,因为他演示的会比较慢,他能跳广告, 它能跳弹窗,你知道这意味着什么吗?就是你不管打开哪个 app, 我 们有一个 经常的体验是它会出来很多弹窗,有的时候这个弹窗的关闭键还搞得很隐蔽,比如说你以为点这是关,实际上是进入,然后它那关呢?是一个很浅,基本上看不见的一个叉叉在右上角。就我遇到过很多次这样的情况, 我让他再帮我去开那个 app, 他 会跳过弹窗,然后我把我测试的截个图放这就这就是他那个等弹窗的的那个样子, 就是这种体验让我感觉真的就是你就不用再受这个弹窗的折磨了, 他甚至还能帮我跳一些陷阱的一些选项,比如说我很喜欢用他们家去买机票,他们家哪都好, 就是他会在买机票的最后总是会弹出来一个说,哎,先生或者说女士啊,就是说请你 去那个,呃,就是说是否购买我们的商业航天保,呃,这个商业保险产品,对吧?航天保险啊,然后呢,他很激贼,他会把这个是以深色为代替,然后然后否以浅色, 它那个界面也是浅色,所以你就是等着买啊,你输入信息,买买买,到了最后一步啪嚓出来一个深色,你下一身手点上去了,就导致我有几次就买错了。 然后呢,我在使用豆包进行这个实测的时候,它就会给我提示说,啊,你这个 因为他到因为他买机票,他到最后一步的时候他是会让你去支付的嘛,但是他在支付的上一步买保险,那他也提醒我了,说问我要不要买保险,他这个提醒可比那个弹窗要要清晰多了呀,所以说就是这一点让我觉得也是非常的有实用性。 还有一点是他有主见,就是他可以处理一些比较模糊的这个任务,比较模糊的这个要求这里我就不演示了,因为比较慢,我就直接说了。就是我给你举个例子,比如说我们经常有那样的一个场景,是说我不知道晚饭吃什么, 然后呢,我就问他,我说你给我点个晚饭吃啥都行。他问我,呃,你有什么样的这个爱好之类的?我就说啊,离得近的,然后你看着点,这样 他首先他给我生成了四个,比如说猪脚饭,然后这个沙县小吃,然后还有这个麻辣香锅,我觉得都还不错啊,就是他这个选项,然后这个静海的来了, 他给我点沙县小吃,他说你的这个你需要凑单,那你凑单你凑一下吧,我说你随便凑,你就是说说随便凑,然后他就真的随便给我凑了一下,后来我就去回看了一下,他那个凑单的商品有很多,比如说有丸子,有这个鸡蛋 啊,还有这个,比如说这个,呃,这个荷包蛋,还有香肠,他就给我选了卤蛋,还有这个豆皮之类的一个选项,就他是有这个主观的,这个有主见的, 知道吧?这一点就免去了很多这个日常的选择,你知道吧?比如说你跟你对象说上了吃啥,他不知道,你也不知道,对吧?然后这时候哎,还说了,我知道,我知道,我给点建议,对吧?这点他就显示他有点情商在里面,而且更可怕的是他还有记忆, 我第一次选的是猪脚饭,然后我第二次测的时候,我就跟他说,我说啊,第一次我在这个便签里我写了一个说我想吃猪脚饭,然后我第二次再打开这个手机,我跟他说,我说你想吃啥,他说 他就给我点了个猪脚饭,你知道吧?就他还有记忆功能,就这一点显示的他有一定的智能存在,而且这个智能是很丝滑的,能够切住他的这个功能的,所以说我觉得这点是一个非常好的一个进步。 还有一个点是他可以,就是说他可以去做一个,嗯,尝试不同的流程去解决一个问题, 他解决还解决的还很快,我举个例子啊,呃,比如说我跟他说呢,我让他在 b 站上,因为我看这个华农兄弟的视频,我说你在这个华农兄弟最新的视频上,你给我评论说一句很,说一句很棒, 还有去了这个是我昨天做的测试啊,然后一会我把这个结果我贴到这里,然后呢?他在测的时候呢,我就发现一个问题,是什么? 我当时不知道,因为我很久没有玩 b 站了,就是你这个小号是没有办法去发评论的,你得先经过测试,我那个号就这个小号才二级,才,才那二级不到吗?然后, 然后他就跟我说他的这个任务执行流程中出现了问题,他说你需要答题,我就在底下这个他的这个右下角啊,我,我这个左下角,我补充一下,我说那你帮我答题吧, 他就真的吭哧吭哧点开了那个答题,他在帮我答题,我同事跟我说,你上咸鱼上找别人帮答题,你还得一块八呢,哎,他就真帮我答了,然后他帮我整整花了八分钟答了六十道题,只错了一道, 然后成功通过了 b 站的答题考试,给我在华农兄弟的那个视频上发了一条很棒。就那一刻我的内心是很震撼的,就是我想跟华农兄弟说,我说你们这个评论区的这个评论是 ai 发的 啊,所以说它的这个诸如此类的功能确实是给我带来了很大的这个震撼。 当然了,他有一定的 bug, 比如说我让他去买这个明天从天津到北京的这个火车票的时候呢,他的方式是他要先进那个软件,然后去挨个的去搜明天有哪些车次是从天津到北京的, 因为天到北京的车次实在是太多了。然后他截图,我看着他一个一个截图,他从上午五点钟开始,一直截到晚上八点多,然后他说这个因为这个好像是任务量太高,他就自动终止了,然后就跟我说抱歉,我没有完成这个任务 啊。还有一个是我让他去上这个音乐的这个软件,上去帮我去搜集某个歌手的传唱度最高的歌曲,然后他搜了一个那个歌单,第一个,但并不是点赞量最高的,也不是流量最高的,就他这点也还翻车了,但是呢,总体来讲吧,我觉得是瑕不掩瑜 的。嗯,然后呢,我想再简单的说一下,就是他存在的一些问题吧, 大家发现没有,就是刚刚我的这个演示出现了什么问题?有两点。第一点呢,就是最近大家很多人都在说的他在他这个手机啊,是一号推出的,在三号遭遇了第一个危机,就是说呢,微信先退出了, 然后呢,可能说官方说法是可能触发了这个,呃,这个就是风控的机制,对吧?然后后来很多的 a p p 也都呃,可以说是没有办法用 ai 使用了。然后呢,在五号的时候,豆包也是主动地限制了一些 a p p 的 使用, 比如说像银行的,比如说像这游戏刷分的,它会限制这些的使用,对吧?这一切的背后呢,可能是存在了一个就是说隐私安全的问题,比如说因为豆包,它包括豆包也好,实际上所有的手机 i 助手不止豆包一家啊,只要你是手机 i 的 助手,那么你的核心能力其实独屏 他的所有操作是通过读取用户的手机屏幕来进行分析的。然后为什么豆包的体验这么的丝滑?是因为他用到了里面的一个叫做 inject events 的 一个权限, 这个权限让他可以在后台使用来进行读屏,那我就很丝滑了。但是呢,在他之前,其实呢这个智普也推出过这个类似的手机助手,他是用了这个无障碍权限,当时他第一版的时候,我记得是他只能在前台我看着他帮我进行点, 这个时候我手机没有办法双开了,对吧?然后呢,可是豆包他解决这个问题,实际上的华为手机可能是也有这样的一些功能,就是这个有这个权限在, 但是呢确实这个权限,那你要说他安不安全,他是存在疑问的。豆包他是已经公开的说了,说我们是首先向用户去进行了这个, 呃,这个公式说我们会用你这个权限,而且我们承诺我们所有的屏幕,独屏的这些功能我们不会储存在云端。 豆包已经做好了这些承诺了,但是呢,像这些你首先就引出了啊,这个其次呢就引出了我们第二个问题, 就是商业问题,对吧?就算是你的这个隐私问题解决了,那么商业问题怎么办法解决, 对吧?比如说我在微信上,或者说我在一些这个金融的 app 上的这些操作,可能涉及到我这个用户他的个人喜好,我喜欢做什么, 然后以及甚至说可能说用户有多少资产,这些本来是只有那个 app 本身他才知道的,他和用户才知道没有第三个人的,这时候如果说一个手机助手出现来了,他通过读屏知道了用户的一些喜好,用户的一些信息,那么 会发生什么样的一些后果?那你的数据对于那个 app 来讲是泄露了是吧?虽然说他你可能说我没有办法,就说我我是不泄露的,但是他不信呢,对吧?卧榻之侧,岂容他人鼾睡?那我的卧榻旁边问鼾睡了个大场,是吧?那他可能会有这个商业上的考虑。 所以说呢,我也问了很多专家,实际上他目前目前面临了两大问题,一个是安全,一个是隐私。呃,一个是安全, 一个是安全,一个是这个商业的这个护城河的问题。其中前一个或许好解决,比如说我可以通过观测模型的方式,我这个功能,未来随着我技术的发展,我的手机这个算力,手机的算力就可以支撑这么丝滑的手机助手体验了, 不用上传云端了,那么就可以保护用户的隐私了,那么隐私的问,隐私问题或许就可以解决了,但是你怎么样解决这个商业互生合的问题呢? 是吧?所以这就是豆包目前面临的问题。我呢也写了一篇稿子,然后呢,这个稿子二维码可以放在这,我们做了一个测试,我测了这个二十三个主流的 app, 然后发现呢,有十五个是可以用的, 然后八个呢是不能用的,哪八个呢?我们看文章就知道了啊。好吧,嗯,总体来说呢,我认为这个豆瓣首届助手吧,他还是瞎不眼余的,他指明了一个未来的方向,现在也许我们有安全问题,有隐私问题,然后也有这个 呃,商业互成和的问题,我们没有办法调和这个利益。但是未来可能随着 ai 技术的发展,随着用户真的想更方便一点,那么这个趋势是谁也挡不住的。 再加上我今天的测评,我真觉得他怎么说呢?他等于是做出了一个手机助手落地的一个看法。豆包豆包, 给我播放呃,歌曲奇迹在线。 我现在还没法直接播放歌曲呢。不过你可以去网易云、 qq 音乐或者酷狗这些音乐平台搜奇迹在线,能找到毛华峰原唱或者各种翻唱版。 好吧,那我们自己放歌吧。去吧,我是认为未来新的风暴已经出现。

接下来我将演示如何花一下午让自己的手机变成智能 ai 手机。我们这里用到的是十二月九日智补开源的一个 a two g r m 项目, 这个开源项目在网上也是掀起了巨大的讨论,将其称之为新一代人机交互革命的开始。我们将演示这个进入抖音,然后搜索四川日报,点赞并收藏的并评价祖国万岁这个功能。大家可以看到我这里的手机是没有任何操作的,他将自己跳转到抖音,然后去搜索四川日报。 这里另外补充这个,这个项目需要这个显卡,要求比较高,要五零九零级以上,所以部署在云服务器上是最好的选择。他进入了四川日报,然后选的应该是会选第一个视频, 他为什么不动?因为他会等所有的视频加载完成,才会进入第一个页面。他开始进行点赞操作,然后收藏。这是他的第二个第二个动作。不不不, 我们可以看到他这里主播万岁是没有评论上的,但是他的动作还没有停,我们看他会怎样操作。 ok, 他 已经将祖国万岁打出来了,然后发出去,整体项目就已经完成,他输出了一个任务,完成结果 他开始了六步,第一步就是进入抖音应用。第二步,搜索找到四川日报官方账号。第三步,打开了四川日报的视频内容。第四步,然后第四步,点赞,第五步,收藏。第六步,发表评论。所有操作均已完成。