粉丝49.9万获赞407.1万

刚刚我发现了豆包手机有一个特别逆天的功能,到底有多恐怖?给大家看看啊!豆包豆包,打开向日葵,然后呢,再在图库上找到第一张图片,识别图片里面的验证码,输入进去,控制我的电脑,在电脑桌面上打开 i g 浏览器, 大家到底看看有多吓人啊?他先啊打开了向日葵,然后 查看了我的图库,找到了第一张图片,看它识别记录了这个验证码的信息啊,然后找到返回到向日葵,点击控制,看能不能控制, 看厉不厉害。用豆包控制电脑了,而且是用语音控制的,点击按键,你看它识别到了这个桌面的按键, 看能不能打开啊,等待按键打开,双击六不六,牛不牛?是不是很恐怖?

一个很浪漫又不花钱的 ai 小 技巧,三十秒就能搞定!自动化数据分析,打开到包选,帮我写作,把这段指令输入进去,发送重点来了,点数据分析,在这里上传你的数据表, 再把这段指令发送出去,让它自动生成数据分析。看板稍等一会,一份文字汇报总结加处理好的彩色表格直接到手, 点一下就能导出。打开看一看,既有整体数据分析,还有三个支线维度的拆解,每个板块都配了可编辑表格,饼图还能换成散点图,随便调。如果你给的是业绩,销售表就让他分析月度销售趋势、 销售人员业绩、业绩占比。关键是指标照样轻松拿捏。不用公式基础,不用钻研图标, 纯新手也能快速搞定!数据分析这个高能小技巧,赶紧码住!觉得有用的话赶紧点赞关注,后续还会继续分享更多摸鱼干活两不误的小技巧。

一个很冷门又不花钱的 ai 小 技巧,三十秒搞定自动化数据分析!打开豆包选,帮我写作,把这段指令输进去发送。重点来了,点技能栏里的数据分析,在这里上传你的数据表, 再把这段指令发送出去,让它自动生成数据分析看法。稍等一会,一份文字版汇报总结加处理好的彩色表格直接到手,点一下就能导出。打开看看, 既有整体数据分析,还有三个支线维度拆解,每个板块都配了可编辑表格,饼图还能换成散点图,随便调。如果你给的是业绩,销售表就让他分析月度销售趋势、销售人员业绩占比、关键指标 照样轻松拿捏。不用公式基础,不用钻研图标,纯新手也能快速搞定数据分析这个高能小技巧,赶紧点赞关注,后续还会继续分享更多摸鱼干活两不误的小技巧!

豆包手机看起来很神奇啊,在它获得了系统权限之后,它可以进行很多操作,那么它具体是怎么操作你的手机的?今天咱们要解释一下,同时纠正一下我之前视频的一个冇误。为什么说是冇误?之前我说豆包手机获得权限之后,还要做 api 的 操作来控制各种软件,但其实它不需要操作 api, 它只需要操作 ui 树, 每个软件它的 ui 都是通过一个 xml 来生成的,这是不是这有一个图片,是不是这有一个 button? 这些内容之后它就可以方便的操作你手机上各个软件,并不需要 api, 这是纠正之前我说的错误。当然这种方式并不是万能的,因为通过 java 开发的应用和通过 unity 开发的游戏应用,手机即便获取的手机权没有办法获取 ui 数,就需要通过视觉模型来分辨 手机上究竟显示的什么。就像之前所说的,交给视觉大模型,然后分辨每一个部分,手机上每一个部分显示的到底是什么。 知道这个部分显示的是什么之后,就可以通过系统级别的操作来点击这个按钮实现操作,但是这种方式就会让这个操作变得非常慢。总结一下, ai 手机有两种方式来操作软件,第一种就是通过 ui 术,这种方式既快捷又方便, 但是缺点就是它不治所有的软件。第二种方式就通过 ai 的 视觉模型来进行分辨,这种方式可以兼容所有的软件,但是它效率比较慢,必须通过识别手机的内容,定位手机的内容再进行操作。这样的便民会问我,如果我没有豆包手机,那我应该怎么用大模型来操作?它会有一个免费的 开源叫做 open auto g l m, 你 可以通过它来查到豆包手机类似的事了啊。今天分享就到这了,欢迎大家点赞关注加转发,谢谢大家!

先说一下这个豆包手机的核心原理啊,我用比较大白话通俗易懂的话去讲,它的核心原理是怎么控制我们手机的,而且是自动化。那首先就是它可以不截屏不读这种权限去直接去拿屏幕的数据, 对吧?因为那种普通 app 要么去截屏读屏幕啊,申请这种无障碍的权限去拿到一些信息。但是豆包手机它不走寻常路,它有一个叫 auto action 的 核心附件, 它是直接从手机的 gpu 的 图形缓冲去拿原始画面啊,就相当于说绕开了这种 app 的 限制,就是你禁止截屏照样能拿数据, 就相当于说它不是经过 app 的, 它从最底层去拿这个图像,并且呢,它还会开一个和你手机屏幕一样大的这种虚拟的后台的屏幕,就是运行这种操作啊,你前台刷视频啊,什么它是不受影响的? 那第二个就是他核心的,他手机本地有一个叫 acorn 的 核心进程,相当于一个管家一样的,就是他是负责承接一些任务,包括指令啊。但是真正去思考的是云端的 ai, 就 他本地会把我们刚才说那个虚拟屏的画面, 对吧?可能每三到五秒发一次啊,用小图片传到服务器上,他分析之后呢,返回指令,本机在操作啊,就是说有一个类似于核心的进程,他是指挥这个 远端的 ai, 包括本地拿到的数据进行一个运转,对吧?你本地拿到数据,通过他发给这个 ai, ai 分 析好了,发给通过,他再发挥本地本地在操作,对吧?然后第三就是说他直接是操控的手机的, 就是它模拟你手机的手指的点击滑动输入,相当于直接去按屏幕啊,它是有一种隐藏的权限,就可以绕开很多 app 的 这种说话限制。那它为什么会抵制呢?首先就是 隐私,它没有保证吗?对吧?你 app 的 隐私你是需要用户同意的,它这个绕开 app 它从底层拿,对吧?第二就是那既然它能绕过底层, 相比说它可以自动去操作的话,那你本身你原来去操控 app 你 需要看广告啊,等等,你现在不需要看了,都是通过豆包来的,对吧?那些 app 的 广告怎么办呢?所以说 从商业包括隐私角度来讲,他可能会被抵制,原因在这里啊。嗯,当然如果你需要前端解决,需要前端去陪跑,你可以找我啊,付费可以报名,因为我也交了很多这种学员,对吧?如果你前端找工作遇到问题了。

大家好,欢迎来到二十二的阶梯这个频道。前两天我发了篇文章,讲了黑铲攻陷快手的毛和微信,阻挡了豆包手机的盾,他们的同源性,也就是说都利用到了 ai 技术。 今天我们就来分享一下 ai 智能体是怎么控制网页和 app 的。 我们知道 minnes 可以 执行复杂的任务,甚至是在网上玩这个赛车小游戏。 那么豆瓣手机呢?还有奥迪 glm, 他 们能够发微信,点外卖这些。那么 ai 是 怎么看见屏幕,又是怎么控制 app 的? 今天我们拆解一下。 首先呢是感知层,现在的 a 制呢,要想接管设备,一般有两种路线,第一种是纯视觉路线,就像人一样,完全指高。看看截图, 系统把高分辨率的截图发给视觉大模型,模型通过视觉编码器把屏幕上的图标、按钮、文字切成小块。这里最难的就是视觉定位, 也就是把点击搜索这个意图精准的映射成屏幕上的坐标。为了防止点歪,现在的模型会使用一种叫 s o m 的 技术。简单的说呢,就是给屏幕上的每一个元素都打上带数字的标签。 ai 呢,只要报出数字,就能找到某一个精准的位置, 刚才是第一种。第二种就是混合感知,因为光看图容易走眼,所以加一层辅助的功能素,这个很好理解,如果说截图是 app 可试的外观,那辅助功能素就是 app 的 施工图纸。 原本安卓系统底层为了给试障人士朗读屏幕,设计的一种结构化数据,里边就明确写了哪个按钮是搜索,哪个按钮是返回,哪个按钮是提交等等。 所以像 autgrm 这类架构,就是一边用眼睛看截图,一边又在看叉 r l 里边的这个架构,这里面系统会剔除掉没有用的布局节点,只保留关键的交互信息。 这样呢,哪怕某个功能没有文字,仅仅是用图标表示的,哪怕这个图标又非常抽象啊,比如某些软件是吧?它的什么清空消息啊, 全部已读啊,是吧?他都是用图标表示的,那个图标画的,很抽象,没有关系, ai 只要查一下底层的 id, 就 知道他是干嘛的。接下来呢,感知之后就是决策。看懂屏幕之后, ai 不 会马上就动手,而是进行推理。这领悟到的呢,就是系统二的慢思考机制。 在他动手之前,模型会生成一段思维链,这就像产品经理在画流程图,比如你要转发邮件,那么 ai 心里就会想啊,我现在在一个页面呢,是在详情页转发呢,通常是在哪个角上? 我看这个图标呢,就像回复,所以我得先点开看一下,他会有个思考的过程,这种行动前的思考,这种机制能极大的概率降低操作的失误,如果就算他第一遍点错了, 他也能自我反思,修正之后呢,重新再执行,再试一次,这是决策,决策完成之后就是执行。针对网页端跟 app, ai a 帧的是两种不同的工作流。 我们先说网页端,在网页端这个场景之下, ai 的 身份,他其实是一个全站的程序员,他不是像人一样去移动鼠标,而是有一种叫 code act, 一 种范式代码即行动, 他不用直接点击浏览器,而是用 python 代码去解决问题。比如说想要分析股票,他就写一个爬虫去爬数据, 你想操作网页,那么他就调用外这种自动化测试库。最厉害的是,如果代码跑不通了,报错了, ai 也会读取日制,分析原因,修改代码,再跑一遍,跑通为止。我印象很深,麦纳斯刚出来的时候,有一些平台,他们拿到了邀请码,并且进行直播, 其中有一个很复杂的任务,测试者找了一个云端的赛车小游戏,让 madison 去玩,就是启动了一个云端的沙箱环境,通过视觉分析开始游戏,但是车没动。后来测试人就说当时是使用六 a s d 开车,这个车呢开了起来。 作为一个通用智能体,他并不知道 wisd 是 触发移动的这个机制,但是智能体接收指令之后,开车这个高一高一层,这个意图和 wisd 这种操作就有了关联, 然后在 linux 沙盒中就生成了执行脚本。大家说手机短,对于运行在手机本地的 app, 它是可以使用安卓提供的 accessibility service 这样一个 api, 它是给残障人士辅助使用的接口,你残障人士,它有一个视听功能,把你的需要的功能给你朗读出来, 它用的就是这样一个 api, 所以呢,它就有跨应用操作的特权。比如说现在要实现一个点击动作, agent 会把这个点击手势转换为输入时间序列, 通过 api 直接注入到事件流里边,那么 app 接收到这个事件就会响应这个点击。还有一种呢,就是基于意图的冷启动,比如说模型维护了一个 api 名称的包映映设表,包明的映设表, 那么他就没有必要在手机桌面上去翻图标,还有呢,比如 deeplink, 可以 利用 r 那 个 url 直接调起 app 到特定的页面,这些都是控制 app 的 手段。最后讲一讲训练,训练 g o i 智能体最大的痛点就是奖励稀疏, 你想想,在 app 上 app 上面点外卖,你可能要操作二十步,只有最后支付了,成功了才是对的。那么如果中间某一步错了, 那么整个流程就全完蛋,就没有用这 ai 呢?很难知道具体哪一步出错了。为了解决这个问题呢,前元算法用的是 mobile r i o 这个学习框架,就像教学生一样,先从简单的任务做起,先做只有两三步就能完成的简单任务, 建立正反馈之后呢,再增加难度。一旦 ai 蒙对了一次长流程的任务,系统就会把这个路径保存下来,反复的拨给 ai, 让他去学习。系统不仅要求完成任务,而且还要要求的步数尽量的少, 就逼着 ai 去寻找一个最优解,而不是像无头苍蝇一样在屏幕上,在手机 app 上面乱点。 ok, 今天呢,咱们分享的又是 minus、 豆包、 auto g r m 这些智能体是怎么操作手机的。下一次我们分享微信那些大厂的 app 是 如何破解豆包手机这个系统级 agent 的, 这个杀气记得关注哟!

豆包一点八震撼发布,听说这才是真正能干活的 agent, 我 赶紧上手测了一波,我告诉他我想买个 ai 眼镜,让他帮我全网搜索一下汇总整理数据,他就开始干活了。还针对工作和娱乐两个方面不同的标准,帮你分开汇总信息。我提到的几个细节,他一个不落的清晰汇总, 惊喜的是他直接甩给我两张清晰的对比表。这种 super 的 执行力简直是私人助理级别的,让他写代码做网页更是一绝。我提了一堆关于备忘录、 多功能仪表盘的复杂需求,原本以为他会漏掉细节,结果前后也就几分钟一个功能,丝毫不差格式化效果拉满的网页就生成了二百五十六 k 的 上下文能力,让他能记住我说的每一个细节,完全不会间歇性失忆。 让我感动的还是他的视频理解力。我上传了一段超过一小时的拉片教程,它能自动识别关键画面并截图,同时结合字幕整理成图文并茂的马克当笔记。 以前要看一小时的视频,现在几分钟扫一遍笔记就能抓到核心干货。豆包一点八让我真正体会到了, ai 不 应该只是工具,而是那个能接住你所有复杂情绪与需求,并把它变成结果的超级大脑。从他 super 的 理解能力和超长文本功能, 再到视频视觉理解力,豆包一点八这次 agent 能力升级确实诚意满满。如果你也想体验这种一键生产力的快乐,可以来聊聊你想让 ai 帮你搞定哪种枯燥工作,说不定下个效率。大神就是你,记得收藏呀,别等忙不过来的时候才想起它。

日均五十万亿 tokens 字节跳动,豆包大模型一点八来了! ai agent 能力直追全球顶尖!二月十八日,火山引擎 boss 大 会上,豆包大模型 c 的 一点八正式亮相。 它专为多模态 agent 的 场景优化工具,调用能力大升级,能轻松处理复杂指令和 os agent 的 任务,视觉理解帧数翻倍到一千两百八十帧,支持超长视频分析和二五六 k 上下文监控,安防场景轻松搞定。 不止如此,他的多模态理解能力进入全球第一梯队,和音视频创作模型 cds 一 点五 pro 一 起助力企业 ai 创新。 字节内部五十家业务验证日军 tokens 用量破五十万亿,模型效果超稳定!想体验最强 ai, 快 去火山引擎官网试用!豆包一点八点赞评论告诉我你最期待的 ai 功能!