#豆包app 办公高手都在用ai替自己干活儿

豆包如何控制电脑自己干活

128

16

67

20

举报

发布时间：2026-01-14 09:53

俊叶不加班

粉丝49.9万获赞407.1万

相关视频

01:14
豆包手机控制电脑 #豆包 #豆包手机 #手机 #Ai手机 #nubiam153
查看AI文稿
AI文稿
刚刚我发现了豆包手机有一个特别逆天的功能，到底有多恐怖？给大家看看啊！豆包豆包，打开向日葵，然后呢，再在图库上找到第一张图片，识别图片里面的验证码，输入进去，控制我的电脑，在电脑桌面上打开 i g 浏览器，大家到底看看有多吓人啊？他先啊打开了向日葵，然后查看了我的图库，找到了第一张图片，看它识别记录了这个验证码的信息啊，然后找到返回到向日葵，点击控制，看能不能控制，看厉不厉害。用豆包控制电脑了，而且是用语音控制的，点击按键，你看它识别到了这个桌面的按键，看能不能打开啊，等待按键打开，双击六不六，牛不牛？是不是很恐怖？
253罗夏评测
04:46
【AI桌面神技】豆包共享屏幕后简直离谱：会听会看还会干！ #人工智能 #豆包ai #职场效率
56斑马星人
06:22
和豆包共享你的屏幕，让她全程干活？从复杂表格到创意设计，动嘴让AI帮你搞定～ #AI新星计划 #Agent #秋芝2046 #挑战用豆包帮我打工 #你的共享搭子豆包已就位
17.5万秋芝2046
01:03
豆包自动进行数据分析❗
打工人必看！让Excel自己干活的魔法🔮#excel技巧 #办公神器 #数据分析 #豆包 #职场干货
查看AI文稿
AI文稿
一个很浪漫又不花钱的 ai 小技巧，三十秒就能搞定！自动化数据分析，打开到包选，帮我写作，把这段指令输入进去，发送重点来了，点数据分析，在这里上传你的数据表，再把这段指令发送出去，让它自动生成数据分析。看板稍等一会，一份文字汇报总结加处理好的彩色表格直接到手，点一下就能导出。打开看一看，既有整体数据分析，还有三个支线维度的拆解，每个板块都配了可编辑表格，饼图还能换成散点图，随便调。如果你给的是业绩，销售表就让他分析月度销售趋势、销售人员业绩、业绩占比。关键是指标照样轻松拿捏。不用公式基础，不用钻研图标，纯新手也能快速搞定！数据分析这个高能小技巧，赶紧码住！觉得有用的话赶紧点赞关注，后续还会继续分享更多摸鱼干活两不误的小技巧。
4汪有引力AI
08:19
豆包想让我失业？再回去修炼三个月吧！！豆包手机是不是智商税？豆包远程控制电脑，被大厂集体封印的努比亚M153豆包手机到底还能不能买，一个视频告诉你！！#失业倒计时#豆包手机#被封印的豆包手机#M153#豆包隐藏玩法
4340QQ543263
00:39
如何把自己的电脑放在云上？无论身处何处，一键开启云上生活#工作vlog #编程 #远程控制 #教程 #远程办公
53是小七啊
00:55
Excel小白逆袭🔥豆包自动进行数据分析❗
打工人必看！让Excel自己干活的魔法🔮#excel技巧 #办公神器 #数据分析 #豆包 #职场干货
查看AI文稿
AI文稿
一个很冷门又不花钱的 ai 小技巧，三十秒搞定自动化数据分析！打开豆包选，帮我写作，把这段指令输进去发送。重点来了，点技能栏里的数据分析，在这里上传你的数据表，再把这段指令发送出去，让它自动生成数据分析看法。稍等一会，一份文字版汇报总结加处理好的彩色表格直接到手，点一下就能导出。打开看看，既有整体数据分析，还有三个支线维度拆解，每个板块都配了可编辑表格，饼图还能换成散点图，随便调。如果你给的是业绩，销售表就让他分析月度销售趋势、销售人员业绩占比、关键指标照样轻松拿捏。不用公式基础，不用钻研图标，纯新手也能快速搞定数据分析这个高能小技巧，赶紧点赞关注，后续还会继续分享更多摸鱼干活两不误的小技巧！
43陈陈是只Ai喵
03:33
豆包共享屏幕全程陪你干活，随时给你建议，非常方便#AI #豆包 #豆包共享屏幕 #agent #aiagent
16木兰的灯
02:17
AI不是玩具是工具！教你用豆包生成智能体，3分钟搞定3天工作量#AI工具 #效率提升 #职场技巧 #知识分享 #个人成长
3AI师兄
01:48
AI是新一代操作系统！ #豆包手机 #豆包 #AI操作系统
10Rico智能体（Make工作流）
01:38
AI手机怎么实现自动操作 #豆包手机 #AutoGLM #AI手机 #一人公司 #AI
查看AI文稿
AI文稿
豆包手机看起来很神奇啊，在它获得了系统权限之后，它可以进行很多操作，那么它具体是怎么操作你的手机的？今天咱们要解释一下，同时纠正一下我之前视频的一个冇误。为什么说是冇误？之前我说豆包手机获得权限之后，还要做 api 的操作来控制各种软件，但其实它不需要操作 api，它只需要操作 ui 树，每个软件它的 ui 都是通过一个 xml 来生成的，这是不是这有一个图片，是不是这有一个 button？这些内容之后它就可以方便的操作你手机上各个软件，并不需要 api，这是纠正之前我说的错误。当然这种方式并不是万能的，因为通过 java 开发的应用和通过 unity 开发的游戏应用，手机即便获取的手机权没有办法获取 ui 数，就需要通过视觉模型来分辨手机上究竟显示的什么。就像之前所说的，交给视觉大模型，然后分辨每一个部分，手机上每一个部分显示的到底是什么。知道这个部分显示的是什么之后，就可以通过系统级别的操作来点击这个按钮实现操作，但是这种方式就会让这个操作变得非常慢。总结一下， ai 手机有两种方式来操作软件，第一种就是通过 ui 术，这种方式既快捷又方便，但是缺点就是它不治所有的软件。第二种方式就通过 ai 的视觉模型来进行分辨，这种方式可以兼容所有的软件，但是它效率比较慢，必须通过识别手机的内容，定位手机的内容再进行操作。这样的便民会问我，如果我没有豆包手机，那我应该怎么用大模型来操作？它会有一个免费的开源叫做 open auto g l m，你可以通过它来查到豆包手机类似的事了啊。今天分享就到这了，欢迎大家点赞关注加转发，谢谢大家！
11AI鹅鹅鹅
00:46
豆包AI编程新功能「可视化编辑」。不仅能一句话生网页、做小游戏、做图表、做互动课堂，还能在生成好的界面上直接编辑！#人工智能 #AI工具 #AI编程 #豆包ai #豆包电脑版
59X小鹿同学
02:50
豆包手机核心原理大白话讲#前端面试 #前端开发 #前端简历
查看AI文稿
AI文稿
先说一下这个豆包手机的核心原理啊，我用比较大白话通俗易懂的话去讲，它的核心原理是怎么控制我们手机的，而且是自动化。那首先就是它可以不截屏不读这种权限去直接去拿屏幕的数据，对吧？因为那种普通 app 要么去截屏读屏幕啊，申请这种无障碍的权限去拿到一些信息。但是豆包手机它不走寻常路，它有一个叫 auto action 的核心附件，它是直接从手机的 gpu 的图形缓冲去拿原始画面啊，就相当于说绕开了这种 app 的限制，就是你禁止截屏照样能拿数据，就相当于说它不是经过 app 的，它从最底层去拿这个图像，并且呢，它还会开一个和你手机屏幕一样大的这种虚拟的后台的屏幕，就是运行这种操作啊，你前台刷视频啊，什么它是不受影响的？那第二个就是他核心的，他手机本地有一个叫 acorn 的核心进程，相当于一个管家一样的，就是他是负责承接一些任务，包括指令啊。但是真正去思考的是云端的 ai，就他本地会把我们刚才说那个虚拟屏的画面，对吧？可能每三到五秒发一次啊，用小图片传到服务器上，他分析之后呢，返回指令，本机在操作啊，就是说有一个类似于核心的进程，他是指挥这个远端的 ai，包括本地拿到的数据进行一个运转，对吧？你本地拿到数据，通过他发给这个 ai， ai 分析好了，发给通过，他再发挥本地本地在操作，对吧？然后第三就是说他直接是操控的手机的，就是它模拟你手机的手指的点击滑动输入，相当于直接去按屏幕啊，它是有一种隐藏的权限，就可以绕开很多 app 的这种说话限制。那它为什么会抵制呢？首先就是隐私，它没有保证吗？对吧？你 app 的隐私你是需要用户同意的，它这个绕开 app 它从底层拿，对吧？第二就是那既然它能绕过底层，相比说它可以自动去操作的话，那你本身你原来去操控 app 你需要看广告啊，等等，你现在不需要看了，都是通过豆包来的，对吧？那些 app 的广告怎么办呢？所以说从商业包括隐私角度来讲，他可能会被抵制，原因在这里啊。嗯，当然如果你需要前端解决，需要前端去陪跑，你可以找我啊，付费可以报名，因为我也交了很多这种学员，对吧？如果你前端找工作遇到问题了。
17海云前端
06:36
Manus、豆包是怎么操作电脑和手机的 #AI #manus #豆包 #glm #人工智能
查看AI文稿
AI文稿
大家好，欢迎来到二十二的阶梯这个频道。前两天我发了篇文章，讲了黑铲攻陷快手的毛和微信，阻挡了豆包手机的盾，他们的同源性，也就是说都利用到了 ai 技术。今天我们就来分享一下 ai 智能体是怎么控制网页和 app 的。我们知道 minnes 可以执行复杂的任务，甚至是在网上玩这个赛车小游戏。那么豆瓣手机呢？还有奥迪 glm，他们能够发微信，点外卖这些。那么 ai 是怎么看见屏幕，又是怎么控制 app 的？今天我们拆解一下。首先呢是感知层，现在的 a 制呢，要想接管设备，一般有两种路线，第一种是纯视觉路线，就像人一样，完全指高。看看截图，系统把高分辨率的截图发给视觉大模型，模型通过视觉编码器把屏幕上的图标、按钮、文字切成小块。这里最难的就是视觉定位，也就是把点击搜索这个意图精准的映射成屏幕上的坐标。为了防止点歪，现在的模型会使用一种叫 s o m 的技术。简单的说呢，就是给屏幕上的每一个元素都打上带数字的标签。 ai 呢，只要报出数字，就能找到某一个精准的位置，刚才是第一种。第二种就是混合感知，因为光看图容易走眼，所以加一层辅助的功能素，这个很好理解，如果说截图是 app 可试的外观，那辅助功能素就是 app 的施工图纸。原本安卓系统底层为了给试障人士朗读屏幕，设计的一种结构化数据，里边就明确写了哪个按钮是搜索，哪个按钮是返回，哪个按钮是提交等等。所以像 autgrm 这类架构，就是一边用眼睛看截图，一边又在看叉 r l 里边的这个架构，这里面系统会剔除掉没有用的布局节点，只保留关键的交互信息。这样呢，哪怕某个功能没有文字，仅仅是用图标表示的，哪怕这个图标又非常抽象啊，比如某些软件是吧？它的什么清空消息啊，全部已读啊，是吧？他都是用图标表示的，那个图标画的，很抽象，没有关系， ai 只要查一下底层的 id，就知道他是干嘛的。接下来呢，感知之后就是决策。看懂屏幕之后， ai 不会马上就动手，而是进行推理。这领悟到的呢，就是系统二的慢思考机制。在他动手之前，模型会生成一段思维链，这就像产品经理在画流程图，比如你要转发邮件，那么 ai 心里就会想啊，我现在在一个页面呢，是在详情页转发呢，通常是在哪个角上？我看这个图标呢，就像回复，所以我得先点开看一下，他会有个思考的过程，这种行动前的思考，这种机制能极大的概率降低操作的失误，如果就算他第一遍点错了，他也能自我反思，修正之后呢，重新再执行，再试一次，这是决策，决策完成之后就是执行。针对网页端跟 app， ai a 帧的是两种不同的工作流。我们先说网页端，在网页端这个场景之下， ai 的身份，他其实是一个全站的程序员，他不是像人一样去移动鼠标，而是有一种叫 code act，一种范式代码即行动，他不用直接点击浏览器，而是用 python 代码去解决问题。比如说想要分析股票，他就写一个爬虫去爬数据，你想操作网页，那么他就调用外这种自动化测试库。最厉害的是，如果代码跑不通了，报错了， ai 也会读取日制，分析原因，修改代码，再跑一遍，跑通为止。我印象很深，麦纳斯刚出来的时候，有一些平台，他们拿到了邀请码，并且进行直播，其中有一个很复杂的任务，测试者找了一个云端的赛车小游戏，让 madison 去玩，就是启动了一个云端的沙箱环境，通过视觉分析开始游戏，但是车没动。后来测试人就说当时是使用六 a s d 开车，这个车呢开了起来。作为一个通用智能体，他并不知道 wisd 是触发移动的这个机制，但是智能体接收指令之后，开车这个高一高一层，这个意图和 wisd 这种操作就有了关联，然后在 linux 沙盒中就生成了执行脚本。大家说手机短，对于运行在手机本地的 app，它是可以使用安卓提供的 accessibility service 这样一个 api，它是给残障人士辅助使用的接口，你残障人士，它有一个视听功能，把你的需要的功能给你朗读出来，它用的就是这样一个 api，所以呢，它就有跨应用操作的特权。比如说现在要实现一个点击动作， agent 会把这个点击手势转换为输入时间序列，通过 api 直接注入到事件流里边，那么 app 接收到这个事件就会响应这个点击。还有一种呢，就是基于意图的冷启动，比如说模型维护了一个 api 名称的包映映设表，包明的映设表，那么他就没有必要在手机桌面上去翻图标，还有呢，比如 deeplink，可以利用 r 那个 url 直接调起 app 到特定的页面，这些都是控制 app 的手段。最后讲一讲训练，训练 g o i 智能体最大的痛点就是奖励稀疏，你想想，在 app 上 app 上面点外卖，你可能要操作二十步，只有最后支付了，成功了才是对的。那么如果中间某一步错了，那么整个流程就全完蛋，就没有用这 ai 呢？很难知道具体哪一步出错了。为了解决这个问题呢，前元算法用的是 mobile r i o 这个学习框架，就像教学生一样，先从简单的任务做起，先做只有两三步就能完成的简单任务，建立正反馈之后呢，再增加难度。一旦 ai 蒙对了一次长流程的任务，系统就会把这个路径保存下来，反复的拨给 ai，让他去学习。系统不仅要求完成任务，而且还要要求的步数尽量的少，就逼着 ai 去寻找一个最优解，而不是像无头苍蝇一样在屏幕上，在手机 app 上面乱点。 ok，今天呢，咱们分享的又是 minus、豆包、 auto g r m 这些智能体是怎么操作手机的。下一次我们分享微信那些大厂的 app 是如何破解豆包手机这个系统级 agent 的，这个杀气记得关注哟！
1艾舍尔的阶梯
01:28
豆包教我怎么摸鱼？用豆包摸鱼的一天#摸鱼 #上班中的我 #上班摸鱼
149富贵少爷
01:34
豆包1.8正式发布：这才是真正能干活的Agent 很多人以为AI Agent只是聊天，直到我试了刚发布的豆包1.8，这逻辑和执行力简直是降维打击！#豆包大模型 #AI大模型 #火山引擎 #Agent #人工智能
查看AI文稿
AI文稿
豆包一点八震撼发布，听说这才是真正能干活的 agent，我赶紧上手测了一波，我告诉他我想买个 ai 眼镜，让他帮我全网搜索一下汇总整理数据，他就开始干活了。还针对工作和娱乐两个方面不同的标准，帮你分开汇总信息。我提到的几个细节，他一个不落的清晰汇总，惊喜的是他直接甩给我两张清晰的对比表。这种 super 的执行力简直是私人助理级别的，让他写代码做网页更是一绝。我提了一堆关于备忘录、多功能仪表盘的复杂需求，原本以为他会漏掉细节，结果前后也就几分钟一个功能，丝毫不差格式化效果拉满的网页就生成了二百五十六 k 的上下文能力，让他能记住我说的每一个细节，完全不会间歇性失忆。让我感动的还是他的视频理解力。我上传了一段超过一小时的拉片教程，它能自动识别关键画面并截图，同时结合字幕整理成图文并茂的马克当笔记。以前要看一小时的视频，现在几分钟扫一遍笔记就能抓到核心干货。豆包一点八让我真正体会到了， ai 不应该只是工具，而是那个能接住你所有复杂情绪与需求，并把它变成结果的超级大脑。从他 super 的理解能力和超长文本功能，再到视频视觉理解力，豆包一点八这次 agent 能力升级确实诚意满满。如果你也想体验这种一键生产力的快乐，可以来聊聊你想让 ai 帮你搞定哪种枯燥工作，说不定下个效率。大神就是你，记得收藏呀，别等忙不过来的时候才想起它。
33AI女巫only3岁
01:31
豆包隐形功能之一键PPT 赶紧搞完，准时下班#AI小技巧 #豆包 #打工人
3AI探索家
01:03
#豆包app #豆包 #豆包ai #抖音豆包 #豆包知道《需要有关豆包教程可～～司廖～～～》
185商业智慧
01:57
一分钟搞懂今年爆🔥的Agent，它能直接帮你干活！
#dou上热门 #ai在抖音 #人工智能 #豆包 #一口气看完系列
30AI了个Q学姐
00:47
豆包大模型Seed1.8发布 #豆包大模型 AI会自己干活了，豆包大模型Seed1.8发布，通用 Agent 大模型，可高效、精准完成真实场景中的复杂工作。
查看AI文稿
AI文稿
日均五十万亿 tokens 字节跳动，豆包大模型一点八来了！ ai agent 能力直追全球顶尖！二月十八日，火山引擎 boss 大会上，豆包大模型 c 的一点八正式亮相。它专为多模态 agent 的场景优化工具，调用能力大升级，能轻松处理复杂指令和 os agent 的任务，视觉理解帧数翻倍到一千两百八十帧，支持超长视频分析和二五六 k 上下文监控，安防场景轻松搞定。不止如此，他的多模态理解能力进入全球第一梯队，和音视频创作模型 cds 一点五 pro 一起助力企业 ai 创新。字节内部五十家业务验证日军 tokens 用量破五十万亿，模型效果超稳定！想体验最强 ai，快去火山引擎官网试用！豆包一点八点赞评论告诉我你最期待的 ai 功能！
14追图科技观察

最新视频

热门推荐

热门分类