最近大模型更新的非常快,这部豆包的一点八也出来了,然后号称是视频理解能力,图片理解能力都超级强, 并且可以控制思考的长度,让我来看看是怎么个事吧。首先是强大的视频的理解能力,我们来测一下看他的视频理解到底怎么样。现在是我的一个浏览网页的一个小视频, 然后我上传上去,让它详细的描述和总结视频的内容,并且生成 markdown 格式的笔记,看看它的效果怎么样。这个整个视频里面的内容它都能给完整的解析出来。然后我在看的是当时 deepsea 二一的一个训练的过程, 他这上面能完全的解析并且总结出来,然后这个场景的能力可以适用在很多其他的一些视频的场景,比如说你让他帮忙去总结一下你学习的视频,然后总结一些家里摄像头孩子的一些动作,还有就是他号称他的图像的理解能力很牛逼, 然后我觉得这个用来辅导孩子应该还不错。然后我们来试一下这个初中数学的选择题,然后扔给他,然后让他看看效果怎么样,能不能解答出来,他完成了,然后他先给出了这两道题目考察的这个知识点,然后再给出每个题目的答案, 然后包括每个题目答案的解析,这块做的也挺不错的,而且他的速度会很快,可以看到他速度还是相当牛逼的。然后是他这次的模型,他支持自己去手动设置思考的长度, 然后像日常的问题可以直接关闭思考,像一些比较复杂的问题就让他思考的长度更长,他这样回答的就更准确一些。就比如说刚才这种数学题,日常的话可能就根据你的场景,然后来设置不同的思考长度, 比如说有一个小笑话,这样速度就会很快。看一下这个模型他的能力,他是他是一个多模态的模型,就是他能理解图片啊,文字啊,视频这些都可以,然后他也具备这种深度思考的能力,同时他的价格也非常的哇塞, 他的那个输入每百万 tokens 的 话才是八毛钱,输出的话每百万 tokens 才是两块钱,这个比现在市面上这些 deepsea 啊,这些国外的这些大模型都要便宜太多了。 这里的一些使用的场景里面有需要的话可以直接来通过 api 的 方式来配置一下来使用,我个人感觉这个还是非常具有性价比且效果很好的一个模型。他的一个使用方式 可以进到火山引擎登录下账号,然后去模型广场里面去选择模型,然后就可以开始试用了。
粉丝4023获赞3.7万

今天火山引擎正式推出豆包大模型的新一代版本豆包大模型一点八, 豆包大模型一点八就面向了多模态 agent 这样的一个场景进行了定向的优化。 在 ag 的 方面,豆包一点八的 to use 能力、复杂指令遵循能力、 os ag 的 操作能力都实现了大幅的增强。在多模态理解方面,豆包一点八也大幅的提升了视觉理解的基础能力,可以低帧率的理解超长的视频, 此外在视频的运动理解、复杂空间理解、文档结构化处理等方面都有所提升。 而且豆包一点八还原身的支持智能的上下文管理,用户呢,他可以通过配置上下文的策略,这样当模型去执行超长任务的时候,就可以根据这个策略自动的进行历史信息的清除,来确保多步骤长任务的稳定完成。 也正是因为这些能力,豆包一点八在跟 ag 的 相关的评测上都表现的非常的突出。在 ag 的 方面,豆包一点八在 amy 二零二五的评测期上稳固的提升,在通用智能体的测评 brought 康上取得了全球领先的成绩。在多模态理解方面,豆包一点八持续的突破 我们在视觉判断的准确性、空间理解、文档解析、视频运动识别能力上超越了 jamming 三领跑全球,在其他任务上也都处于全球的第一梯队水平。我们来看一个商品比价的场景,希望通过模型来进行全网的比价,来挑选一款合适的耳机。 挑选耳机其实是有很多的需求,模型他在接到任务之后,他首先规划了任务的处理流程,而且呢他开始理解屏幕,他开始调用十多个工具来选好匹配的耳机。最后呢,他在多个电商平台上进行搜索和比价,最终找到了最合适的耳机, 价格最好的耳机。这样的功能呢,我们不仅可以把它用在电商和生活服务上,也可以把它应用在企业的自动化流程里面,对吧?我们可以让模型自动地去使用各种企业的 sas 办公软件, 对吧?把企业的自动化流程给做好,进一步的去提升企业的运营效率。我们把车停在小区里,是吧?或者公共的位置,突然一回来发现车被人挂花了,那我们现在呢,就可以通过这个调取监控那模型来帮我们找到原因。我们这里模拟了一个一小时四分钟的监控画面,我们把它直接发给豆包一点八, 那模型呢,它首先是通过低帧率来快速的来分析, 那最终呢就能够找到肇事的车辆和事故的时间。那其实现在越来越复杂的任务呢,他其实需要 ag 的 执行数十轮的这样的一个操作,包括各种各样的工具调用,那这个时候呢,模型的上下文窗口就成为了限制, 那这一块呢,豆包一点八,他支持通过配置来实现智能的上下文的这样的一个管理,来保障这样一个长过程任务的执行。那在这个 demo 里面,管理者他收到了五个逆向报告,那我们希望模型呢,能够从邮箱中找到下载和分析这些报告, 同时参考二六年整体公司的战略和市场的情况,去评估出最优的项目。最后呢以可视化的网页的方式呈现出来, 那这个呢,我可想而知,他的步骤长,过程多,而且呢他需要处理十多个文档,通过豆包一点八的这个上下文的管理功能,就是底下这个绿线,他可以始终的去通过策略来控制偷困死这样一个稳定的长度,这样呢能够成功的去完成这样一个复杂的任务的执行。 那我们也相信随着豆包一点八模型的推出,我们可以帮助企业更容易地构建好复杂的 agent, 而更多更好的 agent 也能创造出更多的行业价值。

你有没有遇到过一种一眼沦陷的图片,明明想照着风格画别的内容,却总画不出那味?一分钟带你解锁风格复刻密码!现在以豆包模型为例,来演示一下操作步骤。 这个方法分为提取和附用两步。第一步,把参考图直接发给 ai, 输入指令。注意,这里有个核心技巧,不要用自然语言,可以直接套用这句精准指令。请以 jason 结构化数据的形式提取这种视觉风格, 包括颜色、排版、构图和特效。之所以要求用 jason 格式,是因为 jason 格式的数据形式是机器最容易理解的语言之一,它 能把图片里感性的艺术风格拆解成理性的、可量化的参数,这样 ai 识别会更准确。第二步就是附用,把这段代码保存下来,下次需要生成同类风格时,直接黏贴代码,告诉 ai 你 想画的主题。 比如生成一张身披金甲的外卖小哥,骑着机械战车在暴风雨中送餐,要求如下,然后粘贴前面的 jason 格式的文字,他就能根据这些参数还原出同样的风格。看这些生成的图片是不是与原图片的风格一样。学会这波操作的家人们,评论区速晒你的复刻神作!

近日,豆包一点五 pro 超前体验豆包新一代音频视频创作模型,能够支持生成声音与画面相匹配的有声视频功能,音画同步,配音口型 音效可同时搞定。还会根据场景以及描述的提示词,自动调整视频的视角、运镜、景别等,能够使视频更加丝滑流畅,使画面更自然。还能精准音画同步与多语言方言支持,通过简单描述直接生成电影级运镜控制。接下来我将教大家如何使用豆包生成音画同步的视频。首先打开豆包, 点击开始创作,点击视频生成,点击参考图,先上传一张图片,使用豆包模型一点五 pro 输入简单的视频描述与台词,我输入的是拉布布,向镜头前招手,使用粤语说话,豆包就会所描述的内容。直接生成一个带有自动配音与自动生成背景音效的视频,一次就能搞定, 无需多抽卡。我还生成一个 b g d 娃娃的剪刀手的视频,背景音效都是自动生成。还有这个运动员的音效也是自动生成。 看看这个运动员的运镜,只是简单的描述,就能够直接生成丝滑流畅的运镜效果,滑雪动作自然流畅,双人对话的也能够精准的分清, 自动对应双人配音。我还在制作了一个直播带货的视频,口型表情很到位,精准抓住介绍产品的痛点,还可以用于短距离。像这种带有强烈情绪的微短剧剧本最考验 a a 的 逻辑,只是通过简单描述便可直接生成,达到想要的效果,这眼神里的空洞太真实了,非常的自然。 豆包这次升级直接一口气把精准音画同步、多语言方言支持和电影级运镜全部点满。最后我们一起来看看成品效果吧!你好,我叫莱布布 茄子, 中午你想吃什么?妹妹,我想吃麻辣烫,要特辣。 this is the new hand cream it has a really cooling feel when you apply it。 祝卿得偿所愿,来世定不再相遇,误了你我。

二零二五年,全球 ai 竞赛进入深水区, open ai 的 gpt 五以博士级专家的姿态刷新通用智能的认知。谷歌 jimmy 将 ai 植入机器人与浏览器,探索物理与数字世界的自动操作。一个核心问题浮出水面,顶级技术如何转化为千行百业、触手可及的生产力? 二零二五火山引擎冬季原动力大会的答案不是单纯的技术对标,而是一条差异鲜明的产业化路径。本次大会,火山引擎发布豆包大模型一点八和豆包视频生成模型 cds 一 点五 pro。 先说智力核心,豆包大模型一点八,它在 agent 能力、多模态理解、上下文窗口三大方向进行了全面升级 的方面,不仅工具调用、复杂指令跟随和 o s agent 都更强了,就连复杂任务都能轻松规划搞定,效率直接拉满。同时大幅提升了视觉理解的基础能力,能看懂更长的视频和更复杂的画面,文档解析也更精准。它还支持通过 api 参数设置管理上下文超长对话,自动清理荣誉信息,多步骤任务稳稳拿捏。 再看创意引擎豆包视频生成模型 cds 一 点五 pro, 它首推音视频联合生成环境音、动作音、人声等多种元素,毫秒级同步输出,质感拉满,支持多人多语言对白,口型精准对齐,中文、方言、英文及小语种都能精准驾驭,还原真实自然对话。做不一样的语言却能对话呢? because the ai world is full of magic 更炸裂的是电影级趣事,运动流畅、情绪细腻,轻松产出影视级创作质感。此外,它还即将推出预览及所得的 draft 样片功能,创作效率提升百分之六十五,还能减少百分之六十的无效创作成本, 技术再好,用不起也白搭。为帮助企业降低模型使用成本,火山引擎推出业内首个全模型参与抵扣的节省计划。 ai 节省计划 对于客户每月承诺的用量规划,系统会自动匹配对应的折扣权益,用量越多省的越多,最高可节省百分之四十七的使用成本,并支持全预付、零预付两种模式。正如火山引擎总裁谈代所说,我们其实现在正处在从 pc 移动和 ai 时代的主体 就是 a 整机。在过去呢,我们习惯了是通过 us pass 和萨斯这样的分层来规划 it 架构,我们需要一个全新的面向 a 阶层来设计的 新架构。奔赴 agent 时代,火山引擎全面升级企业级 ai agent 平台 agent kit, 并致力于 high agent 打造一加 n 加 x 产品体系,帮助企业加速 agent 的 规模化落地。 agent kit 企业级 agent 开发平台模块化设计能让开发代码量减少百分之九十六,门槛断崖式降低。 high agent 与一加 n 加 x 体系提供从开发、部署到运营的一站式服务,特别是统一入口 agent sphere, 能让员工像调度不同 ai 同事一样工作,高效协同。 如何让 agent 实现大规模应用?火山方舟针对 agent 落地全链路进行了全新升级,推出推理代工服务,帮助企业做好模型推理,企业无需管理底层资源,只需关注模型本身,就能实现成本稳定可控。他还推出日内首个 max 原生的机密推理服务,为企业数据安全加上防盗门, 这些努力也反映在其市场表现中。根据 idc 报告,二零二五年上半年,火山引擎在中国共有云上大模型掉用量市场份额占比百分之四十九点二,稳居国内第一。 在 gartner 发布的二零二五年度全球 ai 应用开发平台魔力象限中,火山引擎位列挑战者象限首位,位居国内第一。 进一步,从应用数据来看,截至今年十二月,豆包大模型日军 tokens 使用量超过五十万亿,较去年五月发布时增长四百一十七倍,较去年十二月增长十二倍。目前,已有超过一百家企业在火山引擎上累计 tokens 使用量超过一万亿。 ai 竞赛的下半场,不仅是技术层面的比拼, 更是应用广度和产业深度的综合较量。火山引擎正将技术能力助力消费、电子汽车、教育、消费等行业转型升级。 当国际巨头持续探索技术前沿时,火山引擎则选择以技术引领、落地为先、成本可控、生态共建为路径,推动人工智能转化为千行百业、触手可及的生产力。

这样,今天我们一起来聊一聊科技圈最近最有意思的一个 autoglm, 就是 他可以直接对你手机的操作,让你的手机变成豆包手机。 我们会聊聊他背后的一些技术,他的一些呃核心跟我们大冒险相关的一些相关的技术,以及他训练了一个手机操作的一个技术,以及他的那个操作是如何实现 adb 的 这个技术什么东西,以及我们会看到最后他聊到的关于人类的 一些未来,关于开源,以及关于一些他是呃想做哪些东西的一些博文,以及他的一些核心论文,一些呃,聊到我们都会聊到。那么首先我们来给大家看一段他做到的非常有趣的演示,跟豆包手机逻辑差不多。 ok, 我 们先来看看, 帮我在微信查德锦花园店写一个五星好评, 查找到两家全聚德餐饮店,分别是全聚德清华园店和全聚德宴会。查到瑞幸咖啡有两家哪些呢?一个是瑞幸咖啡清华科技园创业大厦店,另一个是瑞幸咖啡中科资源大厦店,你想选择哪家呢?第一家 查找到瑞幸咖啡的饮品有佳能美式、橙色美式、标准美式、零碎美式和葡萄冰脆美式,你想喝哪个呢?标准的 涉及敏感操作,是否继续执行?你点的美式有多种选项哦,比如规格方面有默任何加料糖可以选择标准甜少少甜或者不另外加糖,温度则有冰和热。你想选什么样的呢?少甜 已为您给权志德清华园店写一个五星好评, 涉及敏感操作,是否继续执行? ok, 看完这段演示之后,我们来仔细的聊一聊他是如何去实现这些操作的, 那么我觉得这些技术其实特别的有趣,你能够在其中和学到很多有趣的点。那么我们先来想说人类是如何处理我们手机上的各种各样的操作啊?人类去点一杯咖啡,人类去买一个商品的时候,他在每一个步骤他会发生什么, 是吧?里边有什么问题,那么我们也能够从我们人类去完成任务的一些技术的对应。 我们先来聊第一个人,我们当去点开这个手机锁屏键之后,看到这个屏幕,我们开始哎区分这个按钮,比如说 我点开我的这个苹果手机,我开始区分,哦,屏幕中间呢有一堆 app, 然后下边呢是我的这个打电话,发短信,音乐,然后上边的有这个时间无线网,是吧?我们要区分每一个按钮具体是怎么 什么样的一个东西,他具体是在干干什么?那么这个里边的技术对应其实就是什么?其实就是我们看到的东西叫多模态模型,不是我们的文本模型,因为你要能够看得懂图像,是吧?图像的这种多模态, 同时你也要理解文本就是多模态的,是吧?然后我们能够看到他在技术里边用到的这个 autolim 九 b 就是 九十个比例参数的,这个手机的这个模型我们看到了叫该模型结构与 glm 杠四点一 v 九 b, 你 看他们的参数一样的,这个模型结构呢?和他是一模一样的。然后我们看到这边有个他的介绍,他说这个模型是视觉的语言模型,是吧?他里边有基本的多模态的感知,增强他复杂任务推能力,提高准确性、切面性和智能化,包括一些长沙玄文的理解复杂问题,纠结。 首先我们想聊这个九 b, 呃,大家知道现在很多大模型的理解复杂问题,纠结。首先我们想聊这个九 b, 呃,大家知道现在很多大模型的理解复杂问题, 把小米最新发了个模型,好像是三百多个比例,那么为什么他要搞九币的?其实是说我们手机上如果要搞非常大的这种大模型, 你会发现当我们在执行任务的时候,他就会非常的慢了,是吧?我们等不了那么久,并且我们手机里边内存也没有那么大,我们的推理能力没有那么强,那所以说手机里面我们需要一个较小的一个模型, 这里是九 b, 同时他是大这种什么多模态的模型,是吧?这是一个基本的这个,呃模型的一些介绍,然后这是他基本的一些项目,我们等会也要看。然后我们第二个,你看第一个说我们看屏幕区分这些按钮,第二个我们去理解这个界面其实对应的还是多模态大模型, 去理解这些页面里边,是吧?页面里面这个点的这个是评论区,那个是点赞还是什么?这个页面里边这个按钮是打电话还是什么?这些都是背后都是这个动模态、大运动模态的模型,那么呃,我们 还有什么呢?就是这个里面他能够把什么呢?就是,呃,他能够做到我给你一张截图,因为他在里边会持续的去截图,截屏之后呢,然后他把这个发给这个视觉的动态模型,他就能够把它转为什么手机意义上的,比如说什么是搜索框呀?什么是拍照呀?什么商品卡片呀?转化成为我们 手机操作意义上面那些界面的理解按钮,那些理解,这些都是模型都可以做到的。 ok, 那 么接下来接下来你要做什么?你们你理解了页面,知道了每个按钮之后呢? 你要去完成任务呀?你比如说你要去点开这个微信,给某一个人发个消息,你要有一个要达成的目标,然后这里边的技术对应,其实就是一个叫长期的上下文记,就是我要去持续的去记住我整个的这个模型 是在做什么任务。呃,那么这个任务目标要持续的贯穿在后边的许多个按钮,你比如说我的返回、回退、我的点击以及我的这个渐入一些话,那么他对应的这种长期上下文记忆的这种维护要持续的知道自己原来的目标, 那么这是一个相关技术。另外就是这个提词词工程了,是吧?你要告诉你这个告诉大模型,是吧?我们需要去达成哪个目标,这个提词词的一些注入,那么这也是一些技术对应。那么下一个是说什么呢?就是呃,人类要去在有目标之后持续的去规划点哪个 点哪个按钮、点哪个界面,那么这里边有什么,比如说我们的思维链能够帮助这个模型这个产出一些他自己的一些呃一些什么规划吧?包括还有自我的反思,是吧?我们呃 持续的去把这个反馈回来,信息持续再灌进去,然后我们再去思考我们下一个每一步包括一些循环框架,什么就比如说我们的这个, 我们有个叫代名环,就是什么?就是我先做计划,做计划完了之后,然后我再做行动,行动完之后有个反馈,反馈,然后我再拿着反馈信息,然后我再去更改我的计划,因为我可能中间有些广告,有些验证码,那么这种循环的框架让我们持续的去规划,来达成我们的一个目标, 那么这里边也是相关的,是吧?这很多就是基于大模型的一些一些技术。对一,那么最后一个比较重要的技术,什么就是叫呃, 大模型,知道每一步该点什么,点哪里,具体的一个坐标,那么下一个你得把这些具体要点东西的这个东西交给一个执行器,其实就是 adb。 adb 来执行什么呢?比如说点击滑动 是吧?呃,左右滑上下滑,其实就是什么?类似于一个坐标 x y 到另一个坐标 x y 的 一个连线,那么我们点击其实就坐标 x y 的 一个点击,包括还有渐入,点击一个 x y, 然后在我们的输入法里面去渐入,那么这里边有动作定义,也就是说,呃,比如说我的动作定义可能是滑动, 呃,点击双击是什么的?有各种各样的动作定义,那么相对坐标是为了我们去点中其中的一些按钮, 是吧? adb 是 最后来点的这个技术, ok, 我 们差不多聊完了,什么呢?就是我们人在解决一个任务的过程中会发生的规划有目标以及理解这些信息,理解这些界面,并且找到了对应的。 呃,这种这种什么就是技术上面的,他去实现技术方面的相相关的对应,包括一些模型的技术,提词词的技术,是吧?呃,思维链的一些技术,反思的一些技术,包括还有什么动作电影箱的坐标 adb 这些技术。 ok, 然后我们想来仔细的去聊聊其中那些关键的一个技术。其实我们刚刚也看到关键的一个就是模型,一个就是动手操作 其他这些提示词,这些都是模型相关的一些辅助。所以说第一个核心的就是如何去呃做到 这个模型能够非常非常理解我们的界面。其实我们之前它为什么新改的是叫 auto g l m 九 b 的 这个模型,它为什么叫这个名字?不直接叫我们最一开始的,你看它这个模型结构叫 g l m 杠四点一 v 九 b cking 的 这个模型,其实就是因为 直接这个模型,他很多时候不理解手机里边那些操作,你必须做对应的这种模型的,是吧?重重训练。所以说, 呃,你看动物台大模型,让他理解人物,做规划,看个图像,这就是人脑嘛。那么这些基础能力,在他的基础模型上他的能力是不够的, 所以说我们就必须要去开发对应场景的这个模型。那么这就这篇他讲的这篇论文是吧?用于 g u i 的 自主的基础的这种代理。 那么我们来去仔细看下哪句话呢?就是,呃,什么?你看这句话叫虽然基础模型在获取人类知识方面表现出色,但他在动态的真实世界环境的决策中力不从心。这个很简单,大模型是没有经过相关的这种手机操作的数据训练的, 说他能够看懂同学大家知道点什么,但是具体的一个执行里边遇到的各种各样的问题,他是力不从心,他是解决不了的,所以说是需要去通过这种,呃,比如说我们设定这种环境的交互来去强化原有的这个基础模型的, 这个变成一个新的模型,我们需要去开发这个,是吧?这个是非常重要的。那么那么核心的难点在哪里?我们刚刚有聊到,其实最核心的就是我们在预训练的时候,我们没有相关的这种,我们叫什么轨迹数据,什么轨迹数据?是比如说我们人要去发微信, 我第一个东西我要去把这个锁屏开开,锁屏开开之后呢,我开始滑动,边滑动边截图,我们人眼是在是吧?看,但是其实他是里,他是在截图,然后边边找到这个页面里面的微信,然后再点入微信,点入微信之后呢做理解之后呢 我要去找到对应的联系人,找到对应的联系人,我再找到对应的输入框,找到对应的输入框,我再找到输入法上面那些字母,然后我再输入,然后我再输入,然后我再点击发送。你看这是一整个长条的一个轨迹, 那么这种的轨迹数据在互联网上是,呃,之前是没有人搞这些数据的,就说这个是难点,没有这些数据我们就很难让大魔仙去理解他,那么我们如何让大魔仙去执行这个任务呢?就说这个是第一个难点, ok, 然后我们来拿过来去聊一聊,他在这个难点里边去如何去解决的,我们把这个 放大一下,我们看,呃,他核心的解决的重要的技术,他他是怎么处理的,是吧? 是他这边聊就是互联网相关的一些数据很少,那么我们看第一个他叫什么?叫行为克隆什么什么东西呢?就是,哎,我比如说我就专家,然后我现在 我就把我每一步的发微信的这个流程一步一步的都记录下来,记录成数据,然后呢 把这个数据位给模型之后呢让他跟随着我的这些轨迹去学,那么这个东西已经证明是吧?他已经说了这个东西训练是非常有效的,但是这个有一个大量的巨大的问题,就是他其实模仿学习,也就是说他并不理解 我为什么要点微信,是要点那个绿绿的那个两颗头的那个按钮,他也不知道。为什么我发给联系人非要发给那个美女头像的那个联系人他也不知道我发发给美女头像联系人之后,我要下边我点的那个是舒兰, 他只知道哦这个人首先点了一个绿绿的东西,点绿绿的东西之后呢?点一个美女头像,点个美女头像之后呢?然后点击开始给他发一些骚话,是吧?那么他就可能变成了一个 只会给美女发一些骚话的一个模型了,那么他完全的就依赖于我的一个轨迹, 那么就让他根本不知道背后的这个逻辑,我为什么要点这个微信?为什么长这个样子?为什么非要点那个长发大波浪? 是说这个是问题,那么所以说他有做了几个东西,叫一个叫课程学习,就说让他逐步的去,类似于我们课程一年级、二年级、三年、四年级、五年级,大家让他一开始接受叫单部人物,比如说点开日历,比如说点开这个网页, 比如说点开豆包,我不需要去后边我就点开就行了,或者简单的少步任务,然后呢我们再慢慢慢慢,我们再上上难度,这个时候他发现这种策略能让他背后学学到的这个目标达成能力是极其有效的, 包括一些强化学习是吧?从强化学习里边去学东西,而不是直接去专家汇集,因为本身像我这种专家是吧?他找我一次,我要他个一百万, 是吧?他这个要不起啊,要不起他就自己搞这种强化学习,类似于他自己做了一个环境,让他在这个沙盒里边去自己乱点、狂点,然后慢慢慢慢去学奥点这个出错点那个有问题,然后是吧?让他去里边去学到,哦,我原来要这样点,是吧?他要做什么?模拟器吗?类似一个沙盒环境,让他去探索, 他这个效率肯定有限,是吧?有几个手机,有几个模拟器网网速,还有你这个内存吧?他说这个非常耗内存,是吧?但其实他就花这些能力,那么我们现在看看完了,是吧?他是如何拿数据的? 第一个找我这种专家,一条一百万我给他,我天天给这种长发波浪大美女发消息,他就学会了如何给长发大美女这个发发一些话,是吧?那么呃,这是我们的叫什么?其实就是模仿学习专家的这种规矩,下一个是给他 呃做一些课程对应的训练,单步的、多步的、几十步的,然后还有一个是什么?就是把它放到云端的一个呃沙盒环境里面,给他开一个安卓模拟器,然后他在这个安卓模拟器里边开始点呀,狂点呀,我给他一些任务,他就去呃,在错误中不断的学习。 那么这这三个拿到背后的不管是成功还是失败的这些数据喂进去之后,那么他能够提升自己能力,那么下一个叫什么?就是 他发现在很多时候解决问题的时候,这个模型根本什么是他是非常清楚我该点什么,这个微信呢?绿绿的头,这个豆包呢?这这个是豆包姐姐,这个是美女。 那么微信读数呢?就是一个蓝的,然后右边有一个微信,然后下边是一个那个那个页的那种样子,而 b 站上面就写的 bilibili, 那 么他知道每一个东西点什么,他也理解了界面,但是他点不清楚,他点不好, 那么他发现了这个问题,你看这边他聊了大部分错误都是源于落地阶段元素的识别错误,他不是说我们知道 没,没知道,他是说知道做不到,那么在这里边他去解决这个,我们让知道做不到的这个方法,他是怎么解决的?我们来看一下他的这个具体论文解决,是吧?具体论文解决是这个地方,你看 开发过程中整个的接口,对于解偶的状态,也就是说他把中间的设计了一个中间的界面,把这个规划和执行中间解偶开, 然后把这两个分别的去训练,你比如说我的,我的接地行为,我的这个行动行为,我就给他单独拿出来训练,我就训他什么呢?点这个微信, 然后我就训练他,他就仔细的去点,仔细的去点,知道他点的非常准,然后点这个小宇宙,是吧?他慢慢慢的训练就仔细的点的非常好,点这个抖音,他就慢慢训练,就点的非常好。他们就做了一个其实就是解偶,然后去分开的执行分开的训练, ok, 这个就是他整个的,是吧?这两个做到的这个核心的能力,一个是训练的这个数据,一个是解偶开,让他精准的去识别元元素,那么下一个其实就是来到了我们的一个技术叫 adb 的 技术,其实他就是实现我们这些操作 点滑,是吧?包括一些其他东西,他实现这些东西,那么我们的 adb 技术实现的核心东西,第一个就是给他甩图嘛, 甩截图的目标是获取坐标,以及就是知道这个页面上有点啥,点点什么东西,然后下个就是我们执行点子,下个就是第三个就是什么,我们要知道这个 app 是 什么样的反馈状态,它目前还运行的状态是一个什么样情况,那么这个是 adb 技术, ok, 那 么 下面我们想说一个点,就是,呃,其实我上次说就是有没有可能让他们直接给你 api 接口什么什么,然后就直接搞, 是吧?当然证明了,是吧?其实很难,他,他给你这种开放接口很难的,当然也有可能之后有人非会非常愿意,其实如果是有 api 接口是非常方便的,呃,并且很好去调用,并且稳定性各种各样东西都是非常强的, 但是目前以这种竞争生态呢,我们可能必须得用 adb 的, 包括很多人是没有做这种 api 的 这种接口,所以说 adb 是 非常通用的,因为他是直接执行我们人手的触摸呀,点击呀,截屏呀, 它是极其同样的,因为所有的 app 目前都是给人造的,给人造的,给人看的,它都是界面,都是点点画画,所以说这就是为什么要用 adb 这套技术就是非常的通用,也就是因为之前我们所有的 app 都是给人造的,以后我们的 app 可能是给 ai 造的,这个极有可能,而且几乎可以肯定 这是我们聊的这个 adb。 然后我们想跟大家聊呢,就是呃,这个 他从这种我们原来的这种无意义的操作,无限的循环,变成一个非常好用,还算不能说非常好用,还算好用的一个东西,它里面做的一个基本的一个东西叫,就是拆解出了最基本的,我们叫原子操作,也就是说我们人类你会发现 我们操作一个东西有各种各样的操作啊,点呀,手左右滑怎么触屏呀?你会发现我们要从这种分繁复杂的各种各样的操作, 比如说我们点两秒,长按点,可能有的人按了三秒的人按了五秒,有的人触屏是戳戳两下,有的人戳戳三下,有的是轻戳重戳,是吧?那么各种各样的操作,包括各种各样的这种点按,最终呢我们要定义一些最基本的这些原子操作, 那么目标呢,就是把各种各样的分反复杂动作定义为几个最基本的动作,就这几个动作,那么定义为最基本的动作,这个时候我们的 这个如果动作变得就是你要把它变得非常少的时候,有个非常好的好处,就是我们大模型就已经清楚了,我的核心目标就是变成这五个东西,要么点,要么滑,要么输入,要么截屏,要么用户截屏。理解,就这五个, 如果说你的拆分不够圆子的话,你可能拆出是二十个,那么就大大的提高了你的有问题啊,风险呀,是吧?包括一些模糊的点,是点这个还是点那个呀?那么就会造成你的你的这个手机的这个应用的点击就不稳定了,就慢了, 是吧?所以说我们做完这些之后,我们就要教会模型,不管什么界面,全部的要么点,要么滑,要么梳, 是吧?如果不知道就截屏,把它提炼出了基本的操作,这个东西就非常类似于什么呢?我们叫我们需要去对话,有纷繁复杂的单词,但是我们只把它简化为二十四个字母, 我们的点有无限的点作坐标系,放上来所有的点都是 x 和 y, 就 这两个维度, 把所有的点变成两维度的东西,把几万个单词变成二十四个字母的组合,把各种各样复杂的任务,无论是点其他各种各样的任务, 变成了三个基本操作,点击、滚动和收入。那么这个时候你会发现所有的任务 可以把它归类为一类任务,无非是点击滚动输入的组合而已。哎,我们最近我看到有很多人说,哎,他竟然会玩我的这个游戏,还玩的还挺溜的,或者说他竟然会知道查我的余额,还查的挺溜的, 呃,或者说他竟然会找到这个都很难点的这个按钮,哎,很有趣。这些其实在我们人类看来有区别的按钮,在机器看来无非是点击滚动输入的排列组合而已, 无非是排列的有多长,以及他们之间的顺序,一二三四五六。这个排列组合他在他眼里是没有所谓的谁比谁难,哪个哪个容易点,哪个不容易点,是微信容易发还是其他容易发?他没有这些逻辑, 他只能是可能是这个,比如说我们的这个顺序长之后,他可能有错误发现,这个时候 问题都简化成了这个。呃,三个基本操作,排列组合问题,问题难度大大降低,模型的能力非常的精准稳定,把越少的这种动作,就这三个动作是吧?我们越容易做成,越容易稳定,越容易精准, 这个是这个东西的是吧?你也他看到他从随机敲击到精准控制,这也是他写的这个博文,非常重要的就是提炼出了这个基本的操作,并且教会模型,就给它分解成这些基本的操作训练。 ok, 我 们这一耙聊完,然后我们想最后聊一点就要开源对于人类的好处, 那么第一个就是我们开源把所有东西放在那上面,我们能够去审查他的代码,我们能够去验证他的代码,那么基本上他但凡是敢往上放的基本也没啥问题。所以说 这么多人的审查之下,他的公开能够让我们得到一个相对安全的一个技术,甚至我们可以部署到自己手机里边,那么对于所有人 是非常非常的重要的意义,而不是说别人封闭住,你也不知道里边他,他是什么情况,比如说他可能要你一些权限,几百页的页面谁会看呢?是吧?几万字的东西他就写那么复杂,谁会看呢?那么这个就很难审查了。 那么包括下一个叫减少被挟持的风险。比如说我们手机厂商可能最后能做成的就那两三家,那么会不会被他们这两三家挟持之后,他们可能 就说不开放什么的,那么有没有可能我们的一些隐私数据安全就是被完全的挟持,因为你如果想让他执行一些任务,点开微信啊,查一些东西的时候,你一定要去把这些东西是要去放出来,但是 但是你说这个,这个一定是会有风险的,所以说他可以减少这个,那么下一步我想说就是,呃,这个当然是对于我们找工作可能有用未来的胜负手,手机行业的胜负手来到了什么叫 你做的这个操作?手机的智能题的稳定和可能性怎么样?这是全部的聚焦下来的,这个胜负手未来竞争就是这个,所以说,呃,有很大的机会, 呃,有很大的前进,也有很大的风险,有很大的可能隐患,但是未来已来, 呃,想想如何在这波浪潮之中去做一点自己该有的一些价值吧,给人类稍微贡献一点点价值,是吧?我让我们自己稍微的这个有用一些, 给这个人类世界稍微的推动那么一点点。 ok, 这差不多就是我们今天全部的聊的一些内容了,我们下期再见,拜拜。

我哥前几天想买那个豆包手机,但又舍不得给黄牛加钱,说是想体验那种干任何事说句话就能让 ai 去做的皇帝感。然后就在网上找了半天,找了个开源项目能在自己手机上部署,问我靠不靠谱。 我看了一下这个 openwater 开源项目模型,确实有那么点靠谱,可以说它已经不是模型了,它是 aint 加模型加手机执行器了。 饭喂你嘴边了,看你会不会张口了。都知道豆包手机其实就是字节跳动。找了中兴通讯代工生产的努比亚 m 幺五三 豆包,找中兴旗下的努比亚生产了豆包手机,那豆包助手服务是不是得运装在手机的系统层里?这和你在应用商店下的豆包完全不一样,系统权限不在一个层面,就跟租客和房东一样,租客虽然进入到这栋房子里,但权限肯定不如房东多, 所以豆包手机才可以跨 app 自动化操作。那 openwater gym 可不可以部署进你手机里,像豆包 os 那 样跨 app 自动化操作,而且不受权限限制呢?在技术上很难,让我哥用上肯定更难。 首先这个开源项目的执行通道用的是 adb 加 accessibility, 豆包手机小米、澎湃、华为、小 e 都或多或少用了 adb, 因为在前几年, adb 靠着可以打字截图、强制开关 app 文件读写、获取数据这些能力深受技术喜欢, 还能进行连续滑动、自定义速度滑动、模拟人类的 pad 滑动等等,不让 app 发现。技术上 ok 的 情况下, adb 当时确实是执行通道的主流。但谁说你和中标公司资质一样你就能中标啊,你手机还要开发着模式,别人厂商可是直接白名单开路, 有内部接口和系统鲜明相助, adb 早落伍了,出来混要有实力,要有背景。你哪个大厂的?你没背景想靠微型做精准点击,但现在每个 app 的 弹窗位置 ui 图形都不一样,隔一段时间 app 更新去换一下,就算 ai 能力强,延迟也高。 不好意思啊,前段时间这里修路忙到被占了,盲人不能精准走路,还是别出来了。我知道 ai 手机可能是未来,但是我哥一个普通人代码都看不全,你敢给你手机装能无障碍通行的 a 进的进来,信息数据盗取怕不怕?后台运行怕不怕? 更何况部署还要服务器或者电脑,何必呢?还让子弹先飞一会儿。欧菲华米这些大厂都还在观望呢,如果都把手机突破了这些 app 的 封锁,那到时候就像外卖大战一样,百家争鸣,你肯定可以用上让你满意的。 但如果豆包手机没突破封锁昙花一现的话,那我讲实话,你就算是钢铁侠贾维斯来了也白搭,听懂了吗?哇哦,你真聪明啊。

刷到好图无法保存,用豆包一招教你轻松做同款!刷到喜欢的图片却无法保存,别急,今天教你用豆包的新技巧, 快速生成一张风格相同的专属图片,只需一个简单指令,就能将心动的视觉灵感转化为你的创作。想轻松做出同款美图的伙伴,记得先点赞收藏,方便随时回看。 话不多说,马上带你上手实操。在我们平时在各大平台去刷视频的时候呢,刷到了这种非常可爱的一个视频,或者说我们这一个照片,想要让他生保存到我们这一个相册,或者说你想要制作一张相似的一个照片, 那么我们要去怎样制作呢?我们去点开这一张照片,点开它去选择一个自己喜欢的,比方说我们喜欢这一个,那我们就直接给他截屏保存下来, 保存完成之后呢,我们去给他裁剪一下,因为呢我们只要这张照片,不要其他的 部分,这个时候直接点击对勾,就可以保存到我们这一个相册。那么这个时候呢,我们去打开我们这一个豆包软件,打开我们这一个豆包软件,在我们这一个右下角呢,我们点击加号,把我们刚才截屏的这一张照片上传过来, 这个时候呢,我们去给他下达我们这一个指令。下达什么样的指令呢?帮我反推以上图片的 ai 绘画提示词。 好,这个时候呢,我们去给他点击发送,那么一会的时间呢,他就会去生成相关的一个提示词,现在呢,我们这一个提示词呢已经给你生成完毕了,那么这个时候呢,我们可以去 长摁这一段文字,点击选区文字,你可以去选择上面的这一个英文版的,也可以选择我们这一个中文版的,根据你们自己的需求去选择,在这里我们选中它,点击复制。 接着呢在右下角这一排工具栏中,我们去选择这一个 ai 创作,我们点击 ai 创作,把我们刚才复制的这一个提示词呢给它粘贴过来,我们点击它点击粘贴。 接着呢左边呢有我们这一个参考图,我们点击参考图,把我们刚才这张照片呢选中它,点击下一步 添加进来之后呢我们可以看到,那么这个提示词呢,我们可以去更改一个小猫穿着粉色的,我们还可以改成蓝色的,改成蓝色 hello kitty 雨衣,坐在粉色樱花的白色茉莉花瓣上,形成 hello kitty 形状。把相关的这一个提示词更改完成之后呢,我们可以点击发送。 那么一会的时间,这一个豆包呢就会去生成一个相关的一个图片, 那么图片生成时间大概需要一分钟的时间,一会我们回来看一下效果,现在我们这一个图片呢已经给你生成完毕了,如果说你觉得不错的话呢,你想要去生成一个相关的一个视频也是可以的, 在这里呢,我们这一排工具栏中有我们这一个变视频,我们点击变视频,在这里你可以去下达指令,你想要让小猫干嘛,你都可以去下达指令, 那么这个时候呢,我就不稍作去下达指令,直接点击发送。那么一会的时间,我们这个豆包呢就会去生成相关的一个视频,那么视频生成时间呢?大概需要一到三分钟的时间, 一会呢我们回来看一下效果是什么样的,现在呢我们这一个视频呢已经给你生成完毕了,我们可以点进来看一下,是不是就非常的一个真实了,如果说你喜欢的话呢,我们就可以点击这个小箭头,给他保存到我们这个相册, 后续呢添加上一首自己的喜欢的一个音乐,那么就是你一个独创视频了,那么今天这期视频就给大家分享到这里,如果说大家觉得我分享的还不错,可以给我点一个小爱心,也可以在我的评论区评论三个六。

宝子们,好多人到处找,在海边落日测脸豆包 ai 指令教程,来歌主播三秒就能教会你。咱直接找到这个豆老师,点旁边的加号,上传你的美照,然后把我评论区的指令粘贴上去,最后点发送就行了。按这方法做出来的效果图超绝!欢迎评论区返图。