还在手动填表单点按钮吗? google 最新的王炸更新,直接把最强 ai gemini 放进了 chrome 的 每一个操作里。升级后,你的浏览器就像有了自动驾驶模式,能像真人一样自动打开网页,填写信息,完成任务。 更夸张的是,无论你切换到哪个标签页, gemini 的 智能助手随时待命,甚至还内置了 nano banana, 你 可以在当前网页上直接修改看到的任何图片。 这次更新彻底模糊了浏览器和 ai 助手的界限,让 chrome 从一个被动的显示工具,变成了一个能主动替你干活的智能体。这可能是浏览体验的一次根本性重塑。关注我,带你打破更多信息差!
粉丝1.1万获赞5.2万

cloud code 最新版现在已经原生支持调用 chrome 浏览器了,我们只需要将 cloud code 升级到最新版本,然后在 cloud code 中使用斜杠命令加上 chrome, 就 可以进入 chrome 浏览器的设置。 在是否默认起用这里我这里设为了起用,而且这里还可以管理权限,点击之后这里就会自动打开浏览器,并且在这个扩展这里我们就可以设置权限。如果大家没有安装扩展的话,到这一步应该会提示安装扩展,大家只需要按照它的提示安装扩展就可以。 当这些设置好之后,大家就可以在 cloud code 中原声调用 chrome 浏览器。在之前的视频中,我为大家演示过 chrome devtools 在 chrome code 中以及在 codex 中的使用,用来实现浏览器自动化以及 ui 调试。 但是 chrome devtools 为了安全,它打开的浏览器是一个新的实力,当我们需要执行浏览器自动化任务的时候,我们就需要重新登录所有的账号,像这样的话就非常麻烦,而且非常浪费时间。 但 cloud code 它原生支持的 chrome 浏览器调用它打开了浏览器就保存了我们日常使用的一切信息,包括账号登录状态以及浏览记录,还有 chrome 的 扩展插件等功能。 所以我们在 cloud code 中直接调用 chrome, 既适合 ui 验证,也适合端到端的自动化。而且它支持多种交互操作,包括点击输入,表单填写, 还有多标签管理,还可以对标签进行分组管理,而且它可以读取 cancel logs 还有 network requests, 并且可以结合盗墓状态来定位 ui 以及逻辑问题。好,本期视频将为大家深度测试 cloud code 调用 com 浏览器 完成自动化任务、 u i 调试任务以及 api 接口自动化测试等任务。下面我们可以先用一个最简单的任务进行测试,我这里直接输入任务,让它打开我的簿刻,点击进入第一篇簿刻,并将它改写为一篇 x post, 然后发布到我的 x 账号, 我们直接运行,先测试一下它最简单的浏览器自动化能力。好,可以看到这里它自动打开了我的簿刻, 然后它自动点击了我博客的第一篇文章,然后我们回到终端,就可以看到这里它正在执行这个任务,现在已经阅读完了博客文章,正在改写帖子。然后这里它需要申请权限,我们直接给它权限,然后它就自动打开了 x 平台。 好,可以看到它自动点击了发布, 这样的话这篇 x post 就 发布成功。整个过程不需要我们重新登录 x 账号,因为它会自动调用我们日常使用的 chrome 浏览器的配置。我们再测试一下 cloud code, 调用 chrome 浏览器 实现信息搜索,并且将搜索到的信息填写到谷歌的表格中,我们看一下他能否准确操作谷歌表格。这里我们输入提示词,使用奎姆搜索特斯拉近七天的股票信息,并且打开谷歌表格,将内容填入到表格中,我们直接运行 自动打开了谷歌浏览器,然后这里需要我们授权给他。好,可以看到他打开了谷歌,并且搜索了特斯拉的股价相关的内容。 好,这里他进入了雅虎 finance。 好, 可以看到他能准确点击并且复制相关内容。 好,可以看到他提取了特斯拉七天的股票数据,现在他打开了谷歌表格,我们看一下他能否将这些数据准确的填入谷歌表格中。 好,可以看到他在第一个单元格中输入了日期,然后定位到了第二个单元格。好,现在又在第三个单元格中输入了内容,现在这个表格的表头已经输入好了,然后这里提示他开始点击第二个单元格,开始输入数据。 好,这里他填完了十二月十八号的数据,现在在填十七号的数据 好,这里提示所有数据已经输出完成,这里我们就看到了它填入的特斯拉股价相关的信息,而且整个过程都是由它自动化完成。这样看来这个效果还是非常不错的,因为它能对这些非常复杂的表格进行精细化操作, 通过测试可以发现它的浏览器自动化能力还是非常强大的。好,刚才我们测试的是浏览器自动化任务,下面我们还可以测试一下让 cloud code 调用 chrome 实现 ui 调试。我们可以先在 cloud code 中让它为我们开发一个 react 组建。 我们可以先看一下这个提示词,让它使用叉款 ui 创建一个语言学习的 react 组建。这里是技术站 里,是页面结构,还有核心功能,还有设计要求,包括主题字体等,还有响应要求,以及数据结构,还有交互细节,还有性能。在最后这里我们让它创建一个完整的可交互的应用原型,要求任务完成之后,使用 crm 自动测试所有功能是否正常。 然后我们完整地粘贴这个提示词发送给 cloud code, 让它为我们开发这个 react。 组建,并且自动调用 chrome 浏览器进行测试,这是它生成的开发任务。最后一个任务就是在 chrome 浏览器中进行测试。 好,为了节省时间,开发步骤这里就略过,我们直接跳到它打开 chrome 浏览器的步骤。 five minutes later。 好,这里他已经完成了开发,现在正在安装依赖,这里他需要我们授权他权限,现在他就自动打开了浏览器,我们看一下他能否自动点击页面上的这些内容,对页面进行测试。 好,可以看到他自动点击了单词卡片,单词卡片翻转之后,这个单词出现了镜像翻转,我们看一下他是否会修复这样的问题。 好,这里他提示他看到卡片翻转有一些 css 效果的问题,他需要修复这个问题,这样的话,他就通过调用浏览器自动点击发现了这些问题。好,现在他正在测试练习页面。 好,他还选择了一个正确的答案。这里点击了进度。好,可以看到这里他输出答题反馈功能完美。好,这里提示进度页面非常漂亮。他继续测试设置页面。好,这里他提示页面显示空白,他需要检查控制台是否有错误, 然后这里他发现了这个错误,他正在修复这个错误。好,这里提示修复完成,他刷新页面, 可以看到他现在点击了设置。好,这里他提示设置页面所有功能都正常,他现在需要修复首页单词卡片翻转的问题,他需要创建一个简单可靠的翻转实线,替换当前的三 d 动画。 好,现在他又切换到了首页,然后我们看一下这次单词卡片的翻转是否修复好, 可以看到它自动点击了单词卡片,这次单词卡片翻转就正常,就显示了单词的中文翻译好,这里提示单词卡片翻转效果现在完美工作, 并且提示所有功能都测试通过,然后这里就输出了已经完成的这些功能。这样的话,我们没有经过任何干预, cloud code 就 调用 chrome 浏览器实现了自动开发,自动测试,并且发现了单词卡片翻转出现了问题,然后 cloud code 进行了自动修复, 可以发现整个步骤非常流畅,完全由 cloud code 全自动完成。刚才我们测试的是在 cloud code 中调试前端 ui 项目,下面我们还可以测试一下用 cloud code 调用 chrome 对 api 进行测试。 我们可以先看一下我准备的这个开发任务的提示词,让它创建一个 node js 加 express 的 代办事项, api 包含 get 请求获取所有代办事项, post 请求创办代办事项,还有 put 与 delete, 并且集成 swag ui express 自动生成 api 文档。 启动服务后,在 com 中进行下面的操作,并且将测试结果汇总,如果测试过程发现 bug, 直接修复并且验证。 然后我们回到 cloud code, 直接粘贴刚才的提示词,直接运行。像这样的话,我们使用 cloud code 调用 chrome 对 api 进行测试,在一定程度上甚至可以取代 postman。 这里它生成了开发任务,这里我们要稍等一下。 five minutes later 可以看到这里他开始对 api 进行测试,然后这里提示 get 端点已展开,他将点击这个按钮,这里提示点击 execute 执行 get 请求,并且提示需要滚动查看响应,这里他又重新点击了 execute 按钮, 好,这里提示 get 请求。测试成功,返回了两个代办事项,现在它需要测试 post 的 端点,创建新的代办事项。这里点击了 post 进行展开,然后这里提示它需要使用 find 工具定位 post 按钮 好,可以看到他将 post 进行了展开,这里提示他需要点击这个按钮,这里提示 post 的 成功,他创建了代办事项,现在他需要继续测试 put 还有 delete, 然后这里提示 put 和 delete 都创建成功, 这里提示他需要在 swag ui 中执行一个请求来捕获网络请求,这个任务执行完成,这里是生成的测试结果汇总报告, 包括 api 端点测试结果,这些端点都测试成功,而且这里还有响应时间,这里就是错误处理测试。下面这里就是 network 面板验证, 这里给出了总结,所有测试都通过,没有 bug, 发现 api 功能完整,错误处理,正确响应时间均在毫秒级。这样的话就在 cloud code 中自动调用 chrome 浏览器完成了 api 的 测试, 而且整个过程全部都是由 cloud code 自动完成的,不需要我们进行任何干预。通过我们在 cloud code 中调用 chrome 浏览器测试浏览器自动化以及前端 ui 调试,还有后端 api 的 测试,可以发现在 cloud code 中调用 chrome 浏览器效果非常不错, 它们全自动为我们完成各种复杂的任务。 cloud code 有 了 chrome 浏览器的加持,就变得越来越实用,越来越强大了。

科目浏览器有个策略,就是他禁止网页自动播放音视频内容,所以呢,如果我们开发者尝试在一个网页加载完以后自动播放一个音视频,可能内裤就会报一个警告,那有的内裤可能连警告都没有哈,那我们来看这个小伙伴的例子哈, 现在呢,他已经设置成 otoplay 等于处了,但是呢,在谷歌浏览器下边他是不起作用的。大家看,但是呢,我们来看一个其他的网站哈,比如说这个抖音, 那个很多人问大家看,抖音是可以自动播放的,我们再刷新一下都是可以的, 所以就很奇怪,为什么咱们自己写的就不行呢?后来呀,我就在他们官方的网站上找到了这样一个概念,叫做媒体参与度。什么意思? 大概意思就是说,假设一个用户反问某一个网站哈,几乎每次打开这个网站,他都会手动点一下播放, 那这个科目浏览机会就会判定这个用户在这个网站下的媒体参与度很高。以后呢,浏览器就会允许这个网站在这个用户的浏览器上进行自动播放了。我们可以验证一下哈,他这里边有一个地址, 通过这个地址呢,可以查看每一台电脑上他这个网站的用户参与度。大家看,我这里边只有这两个网站是用户参与度比较高的,比如说抖音这个网站,他是高参与度的,他是允许自动播放的,那其他的网站都是 no 的。 那我们可以这样来试一下哈,我把这个浏览器通通关掉,然后呢,我们通过这个命令,可以在打开浏览器的时候呢, 指定一个配置文件的目录,这样的话呢,因为这个目录是新创建的,里面都是空的,相当于这是一个新安装的浏览器一样,我们来试一下啊, 好,现在就相当一个新的浏览器哈。然后呢,我们访问抖音, 好,大家看,抖音现在也不会自动播放了,我们看一下控制台,大家看他也会报一个类似的这样的错误,因为普通的内裤他自己封装错误消息不一样哈,这里边叫 note load arrow, 但意思是一样的意思,那这种问题怎么解决呢? 我们再来回到刚才那个网站哈,我们往下找,找到这里他一共有三种情况是允许自动播放的,第一种是如果是静音的媒体标 小钱哈,他就一直都允许。那第二种情况呢,就要看一下了,这个用户是不是在页面上点了什么,要么呢,这个网站是不是对于这个用户来说媒体参与度较高?再或者这个用户是不是把这个网站添加到首页了或者什么的?第三种情况就是这个页面存在 ifrem, 但是呢,大前提是顶级音面已经拥有了奥特 play 的权限,比如说顶级音面已经满足了上面的其中一个条件,然后顶级音面把这个 自动播放的权限下放给他的 frem 子页面,通过这个 outplate 的属性,这样的话,如果是同意的哈,他子页面也可以自动播放。


五哥太疯狂了,把 gmail 三塞进了 chrome 里面,直接把浏览器的桌子给掀了。看这个侧边栏里面的 nasa pro, 我 现在随便打开一张图片,让他将小狗变成金渐层小猫。注意看,我没有下载图片,也没有上传,他自己直接看懂了网页内容, 然后一张小猫图就生成了。这就是所见即所改,但这还只是开胃菜。看着满屏幕的标签,页头都大了。如果是以前,需要一个一个看或者复制粘贴出来,但现在你看我操作全部添加到 jimmy 中,让他概括一下每个画面的侧重和区别,对比都写的清清楚楚, 这种效率真的太吓人了。接下来这个才是最变态的 auto 自动浏览。看这个演示,只需要说我想去芝加哥住在某某酒店,查一下这几个周末的价格,还有一些其他要求 可以看到。这样呢,自己就开始操作电脑搜索目的地,选择日期,筛选条件,最后直接把整理好的结果扔到用户面前。这简直就是一个二十四小时全年无休的数字员工。

嗨,朋友们,谷歌浏览器的重磅更新!谷歌浏览器终于变成了 ai 浏览器了。基于最新的 gmail 三的智能模型, carol 不 仅内置了更聪明的 ai 助手,还推出了一些全新的自动浏览功能。 这个功能像把一个 ai 助手装进了浏览器里,你只需要告诉他你想做的事情,他就能帮你去自动浏览网页,对比信息,填写表格,然后查找优惠,甚至还能帮你去策划行程,例如帮你去找酒店,帮你去筛选机票,找一些合适的公寓,他能把你喜欢那些商品加入购物车,甚至还能应用一些折扣 那为了更方便的使用, jamming 现在常驻在谷歌浏览器的侧边栏,无论你是使用哪个网页,都能够快速的调用它。它还接入了谷歌的一些生态应用,比如 jamming 日历、地图等一些应用,让 ai 在 浏览器里面能够跨应用协调工作。 而且你不需要去切换浏览器的标签,你可以在一个对话内去同时处理所有的浏览器标签。当然,重要的一些操作仍然给了用户去确认,那比如付款和登录, 那这样既能提升效率,又能确保安全。那最终比较遗憾的是,这个功能只能美国的 pro 用户跟 ultra 的 用户订阅用户才能使用这样的一个功能,那未来也会进一步的普及。

谷歌最近搞了个大动作,直接把 g m 三塞进 chrome 里。不管你在看什么网页,点下右上角的 g m 图标,或者按 ctrl 加 g, 整个侧边栏就变成了你的私人 ai 助理。 不管切哪个页面都能随时待命。汇总产品评价、找日历、空档对比选项秒搞定。自动浏览更是很火,订酒店机票精准简陋,报税报销、驾照续期,甚至预约挂号都能自动完成。还能调用谷歌全家桶无缝衔接。 想修图不用开 ps, 选中图片数据提示词,内置的 nano banana 直接实时修改,网页本身就是图像工作站。 之前 oppo ai 还在抢用户,结果谷歌直接把顶级 ai 焊进了自己的三十八亿用户底盘里,再加上 gmail 地图、 youtube 的 生态联动,这降维打击谁顶得住?而且未来还要上线个人智能,能记住你的习惯,给量身定制的答案,简直比对象还懂你!

浏览器大战迎来重大升级,谷歌刚刚为 chrome 浏览器注入了 ai 新能量。最新消息显示,谷歌正在为 chrome 浏览器推出由 gemini 三模型驱动的革命性更新。这次更新最引人注目的当属全新侧边栏功能,它就像一个智能助手,可以让你一边浏览网页,一边完成多任务操作。 想象一下比较不同网站的产品信息汇总、商品评价,甚至帮你安排日程,所有这些都不需要切换标签页。对于美国的高级订阅用户来说, 更厉害的功能来了,自动浏览!这个智能代理能帮你完成一系列繁琐任务,预约填表、管理账单,甚至更新驾照。最贴心的是,它还能调用 google 密码管理器来安全登录。这次更新还带来了 nano banana 图像生成工具, 让你直接在侧边栏里用文字生成逼真图片。更棒的是, gemini 现在已经和 gmail、 日历、 youtube 等谷歌服务打通,能帮你提取邮件信息、安排行程。特别值得一提的是,这项更新还首次登陆了 crumble plus 设备,而且谷歌还推出了通用商务协议,与多家零售巨头合作, 为未来的 ai 购物体验铺路。业内专家评价说,这可能会彻底改变我们的购物方式。从一月二十八日开始,这些令人期待的新功能将逐步推出。看来, chrome 浏览器正在从单纯的浏览工具,进化为真正的智能生活助手。

手机浏览网页总是跳 app 很麻烦,教大家一招解决。首先是安卓手机,打开 prom, 设置禁用 cs, 把什么知乎,百度, bb 都添加进去,这样就不会跳转了。苹果手机的 siri 一直没有什么好办法,直到 ios 十五升级了浏览器扩展功能, 什么拦截网页,跳 app, 去除 app 广告自动展开,全文都有。开发者在努力着,还你一个最初的网页体验,你可以在 fstow 中搜索下载。

crom 用户狂喜 gemini in chrome 国内用不了?别慌,保姆级教程来了!三步就能强制开启,免费解锁 ai 超级管家!先是最简单的地址栏输 chrome, flex 搜 glik 全改成 enabled, 重启浏览器,不行就改配置文件,关掉 chrome, 找到 local state, 添加地区为 us, 开启功能智断。最后检查谷歌账号地区,填美国地址,更快生效。还有一键脚本直接搞定,不用翻山越岭,不用复杂操作,跟着做就能用上!自动浏览 ai 修图,联动谷歌全家桶的神功能!错过之前的 com 更新,现在补救还来得及,教程简单到小白也能会! 赶紧收藏转发,按步骤操作,开启 jimmy, 让你的 com 秒变全能 ai 助手,办公效率直接翻倍!这波教程不看血亏!

谷歌的 gemini 在 chrome 中可以起用了,但是我们这个设置里面没有这个功能怎么办?然后你看我左面是没有这个 ai 的, 然后我昨天看到一个退友写的一个程序在 github 上,然后我直接让这个 gemini cai 帮我安装这个,所以我建议大家一定要下一个 gemini cai 在 自己的电脑,无论你是 windows 还是 linux 还是 mac os, 只要给他这个权限,他就会自动帮你安装,非常的方便。就你根本不需要会复杂的命令行语言,你也不需要会利克斯的那些语言,对吧?直接自然语言跟他说就可以了,相当于一个 本地的能够操控电脑的 agent, 但是还不是那么特别全面的。然后这个 jimmy in chrome, 它这个功能是可以操控你的浏览器,但是这个呢?它也是在灰度测试当中, 我昨天在我的那个乌邦图系统里面,我也安装这个了,但是它没有打开那个操控浏览器,这个功能还得是在等待推送。 目前这个 jimmy in chrome 它只在那个美区上可以用。然后我们需要使用一些小技巧,比如这个,它是把谷歌的那个地址改成美国,然后 把你的本机的 ip 你 给改成美国,我们只要耐心等待就可以了。好,再在这里点一下,始终不允许的。 ok, 然后你看这边已经激活了这个界面,恢复一下也可以。然后我们测试一下子, 呃,对它,它这个吧可能是单独这个悬浮窗,然后我那时候是有个 bug, 这个悬浮窗一打开,我一拖动这个浏览器就崩溃, 我昨天在那个窝帮头里面设置这个浏览器会崩溃,但是在我这个 windows 里设置是不会崩溃的,所以这个这个挺有意思的,我可以给他改一下,这个还得单独开一些功能,我给这个调一下啊, 在设置里面有一个 ai 创新,就是刚才我们打开这个,哦,对,这里还需要单独进一下设置的这个按钮,有个 glc 的。 对,这里我们把 glc 这个打开,然后一共要打开五个, 我再搜一下啊粘贴,然后如果不想让它是侧边栏的话,单独的也有一个这个, 哎,不对,等一下,我照一下我昨天写的那个教程,看一眼,然后我们搜 glc, 然后把这些给打开, 打开之后我们上面就有个 gmail, 然后就有侧边了,它会读取你的这个浏览器,比如说我随便找一个浏览器内容,找一个投资导航的吧。 对,然后说啊,总结上面的内容,它还有一个功能,就可以自动操控你的浏览器,但是我去设置里看一下我这里有没有这个功能。 哎呀,重新这呢?没有,这功能现在还是在灰度当中。 对,然后这些功能就可以了,直接浏览器,然后你可以给它分享当时的页面嘛,然后也可以 帮我分析,点错了,但是没事点重新加载, 整体 ok, 它就可以实时读取你这个浏览器的内容。

google 今天再次借助王炸宣布 chrome 浏览器的一项重大更新,将 gmail 正式集成在浏览器当中。你可以在任何标签页内使用 gmail, 并且将原本的弹窗样式改为了侧边栏,更加方便在浏览网页时随时随地的使用 gmail, 无需切换网页标签。当然你也可以改回弹窗样式。 其次,可以直接对网页内的图片使用 nano banana 进行编辑,无需下载图片再上传给模型了,在侧边栏内直接调用即可。 此次还上线了自动浏览功能, jimmy 可以 直接通过读取网页帮你自动执行任务。例如帮你订酒店时,它不是简单的查询日期,使用文字罗列出酒店,而是可以自动打开浏览器标签页,查询最合适的价格。 还可以帮你找到符合条件的房子,填写融长且复杂的表格。你只需要提供一些简单的提示即可,甚至可以通过识别网页内的派对图, 让詹内帮你直接找到能够搭建出该场景且价格合适的商品。目前你就可以更新使用了,如果无法打开,可以试试将浏览器的语言改为英文,赶快试试吧!这小挂推荐!第四百八十六个神器,我都放到 ai 星空岛了!上岛解锁更多 ai 工具!

你现在用的 chrome 已经悄悄换了一种用法, gemini 已经直接住进浏览器里了。而这一条视频,我将手把手带你把它用起来。 先看看有了 gemini 的 chrome 有 哪些不一样。你在 chrome 里看网页的时候,可以直接在侧边叫出 gemini, 重点在于它不是随便回答你问题,而是基于你正在看的这个页面内容来回答。你在看一篇很长的文章,不需要复制,不需要切到别的 ai, 直接问他这页在讲什么,重点结论是哪几条。 他给你的总结完全来自这个网页本身。如果你一次性开了好几个标签页,比如在对比信息、查资料、做判断,你可以让詹姆莱综合当前打开的页面内容,帮你把信息整合到一起。 这一步本质上是把自己看加自己整理交给了 ai。 但真正让 chrome 这次升级变得不一样的是,接下来这个能力,官方给他起了一个名字叫 autobrowse。 简单说一句,以前是你在浏览网页,现在是你可以让詹姆莱带你去做浏览这件事。 比如你在查行程,找资料、对比选项, jimmy 不 只是回答问题,而是可以一步一步替你完成浏览和整理的过程。 他会根据网页内容帮你继续查,继续看,继续对比,最后把结果整理好给你。当然,涉及到确认、提交、支付这类操作, chrome 会明确让你自己确认, 也就是说, ai 帮你跑流程,你掌握最终决定权。这也是 auto browse 最重要的一点,它不是一个只会说的 ai, 而是一个能在浏览器里帮你实际推进事情的 ai。 再加上页面里的图片图表示觉内容, jimmy 也能直接基于你正在看的内容帮你理解解释,甚至帮你整理思路。你不是单纯在看网页,而是有一个 ai 在 旁边实时陪你处理信息。所以你会发现 chrome 已经不再只是一个入口工具了, 它正在变成一个你一边上网一边由 ai 帮你读,帮你想帮你推进任务的环境。这些功能现已向美国的 google ai pro 和 ultra 订阅用户推出。但这又怎么能难得住我们?接下来我就手把手教你如何开启,当然前提是你得有 google ai pro 或 ultra。 首先需要把 chrome 的 默认语言改为英语, 点击右上角三个点,找到设置,点击左侧的语言栏, 选择以英语显示 chrome 界面内容,然后重启 chrome, 第一步就完成了。接下来我们需要确定两件事,你的电脑上安装了 git, 因为我们这次操作需要用到的是 git hub 上的一个开源项目。 二、你的电脑上安装了 python 三点一四以上的版本。具体查看方法是 cmd 输入 git, 只要不是出现不是系统命令之类的提示,就证明你的电脑上安装了 git。 如果没有,我给你提供了安装包,你直接一直下一步即可安装。 然后是 python cmd 输入 python 杠 v, 注意这里的 v 要大写。如果你的电脑上安装了三点一四以上的版本,就会有这样的提示,如果没有,我同样贴心的给你准备了安装包,一直下一步安装即可。 好,做到这里,我们已经具备了前提条件,接下来就是要将 github 上那个项目安装到本地了。首先我们打开 power shell, 输入这个代码,点击回车,这是在安装 uv, 具体是什么咱不需要搞懂,当我们看到这个界面的时候,证明我们的 u v 已经安装完毕了。恭喜你,离成功又近了一步。紧接着我们在本地建一个目录,存放咱们的 get up 项目,在地址栏中输入 c, m、 d, 然后点击回车,在打开的 c, m、 d 中输入这段代码,这是在本地克隆建立这个项目的目录, 然后输入这段代码,这是进入这个目录的意思,然后输入这串代码,这是利用前面安装的 u v 进行项目同步,你会看到项目开始下载,下载完成后输入这段代码回车,看到这样的提示,就证明项目已经成功运行,这是让我们点击回车继续。 这个时候你打开 chrome 浏览器,就会发现右上角已经有了 jimmy 的 按钮,点击它,系统会询问你是否开启我们当然选择 yes i'm in, 这样你的 chrome 就 正式开启了 jimmy 功能。我们来看一下效果, 软件文档已为你准备好,快去试试吧!

谷歌又悄悄放出了大招,杰米尼三电脑使用模型来了!这到底是个什么黑科技?它不是简单地调用 api, 而是像人一样理解屏幕截图,进行 ui 交互,这可太厉害了! 更炸裂的是, jimmy 三还推出了 ajax 引擎,让 ai 能更进一步理解图像,这又意味着什么?通过视觉推理和代码执行结合, jimmy 三能直接从图像中提取信息,效率直接提升百分之五、百分之十! 现在,谷歌把 gemini 三直接搬进了 chrome 浏览器,这波操作简直是王炸! gemini 三现在可以直接在侧边栏提供 ai 助手帮你总结内容,抄你邮件,简直是效率神器! 不仅如此, gemini 三还深度集成了谷歌应用,多步骤任务也能轻松搞定。只需简单指令, gemini 三就能自动填写表格,还能跨标签页操作,这也太方便了吧!更厉害的是, gemini 三还集成了 nano banana 的 图像编辑能力,可以直接在浏览器里 p 图, 只需描述你的需求, gamemini 三就能帮你完成图像编辑,这功能简直逆天! g gamemini 三这次是真要起飞了,赶紧用起来体验一下 ai 浏览器的强大吧!

就是谷歌,这次呢,它是直接把最新的 gemini 三模型融合到了 chrome 浏览器的核心逻辑里面。对,不再是一个插件,也不再是一个侧边栏,它是彻底的改变了浏览器的本质 哦,让它从一个只能被动地加载网页的工具,变成了一个可以主动帮你思考、帮你操作的智能代理呢。比如说以前我们要用 ai 帮忙, 你要先打开一个网页,然后登录,再想怎么写这个提示词,对吧?然后有的时候网络不好,你还要等半天, 如果你要让 ai 去总结一个网页内容,你还要手动复制粘贴网址什么的,对,很麻烦,确实挺繁琐的。那现在这些步骤都可以省掉了吗?可以这么说,就是现在的 chrome 已经变成了一个 geminal 的 完整的运行环境。嗯,谷歌就是希望说你在浏览的时候完全感觉不到 ai 的 存在, 甚至它可以帮你自动地完成一些事情,就是所谓的无人驾驶模式。对,然后它也把这个 ai 能力直接嵌入到了浏览器的每一个操作里面,变成常驻的协作者之后,它到底是怎么改变我们使用浏览器的方式的?就是这次呢,谷歌给 chrome 加的这个侧边栏啊,它不再是一个简单的弹窗了, 他就是一个常驻的助手。 ok, 不 管你打开多少个标签页,他永远都在那随时待命。嗯,然后你也不需要反复的切换窗口,他也能识别你当前的页面内容,就是完全像是一个在你身边的协作者。听起来很搞笑啊, 那这个侧边栏在处理多任务的时候到底有多厉害?比如说你在主窗口写报告,同时可以让侧边栏的 jamaican 去帮你对比几个电商网站的商品,然后把它们的价格和用户评价全部都整理出来,直接给你一个汇总的表格。 对,而且他在抓取这些信息的时候,你完全不需要手动复制粘贴,也不会打断你手头的工作,这两边是可以完全同步进行的, 真的就是相当于请了一个小秘书在帮你干活。我比较好奇这个 nano banana 这个功能,它到底是怎么利用端侧 ai 来让我们直接在网页上编辑图片的?这个其实是一个很厉害的突破,就是 以前我们想要修改一个网页上面的图片,你要先把它下载下来,然后上传到一个编辑器里面,再去处理它,对吧?嗯,那现在呢? 你只要右键点击这个图片,然后让 jamaican 去帮你改。比如说你看到一个房间的照片,你就直接说换成浅色的现代风的家具, 他就会直接在网页上帮你生成预览,而且不需要下载,也不需要上传,他是所见即所改,这就非常方便了啊。 那我们再来说说关于这个 gemini 和 google workspace 的 深度打通,它到底是怎么通过这种联动帮我们简化在日常工作中的一些繁琐的流程的?举一个很直观的例子吧,比如说你正在看一个课程大纲,然后你要根据这个大纲里面的书单写一封邮件给你的学习小组。 以前的话,你要来回的切窗口复制粘贴书名,再去查每本书的简介。对,那现在呢?你只要让 gemina 去读这个页面,然后说帮我挑三本书,写一个简短的介绍,并且用真人秀的风格参考一封邮件, 它就会在侧边栏帮你把这个邮件全部都写好,包括书的简介,它都会帮你写好,而且它是完全不打断你现在的这个流程的。那这个功能它只是简单的帮你提交邮件吗?它能不能直接帮你发送呢?当然可以,写完之后,你只要点击一下,它就可以调用 gmail 帮你发送了。嗯, 而且它这个读当前页面,然后执行另一个任务的这种方式,才是真正地把 ai 嵌入到了你的工作流里面。 ok, 那 这个 connected apps 让 gemini 和整个 google 的 生态全面打通之后,到底在哪些场景下可以帮我们节省最多的时间呢?就是现在你只要在设置里面一键开启 它,就可以让 gemini 去访问 gmail, calendar、 youtube maps、 shopping flights 这些 google 的 服务。嗯,那比如说你要出差,你只要说一句,帮我查一下下周那个会议的时间,推荐几个航班,然后写封邮件,告诉同事我的到达时间,它就会自动地帮你查邮件, 找到会议的详情,然后打开 google flights, 帮你找航班,最后连邮件都帮你写好,你都不需要手动地去操作那么多步骤,确实很高效啊。那这个 personal intelligence 到底是通过什么样的方式来让浏览器变得越来越懂你,越来越贴合你自己的使用习惯呢? 这个功能其实它还没有上线啊,但是它的设计非常的有意思,就是它会让 chrome 去记住你之前的一些偏好,比如说你跟他说过你喜欢什么样的酒店,或者说你的出行预算是多少,以及你习惯的航班时间是什么样的,那它就会把这些东西都存在本地, 然后你下次再问的时候,他就会直接给你推荐符合你偏好的一些选项,嗯,相当于他变成了一个真正了解你的助手。听起来确实挺贴心的,那这种个性化的记忆是不是一直都会存在?不会的,因为他是需要你主动去开启的,而且你随时都可以选择断开, 就是你连了哪些应用,哪些数据会被记住,都是你可以自己完全掌控的。对,所以隐私是始终在用户手里的。然后我们接下来要聊的就是这次更新里面最重磅的一个功能啊,就是这个 auto browse 自动浏览。 这个功能到底是怎么让 ai 能够自己在网页上操作,而不是说只是给你一个答案? autobrows 这个功能呢?就非常的炸裂啊,因为以前的 ai 它只能给你一个文本的回复,但是现在它可以自己打开一个网页, 然后自己输入信息,自己点击按钮,就它真的是在帮你完成整个任务,而不是说给你一串结果,你自己再去操作。那能不能举几个实际的场景,让我们感受一下这个自动浏览到底能做什么?比如说你要定酒店,你只要说我要去芝加哥, 然后我想住这个酒店,我希望是这几个周末价格是多少,对房间有什么要求,它就会自己打开 excel, 然后自己去操作,最后把整理好的结果呈现给你, 完全不需要你自己一步一步地去点。这个确实很方便啊,那除了这个定酒店还可以用在哪些场景?还有很多场景,比如说你要在 redfin 上面筛选公寓,你只要说把不允许养宠物的删掉,然后把 gabriel 加为协作者,它就会自动帮你操作。嗯,或者说你有一个 pdf 的 球队名单, 你要报名一个在线的系统,你只要说用这个名单帮我报名,它就会自动帮你把所有队员的名字和位置填好。 就这种以前你可能要花一个小时去手动操作的事情,现在就是一句话的事,太方便了吧。那比如说我要去旅行,我想让他帮我对比机票和民宿,这个能不能实现呢?完全可以。比如说你跟侧边廊说帮我查一下三月中旬上海去大理最便宜的机票, 然后顺便搜一下双廊附近五百块钱以内,评分四点五以上带露台的民宿,他就会自己开一个新的标签页,然后自己去各个网站帮你查找。 最后他会把所有的结果整理到一个对比表里面,甚至连预定的表单都帮你填好大半,你只要付一下款就可以了,就真的像请来一个私人秘书一样。这个视觉购物到底是怎么用 ai 帮我们彻底地简化整个购物流程的?比如说你看到了一张 y two k 风格的派对布置的照片, 你只要跟詹曼奶说去 ati 帮我找到能复刻这个布置的东西,加到购物车预算不超过七十五美元,他就会用多模态的能力去识别这个图片里面有哪些物品, 然后他会自己去搜索,自己去比价,自己去控制预算,找到之后,他会自动把这些东西加入购物车,甚至他还会帮你找有没有优惠码,然后把优惠码也用上,让你的总价正好卡在这个预算线内,你只要最后去结账就可以了。 那我们接下来就进入一个更深入的话题,就说谷歌这一系列的动作背后其实是有一个非常大的野心的,他想让浏览器在 ai 时代成为一个新的操作系统, 这个事情到底意味着什么?就是谷歌这次其实是非常明显的在用 chrome 的 庞大的用户量来把 ai 功能推到每一个人的面前。对,他想要让所有人都习惯我在地址栏或者我右键就能直接使用 ai, 让 chrome 成为你所有的在线活动的入口, 这样的话他就可以把用户留在自己的这个生态里面,然后去挡住其他的那些 ai 平台或者说新型的 ai 浏览器来分流他的用户。明白了, 那这个 gemini 三的这个所谓的个人智能,它是怎么通过整合用户的数据来让谷歌进一步的巩固自己的这个地位的呢?因为现在只要你授权了之后, gemini 三它就可以去读取你的 gmail, 你 的日历,你的云端硬盘,它会根据这些信息来帮你做一些决策。 比如说你问他明天几点出发去机场最合适,他会自动地根据你的机票确认信,然后实时的路况和天气来给你一个答案。嗯,所以说谷歌是在把 chrome 变成一个数字生活的中心,你所有的信息都在里面流动, 那这样的话,你想要离开他就会变得越来越难。确实啊,那这种把所有的数字生活都集中在一个平台上面,他带来的这种高效背后是不是也隐藏着一些对于隐私的担忧呢?对,就是你的浏览记录,你的偏好,甚至你在网页上面输入的每一个字, 都在被这个 ai 分 析和学习。虽然说确实很方便,但是你会觉得好像你越来越透明了, 就是你在用隐私和自主思考去换取这种极致的便利。说的对,那我们下面来说说关于一些安全性和隐私性的问题,就是很多人关心的。比如说这个 autobras, 它在涉及到一些需要登录的网站的时候,它是怎么处理这个身份验证的,然后怎么保证我的账号的安全的? 其实它是可以和 google password manager 联动的,就是如果你允许的话,它可以自动地帮你填写账号和密码,然后帮你登录。 但是这个功能不是默认开启的,它是必须要你自己去授权它才会去做。如果说这个 ai 在 自动操作的过程当中,遇到了一些付款啊,或者说发帖这种比较敏感的操作,它是怎么防止出现一些误操作的?关于这一点, google 其实是做了非常严密的防护的, 就是只要遇到付款或者是在社交媒体上面发帖这种涉及到隐私或者金钱的操作,它都会停下来让你手动确认, 所以说最终的决定权始终在你的手里。那我们最后来聊一聊,就是大家最关心的问题,就是这些 ai 的 功能到底什么时候能够用上, 然后对设备和地区有什么限制?目前的话, autobrowse 这个功能它是只有 micro s windows 和 chromebook plus 这三个平台可以用,而且它还限定了只有美国的用户可以用,然后它是需要你订阅 google ai pro 或者说 ultra 才可以, 但是这个 nano banana 它是只要你是 gemini in chrome 的 用户就可以用,那国内的用户的话可能就需要自己想些办法,嗯, 但是总的来说就是 ai 浏览器的时代真的是来了。 ok 了,那么今天我们就给大家扒了一遍这个 chrome 和 gemini 合体之后的所有的新的玩法, 从这个自动浏览到智能购物助手,真的是感觉好像请了一个全能的小蜜在帮你干活一样。然后最后我们也聊了一下这背后的一些对于隐私和行业格局的一些深刻的影响。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。

昆米新版整合了 jammy 模型,它能依据浏览器页面内容与你深入交流,协助书写文案、修改图片,甚至还能直接操作浏览器。我就以快速了解强生骨科财报为例, 给你展示其强大之处。想要了解强生最新的财报情况,并且期望能和 ai 一 同分析研读这份财报。利用它的能力,我可以在短短五分钟内熟悉强生骨科财报内容。具体操作如下,第一步,打开强生公司的官方网页,借助 ai 的 搜索功能,快速定位到强生的最新消息。第二步,进入 ai, 根据搜索结果所找到的强生 最新财报信息页面。第三步,建议我从事的工作与骨科领域相关,精准整理出和骨科业务相关的内容。第四步, ai 整理出图片大纲。第五步,最后我会命令 ai 输出关于强生骨科最新财报的图片,方便我随时查看。不过不是所有人的 chrome 都有这个版本,起用攻略我放到群里了。

过去七天, ai 圈大事件盘点,谷歌 chrome 集成 jammin 上线自动浏览智能体,推出长驻侧边栏和网页内图像编辑三大核心功能。 jammin 可跨标签页理解上下文,实时总结、比对或整合信息,能带用户完成登录、填表、比价甚至下单等多步骤任务。并集成 nano banana 模型时 网页内图像编辑。阿里推出桌面端代理工具 codework, 该工具无需云端上传,所有任务均在本地执行,用户仅需一句自然语言指令即可完成文件整理、数据分析、 ppt 生成规划等复杂办公任务,具备自主规划能力,能像资深员工一样拆解任务,调用本地应用。其内置 mcp 协议与 此功能支持企业打造自动化工作流。月字暗面发布并开源 p m k。 二点五最多支持一百个自智能体,并行工作 不到二十四小时,在 era artificial analysis 等全球多个大模型竞技场榜当中位列开元模型首 位。 mini max 发布 mini max music 二点五音乐模型,创作者可像专业编曲人一样精准设计情绪曲线 与乐器配置,通过优化声腔模型实现自然转音来支持一百加乐器音色库和风格化自动混音,能自适应摇滚、爵士、 mpiano 等流派的深学特征。阿里开元交互式世界模型 lobo world 机械硬钢经历三支持近十分钟的连续稳定生成,是一个能响应用户动作为持物理逻辑保持长期一致性的动态虚 拟相,核心是打造高保真、可实时交互、逻辑一致性的动态虚拟仿真环境,为具身智能自动驾驶、游戏开发等提供 ai, 推出工业级 ai 代理编排平台 a 准。 该平台专为航空航天、半导体、先进制造等高技术壁垒行业量身打造,聚焦 ai agent 的 开发与全流程编 排平台,可实现效率的跨越式提升,将原本耗时二十小时以上的工作大幅压缩至数分钟内完成。微软正式推出其第二代自研 ai 芯片麦芽二百。通过自主研发芯片,微软可以摆脱英伟达的限制, 训练其人工智能模型,并加速模型的发展。而麦芽三百已进入研发设计阶段。 apple 第二大收购案发生,二十亿美元吞下 q a i。 该公司擅长通过面部微表情识别无声语音,预示着 siri 将具备非语言交流能力。