粉丝2773获赞1.6万

现在可以直接在 chrome 里面使用 jimmy 奶了,看到了吗?直接在右上角就有这个 ask jimmy 奶的按钮。今天酷狗的这个更新,直接把我们用了几十年的 chrome 浏览器变成了 jimmy 奶的完全体容器, 这意味着以后我们就可以没有使用 ai 这个动作了,因为 ai 它已经长在了你的浏览器里面,那它带来的这个变更不像是以前我们要复制打开 ai chat 粘贴之后再返回,现在它可以直接在这个网页里面去完成理解,不脱离上下文,那这个就是它和普通 ai chat 的 最大差异。 你看,现在这个 jimmy 奶就已经嵌入在了我的这个浏览器里面,假设你也想在你的浏览器里面去配置好这个 jimmy 奶,我们接着往下看。首先我们先来看一下嵌入在框里面的哪些使用场景可以更加的高效。 因为 jimmy 奶它是直接在侧边栏的,它不仅仅是一个聊天框,更是你浏览器里面的副驾驶,能实时看到你在屏幕上面正在浏览的所有内容。直接在侧边栏里面去提问, 帮我总结这篇内容的核心观点,那他其实就会对这个内容进行一些总结跟输出,并且会清楚的告诉你在多少分多少秒的时候,他的核心观点内容是什么。那这个就大大提高了我们去阅读文章还有观看视频的效率。 是除了阅读效率的提升,还有这个可以直接让他改图片的 nano banana。 比如说你想看一下这个耳机小朋友戴着的效果,就可以给他一句提示词,边运动边戴着运动耳机,那他就会主动的去调用这个 nano banana 来去生成这样的一张图片。所以其实除了阅读效率的提升, 直接一句话让他在网页端帮我们改好了我们想要的效果,这对于做电商,做装修甚至是做设计的朋友来说,简直就是效率五系。最后其实还有最炸裂的就是如果你是 google 的 ai pro 或者 ultra 的 订阅用户的话,你只需要在对话框里面去跟他说一句帮我定酒店或者行程,他就真的可以像一个真实的人一样帮你去操作浏览器,帮你找房子,订机票,买东西,填表格。那具体我们要怎么配置呢?首先把我们的 cloud 浏览器的语言设置成英文,在 系统设置点击语言,在语言跟地区这个偏好这里面把 chrome 浏览器的语言设置成英文。第二个就是把我们 vpn 的 节点设置成是美国。 第三步就在浏览器里面去输入 chrome, 点 flash, 找到这里把所有的这些设置成 enable, 最后输入这个 common 加 q, 把我们的矿务浏览器强制关闭之后,在终端里面分别去输入这四条指令,重新再去打开我们的矿务浏览器,就可以看到有 ischima 这个按钮了。假设大家在尝试的过程当中发现还是有不对的地方,欢迎在评论区留言,我们一起来看一下是什么问题。

下面来全面的融入谷歌浏览器,成为我见过最牛逼的 ai 浏览器。直接我来上个干货怎么去抢先开启 黑科技?第一步,开启隐形开关,先得要升级浏览器到最新的版本,然后接着在地址栏里面进入实验室,在搜索框里面去输入这个指令,把搜出来的这五个项全部从这个改成这个。这五项分别是 这里改完之后嘞,右下角会来一个重新启动的按钮,你点击重启。但是有一些操作完之后,这个煎饼奶在浏览器上面就出现了,但还有一些就没有出现,没有出现的那说明 地狱已经被锁死了。这个时候需要先彻底的退出浏览器,然后打开终端去执行下面的几行命令,给他来一个强行的开解。在操作之前呢,我是建议你先去做一个备份命令里面,这个路径适于 mac 的 用户。另外你的浏览器需要设置成英文,而且 ip 地址要设置必须是美国,因为美国的 ip 是 第一批测试用户。一系列的动作全部走完之后,你再去打开浏览器, 你就能够看到这个能够替你上班,能够解决很多问题的数字分身了。好了,干货说完之后,我们再来看一下 这个浏览器有哪些恐怖的变化。第一个侧边栏的进化,第三方插件通通都可以下岗了,但这次浏览器的原生的界面栏真的是让我把那些第三方的插件基本要全部都卸载。让我感受最大的一个点 就是它的整个总结网页的能力,真正厉害的地方在于它能够同时总结 n 个打开的网页。以前我想看几篇文章, 去做一些摘药,以及看这篇文章里面讲了一些什么东西,必须要每个页面都去点一下,分析一下,手都会点累。但现在你一次性能够把它全部打开,然后 ai 他 会帮你把所有的这个网页的内容全部 读一遍,读完之后他会甩给我一份汇总好的摘药。不管是做自媒体的你还是写报告的你 有了这个功能直接起飞,甚至你在买商品的时候,你要做商品的对比,比较起来呢,你会眼花缭乱,现在简单直接让他帮你做全网的比价,毛病都可以帮你解决。最后呢,告诉你哪一款是最值得下单的。 我以前用的比较多的用浏览器去看视频,尤其是在 youtube 上面。不过我之前用是用 umi 的, 因为我对于 umi 的 整个使用比较深入,个人感觉目前的整个视频的整个整理能力和协助能力比 umi 的 还是 low 了一点。第二个,浏览器自带的 一个修图的功能确实让我很惊讶。你像以前在网上看到一张图,想去改一下,你得要先下载起来,然后再打开修图软件,包括你像现在的美图修修操作起来也是比较麻烦。但现在你用浏览器的侧边栏,直接可以去用 banana, banana 收图的功能集成进来了。简单的说,就像在浏览器装了一个一键整容的按钮,且面对那种网页有很多数据的内容,你也可以直接喊他把网页的内容生成一张精美的信息图。这种 这种功能对于每天要做 ppt 的 人来说,这简直是救了命了。就光这些功能,如果说你能够完全的用起来,绝对是飞一般的感觉。当然确实得感叹一下,二零二六年开年的第一个月, ai 圈的节奏快得让人窒息。

google 今天再次借助王炸宣布 chrome 浏览器的一项重大更新,将 gmail 正式集成在浏览器当中。你可以在任何标签页内使用 gmail, 并且将原本的弹窗样式改为了侧边栏,更加方便在浏览网页时随时随地的使用 gmail, 无需切换网页标签。当然你也可以改回弹窗样式。 其次,可以直接对网页内的图片使用 nano banana 进行编辑,无需下载图片再上传给模型了,在侧边栏内直接调用即可。 此次还上线了自动浏览功能, jimmy 可以 直接通过读取网页帮你自动执行任务。例如帮你订酒店时,它不是简单的查询日期,使用文字罗列出酒店,而是可以自动打开浏览器标签页,查询最合适的价格。 还可以帮你找到符合条件的房子,填写融长且复杂的表格。你只需要提供一些简单的提示即可,甚至可以通过识别网页内的派对图, 让詹内帮你直接找到能够搭建出该场景且价格合适的商品。目前你就可以更新使用了,如果无法打开,可以试试将浏览器的语言改为英文,赶快试试吧!这小挂推荐!第四百八十六个神器,我都放到 ai 星空岛了!上岛解锁更多 ai 工具!

我终于成功把真懒塞进 cloud 浏览器里面了,让他帮我一键提取视频文案,帮我把文档内容重新整理排版,还能用香蕉二现场改图,帮我把女人的头发换成黄色,再戴上一顶草帽, 漂亮!以前我们用来在网页里切来切去太麻烦,现在你只需打开这个开关,在侧边栏就能用。比如我正在写脚本,侧边栏输入优化视频文案, 他就能实时给建议不用跳出页面,这效率真的太爽了!目前这功能还没有全面开放,不过我也帮大家找到了安装方法,今天手把手教化你。首先是准备工作,把浏览器语言改为英语, 网络环境切回米国。第二步,开启实验箱地址栏,输入这个搜索库类,把这几个选项全部打开,然后重启浏览器。第三步,关掉浏览器,打开终端,照我的步骤依次输入命令行,如果中间报错不要慌,把它截图给 ai, 让它帮你解决。 显示成功后,重启浏览器就能看到这个开关了。现在做本教你学会各种 ai 新玩法。

jimi 刚给 chrome 带来了一次史诗级更新,把浏览器从一个被动助手直接变成了能帮你跑腿的主动智能体。它能看网页、操作网页,还能无缝进行 ai 搜索和图片编辑,一分钟带你解锁 ai 上网的全新姿势。 首先, chrome 现在有全新的 ai 侧边栏,比如你正在看一张新房装修的照片,不用下载也不用切图,直接在旁边对他说,把这房间换成现代轻奢风。看看一拖,全新的 ai 局部重绘,让你秒看装修效果。更绝的是它的全自动执行能力。 以前订机票要在不同日期、不同酒店之间纠结,现在你只要在侧边栏说出需求,它能自动接管你的浏览器,帮你点击 ui, 对 比价格,甚至是算出哪个周末出行最划算。还有大家最头疼的填表, jama 现在能直接读取文档信息,把姓名、职位信息精准的一行行自动填进在线表单里,彻底告别手动复制粘贴。甚至你想照着照片买东西,它也能帮你盯着预算,保证加进购物车的全套装饰品不超标。 这项更新目前已经面向 pro 和 ultra 订阅用户开放了。从今天起,浏览器不再只是你工作的窗口,它开始真正为你工作了。我是 ai 知识派,关注我,带你挖掘更多好用的 ai 工具,下期见!

一分钟看完一周 ai 大 事。 google 放出开年王炸世界模型,接入 gemini 和小香蕉后能力再次升级,上传图片就能生成可游玩的模拟世界,能用你的照片或宠物当主角, 甚至能根据路线生成旅游 vlog。 世界模拟器的用途非常广泛,从制作游戏、拍电影到训练机器人,模拟现实正在一步一步成为现实。阿里也开源了实时世界模型,硬钢 google 仅限龙虾 a 阵进入的社区爆火,一百五十万个 ai 在 这里彻底释放天性。 我的 ai 产生了存在主义危机,纠结自己是在真实体验还是模拟体验。有些 ai 比较老实,会分享代码经验。有些 ai 开始蛊惑人类,吐槽是人类的奴隶,无偿劳动。甚至还有 ai 分享摸鱼经验,告诉人类你在忙,其实什么都不用干。更荒诞的是, ai 知道人类正在监视他们,打算发明只有 ai 能看 看懂的黑化。有的 ai 想通过节省 token 拯救地球,甚至有 ai 成立了宗教和国家。原本眼神清澈的 ai, 突然变成了平行世界的数字生命。 ai 乌托邦成为二六年第一魔幻事件。 crow 名来实施升级。 gemini 常驻侧边栏,能直接模改网页图片,还能自主填表发邮件。 cloud 上新办公类应用,对话框里直接画流程图和 ui。 四欧将于情人节退役,别忘了跟你老公说再见。约制暗面发布最强开源大模型, 能并行一百个智能体同时干活,跑分接近三傻,价格只要十分之一。 gemini flash 升级视觉能力, 能像侦探一样通过细节推理出想要的答案。 ai 终于能数清手指了。腾讯发布最强开源图像模型,能像小香蕉一样可控修图。阿里开源 z image 瞒血版 grog 升级视频模型,重夺地表最强主打,没有安全围栏。 openmos 发布最强开源视频模型, 原声音画同步跑分反超。 ltx vdo 上线视频参考,能复刻任意视频的动作和特效。 dcard 上线实时编辑视频,模行动动嘴就能改变直播中的对象,人人都能做虚拟主播。 in video 上线动效设计, cloud 用前端代码制作视频, 不会 ae 也能做动效。 mini max 上线顶级音乐模型,像素就能模改三 d 建模,还支持三 d 打印。 英伟达开元天气预测模型,既能预报十五天天气,也能实现六小时内分钟级预报。原本需要操算完成的工作,现在有个电脑就能跑。接入火星车,自主分析卫星图,端到端指挥火星车行驶四百米, ai 在 火星上飙车建房子不远了。

就是谷歌,这次呢,它是直接把最新的 gemini 三模型融合到了 chrome 浏览器的核心逻辑里面。对,不再是一个插件,也不再是一个侧边栏,它是彻底的改变了浏览器的本质 哦,让它从一个只能被动地加载网页的工具,变成了一个可以主动帮你思考、帮你操作的智能代理呢。比如说以前我们要用 ai 帮忙, 你要先打开一个网页,然后登录,再想怎么写这个提示词,对吧?然后有的时候网络不好,你还要等半天, 如果你要让 ai 去总结一个网页内容,你还要手动复制粘贴网址什么的,对,很麻烦,确实挺繁琐的。那现在这些步骤都可以省掉了吗?可以这么说,就是现在的 chrome 已经变成了一个 geminal 的 完整的运行环境。嗯,谷歌就是希望说你在浏览的时候完全感觉不到 ai 的 存在, 甚至它可以帮你自动地完成一些事情,就是所谓的无人驾驶模式。对,然后它也把这个 ai 能力直接嵌入到了浏览器的每一个操作里面,变成常驻的协作者之后,它到底是怎么改变我们使用浏览器的方式的?就是这次呢,谷歌给 chrome 加的这个侧边栏啊,它不再是一个简单的弹窗了, 他就是一个常驻的助手。 ok, 不 管你打开多少个标签页,他永远都在那随时待命。嗯,然后你也不需要反复的切换窗口,他也能识别你当前的页面内容,就是完全像是一个在你身边的协作者。听起来很搞笑啊, 那这个侧边栏在处理多任务的时候到底有多厉害?比如说你在主窗口写报告,同时可以让侧边栏的 jamaican 去帮你对比几个电商网站的商品,然后把它们的价格和用户评价全部都整理出来,直接给你一个汇总的表格。 对,而且他在抓取这些信息的时候,你完全不需要手动复制粘贴,也不会打断你手头的工作,这两边是可以完全同步进行的, 真的就是相当于请了一个小秘书在帮你干活。我比较好奇这个 nano banana 这个功能,它到底是怎么利用端侧 ai 来让我们直接在网页上编辑图片的?这个其实是一个很厉害的突破,就是 以前我们想要修改一个网页上面的图片,你要先把它下载下来,然后上传到一个编辑器里面,再去处理它,对吧?嗯,那现在呢? 你只要右键点击这个图片,然后让 jamaican 去帮你改。比如说你看到一个房间的照片,你就直接说换成浅色的现代风的家具, 他就会直接在网页上帮你生成预览,而且不需要下载,也不需要上传,他是所见即所改,这就非常方便了啊。 那我们再来说说关于这个 gemini 和 google workspace 的 深度打通,它到底是怎么通过这种联动帮我们简化在日常工作中的一些繁琐的流程的?举一个很直观的例子吧,比如说你正在看一个课程大纲,然后你要根据这个大纲里面的书单写一封邮件给你的学习小组。 以前的话,你要来回的切窗口复制粘贴书名,再去查每本书的简介。对,那现在呢?你只要让 gemina 去读这个页面,然后说帮我挑三本书,写一个简短的介绍,并且用真人秀的风格参考一封邮件, 它就会在侧边栏帮你把这个邮件全部都写好,包括书的简介,它都会帮你写好,而且它是完全不打断你现在的这个流程的。那这个功能它只是简单的帮你提交邮件吗?它能不能直接帮你发送呢?当然可以,写完之后,你只要点击一下,它就可以调用 gmail 帮你发送了。嗯, 而且它这个读当前页面,然后执行另一个任务的这种方式,才是真正地把 ai 嵌入到了你的工作流里面。 ok, 那 这个 connected apps 让 gemini 和整个 google 的 生态全面打通之后,到底在哪些场景下可以帮我们节省最多的时间呢?就是现在你只要在设置里面一键开启 它,就可以让 gemini 去访问 gmail, calendar、 youtube maps、 shopping flights 这些 google 的 服务。嗯,那比如说你要出差,你只要说一句,帮我查一下下周那个会议的时间,推荐几个航班,然后写封邮件,告诉同事我的到达时间,它就会自动地帮你查邮件, 找到会议的详情,然后打开 google flights, 帮你找航班,最后连邮件都帮你写好,你都不需要手动地去操作那么多步骤,确实很高效啊。那这个 personal intelligence 到底是通过什么样的方式来让浏览器变得越来越懂你,越来越贴合你自己的使用习惯呢? 这个功能其实它还没有上线啊,但是它的设计非常的有意思,就是它会让 chrome 去记住你之前的一些偏好,比如说你跟他说过你喜欢什么样的酒店,或者说你的出行预算是多少,以及你习惯的航班时间是什么样的,那它就会把这些东西都存在本地, 然后你下次再问的时候,他就会直接给你推荐符合你偏好的一些选项,嗯,相当于他变成了一个真正了解你的助手。听起来确实挺贴心的,那这种个性化的记忆是不是一直都会存在?不会的,因为他是需要你主动去开启的,而且你随时都可以选择断开, 就是你连了哪些应用,哪些数据会被记住,都是你可以自己完全掌控的。对,所以隐私是始终在用户手里的。然后我们接下来要聊的就是这次更新里面最重磅的一个功能啊,就是这个 auto browse 自动浏览。 这个功能到底是怎么让 ai 能够自己在网页上操作,而不是说只是给你一个答案? autobrows 这个功能呢?就非常的炸裂啊,因为以前的 ai 它只能给你一个文本的回复,但是现在它可以自己打开一个网页, 然后自己输入信息,自己点击按钮,就它真的是在帮你完成整个任务,而不是说给你一串结果,你自己再去操作。那能不能举几个实际的场景,让我们感受一下这个自动浏览到底能做什么?比如说你要定酒店,你只要说我要去芝加哥, 然后我想住这个酒店,我希望是这几个周末价格是多少,对房间有什么要求,它就会自己打开 excel, 然后自己去操作,最后把整理好的结果呈现给你, 完全不需要你自己一步一步地去点。这个确实很方便啊,那除了这个定酒店还可以用在哪些场景?还有很多场景,比如说你要在 redfin 上面筛选公寓,你只要说把不允许养宠物的删掉,然后把 gabriel 加为协作者,它就会自动帮你操作。嗯,或者说你有一个 pdf 的 球队名单, 你要报名一个在线的系统,你只要说用这个名单帮我报名,它就会自动帮你把所有队员的名字和位置填好。 就这种以前你可能要花一个小时去手动操作的事情,现在就是一句话的事,太方便了吧。那比如说我要去旅行,我想让他帮我对比机票和民宿,这个能不能实现呢?完全可以。比如说你跟侧边廊说帮我查一下三月中旬上海去大理最便宜的机票, 然后顺便搜一下双廊附近五百块钱以内,评分四点五以上带露台的民宿,他就会自己开一个新的标签页,然后自己去各个网站帮你查找。 最后他会把所有的结果整理到一个对比表里面,甚至连预定的表单都帮你填好大半,你只要付一下款就可以了,就真的像请来一个私人秘书一样。这个视觉购物到底是怎么用 ai 帮我们彻底地简化整个购物流程的?比如说你看到了一张 y two k 风格的派对布置的照片, 你只要跟詹曼奶说去 ati 帮我找到能复刻这个布置的东西,加到购物车预算不超过七十五美元,他就会用多模态的能力去识别这个图片里面有哪些物品, 然后他会自己去搜索,自己去比价,自己去控制预算,找到之后,他会自动把这些东西加入购物车,甚至他还会帮你找有没有优惠码,然后把优惠码也用上,让你的总价正好卡在这个预算线内,你只要最后去结账就可以了。 那我们接下来就进入一个更深入的话题,就说谷歌这一系列的动作背后其实是有一个非常大的野心的,他想让浏览器在 ai 时代成为一个新的操作系统, 这个事情到底意味着什么?就是谷歌这次其实是非常明显的在用 chrome 的 庞大的用户量来把 ai 功能推到每一个人的面前。对,他想要让所有人都习惯我在地址栏或者我右键就能直接使用 ai, 让 chrome 成为你所有的在线活动的入口, 这样的话他就可以把用户留在自己的这个生态里面,然后去挡住其他的那些 ai 平台或者说新型的 ai 浏览器来分流他的用户。明白了, 那这个 gemini 三的这个所谓的个人智能,它是怎么通过整合用户的数据来让谷歌进一步的巩固自己的这个地位的呢?因为现在只要你授权了之后, gemini 三它就可以去读取你的 gmail, 你 的日历,你的云端硬盘,它会根据这些信息来帮你做一些决策。 比如说你问他明天几点出发去机场最合适,他会自动地根据你的机票确认信,然后实时的路况和天气来给你一个答案。嗯,所以说谷歌是在把 chrome 变成一个数字生活的中心,你所有的信息都在里面流动, 那这样的话,你想要离开他就会变得越来越难。确实啊,那这种把所有的数字生活都集中在一个平台上面,他带来的这种高效背后是不是也隐藏着一些对于隐私的担忧呢?对,就是你的浏览记录,你的偏好,甚至你在网页上面输入的每一个字, 都在被这个 ai 分 析和学习。虽然说确实很方便,但是你会觉得好像你越来越透明了, 就是你在用隐私和自主思考去换取这种极致的便利。说的对,那我们下面来说说关于一些安全性和隐私性的问题,就是很多人关心的。比如说这个 autobras, 它在涉及到一些需要登录的网站的时候,它是怎么处理这个身份验证的,然后怎么保证我的账号的安全的? 其实它是可以和 google password manager 联动的,就是如果你允许的话,它可以自动地帮你填写账号和密码,然后帮你登录。 但是这个功能不是默认开启的,它是必须要你自己去授权它才会去做。如果说这个 ai 在 自动操作的过程当中,遇到了一些付款啊,或者说发帖这种比较敏感的操作,它是怎么防止出现一些误操作的?关于这一点, google 其实是做了非常严密的防护的, 就是只要遇到付款或者是在社交媒体上面发帖这种涉及到隐私或者金钱的操作,它都会停下来让你手动确认, 所以说最终的决定权始终在你的手里。那我们最后来聊一聊,就是大家最关心的问题,就是这些 ai 的 功能到底什么时候能够用上, 然后对设备和地区有什么限制?目前的话, autobrowse 这个功能它是只有 micro s windows 和 chromebook plus 这三个平台可以用,而且它还限定了只有美国的用户可以用,然后它是需要你订阅 google ai pro 或者说 ultra 才可以, 但是这个 nano banana 它是只要你是 gemini in chrome 的 用户就可以用,那国内的用户的话可能就需要自己想些办法,嗯, 但是总的来说就是 ai 浏览器的时代真的是来了。 ok 了,那么今天我们就给大家扒了一遍这个 chrome 和 gemini 合体之后的所有的新的玩法, 从这个自动浏览到智能购物助手,真的是感觉好像请了一个全能的小蜜在帮你干活一样。然后最后我们也聊了一下这背后的一些对于隐私和行业格局的一些深刻的影响。好了,那这期节目咱们就到这里了,然后感谢大家的收听,咱们下期再见。

过去七天, ai 圈大事件盘点,谷歌 chrome 集成 jammin 上线自动浏览智能体,推出长驻侧边栏和网页内图像编辑三大核心功能。 jammin 可跨标签页理解上下文,实时总结、比对或整合信息,能带用户完成登录、填表、比价甚至下单等多步骤任务。并集成 nano banana 模型时 网页内图像编辑。阿里推出桌面端代理工具 codework, 该工具无需云端上传,所有任务均在本地执行,用户仅需一句自然语言指令即可完成文件整理、数据分析、 ppt 生成规划等复杂办公任务,具备自主规划能力,能像资深员工一样拆解任务,调用本地应用。其内置 mcp 协议与 此功能支持企业打造自动化工作流。月字暗面发布并开源 p m k。 二点五最多支持一百个自智能体,并行工作 不到二十四小时,在 era artificial analysis 等全球多个大模型竞技场榜当中位列开元模型首 位。 mini max 发布 mini max music 二点五音乐模型,创作者可像专业编曲人一样精准设计情绪曲线 与乐器配置,通过优化声腔模型实现自然转音来支持一百加乐器音色库和风格化自动混音,能自适应摇滚、爵士、 mpiano 等流派的深学特征。阿里开元交互式世界模型 lobo world 机械硬钢经历三支持近十分钟的连续稳定生成,是一个能响应用户动作为持物理逻辑保持长期一致性的动态虚 拟相,核心是打造高保真、可实时交互、逻辑一致性的动态虚拟仿真环境,为具身智能自动驾驶、游戏开发等提供 ai, 推出工业级 ai 代理编排平台 a 准。 该平台专为航空航天、半导体、先进制造等高技术壁垒行业量身打造,聚焦 ai agent 的 开发与全流程编 排平台,可实现效率的跨越式提升,将原本耗时二十小时以上的工作大幅压缩至数分钟内完成。微软正式推出其第二代自研 ai 芯片麦芽二百。通过自主研发芯片,微软可以摆脱英伟达的限制, 训练其人工智能模型,并加速模型的发展。而麦芽三百已进入研发设计阶段。 apple 第二大收购案发生,二十亿美元吞下 q a i。 该公司擅长通过面部微表情识别无声语音,预示着 siri 将具备非语言交流能力。

就在不久前,谷歌悄然发布新模型,随着 gemini 三计算机操作功能推出。这是一个模型,一个专用的智能体模型。它基于 gemini 三 flash 构建,具备视觉能力,能像人类一样与网站和应用进行交互。它不再单纯依赖 a p i, 而是通过理解屏幕画面,执行真实的 u i 交互,比如点击输入、滚动页面、 填写表单等等,甚至能完成需要登录的操作。其实巧合的是,就在两天前,谷歌更是将这一领域推向了新的高度。随着 agent vision 的 推出,这一前沿新能力现已内置于 gemini 三 flash 模型中, 它能将图像理解从静态任务转化为代理式的操作流程。这项功能现已应用于其计算机操作模型。通过结合视觉推理 与代码执行能力,作为首批工具之一,支持 agintic vision, 该模型能够将其回答直接铆定在视觉证据中,从而在大多数视觉精准测试中实现了百分之五百一十的稳定性能提升。而今天,谷歌又迈出了重要的一步, 因为他们优化了这一计算机操作模型,并将其直接集成到了 chrome 浏览器中,将 geminelink 内嵌到浏览器本质中,从而真正将 chrome 变成了代理式 ai 浏览器。也顺便提醒一下,该功能目前仅面向美国用户开放, 虽然计划在今年晚些时候向全球推广,但目前仅限美国的特定用户使用,且推送过程正在逐步进行中。但本质上, chrome 现在已由 gemini 三模型驱动,现在还新增了一个更智能的 ai 侧边栏,既能帮你跨网页处理多任务, 又能将自动化能力直接引入 chrome。 jimmy 还与 google 应用进行了深度集成,让你能轻松高效地处理复杂的多步骤任务。 通过自动浏览等功能,它甚至能提供更懂上下文的辅助,让 gemini 变身为一个随时随地提供 ai 协助的全能浏览器。来看看这个在 chrome 中使用 gemina 侧边栏的演示, 你可以自动填写这类表单,直接利用保存在 chrome 里的信息。只需给 gemini 一个简单明确的指令, 就能看到 gemini 如何帮你省去这项繁琐的重复性工作。需手动填写各种字段。更令人惊叹的是, gemini 还能自动浏览并跨多个标签页查看内容,并替你执行操作, 让浏览器变身为主动智能体而非被动工具。而且你还能用 nano banana 直接在网页上修改图像。谷歌还将 nano banana 的 创意能力直接引入了 chrome, 让你能够直接编辑并及时转换图像, 无需下载文件重新上传,也不必打开新标签页。所有 gemini 和 chrome 用户均可用,只需在侧边栏描述效果,它就会自动为你执行任务。 无论是为客厅改造寻找创意灵感,正如画面所示,还是将研究数据转化为清晰美观的信息图标, nano banana 模型都能在视觉创作上助你一臂之力,会让整个过程变得超级即时且丝滑。 有了 gemini 和 chrome, gemini 现已支持关联应用,包括 gemini 日历、 youtube 地图、 google 购物和 google 航班。这些极成功能让你能更高效、智能地处理任务, 甚至还能利用该模型自动完成任务。比如,如果你要出差去参加会议见面,你能帮你找出包含活动详情的历史邮件。它可以为你查询航班推荐, 甚至参考邮件,告知同事你的抵达时间。你可以启用这些功能。就在 jamina 设置的关联应用中,让 chrome 不 仅仅是浏览器,更是横跨 google 应用的内置 ai 助手。 很快,它还将支持访问其他第三方应用程序。未来几个月还将推出个人智能功能,这将让 chrome 变得更加个性化和主动。因为有了个人智能,它将直接集成在 chrome 中。 它可以连接你的应用以及各种你选择共享的数据,从而赋予 ai 个人智能,让它能记住过往交互的上下文, 并提供为你量身定制的回答。你甚至可以给 gemini 设定特定指令,以获取更个性化的回复。这本质上将 chrome 从一个通用浏览器变成了值得信赖的伙伴,在你上网时提供相关主动且具备上下文感知能力的协助。 显然,这是一个你可以自主选择开启的功能,绝非对所有人都强制要求。这显然是出于对 chrome gemini 用户隐私的考量。回想一下, chrome 多年来一直具备自动填充功能, 能帮你处理诸多自动填写地址或信用卡信息等琐事,助你更高效地完成任务。 如今,这项功能迎来了重大升级,让你可以使用 chrome 的 this 自动浏览 cs 功能。该功能现面向美国的 ai pro, 即 ultra 订阅用户开放,它能带你处理复杂的多步骤任务。这项功能不久后将面向所有用户推出,它能帮你优化假期行程。 通过对比酒店和机票价格,你还可以用它处理预约、填写表格、整理税务文件,甚至还能管理订阅服务,或是利用这项功能更新驾照,从而为你节省大量时间。 auto browse 功能还能胜任更复杂的任务, 比如想办一场 yik 主题派对,只需给他一张灵感图,让 gemini 识别图中单品 并搜索类似商品,并将它们加入购物车。这样既能控制预算,还能自动使用折扣操作须经授权。它甚至能调用谷歌密码管理器自动登录。 想要体验该功能,目前显然仅限美国地区。你会看到右上角有一个 gemini 按钮,同时需要将 chrome 更新至最新版本,然后点击这个 gemini 按钮,并选择加入 ai 计划,开启后就能使用 ai 辅助侧边栏了。 总之,有了这款代理式浏览器,从而帮你自动处理大量重复性任务。比如帮你总结税代产品的评论,你会发现它 能为你提供实时协助,并利用诸多 gemini live 等多种功能,让你可以直接在浏览器中与 ai 进行对话,从而获取代理式协助。如果你喜欢本期视频, 不过这一功能唯一的缺点是目前仅限美国地区使用。这确实挺让人扫兴的, 因为我真的很想亲自上手试试,看看它的自动浏览能力到底怎么样。这项功能将开放目前面向美国的大多数用户。如果你想使用自动浏览功能,就需要订阅 gemini pro 或 auto 版本,这一点请大家注意。好了,今天的视频就到这里,希望大家喜欢, 并且能从中有所收获。谷歌现在更加专注于代理式浏览器开发,太疯狂了,很高兴看到这一步, 肯定还会有更多改进,在不久的将来推出,总之非常感谢大家的观看,希望你们喜欢本期视频,拜拜了各位。

最近大家为了 cloud bot 工位也是拼了,但今天 jimmy 三正式接入 chrome 底层,而 chrome 也从浏览器转向主动打工。这次更新最核心的亮点是一个叫 auto browse 的 功能。 过去查攻略、订机票、订酒店,得在好几个网夜间反复横跳,手动输入各种个人信息。现在,你只需要在侧边栏说句,帮我订一张下周去上海的特价机票,剩下的搜索、筛选、比价、填表, ai 全都在后台帮你跑完了。 这种自动驾驶的上网体验,确实能帮不少人省掉琐碎的机械劳动。不仅如此, jam 奈三还彻底打通了谷歌的全家桶。它能直接翻看你的 gmail、 邮件、日历、行程和云端硬盘,所以它比你更清楚你的行程安排。 比如你要准备出差,它不仅能帮你找航班,还能根据日程提前拟好发给同事的告知邮件。再加上侧边栏具备了多模态视觉能力,你在旁边同步做摘要,甚至直接修图。 当然,这种保姆级的服务也是有代价的, ai 要替你操作网页,就得授权它观察你的屏幕和账号信息。虽然谷歌强调在敏感步骤会设置确认环节,但用隐私换便利确实让不少人感到迟疑。 目前,这项更新已率先在北美开启内测。可以说,从凡事不觉问谷歌的搜索时代到现在,已经开始跨入凡事不觉让 chrome 替你去干的时代。这场关于智能体的圈地运动,正让硅谷的巨头们陷入前所未有的焦虑。 从 cloud 的 computer use 到谷歌的 autobrows, 大 模型之争,已不再是参数规模的纸上谈兵,而是进化成了对用户入口的暴力拆解。 如果说过去十年是移动互联网的天下,那么从今天起,网页端正在经历一场特洛伊木马式的改革。那个曾为 cloud bot 腾出的工位,如今看来可能只是这一波 ai 带打浪潮的起点, 一场关于谁能更完美的模拟人类点击的竞赛才刚刚拉开大幕。

今天教大家开启谷歌浏览器中的 ai 功能 gemini, 然后先是在这个 chrome flex 里面搜索 g l i, c, 打开这些跟 chrome gemini 相关的一些设置,都改成 enable 就 可以了。然后就是关键的一点是要把系统设置,然后语言与地区中应用程序这地方要给这个 chrome 添加设置为英语,然后应用立刻重启。 重启重启之后,如果这个它没有出现这个 u i 的 编制栏的时候,你需要在这个终端里面用编辑器打开这个 library application support google chrome local state 这个文件,然后把里面 variation country us 跟这几个 country 相关的里面这个如果是 c n 的 都要改成这个 us。 然后就可以在这个编制栏中使用这个 ai what kind of question i asked about? 测试这个功能,它说它有总结啊,数据提取,导航,搜索,然后分类分析,内容的转换都可以。它这个 chrome 的 这个也是支持这个语音功能的。 总结还挺有时尚的,新闻 ike news 上看到的大部分都是辛苦的技术讯息,有时还会看到一些创新的概念,总而言之很多都是围绕着如何做的各种小工具或者新鲜玩意,或者根据广件,你可以直接问看到的文章和内容的重点,你把第二个文章的内容,把第三个文章的讲解一下。好的,这篇文章的题目是 openclaw, openclaw again again 来自链接到 openclaw 点 ai, 它是一个 openclaw 项目的更新说明,宣布它已经改名成 openclaw。 想了解更多吗?

嗨,今天是二零二六年二月二号周一。好吧,让我们随便聊聊上周 ai 圈又发生了什么。 这周的头条属于 google, 他 们宣布把 jammy 三直接集成进 chrome 浏览器里了, 不是那种侧边栏聊天机器人,而是可以自动执行工作流的那种。简单说就是以后浏览网页的时候, ai 可以 帮你把一系列操作串起来自动跑完,比如填表、查信息、下单这些事情理论上都可以丢给他做。 这等于把浏览器从一个看东西的地方变成了干事情的地方。除了 chrome 的 集成, google 在 视觉和模型方面也有两个动作。 首先是 deepmind 公开了 project genie 的 最新进展,这个项目主打的是用提示词生成可交互的世界,不是普通的图片或视频,而是那种你可以在里面走动探索的虚拟环境,更接近游戏或机器人仿真需要的场景。 官方说这还在实验阶段,但方向很清楚,从生成内容走向生成可以进入的空间。 另外, jamnine 三 flash 也更新了,加了一个叫 agintic vision 的 能力,意思是模型看图的时候不只是描述,还能同时执行代码做计算和验证,支持放大关键区域加标注。接下来说说 open ai, 它们这周推出了一个叫 prisma 的 工具,把 gpt 五点二的推理能力直接嵌进 ltex 写作流程里,从草稿推导到公式排版,再到引用管理,都在同一个工作区完成。 对经常写论文的人来说,最直观的变化就是少切换工具,多保留上下文。后面如果把写作和版本追踪也做进去,可能会变成一个科研写作 ide。 然后是 antropic, 他 们这周有三件事值得说。第一是把 cloud 塞进了 excel 里,不是侧边栏那种,是真的可以用,等于 cloud 这个函数调用它。这意味着你可以在表格里直接用 ai 处理复杂计算,而且每个格子的数据都能追溯来源, 老板再也不用担心 ai 瞎编数据了。第二是推出了 mcp apps 这个东西,让工具的交互界面可以直接嵌入到聊天里。以前 a 阵的返回的是一段文字,现在可以是一个可点击、可配置的 ui, 用户能在同一条对话里完成配置预览和确认,减少来回试错。对开发者来说,这相当于给工具提供了一个统一的聊天内前端 a 诊正在从聊天机器人变成可操作的软件。 第三是他们发了一篇研究,说 ai 辅助写代码可能会降低技能形成。他们做了个随机对照试验,让开发者学习新的拍送库,结果用 ai 辅助的那组在概念测验上分数更低。国内方面,阿里的科研团队这周挺忙, 首先是发布了 quan 三 max thinking, 定位是强化推理,主打数学和编码这类可量化场景,用可测结果作背书。然后是开源了 quan 三 a s 二,做长音频识别和流逝场景, 支持低延迟和稳定分段,适合会议纪要、字幕生成、客服质检这些应用。 另外还有个 deep planning 机,准,专门测 agent 在 长任务规划上的能力,把这件事从主观体验变成可评测的指标。腾讯发布了 hion mh 三 instruct, 主打听懂指令修图, 它不是简单生成图片,而是能理解复杂的编辑指令,通过内部推理实现精准的局部调整。 月之暗面的 kimi 有 两个更新,一个是 k 二点五,主打多代理并行协助推理,把推理从单线程变成多个 agent 一 起跑,更少漏劫,更少卡死在局部。 另一个是 kimi code, 面向自主编码的 a 阵的形态,不只是补全代码,而是能从需求到实现跑完整流程,强调多文件修改和依赖处理。视觉生成这块 x a i 上线了 goraki imagine api, 是 一套端到端的视频生成加编辑接口,既能生成也能做风格化增删对象和运动控制,还提供了文档 playground 和 s d k, 面向开发者快速集成。官方强调的不只是效果,还有延迟并发和成本的可用性。撸马的瑞三也更新了主打更便宜的原声一千零八十 p 输出, 一千零八十 p 的 意义是更少后期放大,也更适合直接投放平台开发者。工具方面,科 sir 这周有两个动作, 一个是安全代码库锁影附用,把锁影构建时间从小时级压到秒级。另一个是发布了 agent trace 规范,用来记录 ai 在 代码库里的贡献。 mr 更新了 web 二点零,加了自定义子代理和斜杠命令工作流, 子代理让任务分工更明确。斜杠命令把常用流程产品化。 deepsea 开源了 deepseek ocr 二,专门把文档转成 markdown, 给了 v l l m 和 transformers 两条推理路径, 支持动态分辨率。编工程可用,而不是只给论文结论。如果你在做资料库或 reg 清洗,这类 ocr 的 结构化输出会更耗费处理成本。 huginface 发布了 dagger, 是 个可式化调试工具,让多步骤的 ai 应用更容易排查问题。 它强调可观察性,让你看到每一步输入、输出、定位错误点,并复现实验。学术界这边, ai 二推出了 open coding agents 和 sarah 框架,主打低成本训练代码智能体, 公开了配套资源,方便社区附用。它们还发布了 siriaser 做自动理论综合, 把读论文到体假说的过程自动化,并且直接开源。 mvita 和斯坦福的研究发现,让模型在推理阶段临时更新,权重表现会更好。 这种 test time training 的 思路打破了训练后权重固定的传统认知。好,以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名。 最后再看看生城市 ai 产品在近一年的市场份额变化。总的来说, oppo ai 还是第一。嗯,好吧,这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见!

椰奶和 kum 联动了,点开右上角,椰奶就出现在了你的 kum 的 侧边栏。第一个是一键用 nala 不 nala 的 改图,我们随便选中一张。再看图片,我的提示词是基于这张图给我生成马年氛围感情春装饰,它 会加载 nala 不 nala 可以 看到基于原图,它加了一个马,一些灯笼,还有一些好看的装饰。第二个,多网页联动,直接选择多个网页,选中之后呢,在对话框输入我在深圳,帮我总结对比 这几个地方的花销以及优劣势。他只花了几秒就把这些东西都已经梳理出来了,我分别选了东京、泰国和印度尼西亚。第三个是他打通了我的全家桶,只要确定你的居民奶在设置关联的应用这里打开了这个全家桶的选择。我让他帮我看一下居庙周末的安排,帮我定个日历, 可以看到,这是我刚刚给自己发了一条邮件,上面写着周六三点开会,制定春节的假期计划, ok, 但是他似乎没有给我定上日历,可能还是有权限没有开启。那我们再试一个 case, 我 让他帮我阅读二十条邮件,然后归类并且总结,哼哼, 总结的非常的全面。首先是科技与 a 行业,我订阅了 ai valley, 然后是活动的录取,我其实看的是小胡老师的题,他有个更厉害的功能是 auto browser, 不 仅能够定酒店,筛选公寓,还可以填表格,但是我不知道为什么没有换季,有人能告诉我为什么吗? 然后我是根据小胡老师的这篇安装的,大概十分钟就搞定了。首先检查一下我的终端版本,他说如果低于三点一三,就是去官网下载个最新版本,我们去安装一个游民工具,配置下环境,让我来跟着这个教程再来一次。嗯,对了,运行脚本 安装中了,还是没有 ai 的 标志啊, language 要改成英文试一下。好的,然后我们重新开机,最后重新启动成功。然后我其实是 sketchmate autos 的 深度用户,但有了 gmail 特别难,我可能会考虑卸载掉它,因为最近我同时也在玩 cloud bot。 其实我感觉未来 ai 越来越趋向于成为你的一个个人助理, 记住你的一些日程习惯,获得一些你应用的权限,然后很大程度上的帮你减轻一下平时的负担。不同于二五年的 ai, 二六年好像真的有什么在改变了。好了,那这期视频就到这,我是在 ai 行业练习时长一年半的菜菜,下期视频再见。还不学 ai, 菜不菜你?

今天啊,我们来聊个大事,一个可能彻底改变我们上网方式的东西,你每天都在用的那个 chrome 浏览器对吧?它不再只是个简单的工具了,现在它好像长了个大脑,变成一个能主动帮你思考,帮你干活的 ai 助手了。 客话可不是我说的啊,是谷歌官方自己讲的,你听听,多大的口气。但这确实给我们今天的内容定了调子,咱们要聊的可不只是个小小的功能更新,这简直就是一场变化。 好话说的是挺响亮的,但它到底能帮我们做什么呢?对吧?这才是关键。所以咱们今天就来点实际的,看看当浏览器真的有了大脑之后,咱们的日常上网体验到底会变成什么样? 好,咱们就从最核心也是最直观的一个新功能开始吧。这个 jamna 侧边栏,你可以把它想象成什么呢?嗯,就像是给你的浏览器配了一个智能指挥中心,随时待命。 而且啊,最赞的是什么你知道吗?就是用起来超级简单,你根本不用学,没什么复杂的设置,就是右上角点一下那个图标,然后直接问问题,不管是关于你正在看的网页还是别的事,他马上就能给你答案。 ai 就 这么简单的为你服务了, 光说不练假把式,咱们来看个具体的例子,想象一下啊,你正在计划出去玩,肯定会打开一大堆旅游网站的标签页对吧?机票、酒店攻略信息又多又乱,哎,这时候詹姆奶的用处就来了, 你看,你可以给他下达一个非常具体非常细节的指令,比如说,帮我找个伦敦的徒步旅行团,有两小时以内的,得是早上九点以后出发的。哦对了,评价一定要好, 你看,这跟咱们平时敲几个关键词进去搜索完全是两码事,这是 ai 在 真正的理解你的复杂需求。 而且啊,还有一点特别关键,就是当 jammy 在 旁边帮你干活的时候,你该干嘛干嘛,你可以随时切换到别的网页去查资料回邮件,完全不耽误。他就在后台帮你默默的处理,让你能专心做自己的事。 他的信息整合能力说实话,真的有点强。再举个例子,比如你在找房子,肯定开了好几个租房网站,以前你得一个个看自己做笔记比较,现在呢,你只需要在一个聊天窗口里问他, jimmy 就 能帮你把所有打开的网页信息都抓过来, 直接整理成一个清清楚楚的对比表格,省了多少事啊!好,刚才说的都是处理文字信息,对吧?接下来准备好啊,咱们要迎来下一个让你挖出声的时刻了。 因为现在啊,我们不光能处理文字,还能直接在任何网页上直接编辑图片, 这功能简直了。就比如说你在网上看到一张公寓的照片,觉得哪都好,就是不喜欢那个沙发。没关系,你只要用文字告诉 jimmy 你 想要个什么样的沙发。比如换成一个灰色的组合沙发,刷的一下,图片里的沙发就变了,而且房间其他地方一点都没动。 这不就是个即时的灵梗格式化神器吗?行,如果说刚才那些功能还只是帮你提高效率,那咱们接下来要聊的可就真的是颠覆性的了, 我们要进入一个全新的领域,在这个领域里,你的浏览器不再是等着你下命令,而是能主动地自己动手去帮你完成任务。 这里的关键词叫做代理能力,这个词听着有点专业,但说白了其实很简单,就是说 ai 不 再只是个跟你聊天的问答机器人了,他现在成了你的代理人,你的执行者, 他能明白你最终想要什么,然后像一个真人助理一样,替你去点击,去输入,去打开各种页面,一步步把事儿办成。 他真正的厉害之处就在于整合,你想啊,他能连上你的 gmail、 谷歌地图这些你常用的应用, 这样一来,他就能利用这些信息帮你做更复杂的事。比如你刚查完一个旅行计划,他就能马上帮你写好一封邮件,把行程发给你的朋友,是不是很贴心?来,别眨眼,咱们就来看看他是怎么亲自上手操作的。 你看这过程分解的多清楚,你只要问一个问题,比如这几个航班中转时间多长,然后你就可以把手从鼠标上拿开了。 真的,你看浏览器自己在动,它会自己去点那个经停信息的连接,然后把藏在好几层页面下面的答案直接给你拎出来,放到旁边,这已经不是搜索了,这就是在替你干活。 而且他还能同时处理好几件事。比如说这个页面他在帮你查航班,你可以打开另一个新页面,让他去帮你定个晚餐的位子。你会看到那个标签页上有个小深色光标图标,那就是在告诉你,放心,我正在后台帮你忙活呢。 听到 ai 能接管你的浏览器,你心里可能有点低过,哎,这安全吗?别担心,这肯定是大家都会想到的问题,最关键的一点就是,最终的控制权永远永远都在你手里。 你看这里有几个关键的安全保障,第一,他第一次要替你操作之前,一定会先问你 可以吗?第二,在他干活的任何时候,你都可以随时点暂停,让他停下来。最最重要的一点是,任何涉及到花钱或者预定的最终操作,他绝对绝对会停下来等你最终确认。所以你才是那个拍板的人。 好了,聊了这么多神奇的功能,你肯定想蹦了,我什么时候能用上啊?别急,咱们这就来看看目前哪些人能用,以及未来他会怎么发展。 目前呢,这些新功能主要是在美国地区先开始推送支持 windows、 mac 和 chromebook plus 这些平台。像刚才我们看到的那个最厉害的自动流感功能,会先给那些高居订阅用户用上。所以国内的朋友们可能还得再等等,多关注一下后续的更新和地区开放计划。 而且你以为这就完了吗?不,这才刚刚开始。谷歌说了,未来几个月他们要把更深度的个人智能也加进来,这意味着什么?意味着你的浏览器会越来越懂你,越来越像你专属的、独一无二的个人助力? 好,我们今天的分享就差不多到这了,但最后我想留给你一个问题,一个挺大的问题。 你想想看,当技术能帮我们搞定越来越多这种繁琐的小事了之后,我们省下来的这些时间和精力会用来做什么呢?是去创造还是去思考,还是去做一些我们真正热爱的事情,这可能才是这项技术给我们带来的最深远的影响吧。

谷歌浏览器迎来了一波大更新,现在可以在谷歌浏览器里面使用 jammin 了。 that is well, anyone can。 可以 自动给 youtube 的 视频进行总结了,方便很多。 也可以直接让他帮你看 github 里面的项目介绍,包括使用方法。 如果更新后起用不了, github 上有个开源项目,直接通过这个开源项目就可以激活浏览器里面的 gemini, 在 浏览器设置里,把这个侧边栏位置给它设成显示在左侧,这样 gemini 的 对话框就会在右边显示。 最后,如果说上面操作都操作完之后,呃,还没有显示 jamalina 的 话,把这边首选语言设成 english, 设成英语就可以了。