谷歌的界面的三点五正式上线了,整体的实力大幅提升,在多模态识别代码的边写以及智能交互体验都相当的不错,运行也很丝滑流畅,还支持大容量的上下文创作和办公,都很适配, 新手也能轻松的上手使用。大家好,我是温谷,我相信有很多小伙伴们已经在界面的官网中已经使用了三点五这样一个模型,我教大家三个使用方法,适合自建工作流, ai 的 写作、文案生成、图片、海报和抖音运营的同学。 第一,课请求调用,适合在工作中前开始调试。第二,通过 python 代码的 sdk 的 调用,适合自建 skills, 最后给 open claw 和 hammer agent 使用。第三, n 八 n 工作流使用,适合打造自己的数字能演示。一,我们用这个课请求来试一试, 好吧,然后课请求就是 c u r o, 这个大家可以往上搜一下,大家可以看一下,就是我这里 api 的 端点,就是 generate language, 谷歌点 api 点 com, 请大家注意一下这个,它不是一个呃, open ai 的 标准的一个模式,就是 如果你是那个 open ai 的 一个标准的模式,它应该是左斜杠杠归,然后再左斜杠 chat 它,这个不是,所以说我们一般做调试用,可以看一下这里面,我这边的这个,你看它后面紧接的模型是 jame 三点五, flash, genevate content, 然后 key 就 跟到我这个 key 啊,这个这个,我 key 把它暴露出来没?其实没有关系啊,因为反正这也是免费的,你看他是,你是一个专业的专业助手,解释一下什么是 leg 这个技术啊,他就已经回复了,从那里看这个这么多模型。那其实啊,这也不是我说的是这个,这个我给大家看一下, as 丢了的话,你去 get 这个 apikey 啊,我这里有好几个 apikey, 拿到这个 apikey 以后,哎,你就可以去做这个啊,就可以去把这个呃,你的 apikey 放在这里就可以做调试使用,调通了以后,你再把这个再去放到代码里面进行调试啊,然后这里它有一个这个 这个限制的。在这个地方啊,你可以看一下这里的 c 末啊,有个三点五 flag, 我 找一找啊,他这个用这个表经常会刷新的,哎,这个有个 jimi 的 三点五是吧?这是个文本输入过大模型, 它的 p r m 也就是每分钟的这个 token 啊,就每分钟五个这样是吧? t p m 这个是代表它每分钟的 token 数,它每分钟给了你两万五千个 token 啊,所以说你养龙虾可能够呛,但是你做这个自动化变卖流啊,是吧? n 八 n 啊,包括底价都是没任何问题,它一个这个分钟应该是可以, 应该是每秒了,是吧? pick lock, 那 每分钟给允许你掉五次是吧?每每分钟给你两万五千个头等,这应该是够用的啊。这个这是最最近昨天更新出来的,因为昨天这个谷歌二零二六的开发者大会是公开了个 gmail 三点五 啊,然后那个杠 max 啊,还 pro 还没有发布吧?应该是啊,但是呢, flash 应该非常强了啊,非非常强,他现在给大家免费的话,呃,大家一定要去用啊。然后第二种用法的话,就是我这个地方调了一下这个这个这个这个这个地方给大家看一下,就是 啊,这里是生成一一张什么图片啊?这这这个倒没什么,这个是我,我那个是纹身图的,是吧?我这里是用的这个谷歌的追未来的一个这个 sdk 啊,大家去引入这个 sdk 啊, flunk 谷歌 input 的 追未来 ai, 然后你下载它的 sdk 就 可以用了,是吧?然后再把我的 api 放进去,你可以跟我老师给大家演示一下啊。好, 我逻辑了下,我这里可以总共使用有五十二个模型啊,有些是收费的,有些是免费的,然后等一等, 哎,这里出来了,是吧?做的是一个让他设计这个一个品牌的一个文案,是吧?文案是吧?对对对,好, 那第三种情况也是大家常最常用的,就是这个在 n 八 n 里面这么用的,我把它拿过来给大家看一下,这个是刚刚跑出来的结果啊,之前我演示的是这个,用这个魔大平台,这个地方我用的是谷歌的,是吧?谷歌的这个是吧?然后这个地方你需要把这个 api 塞上去,哎,这里塞上去以后它连接成功了,连接成功了以后, 在这个地方你可以选择它的模型了,是吧?你一定要选择三点五是吧?最早啊,就是上周前指的免费的模型,就是街面的二点五那个比较拉快啊, 是吧?已经谷歌让我们二点五已经是发布两年前的模型啊,这个是昨天最新的模型,呃,比较强大。其他的都是收费的啊。其他这个 pro、 pro、 vivo 啊,包括这个 max 啊,都是收费的。但是三点五 plus 目前是免费的啊,为什么是免费的?刚刚跟我老师给大家看的是谷歌官网,是 是选选择,目前是现在是免费的,应该他在开发者大会上已经说了这个是免费给大家用,我相信他也不会说他给大家用一两头就关掉他,是吧?谷歌应该丢不起这个脸,是吧?好,然后这个给大家跑一下吧,对, 跑一下,这个乱乱一下就好了,哎,这个我是做了一个这个新闻的整理啊,就是第一步就是我再去搜索这个新闻,是吧?然后搜索到新闻,最后拿到这个新闻的素材,是吧?然后把这个套的新闻给我整理出来,最后拿到这个话我就会发到什么,是吧?是吧?某某抖是吧? 啊?你看这个是今天上午啊,五月二十一号的 a i 新闻,等等等等,是吧?是吧?噔噔噔噔噔,好,这是我今天给大家三个用法,希望大家去调试和使用,有问题的话小伙伴可以在这个评论区留言,我看到都会回复大家的。
粉丝1.8万获赞2.9万

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

就在刚刚五月二十号凌晨一点的时候,谷歌的开发者大会正式的开始直播,那肯定有很多朋友没有看这个直播,我只能说各位真是有先见之明,整个直播时长有两个多小时, 又臭又长,直接给我看历劫了。信息密度呢可以说是非常的小,就是发布了一个全新的模型三点五 flash, 其余的其他功能呢都是接入的这个模型,各种乱七八糟,内容呢都加了在一起,大会的后半段呢,直接变成了现场直播带货,我看完就是一句话,真是闹闹又麻麻 闹马。我们首先看一下大会的第一个部分,就是 gmail 模型家族,整场都在讲这个, gmail ai 发布了 gmail 三点五 flash, 它的定位呢是前沿智能模型和 agent 执行力合二为一的旗舰快速模型,头跟的输出速度呢是其他旗舰模型的四倍, 非常的夸张,而且在编程 agent 的 多模态基础上,超过了 gmail 三点一 pro 就是 一个 flash 模型,超过了三点一 pro 模型,这个就意味着这次模型呢是小而快,听起来非常的不错, 但是我不禁要问,那么代价是什么?没错,它的价格也赶上了 pro, 上一代的 pro 模型呢,每输入百万, token 呢是二美元,输出是十二美元。这次的三点五 flash, 它的输入是一点五美元,输出是九美元, 其实非常接近了,在他们直播中有这样一张图,说是用了九十三个 agent, 输出了二十六亿的 token, 总共金额小于一千美元啊,我先保持一下质疑, 这次价格涨的确实有点多,这还只是 flash 模型三点五 pro 呢,预计在下个月,也就是六月上线,那你想想吧,那个价格肯定会更高呀。那第二个呢,就是 jimmy 欧姆尼全新系列,目前用的也是三点五模型,核心定位呢是推理能力加创作能力融合首发的 jimmy 欧姆尼 flash 接受图片、音频、视频文本的输入,也可以输出生成视频,还可以创建我们自己的声音生成的视频呢,让他说话的声音就是我们自己的。 你可以理解为把视频生成模型,图片生成模型全都融到了一块,缝合怪奇美拉。另外顺带一提,它的内容检测能力呢,从 jimmy nike 的 app 版扩展到了搜索和谷歌浏览器中,也就是说,当你看到一个图片,你不知道它的真伪,那么你可以把这张图片发给他,问问他是否由 ai 生成 它可以进行判定。这个怎么说呢,就我体感下来,其他的生成模型我都能认出它是 ai, 唯独 g p t 的 那个确实是有点真假难分,你不会针对的 g p t 吧?那山姆就有话说了,你不是我的兄弟,你是个路人。 接下来就是重头戏,谷歌的 a i d e 反重力二点零上线了,全新独立的设计啊,真是不愧是谷歌啊。从这个设计页面上呢,我就看到了无数个神支持了 doa 盾,并且速度非常的快,而且如果你是新开通的,或者以前就是 o 叉用户,还会送你 一百套的额度,那去领吧。什么意思?下一个更新的是全新的设计语言,几乎是全平台桌面版、手机版以及网页端都进行了更新,变得非常优雅,动画非常丝滑,同时引用了全新的字体,不过对于阅读中文来说好像不是特别方便, 只是阅读英文的时候看起来确实很优雅。每天的额度呢,也改成了卡尔的那种限额五小时刷新,直到达到周限额 结束了,也就是说,如果你是 pro 用户,可能用一会就没有了这个额度。下一个 jimmy spark, 二十四小时全天候, agent 直接运行在云端,在手机上,电脑上拿起来就直接控制它使 用的模型呢是 jimmy, 三点五,可以实时监控我们的信用卡账单,追踪邮件,自动整理笔记,制作文档。这个几乎就是一个 agent 的 平台的标配了,它本身就是一个超级 mcp 客户端,接的非常多。这个时候可能有朋友说了,哎,这个不是小龙虾吗?是吗? 目前这个我们用不了,你是 plus 用户, pro 用户都用不了,你必须得是 air ultra 用户。二百五十美啊,不对,现在降价了,是二百美元一个月。但是这个计划对我个人吸引力不是特别大,再下去沉淀沉淀吧,我们看下一个谷歌搜索 三十年以来最大的更新,在二五年年底的时候呢,谷歌浏览器就推出了 ai 模式,那现在呢?把这个 ai 的 模型换成了 gmail。 三点五, 我们输入的越长,搜索框越会主动的进行扩展,因为它是内置在浏览器上,主要还是为了搜索嘛。当你一个很简单的问题,他就会给你回复很短的内容,但是当你长篇大论的跟他讨论的时候,他就会开始进行深度思考 啊。 deep think, 也就说类似可绕的那种,判断你的意图,以及你这个问题的复杂程度,他自己来决定给你回复多少。另外这样一个浏览器也有 agent 了,二十四小时全天监控。我们提一个问题, agent 在 后台跨博克新闻社媒以及谷歌的实时数据 持续监控,也就说你可以让他实时帮你监控一些内容。那这个监控的功能呢?我个人认为可以用在理财的方面,比如说黄金的金价,实时给你追踪一些股票的价格,实时的给你发送。 不过这个功能呢,暂未发布,夏季向 ai pro 凹叉用户开放下一个 mini app。 这个功能是在我们搜索的时候,那一个非常长的任务,它会自动给我们生成看板,或者是生成网页,生成一个小应用,我们可以直接快速的跟它交互,那比如说我问一个太阳 长什么样子,那它呢?就会生成一个类似网页,或者是一个三 d 的, 我们可交互,可以拖动旋转。这个太阳演示看下来呢,还是非常有意思的,但是仍未发布, 发布时间是未来几个月。 ai pro ultra 美国地区的用户可以使用,也就说你不在美国,或者你是免费用户,那么你都是用不了的,太可恶了,他不是我们的兄弟,他是路,厉害。最后还有几个我快速给大家过一下,因为我个人感觉非常的无聊,一个是全网通用购物车, 让 ai 帮我们去购物,去比价美国豆包啊,真是实至名归啊。还有一个呢,是给油管准备的 ask youtube, 可以 直接处理复杂的查询和后续的追问,其实跟 grog 差不多, grog 呢,是可以读取 x 平台的所有推文,那这个 youtube 呢,自然是可以读取油管上的所有视频,以结构化交互形式呈现。这个呢,现在已经可以用了,局限于 youtube 会员的美国用户啊,注意你得是会员哦。 最后呢,就是他们的带货环节,首先是他们的安卓 x r 啊,智能眼镜,想当年我也买了一个小米的异样眼镜,老傻了。我 目前呢是两个版本,一个是带屏幕的,一个不带屏幕的,只不过带屏幕的还没有发,各位感兴趣可以去看一看。大概 就这么多内容,如果各位非常闲的话也可以去看看。这个直播还是蛮催眠的。那以上呢,就是本期视频的全部内容了,如果你对上述我们提到的这些内容某 某一部分你感兴趣,可以在弹幕里留言,我们可能会单独出一些视频来测试,或者是解读一下。各位记得点赞,不点赞的话你就不是我的兄。 ok, 最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

每天一个工具小技巧第四期,今天我们带来的是 jimmy jimmy 小 技巧免费 api 调用。上期视频我们讲了 skill finder 实验技能查找器, 这期视频我们带你免费使用 jimmy, 话不多说,我们开始今天的小技巧。首先我们需要先去创建一个免费 api, 登录官方开发者平台,开启模型权限, 找到这个创建 a p i 的 按钮进行点击,然后就会进入这个页面,找到右上角的一个创建按钮,然后点击创建, 就会弹出一个密钥的创建页面,填入一些说明标记信息后就可以点击创建按钮,点击后你的 a p i 密钥就生成完成了,此时我们就拥有了测试权限。之后我们怎么使用这个密钥呢? 我这边演示的是一个我在用的一个使用方案,配合常用的开源调试工具进行连接我使用的这个,然后下滑找到其安装命令,通过简单的环境配置完成对接,我们打开终端输入安装命令并回车等待配置完成后,我们通过这个命令 输入,加上我们开始的创建的 api 秘钥后,回车之后会出现选择界面,这里我们选择 yes, 然后到了输入界面,再输入界面我们选择 api 选项,然后我们的这么奈可以就安装完成了,这里我们只需要输入启动命令,这么奈就可以打开这个聊天界面了, 在这里可以体验多模型带来的智能响应,赶快去试试吧。好了,本期的视频就到这里了,觉得这个小技巧有用的话可以点赞收藏本期视频,想了解更多小技巧的小伙伴可以关注我,每日更新工具类小技巧,我们下期视频再见喽!

昨日 google i o 开发者大会,整场最重磅的 ai 革新,一句话就能概括, gemini 三点五 flash 正式全面上线。谷歌正彻底把 gemini 从单纯对话聊天助手, 升级为可自主后台运行任务的全能 ai agent 系统。本期内容不止梳理本次发布会新品,更深度拆解新一代 gemini 与前代产品的核心差距, 先理清最核心的版本布局。此次率先落地开放的是 gemini 三点五 flash, 目前已全面入驻 gemini 客户端、谷歌搜索 ai 模式、 gemini 开放 api、 ai 开发工作室、安卓开发工具以及谷歌全新自研开发工具 anti gravity。 而定位更高阶的 gemini 三点五 pro 暂未正式上线,官方官宣将于下月正式推出。 所以眼下网传 gemini 三点五全面到来并不精准,实则是极速版 flash 率先就位,专业版 pro 仍在蓄力等待。 本次 gemini 三点五 flash 的 升级核心十分明确,响应速度大幅提升,代码编辑能力迭代优化,适配各类 ai 自主任务运行。 谷歌将其批量嵌入搜索生态开发工具,开放接口与日常应用,足以证明这款模型早已跳出纯对话闲聊的定位,主打高校及时响应。与全自动后台任务执行。 相较前代版本,本次升级主要分为三大核心变更,第一大变更 模型内核全面偏向任务自主执行。以往大家使用 gemini 大 多局限于答疑解惑、文案创作、内容总结、图文解析等基础功能, 而三点五 flash 的 宣传重心彻底转变,全力强化复杂逻辑推理、代码实操、第三方工具调用以及长周期连贯任务处理能力。 简单来说,它不再局限于被动回复短句指令,而是能够自主拆解目标任务分布、规划流程,联动各类工具获取结果, 再依据实时进度继续推进后续操作。这也完美契合当下主流 ai 工作逻辑模型,负责决策判断配套工具落地执行,长期记忆程上下文 全线体系划定,使用边界智能调度,保障任务持续运转。此次 gemini 升级,正是朝着这套成熟体系全速靠拢。第二大变格,谷歌搜索正是迈入 ai agent 时代。 本次谷歌搜索 ai 模式默认搭载 gemini 三点五 flash 核心,升级绝非仅仅新增几句 ai 内容总结,而是重磅推出信息智能助手 information agents, 可以直白理解为嵌入搜索内的专属信息追踪管家。传统搜索模式下,需要用户主动反复检测、手动筛选信息,逐一浏览网页、整理内容。 而 ai agent 化搜索,只需下达完整复杂目标,它便能自主长期跟进、动态整合信息变化,精准筛选有效内容。 无论是产品深度调研、前沿技术方向追踪、出行方案对比规划,还是金融数据实时监测,繁琐的人工整理流程都将被替代。 目前,该功能尚未在全地区、全场景实现完美落地,但谷歌的发展方向已然清晰,搜索不再只是单纯输出答案,而是主动帮用户持续跟进,统筹打理各类事物。 第三大变更, gemini 正式打通云端后台离线任务 其中最具颠覆性的当属 gemini spark, 它定位为全天候云端个人智能助手,可常驻谷歌云端后台静默运行,无缝联动邮箱、文档、换灯片等全套办公生态, 用户无需全程守着对话窗口下发指令,他可在后台自主推进全流程任务,仅在关键决策节点主动发起确认。真正成熟的 ai 助手,本就不该局限于对话框内被动等待指令, 而是能够精准承接整体目标,自主拆分执行步骤,自主把控任务节奏, 遇卡点及时暂停问询。普通用户可这样通俗理解,从前的 ai 更像临时帮手,随叫随动。 如今,谷歌致力于将 gemini 打造成二十四小时待命的专属任务管家,全程自主跟进事物进度。 面向开发者层面,此次更新同样诚意十足。 anti gravity 二点零正式升级为独立桌面端开发工具,同步配套命令行操作工具、全套开发套件、智能托管 agent 定时任务部署以及多线成斜童子助手功能,看似专业绘色的功能落地,实际开发场景通俗易懂。多智能助手分工协助,分别负责整体方案规划、代码编辑调试、 程序功能测试、成果核验排查,多个模块同步并行作业,最终整合输出完整可用项目成果。这套运作模式和成熟的 ai 调度层、工具层架构高度契合。 ai 不 再局限于零散代码片段生成,而是深度融入完整开发流程,实现分工协助落地执行、自检复盘、结果回传、全链路运转。 除此之外, gemini 也值得重点关注。作为谷歌全新布局的视频与全模态内容生成赛道,标志着 gemini 不 再深耕文字代码两大领域,正是全面进军图片、 短视频、音频、交互界面等全维度内容创作领域,客户端体验也迎来全面优化。 gemini 移动端界面全新改版, 新增每日资讯速览功能,同时上线 mac 桌面端应用。对于普通用户而言,这类体验优化虽不及模型内核升级亮眼, 却足以看出谷歌的布局野心,将 gemini 从单一独立应用打造为跨设备、全场景通用智能入口。 由此可见,看待本次版本迭代,不能只片面对比 gemini 三点五 flash 的 跑分性能与响应速度, 真正的核心看点是谷歌成功将 gemini 深度植入四大主流实用场景,日常搜索、云端办公程序开发、全域内容创作,搜索端实现长期自主信息追踪, 办公端打通全套办公软件落地后台,离线事务开发端搭建多智能体协调开发体系,创作端持续补齐全模态影音内容生成能力, 这才是本次发布会最具价值的核心变更。对比前代产品,两代产品的定位差异一目了然。 旧版 gemini 偏向高性能智能问答入口,用户输入需求,模型直接输出对应结果。 而 gemini 三点五的核心思路是把 ai 模型融入整套系统生态,实现工具互联、数据互通、任务自主执行、进度高效跟进。 他的竞争对手也早已不再局限于 chat、 gpt、 cloud 这类纯对话 ai 产品,而是瞄准整套一站式 ai 办公全流程 ai 开发工作流体系, 给普通用户。三点理性看待思路。其一,不必盲目紧盯各类 ai 模型战力榜单。模型速度与基础实力固然重要,能否稳定顺畅完成完整事物,才是决定实际使用体验的关键。 其二,切勿认定所有新功能即刻就能全员起用。本次诸多高阶能力会按照地区会员权限使用,设备分批逐步开放,我们重点看清长期发展趋势即可,不必执着于当下即刻上手。 其三,重点紧盯 ai agent 自主办事能力,能否独立闭环完成一整件事物,而非单次简短问答,是未来 ai 产品的核心分水岭。 总结,本次 gemini 三点五升级,牢牢记住三个核心关键词即可。 flash 率先落地, ai agent 全面登场,搜索办公全面开启,后台离线模式, 最后整体复盘。 gemini 三点五 flash 现已正式上线,高阶版三点五 pro 将于下月如约上线,表层升级式模型提速增效,代码能力跃升,搜索体验优化。 深层核心改革是谷歌完成 gemini 全场景生态布局,打通搜索办公开发创作各大实用赛道,推动 ai 从单次碎片化问答正式迈入长效自主任务执行新阶段。如果说前两年 ai 行业比拼的是对话交互趣味与问答流畅度, 那么未来一两年,行业竞争核心必将转向稳定落地办事、高效闭环执行。 这就是本次 gemini 三点五大版本迭代最值得所有人深度关注的核心价值。

谷歌今天推出了 gemini 三点五系列,打头阵的是三点五 flash, 一 款兼具前沿智能与行动力的代理模型。它在代理和编码基础上超越了三点一 pro, 多模态推理领先,输出速度比同类模型快四倍, 真正做到了质量与速度兼得。更关键的是,他擅长处理长期代理任务,成本往往只有其他前沿模型的一半。结合全新的 anti gravity 框架,可以部署多个子代理,自动完成资产分类、代码维护乃至财务文件,准备 把过去需要几天甚至几周的任务压缩到几分钟。在企业端, shopify 正用它并行分析数据,做出更准的增长预测。银行和金融科技公司用它自动化繁琐流程。 全新的 gmail spark 个人代理将二十四小时为您待命,搜索体验也迎来动态界面。而三点五 pro 预计下月推出。模型内置前沿安全框架,用可解释性工具理解推理更安全可靠。 总结,三点五 flash 以旗舰智能和极致速度重新定义代理模型,让强大 ai 普惠开启行动智能新篇章。

最新的加美莱三点五发包,刚才用它生成的一个视频啊,我们来看一下,这是简单的提示词, 不知道大家觉得怎么样?如果大家也想使用的来写作画图、做数据分析、写代码等等,都可以点击我主页的置顶作品找到我。

大家知道,我一般不轻易说卧槽这种词,但这次当我们把 gemini 三点五接入微信时,我还是没忍住,这也太离谱了, gemini 三点五让微信活了过来,我甚至觉得他已经摸到了图灵测试的边缘。举个例子,用户只说了一半的话,他会带着情绪追问,哎,你只说了一半吧,急死我了! 分得清这是 ai 还是真人吗?我们好几个用户已经开始拿它做图灵测试了,看谁真的能分清到底在跟 ai 聊天,还是跟一个热心网友聊天。更夸张的是,这么来,三点五结合石榴 ai 桌面智能体,他真的能像人一样操作电脑,自己识别聊天窗口,点开新对话、新私信新群, 跑过去直接回复用户,不是脚本,不是模板,而是真的会看会想会说,帮你七成二十四小时自动回复客户 常见咨询,不错过任何一个潜在机会。如果你用在工作微信或企业微信上,他会是一个不知皮赚的超级助手。想体验一下让微信自己火起来的感觉吗?评论区扣 ai!

ai 圈有个不可能三角,性能、速度、成本你总得放弃一个,但 google 却说它可以全都要,这怎么可能?它们刚发布的 gemini 三点五 flash 简直刷新了我的认知, 它不仅拥有旗舰模型一样的聪明劲儿,速度更是其他领先模型的四倍。想象一下,以前那些需要程序员花好几天甚至审计师忙几周的任务,现在几分钟就能搞定,而且用的钱还不到其他模型的一半,这不就是鱼和熊掌都兼得了吗? 过去我们总觉得想要速度快,质量就得打折,想要性能好,成本就得飙升。但 gemini 三点五 flash 似乎找到了那个平衡点。 它到底是怎么做到的?凭什么能同时满足高智能、高效率、低成本这三个看似矛盾的要求?今天咱们就来深挖一下 google 是 如何打破这个 ai 行业公认的不可能三角的,这不仅是技术上的大突破,更会给我们的日常工作带来实实在在的改变。 所以别眨眼,精彩才刚刚开始。 ai 圈里总说性能、速度、成本总得牺牲一个,但 gemini 三点五 flash 出现直接打破这惯例,它不光快,智能水平也达到了旗舰模型。看它的关键数据, 在编码和复杂任务测试 terminalbench 二点一中, gemini 三点五 flash 拿到百分之七十六点二高分,超过 gemini 三点一 pro 智能体任务的 mcp atlus 精准测试,它也取得百分之八十三点六好成绩。 对多模态信息理解、文字、图片、视频这些他同样出色。 chart fourteen recent 测试得分高达百分之八十四点二,复杂信息他也能快速准确理解、 亮眼表现,得到权威机构 artificial analysis 认证。他们将 gemini 三点五 flesh 放在指数右上象限,表明他同时具备前沿智能和卓越速度。可以说, gemini 三点五 flesh 做到了鱼和熊掌兼得,他不光快,更是顶级的聪明选手。 而这种顶级智能,它用在了智能体任务这个新维度。这到底意味着什么?又会带来哪些改变呢? ai 的 下半场已经来了,以前它只会聊天、写东西,现在它要学会行动了。这个新趋势叫做智能体。 gemini 三点五 flash 就是 为这类长周期智能体任务量身打造的,它不再是被动生成内容,而是像个数字员工,能主动规划执行多步骤的工作。 google 为此专门推出了 anti gravity 平台,这个平台就是用来开发和部署智能体的,它能把多个子智能体组合起来,就像组建一个虚拟团队,大家一起解决那些大难题。 打个比方,以前一个项目可能要花几周,现在有了 anti gravity 和 gemini 三点五 flesh, 一个主智能体带着好几个子智能体,可能几分钟就能搞定大部分。这超出了我们对 ai 工具的想象,他不再是助手,而是一个能自主思考和执行的新同事。理论听起来挺厉害的,对吧? 那这些智能体到底能在实际工作中做什么呢?咱们就来看几个代码和开发领域那些颠覆性的真实案例。 智能体到底能干啥?看看 google 怎么用。 gemini 三点五 flash, 两个智能体,一个研究员,一个程序员,六小时内,它们就从 alpha zero 论文中学习并完整开发出一款游戏,这不是普通编程,是理解加创造, 还有老旧混乱的代码库程序员的痛点。三点五 flash 结合 ant gravity 平台,能自动重构这些遗留代码, 甚至直接迁移到 next js 框架,这节约的人工时间太惊人了。它还能并行设计,比如一个 app 的 结账流程,三点五 flash 在 六十秒内就能给出多种用户体验方案,它像个能自主思考执行的虚拟团队。这种认知劳作的自动化,会给商业带来多大的效率革命? 上次我们聊到 ai, 已经不光会生成内容了,它开始学会行动了。这种能自主思考执行的智能体,可不是只在代码世界里转。 现在他正在金融、电商这些大行业里变成真正的超级员工。比如电商巨头 shopify, 他 们现在就在用 gemini 三点五 flash 的 子智能体。这些智能体能像一支专业的分析团队一样,并行分析大量复杂的商家数据。 要知道,这些数据时间跨度长,信息量特别大,目标是干啥呢?更准确地预测全球商家的增长趋势。 以前这可能是个非常耗时耗力的工作,现在有了智能体,决策就能更及时,生意就能做得更准。再看看金融行业,澳大利亚的麦格里银行,他们就在试点用三点五 flash 来处理客户入职。想想看,一个新客户入职要审阅一百多页的复杂文件, 这些文件包括各种法律条款、财务信息。传统上人工审核耗时又容易出错。现在智能体可以低延迟推理这些文件。什么叫低延迟?就是响应速度非常快,客户入职流程大大加速,体验自然就好,银行也能更快地把客户服务做好。 还有大家熟悉的 sauce 巨头 salesforce, 他 们已经把 gemini 三点五 flash 集成到了自己的 agentforce 平台,通过部署多个能记住上下文,并且能调用各种复杂工具的子智能体,来自动化企业的日常任务。 就像有了很多个专业的虚拟助手,能处理客户服务、销售流程、数据分析等等。而且它还能确保这些任务的执行非常可靠,出错率大大降低。这不就是把效率直接拉满了吗? 你可能会觉得这种企业级的应用离普通人还很远,但其实这项技术已经悄悄来到了我们每个人的身边。你可能觉得这种企业级的应用离普通人还很远,但其实这项技术已经悄悄来到了我们每个人的身边。没错,我说的就是你的数字生活管家,他叫 gemini spark。 这个 spark 就是 基于 gemini 三点五 flash 打造的,你可以把它想象成一个私人助理,二十四小时在线,随时待命。它能帮你处理数字生活里的各种事,就向你的数字分身,比如帮你规划日程、整理邮件,甚至是在线处理一些信息。 而且啊, gemini 三点五 flash 不 光驱动 spark, 它还深度用在了 google 搜索的 ai 模式里。当你搜索一个复杂概念,比如回旋体模型, ai 模式就能给你生成一个交互式的视觉解释,像动画一样,特别直观。 这个超酷的 gemini spark 测试版会先在美国给 google ai ultra 的 订阅用户开放,很快它就会成为你数字生活里不可或缺的一部分。一个能全天候替你打理一切的 ai, 听起来是不是很强大?但同时也引出一个问题,这样的 ai 它安全吗?我们到底该不该信任它呢? 上集聊到 ai 已经能变成你的数字生活管家了,是不是觉得它特别强大?但同时心里会有点担心,这样的 ai 它到底安全不安全?我们能完全信任它吗? google 对 这个问题非常重视,它们为 jammin 三点五的开发专门建立了一套前沿安全框架。 这套框架可不是说说而已,它在好几个关键领域都加了江省。比如针对现在大家特别关心的网络安全,还有 cbrn 这种敏感的化学生物放射性核核信息, google 都做了特殊的防护增强。 也就是说,在这些非常重要的、潜在风险高的领域, gemini 三点五会有更严格的限制。它们还用了新的更高级的安全训练方法,这能大大降低 ai 模型生成有害内容,或者把一些本来无害的查询错误地当作安全问题拒绝回答的概率。 这就好像给 ai 不 断打磨它的道德指南针,让它更准确、更可靠。更让人放心的是, gemini 三点五还内置了可解释性工具,你知道这意味着什么吗? 就是说,在 ai 给出任何一个响应之前,我们不是被动接受结果。通过这些工具,我们可以检查和理解 ai 内部的思考过程,它是怎么得出这个结论的? 这就好比一个透明的黑箱,让它的决策不再是完全的秘密。这种透明度能帮我们更好地理解 ai, 监督 ai。 所以 说, google 不 仅仅是把工具交到你手里,它们也尽力让这把利器变得更安全、更可控。那么, google 到底会怎么把这些强大的工具推向世界? 他们的商业策略是什么?我们接着聊 google 为什么这么急?他正用 gemini 三点五 flash 打一场全面战争。这场 ai 战役不仅覆盖数十亿普通用户,更是直接把手伸向了开发者和企业,要跟微软 open ai 抢未来。 你可能已经感受到了, gemini 三点五 flash 已经进入了你的手机,通过 gemini 应用,还有 google 搜索的 ai 模式,全球几十亿人都能直接用到。它不仅仅是个聊天工具,更像一个随时待命的助理,帮你处理日常信息。但 google 的 野心不止于此, 他们也把这个强大的模型开放给了全世界的开发者,比如通过 google android studio, android studio 里的 gemini api, 开发者能用它来打造各种新应用,甚至直接改写代码逻辑。更关键的是,在企业层面, google 推出了 gemini 企业智能体平台, 还有专门的 gemini 企业版。这意味着从个人到企业,从我们日常生活到公司运营, gemini 三点五 flash 几乎是无孔不入, 它就像一个超级员工,帮企业自动化复杂的日常任务。 google 这么做目的很明确,就是要构建一个完整的 ai 生态,把所有的用户、开发者、企业都拉到自己的阵营里。 这可不只是技术竞争,更是商业版图的大争夺,它想把微软 open ai 甩在身后,成为 ai 时代的真正主导者。 所以,这不光是技术突破,也不光是商业落地,它预示着 ai 的 新时代已经完全到来了。我们聊了那么多,从 jammin 三点五 flash 的 速度、性能,到它如何成为你的数字生活管家,我们甚至看到了它在安全框架下的严格约束,还有 google 怎样把它推向全球市场。 但这些具体的例子都在指向一个更宏大的趋势,那就是 ai 已经不再只是一个信息工具了,它正在从一个知识的提供者转变为一个能真正行动的伙伴。以前你可能让 ai 帮你写个邮件,查个资料,现在它能帮你直接重构上百行代码,在短短几小时内就完成一个游戏原型。 或者就像我们前面说的,它能帮你处理复杂的财务报表,甚至还能像个专业的数字管家一样打理你的日程、邮件,甚至帮你在线处理一些信息。这意味着什么呢?这意味着我们和 ai 的 协助模式正在被彻底改写,它不再只是一个听话的助手,而是一个有思考、有执行能力的智能体。 google 用 gemini 三点五 flash 引领 ai 从信息工具转变为行动伙伴,它在用实际行动告诉我们, ai 的 下半场就是智能的行动时代。 所以,当 ai 能够独立思考并且像一个人一样去行动的时候,我们的工作和生活会变成什么样?我们的创造力又会怎样被它拓展呢? 那些重复性的任务是不是真的可以彻底交给 ai 了?这不光是技术突破,更是对我们未来世界的一次重新定义。思考一下,这其中是不是也有你的机会呢?

如果只看标题, gemini 三点五好像只是一次常规模型升级,但这场发布会真正想讲的,是 google 要把 ai 变成整个产品生态的操作层。先看 gemini 三点五 flash, 它不是只给聊天提速,而是在为智能体代码任务和长流程执行做准备。 官方反复强调三件事,速度、成本、还有行动能力,所以参考片里说的一年省十亿。重点不是噱头,当企业每天都在调用模型,模型便宜一点,速度快一点,最后都会变成真金白银。 第二个重点是 java spark, 你 可以把它理解成一个云端智能体入口,用户不用自己准备电脑环境,也不用手动拼工具,直接用对话安排持续性任务,比如整理信息、跟进流程、定期处理机械化工作,关掉电脑以后也能继续跑。 这个方向不新,但 google 的 优势很现实, chrome、 gmail、 地图、 youtube、 支付、搜索这些入口本来就在他手里,别的智能体需要到处接工具, google 更像是把自家的工具直接串起来。第三个重点是 gemini, 它的卖点不是只会生成视频, 而是让输入和输出都走向全模态,文本、图片、音频、视频都可以参与进来,生成结果也不止限于一种形式。官方演示里改视频、换风格、合成角色都可以放在同一个流程里做, 这意味着以后创作可能不用在八个 ai 工具之间来回切。再看开发者测 anti gravity, 二点零也被拉到台前演示,重点不是补一段代码,而是让多个智能体一起推进复杂项目,写代码、开浏览器、跑测试、修问题、再验证,开始变成一个壁画。 所以 google 这次真正发布的不是一个孤立模型,它是在给整个 google 宇宙做一次 ai 版本升级。 搜索、地图、邮箱、视频浏览器都会慢慢变成能对话、能记住上下文、能帮你完成动作的界面。 jamming i 三点五最值得关注的不是单向跑分,而是模型能力、工具入口、执行成本和生态数据被放到了一张桌子上。 如果 google 真能把这些东西打通, ai 就 不再只是网页里的聊天框,它会变成你打开浏览器、地图、邮箱和创作工具时默认就存在的操作层。这才是这场发布会真正值得盯住的地方。关注我继续用普通人听得懂的方式,拆解 ai 产品和开发效率的新变化。

japanese 三点五重慢更新啊,那 pro 的 话是在六月份更新啊,然后这次的谷歌大会还更新哪些什么东西?一个是视频模型啊啊,多模态模型, omni, 它是可以这 u v u 的 这个视频模型啊,那个做 t k 的 有福了, 然后还更新了 indigo 二点零,把整一个的谷歌的几乎全部的生态全部都融合融合进去了。还有一个是 germany spark, 但是这个东西的话就是安卓的系统,还有它要打造的是一个二十小时的呃引擎,但是这个东西的话就是安卓的系统,它要打造的是一个二十小时的呃引擎,但是只支持 u 传用户使用。 那么智能企时代真正的又开启了,谷歌现在御商家里面,我本来谷歌就是一直在落后,但现在的话我感觉他慢慢的一定要往上去追了,毕竟有钱有人嘛。 然后整一个的谷歌的发展的话,从当时的整个搜索入口到广告到商店已经是增长了几十万倍了, 搜索属于过去啊,智能体才是未来。现在全部的所有的 ai 公司都把重心放在了整一个的 ai 的 争夺战上面,毕竟只要有入口,一旦被切入,基本上就后面你就想谁也不可落后,因为落后了都是。

今天是五月十九号,让我们看看上周 ai 圈又发生了什么。 先说谷歌明天即将到来的 ai 领域的重头戏 google i o 二零二六大会 将在太平洋时间五月十九日上午十点正式开幕。这可不是例行更新,据传 gemini 三点五 v o 四以及全新 gemini 桌面端的 gemini spark 都会在现场发布, 而且谷歌已经在大会前给 gemini 网页端做了预热式更新,新的主题样式已经上线 周使用额度机制做了调整,思考模式也被明确拆成了标准和拓展两档。谷歌现在能否和 cloud 四点七以及 gpt 五点五继续抗衡,就看它的 gemini 三点五表现如何了。接下来看看 openai 吧。 这周他们给拆的 gpt 手机端加了个 codex 的 远程控制,简单来说就是你可以把写代码这种重活挂在 mac 或者服务器上跑,自己拿着手机在外面溜达,遇到报错或者需要合并代码,手机上点一下审批就行了,这明显极大方便了远程办公 程序员,距离授权工程师的完全形态又进了一步。蚂蚁集团这边动作也挺快的,上周刚发了拎影,这周又开源了一个万亿参数的思考模型 ring 二点六一 t。 这个模型属于那种专门干重活的智能体引擎,数学啊写代码啊这种高难度任务他比较擅长,里面还专门搞了个强化学习算法, 据说是为了解决大模型长时间跑任务容易崩溃的问题。感觉他们是铁了心要在复杂任务这块卷到底了。还有一个比较有意思的是, thinking machines 前 open ai 核心成员搞的发了个多模态模型 t m l interaction small, 他 直接把那种你一句我一句的回合制聊天给废了, 能在你说话或者做动作的时候同时给出反应,延迟大概两百毫秒吧, 感觉以后跟 ai 聊天终于不用傻等它回复了。视觉和控制这一块呢。字节跳动开源了一个全能智能体 u i tars 一 点五,为了方便大家在自己电脑上跑,还特意发了个七十亿参数的清量版,主要就是帮你操作电脑桌面的定位还挺准的, 算是个不错的本地小助手底座。然后是英伟达他们开源了萨纳模型,原声支持四 k 声图,重点是它特别省算力,参数量只有 flex 的 二十分之一,速度却快了差不多一百倍。它们还顺手发了个视频生成版本。 再来看看开发工具 curser 更新了内置的 composer 二点五代码模型,底座是开源的 kimi 二点五跑分基本追平了现在最顶级的模型,但重点是它很轻,跑一次任务成本不到一美元, 对开发者还挺友好的。 andromic 那 边呢,给 cloud code 弄了个原生的命令行面板, 以后挂机跑那些耗时的代码任务就方便多了,不用开一堆窗口,直接在后台跑就行, 算是个提高幸福感的小更新吧。还有就是 metta 他 们搞了个叫 fast bite latent transformer 的 底层架构, 直接绕开了传统的分词器,做到了字节级别的并行解码,不仅省显存,速度也快了不少,感觉底层架构这块大家都在拼命优化。最后快速过两条短信,首先是 openai 发布了专为网络防御团队打造的 daybreak 平台, 利用内置的 codex 智能体在代码仓库里自动查漏补缺,还给配了个最高权限的预览模型,做安全的同学可以关注一下。第二条是何凯明团队发了篇新论文,提出了一种叫 e o f 的 语言扩散模型,打破了传统的竹词预测, 直接在连续空间里像处理图像一样生成文字,只用十分之一的训练量就干翻了一票,主流方法挺硬核的。接下来看下上周全球前十的生成式 ai 产品访问量排名, jamie 掉第五有段时间了,豆包现在已经在前十站住了脚。 然后再看一下近一年生成式 ai 访问量的变化。最后再看看本周 hugging face 上热度前十的开源模型有哪些,这期就这样,感谢收看!

距离 google i o 只剩四天, google 这边却先泄了两条大消息,一个是 gemini 三点五 flash checkpoint 已经上了 arena, 另一个是新 agent 功能 gemini spark 也开始流出。更反常的是,这个 flash 的 输出完全不像大家印象里的 flash, 它被挂在 gemini 三 flash 的 名字下面,但表现却像在隐身状态里偷偷升级过。外界测试里,它的结果甚至传出压过 gemini 三点一, pro 还领先 cloud 四点七 opus。 也就是说,一个名义上走速度路线的模型,居然在质量上正面顶住了高端推理模型,这就很不寻常了。 更有意思的是,对比前几天那批 jimi、 nike 三点二 plus 和 pro 的 泄露,官感完全不是一个级别。前一轮还偏平庸,这一轮已经明显更干净更完整,单轮外部应用生成也更顺,速度还保留着 plus 应有的快乐。 只是要提醒一点, arina 只是偏好型,精准赢了不等于真实能力就一定碾压,真正要看的是推理评测和复杂任务完成度。但这次最能说明问题的不是排名,而是时机。 damon 有 人直接拿这个新 checkpoint 做了一个 minecraft 克隆,而且完成度被认为是同类里最好的之一。 他不只是能生成页面,还能把主菜单、世界、创建难度选择这些交互跑通,甚至还带多人功能的尝试。这里释放的信号很清楚, google 可能真的开始把更强的东西拿出来了。这 这类模型竞争,最后拼的不是谁的名字更响,而是谁能把快、稳、能、干活同时做到位。 flash 如果真能做到接近高端模型的质量,又保留低延迟和高效率,那它就不只是一个便宜版本,而是会重新改写大家对模型分层的理解。关注全球 ai 速递,获取更多 ai 前沿资讯!

谷歌 i o 只剩几天, jimmy 奶这一轮更新也开始进入密集测试期。可以看到,这次不是单点试验,而是 flash pro 多个 check point 同步推进,节奏非常紧。 先别急着看版本号,真正值得关注的是,它们在轻量和高配两条线上,已经同时把门槛往上抬了一截。 先看 jimmy nike 三点二 pro 整体不差,但问题也很明显提升,没有形成那种一眼能感受到的跃迁,尤其是前端输出,老是反复冒出相似的 pino 风格,审美很快就会疲劳。可命名一改,局面就变了, jimmy nike 三点二直接切到 jimmy nike 三点五。而且 flash 和 pro 会一起在 i o 上亮相,这说明这次不是小修小补, 而是一次正式升级。真正把气氛拉满的是 gemini 三点五 flash, 它最夸张的地方不是能生成,而是能生成一个完整的 minecraft clone, 有 背景音乐,有组建,有健康条,甚至还能连服务器移动切换 creative mode。 更关键的是,整体完成度已经接近可交互。前端不只是象,而是真的把玩法骨架搭出来了。更有意思的是,名义上它还是 flash t, 但实际表现已经能和更高端的模型掰手腕,甚至在多次前端生成里压过一些老牌强项。它的变化还不只是更强,而是更会做布局更干净,层级更清楚,重复 pawn 明显少了,空间一致性也稳了很多。 最能说明问题的是那只鹦鹉骑自行车的阿斯基二。这种任务最考验长城结构控制,很多模型会中途散掉,但给 mini 三点五 flash 把字幅画完整撑住了,还能调背景色,调字幅大小和扫描线, 也就是说,它不只是快,而是开始同时兼顾速度、推理和审美。所以这次最值得记住的不是某一个炫技案例,而是 flash 线的定位变了,它不再只是便宜、响应快的备选项,而是开始往又快又聪明靠近。 ai 竞争真正拉开的往往不是单次经验,而是谁能把高质量输出稳定地做成日常能力。关注全球 ai 速递,获取更多 ai 前沿资讯!

前几天 google 开发者大会发布了专门的三点五 flash, 那 么我也是第一时间用我的 google ultra 的 账号来试试。先说 google 这次产品做的真是一坨屎,很多朋友也看到两个客户端有点懵逼, anti gravity, 我 先简称它为反重力,是 google 编码的客户端,但是是有两个客户端的,分别是反重力二点零和反重力 ide, 那 么一个更像是 vs code 的 串口,一个更简洁。 google 真的 有时候不太注意用户的体验,也没有很好的告诉消费者两个的端口的区别,有些朋友可能找不到这个端口,反正先不管怎么样,先试试 jammer 三点五 flash 的 能力。老规矩,让他帮我们先做一张天气卡,我们来看看到底效果如何。 那么整体效果还是不错,我认为整体的前段能力还是很强的,天气卡的能力比 deepsea v 四要强上一点,感觉差不多能比肩质朴五点一。但是后端很多朋友反映 jamming 的 能力依旧是有问题,而且有嘴硬,幻觉率非常非常高, 那么并不作为大家的优先使用模型。我个人感觉的话, jamming 三点五 flash 也是闹麻了对吧?更像美国豆包。 好来看 api 的 价格,虽然 java 三点五 flash 没有开源,但是可以根据 tpu 的 显存待宽,推理速度可以反推,估计也就是二百五到四百币的 me 或者 flash 模型,但是这个价格太离谱了。 为什么说离谱呢?因为你看 api 的 价格,输入比 vs flash 贵十倍,输出比 vs flash 贵三十倍,那么按照 tpu 反推的话, java 的 利率在百分之九十以上, 那我相信这个价格大家肯定会选择 tpc, 也有朋友说 google 内部有很大的问题,比如说 google cloud 肯定是觉得 tpu 资源卖给竞争对手是非常赚钱的生意,而 jammer 肯定是倾向于把这个 tpu 资源给客户,以确保这个 jammerc 端用户的粘性,所以这种情况是既要又要。我感觉导致 jammerc 三点五 plus 拉完了。感觉这次 jammerc 三点五 plus 就是 感觉它们内部步调不一样,做的也是前后不一致。 这次发布的欧曼奈视频模型如何?我们一起来测试一下能不能和 cds 二点零持平了。不过这次发布的欧曼奈的视频模型跟 cds 二点零完全没办法比,不管是可操作性还是整体镜头的一致性,还是各方面。当然它价格很便宜,可能价格不如这个 cds 的 十分之一,但是做的确实也很拉。 我不知道有后期他会不会去优化这个模型,让这个有更多可编辑的选项,比如声音,包括视频的流畅度有一个更好的提升。 我个人感觉欧慕莱视频模型仿佛面向的不像是这种 c 端客户,不像是这种用户消费者的这种体验的感觉,它更像是面向一个 b 端用户的 样板,他做的不完善,可能后续如果面向 c 端客户把 omnit 视频模型整合进去,我觉得可能会体验感会更强一点,包括 jimmy 三点五 flash, 可能他去把这个产品优化一些,我觉得可能对 c 端的用户会更好一点,包括他自家的编码的客户端都有两个,自己也搞不清楚。 那希望六月份的 gemini 三点五 pro 能带给我们不一样的惊喜,这次 gemini 三点五 flash 确实拉了个大呢,不知道下次 gemini 三点五 pro 能不能重现 gemini 二点五发布时候的那种惊艳感觉呢? ok, 我 们下期再见。