ai 新闻早知道大家好,这里是首一的每日 ai 新闻,本期视频想跟大家分享刚刚过去几天,整个 ai 行业有哪些大事发生。谷歌正式上线 jammin 三点五 flash, 同时推出了 antigravity 二点零,这款产品对标 colex 桌面客户端,收获了不少用户的正面评价, 不过目前产品依旧存在不少功能体验问题。另外, open ai 在 上周官宣 codex 功能正式登录 gpt 移动端应用,现在大家使用手机就能调用 ai 工具协助处理各类工作事务。接下来给大家逐个分享。首先聊聊谷歌 jammin 三点五 flash 的 发布, 这也是行业内关注度较高的消息,它也是谷歌限阶段推出的综合表现较突出的大冒险。结合目前公布的多项专业测评数据来看, jamnit 三点五 flash 的 整体表现十分亮眼,但对比 g p 五点五、 oppo 四点七这类当下主流新版本依旧存在小幅差距,毕竟它只是三点五系列的 flash 版本, 并非定位高阶的三点五 pro。 有 消息称, jamnit 三点五 pro 会在下月上旬正式上线,我们可以一同观望这款高阶模型的实际表现。大家都清楚, flash 系列版本主打快速响应输出,按照官方公布的数据, 他的平均输出速度相比旧版提升四倍以上,也有不少网友亲自上手实测,都反馈他的响应速度提升十分明显,相比过往版本运行效率得到了大幅优化。他在专业测评中的各项数据表现也十分可观。官方还提到,新版本的使用成本缩减至原先的一半, 能看出谷歌在产品性能与使用成本上完成了全面升级,整体表现可圈可点。这还只是先行推出的 flash 版本,不妨期待一下 gemini 三点五 flash 的 实际使用体验。接着上线的 anti gravity 二点零,算得上是本次更新里一大亮点产品,这款产品也被大家称作谷歌版 codex。 此前 cloud code 就 推出过桌面客户端,而桌面端产品的雏形最早来自 codex, 大家可以体验一下这款 anti gravity 二点零, 它的界面设计和 codex 高度相似,对比谷歌过往多款产品,包括初代 anti gravity, 新版本的整体能力有明显进步,不管是实际使用感受还是界面交互设计, 操作起来都更加顺手。初代 anti gravity 的 设计风格偏向 cursor, 如今新版风格完全靠拢 codex, 不 难发现,谷歌几经尝试后,最终参考了 openai 旗下热门产品的设计思路,这件事也成了行业里有趣的话题,感兴趣的朋友可以上手体验一番。 虽说 jamming 系列响应速度不俗,但在处理实际问题时还有提升空间。我之前也提到三点五 flash 只是先行试水的版本,或许等到三点五 pro 上线之后,整体使用体验会变得更好。 谷歌近期的新品更新节奏并不快, oppo 四点七在四月初就已发布,紧接着 g p t 五点五也在四月中旬正式亮相。如今已经到了五月底, 谷歌才推出新款模型,而且还只是 flash 版本。在这一轮大模型比拼当中,谷歌比同行晚了接近两个月,差距较为明显。本次谷歌开发者大会上,官方公布了大量旗下相关产品信息,其中针对 gemini omni 的 多模态数据分析能力也展示了不少演示案例。 不过这些演示效果落地到普通用户手中,实际体验如何暂时还无法下定论。大会还公布了多款硬件产品,包含智能眼镜以及专门管理 ai 智能体的使用工具,这类产品预计会在今年秋季陆续推出。 整体来看,昨天这场开发者大会的核心内容就是发布 gemini 三点五、 flash 与安钛 gravity 二点零,同时介绍了 omni 多模态生成模型, 其余内容都属于辅助信息,这里就不一一赘述。还有 openai 已经把 codex 功能整合进 gpt 移动端,现在我们拿出手机就能调用 codex 搭配 ai 完成各类工作任务。 简单来说,如今依靠手机就可以发起各类 ai 相关操作。不过运行速度会受到网络环境、使用地区等因素影响,整体输出效率也会受制于大模型本身的性能上限,但移动端直连 ai 的 使用方式已经正式落地。 经过近一周的大众实测,这款功能收获了不错的用户口碑。近段时间里, open ai 的 各类 ai 工具始终处在行业前沿 发展状态,和今年二三月的 cloud 十分相像。反观 cloud, 近期并没有推出让人眼前一亮的新品或是全新大模型,过去一周多的时间里,它仅做了一些小功能调整,没有重磅更新。再来看 open router 平台的数据, 我之前就判断 deepseek v 四上线后排名会快速攀升。这款模型主打的就是高性价比,综合实力出众 榜单前十当中, deep seek v 四 flash 名列前茅, cloud 的 旗下两款模型分别位居第三、第四。在需要大量字母交互、高频次使用同时控制使用成本的场景下, deep seek v 四的竞争力较为突出,同类产品很难与之抗衡。 deep seek v 四刚上线时,受接口对接等问题影响,没能立刻大范围普及, 如今距离他发布已经过去了近一个月,走势和我此前的预判一致,成功跻身榜单前列。以上就是本期视频的全部内容了,我会定时给大家更新 ai 资讯,感谢各位的收看,我们下期视频再见!拜拜!
粉丝150获赞684

谷歌的界面的三点五正式上线了,整体的实力大幅提升,在多模态识别代码的边写以及智能交互体验都相当的不错,运行也很丝滑流畅,还支持大容量的上下文创作和办公,都很适配, 新手也能轻松的上手使用。大家好,我是温谷,我相信有很多小伙伴们已经在界面的官网中已经使用了三点五这样一个模型,我教大家三个使用方法,适合自建工作流, ai 的 写作、文案生成、图片、海报和抖音运营的同学。 第一,课请求调用,适合在工作中前开始调试。第二,通过 python 代码的 sdk 的 调用,适合自建 skills, 最后给 open claw 和 hammer agent 使用。第三, n 八 n 工作流使用,适合打造自己的数字能演示。一,我们用这个课请求来试一试, 好吧,然后课请求就是 c u r o, 这个大家可以往上搜一下,大家可以看一下,就是我这里 api 的 端点,就是 generate language, 谷歌点 api 点 com, 请大家注意一下这个,它不是一个呃, open ai 的 标准的一个模式,就是 如果你是那个 open ai 的 一个标准的模式,它应该是左斜杠杠归,然后再左斜杠 chat 它,这个不是,所以说我们一般做调试用,可以看一下这里面,我这边的这个,你看它后面紧接的模型是 jame 三点五, flash, genevate content, 然后 key 就 跟到我这个 key 啊,这个这个,我 key 把它暴露出来没?其实没有关系啊,因为反正这也是免费的,你看他是,你是一个专业的专业助手,解释一下什么是 leg 这个技术啊,他就已经回复了,从那里看这个这么多模型。那其实啊,这也不是我说的是这个,这个我给大家看一下, as 丢了的话,你去 get 这个 apikey 啊,我这里有好几个 apikey, 拿到这个 apikey 以后,哎,你就可以去做这个啊,就可以去把这个呃,你的 apikey 放在这里就可以做调试使用,调通了以后,你再把这个再去放到代码里面进行调试啊,然后这里它有一个这个 这个限制的。在这个地方啊,你可以看一下这里的 c 末啊,有个三点五 flag, 我 找一找啊,他这个用这个表经常会刷新的,哎,这个有个 jimi 的 三点五是吧?这是个文本输入过大模型, 它的 p r m 也就是每分钟的这个 token 啊,就每分钟五个这样是吧? t p m 这个是代表它每分钟的 token 数,它每分钟给了你两万五千个 token 啊,所以说你养龙虾可能够呛,但是你做这个自动化变卖流啊,是吧? n 八 n 啊,包括底价都是没任何问题,它一个这个分钟应该是可以, 应该是每秒了,是吧? pick lock, 那 每分钟给允许你掉五次是吧?每每分钟给你两万五千个头等,这应该是够用的啊。这个这是最最近昨天更新出来的,因为昨天这个谷歌二零二六的开发者大会是公开了个 gmail 三点五 啊,然后那个杠 max 啊,还 pro 还没有发布吧?应该是啊,但是呢, flash 应该非常强了啊,非非常强,他现在给大家免费的话,呃,大家一定要去用啊。然后第二种用法的话,就是我这个地方调了一下这个这个这个这个这个地方给大家看一下,就是 啊,这里是生成一一张什么图片啊?这这这个倒没什么,这个是我,我那个是纹身图的,是吧?我这里是用的这个谷歌的追未来的一个这个 sdk 啊,大家去引入这个 sdk 啊, flunk 谷歌 input 的 追未来 ai, 然后你下载它的 sdk 就 可以用了,是吧?然后再把我的 api 放进去,你可以跟我老师给大家演示一下啊。好, 我逻辑了下,我这里可以总共使用有五十二个模型啊,有些是收费的,有些是免费的,然后等一等, 哎,这里出来了,是吧?做的是一个让他设计这个一个品牌的一个文案,是吧?文案是吧?对对对,好, 那第三种情况也是大家常最常用的,就是这个在 n 八 n 里面这么用的,我把它拿过来给大家看一下,这个是刚刚跑出来的结果啊,之前我演示的是这个,用这个魔大平台,这个地方我用的是谷歌的,是吧?谷歌的这个是吧?然后这个地方你需要把这个 api 塞上去,哎,这里塞上去以后它连接成功了,连接成功了以后, 在这个地方你可以选择它的模型了,是吧?你一定要选择三点五是吧?最早啊,就是上周前指的免费的模型,就是街面的二点五那个比较拉快啊, 是吧?已经谷歌让我们二点五已经是发布两年前的模型啊,这个是昨天最新的模型,呃,比较强大。其他的都是收费的啊。其他这个 pro、 pro、 vivo 啊,包括这个 max 啊,都是收费的。但是三点五 plus 目前是免费的啊,为什么是免费的?刚刚跟我老师给大家看的是谷歌官网,是 是选选择,目前是现在是免费的,应该他在开发者大会上已经说了这个是免费给大家用,我相信他也不会说他给大家用一两头就关掉他,是吧?谷歌应该丢不起这个脸,是吧?好,然后这个给大家跑一下吧,对, 跑一下,这个乱乱一下就好了,哎,这个我是做了一个这个新闻的整理啊,就是第一步就是我再去搜索这个新闻,是吧?然后搜索到新闻,最后拿到这个新闻的素材,是吧?然后把这个套的新闻给我整理出来,最后拿到这个话我就会发到什么,是吧?是吧?某某抖是吧? 啊?你看这个是今天上午啊,五月二十一号的 a i 新闻,等等等等,是吧?是吧?噔噔噔噔噔,好,这是我今天给大家三个用法,希望大家去调试和使用,有问题的话小伙伴可以在这个评论区留言,我看到都会回复大家的。

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!

谷歌刚刚发布了 jimmy 三点五 plus, 同时还把他们的编程工具 antigravity 升级了二点零,那这次就很明显了,谷歌的话这次是要全面提升它的这个抠点能力。之前不管是在 coi 还是 ide 还有模型, 其实给我的感觉就表现很一般,那这一次的话,这个模型最大的亮点官方说就是它的这一个速度啊,是前模型的四倍, 所以这一期我们就测一个最关键的问题,这么快的速度,它整个的一个代码质量会不会缩水?那我直接会拿两道真实的一个编程任务,把它和 cloud op 四点七, gpt 五点五放到同样的项目里面,同样提示时看它大家的一个表现情况。那下面的话,我们大概去扫一下它官方改出来的一个奔驰 mark 评分哈, 在编程方面的话,主要就看这一个 terminal, 奔驰二点一,还有这一个 sw 一 奔驰 pro, 从这个评分看的话,这一个 jimmy 三点五 plus 这个评分还是可以的哈,但是基于我之前对于谷歌模型实测的结果来看,就是评分不代表一切,因为之前就感觉它在这个编程方面挺拉的,这次我们就看整个的一个三点五 plus 表现到底怎么样。那这一次的话,我们的整个测试题目哈,就是沿用之前测试 cloud of 四点七,还有就是 gpt 五点五的两道真实的一个编程任务。第一个的话就是我们这一个 skills agent 嘛,需要把它从一个 c o i 做成一个 web ui。 第二个的话是希望他从一个已有的比较复杂一个项目里面把这个认证登录给它迁移过来,这一块也比较复杂,需要支持啊, get 谷歌,然后还要做一个落地页。好,我们来看一下这两个实测项目哈,左边的话,就我刚刚说的这一个 skill is a 镜头嘛,第二个的话就我们图片生成 a 镜头,那这次的话,我们是用了这个 anti gravity 它的一个 c o i 终端工具, 整体这一块呢,它的交互的话是跟呃卡扣的很像,那我这边测试下来,他的速度是真的快,相当相当的快,他说四倍,一点都没夸张。 那大家看一下它这个交互的一个情况啊,其实还是感觉挺挺好的。这个交互,那至于整个模型的能力怎么样,那这两个任务我这边实测下来,它都没有一次性的去完成,它或多或少都有一些小问题。那同样的这个提示值,在同样的项目,我给到了 gpt 五点五 以及 calloff 四点七,它都是能够一次性完成的,不管这两边哪一个项目都可以完成。但是 gmail 三点五 plus 它除了快,但它其实还是会有一些或多或少的 bug 嘛。好,我们来看一下它整体的一个表现情况。 好,我们来看一下这个是 jimmy 三点五 plus 帮我们完成的 skus agent 的 一个 ui 界面嘛,它可以去执行一些操作,比如说我给他一篇文章,可以让他帮我们去总结,它就会去加载这个的 skus。 就 我之前有一期视频 专门讲了这个 skills 的 一个工作原理嘛,那这是它完成的一个效果,整体上 ui 这块还 ok, 那 这边的话是 g p d 五点五给我们完成的,左边也是有我们的一个的一些 skills 是 哪一些?那右边的话就是它整个的一个操作的一个过程嘛。怎么说它这个 ui 的 一个结果的话,我觉得就是呃 g p d 五点五的会好一些。 那关于图片生成这个项目,让它去做一个落地页,以及让它去做一个就是谷歌 get 五的认证登录嘛,那这块它也是完成的,但是不是一次对话完成的。 u i 这块的话就是谷歌还是可以的,就是相较于 g p t 五点五的话,我觉得还是会好一些,就 u i 这块的话,我们还是优先选择就是谷歌的模型嘛。 好,下面我们来看下整体这个评分结果哈,那这个评分的话,还是跟之前一样,我们是把所有的模型生成代码通敏之后,然后改到模型去做 review。 那 这边的话 g p t 五点五是要胜出的,它的分会高一些。 第二个的话就是 cloudoff 四点七会辞职,那 gpt 三点五 plus 的 话,它整体评分效果会低一些,也就是它除了快,那代码质量上的话是会差一些。那这边的话也有些解决方案,比如说你可以用 cloudoff 四点七做设计,或者 gpt 五点五做设计,然后再用呃 jimmy 三点五 plus 去做执行。 那这块儿它还不是还发布了这个 anti graphic 二点零嘛。那这个 id 的 话,你就把它等同于 codex 吧,跟 codex 一 模一样。那我这边的话 现在还登录不进去,不知道啥问题。好,下面我们来进行一个总结。那这次他的整个编码水平的话,就是速度上确实是领先很多,但是在交付的一个结果上来看的话,跟国外两家模型还是有差别,尤其是在一些复杂项目里面,他还是会有偷懒的情况。 如果你是需要去做一些原型啊,或者做一些 u i 啊,我觉得这个 jimmy 三点五 plus 真的 是有比较有吸引力,因为它整个速度比较快,而且它的价格也比较便宜。那如果你是需要一些复杂的项目啊,多文件呀,那阶阶段我还是更推荐大家使用 g p d 五点五,在 codex 里面 你运行起来也非常的快。扣袋子这个 app 我 强烈推荐给大家用,我已经最近用了一个多月了,真的非常非常的好用, card 的 话就是封号真的特别严重,我已经放弃了。 ok, 那 这就是这期视频所有内容了,如果大家觉得这期视频做的不错,可以跟我一箭双雕,我是阿江,我们下期见,拜拜。

每天一个工具小技巧第四期,今天我们带来的是 jimmy jimmy 小 技巧免费 api 调用。上期视频我们讲了 skill finder 实验技能查找器, 这期视频我们带你免费使用 jimmy, 话不多说,我们开始今天的小技巧。首先我们需要先去创建一个免费 api, 登录官方开发者平台,开启模型权限, 找到这个创建 a p i 的 按钮进行点击,然后就会进入这个页面,找到右上角的一个创建按钮,然后点击创建, 就会弹出一个密钥的创建页面,填入一些说明标记信息后就可以点击创建按钮,点击后你的 a p i 密钥就生成完成了,此时我们就拥有了测试权限。之后我们怎么使用这个密钥呢? 我这边演示的是一个我在用的一个使用方案,配合常用的开源调试工具进行连接我使用的这个,然后下滑找到其安装命令,通过简单的环境配置完成对接,我们打开终端输入安装命令并回车等待配置完成后,我们通过这个命令 输入,加上我们开始的创建的 api 秘钥后,回车之后会出现选择界面,这里我们选择 yes, 然后到了输入界面,再输入界面我们选择 api 选项,然后我们的这么奈可以就安装完成了,这里我们只需要输入启动命令,这么奈就可以打开这个聊天界面了, 在这里可以体验多模型带来的智能响应,赶快去试试吧。好了,本期的视频就到这里了,觉得这个小技巧有用的话可以点赞收藏本期视频,想了解更多小技巧的小伙伴可以关注我,每日更新工具类小技巧,我们下期视频再见喽!

今天是二零二六年五月二十六号,让我们随便聊聊上周 ai 圈又发生了什么。 先看谷歌这边,这周它们动静挺大的,连着发了三个底层更新。第一个是正式发布了 gemini 三点五 flash, 而且直接把它设成了谷歌全生态的默认工作底座。这模型的定位很直接,它不是那种拿来陪你闲聊的玩具,而是专门面向能干活的智能体和代码执行任务。 从官方数据看,它在各种复杂的编码和智能体基准上,成绩直接盖过了前代的三点一 pro, 输出速度还提了四倍,算是名副其实的新一代工作码。但大家实际体验反馈并没有它吹的那么好。 然后是视觉这边, deepmind 交出了真正的原声多模太达卷,也就是 jamna omni 家族首发版本 omni flash 已经正式取代了之前的 vivo。 作为视觉创作者,我觉得这东西最硬核的地方在于它不再是拼凑出来的流水线, 而是完全原生的任意道、任意架构、图文音式,全都能混着输进去。你不仅能生视频,还能直接用说话 a 的 方式对最高十秒的视频片段做连续的带状态编辑, 但许多人实测下来,生成效果跟宣传片相差有点远。顺着这个干活的思路呢,谷歌还把桌面的开发中书给重构了, 推出了 anti gravity 二点零,这次比较彻底,直接把传统的代码编辑器界面给扔了,做成了一个支持语音输入的独立桌面平台,核心逻辑就是多智能体编排。新版的反重力跟 codex 简直是一个模子刻出来, 也被许多网友以及 codex 的 开发者吐槽过,额度听说也大大降低了。总之,谷歌发布的三个东西在社区的评价整体都是是偏低的,并没有什么十分惊艳的地方。 得看看他们下个月正式版的 gemini 三点五表现怎么样了。下面来看看字节跳动。他们开源了一个叫浪斯的极致多模态模型,现在市面上的多模态模型其实挺割裂的, 董事觉得不会生成,能生成的做不了剪辑。恋思就是想把这事统一了。 他的激活参数只有三十亿,但用了双流混合专家机制,在同一个维度里并行支持图像和视频的语义推理,画面生成,还有编辑。再看个视频生成相关的新闻,美团龙猫团队把他们的数字人框架更新到了一点五版本并开源了。 这不是那种简单的口型对口型演示,而是偏向商用级别的。新版本把音频编码器换成了大参数的 whisper, 纯行动态和全身动作学同自然了很多。最实用的点是他们用蒸馏技术把原本需要五十步的生成流程硬生生压到了八步。 so the next day i picked her up early from school, and i took her to sally sour cream, and what everyone thinks i am and i suppress my discomfort because i'm worried it makes me look weak, and i want to be strong and i think i'm failing all the time and i only take what you。 接着看两家关于智能体工具的进展。企业落地智能体最怕的就是数据和频剧泄露。 为了治这个痛点,安斯基给他们托管的 cloud 智能体,加上了自托管沙河和私有网络隧道以后,借助 cloud flair 或者 virso 这些底层平台,智能体做决策的脑子虽然还在云端,但跑代码和调工具这些脏活 全都被物理隔离在了企业自己的内网边界里,安全系数确实拉高了不少。另一边,马斯克的 xci 这周也终于杀进了终端编程智能体的赛道, 发了个 grok build 测试版产品,直接对标目前的 cursor 和 cloud code, 重点放在了完整的开发工作流上,有独立的计划模式,每次修改代码前都会被拦截审批。当前入口只对高级订阅用户开放,不仅是写代码要工具, 写代码的规矩也得有人管。平时用 ai 写代码,要是没规矩随性发挥,很容易铲除难以维护的废代码。为了治这个毛病,给 tab 官方开源了一个叫 speckkit 的 工具包, 没几天就狂揽了九万五千多颗星。它强制执行一套标准流程,就是让 ai 动键盘前,必须先定义产品规范,再出技术计划, 接着拆解细分任务,算是把传统软件工程的严谨性重新交给了大模型。最后快速过几条工具和研究方向的短讯面壁,智能开源了端侧小模型 mini c p m 五一 b, 支持十三万一千零七十二的超长上下文和双模式切换,把离线桌面桌面助手的落地门槛又拉低了。 法国初创公司 newmind 开源了四 b 级别的多模态模型 new extract 三,专门用来做文档、 ocr 和结构化数据提取,很适合塞进 reg 的 数据清洗链路里。 cp and ai 推出了一种极低成本的预训练架构, 仅用四百亿 token 和一千五百美元就算出了极高的数学成绩,证明重构循环架构潜力巨大。英伟达为了防范开元脚本后门,正式推出贷房篡改签名机制的官方智能体技能库, 所有接口均强制标配漏洞扫描。斯坦福时政研究指出,只要算力充足,大模型直接用未经过滤的低质量原始数据域训练,反而性能更好,颠覆了业界对纯净数据的执念。麻省理工提出了一种叫 v p o 的 向量策略优化算法, 用向量化奖励强制模型输出多样化解法,在不增加算力成本的情况下,大幅提升了推理搜索通过率。好,以上就是上周的 ai 资讯,接下来看下上周全球前十的生成式 ai 产品访问量排名, 然后再看一下近一年生成式 ai 访问量的变化。 最后再看看本周 hugin face 上热度前十的开源模型有哪些, 这期就这样,感谢收看,觉得有用的话点个赞分享一下,下期见!

昨天 demo 三点五 flash 更新了,最大的利好是谁呢? hyperframes? 如果你不知道 hyperframes 是 什么,那你稍微在 ai 圈有点落伍了。简单来说,它就用 ai 做视频的工具。之前咱们在视频里边也提到过 remotion 这个工具,它们两个都是用 ai 来做视频的,都用的是前端技术。但是我对它俩的看法是截然相反的。 当时 remotion 出来的时候,我就认为它用的是 react 技术定义的一堆 components, 强迫用 react 技术的话,就会把你死死的控制在这个圈儿里。虽然它也是前端技术,没有那么难,事实上它限制了很多东西。但这次 hyperframe 出来之后,我一看它的技术栈 itemix 加上 gcep 这个前端的动画库, 我就知道这个东西一定会非常火,一定非常好用。因为它最简单只是 atml 加 js 加 gcep 的 动画库,甚至它允许你在里边加上 three 点 js 或者其他的前端的动画库。这样一旦你在网页上可以做到所有的动效字体 转场,你想象的任何东西都可以在你的视频里实现,这样生产视频的想象力被无限的放大了。为什么说 jimmy nike 的 这次更新立好 hyperframes 很 简单,因为 jimmy nike 的 前端编码能力实在太强了。还记得之前 jimmy nike 三出来的时候,前端技术做各种炫酷的效果,什么圣诞树,还有各种粒子效果,如果把这些动效和效果加入你的视频里边儿, 画面应该有多精彩。这次三点五 flash 的 更新,它增加了多模态,再加上它超大的上下文窗口,所有这些加在一起,让你的视频变得无限可能。对于我这种程序员出身,审美没有那么好的人,这是一个降维打击式的优势。如果你的审美已经很好的,再加上一些对细节的控制,你的视频可以轻松达到非常专业的级别。 光说不练,单人屏下面展示一下我用 jimmy 三点五 flash 再加上 hyperframes 做的我自己网站宣传的视频的效果。 record videos like a pro without memorizing a single line viral prompter keeps your eyes near the camera with smooth scrolling then lets you shoot in crisp 4k at 60 frames per second no monthly fees just 1999 once for lifetime access download viral prompter on the app store。 好 了,今天视频就到这里,希望这个视频可以帮到您,谢谢大家!

这周, ai 工具圈发生了一件大事。 google 在 i o 大 会上发布了新一代 gemini 模型,价格直接砍掉一半甚至三分之一。新发布的 gemini 三点五 flash 同等能力比上一代便宜了一半, 普通用户和开发者用得起的门槛又低了一大截。 gemini 三点一 ultra 支持两百万 token, 上下文窗口,文字、图片、音频、视频全都原声,支持一次能读进去的内容。还有一个叫 gemini spark 的 功能, ai agent 可以 在你手机上的各种 app 之间自动推理和行动,目前还在被它测试,但方向很清楚。顶级 ai 博主 matt wolf 受邀参加了 google i o, 他的评测视频里提到了一个很有意思的争议点, google 的 ai 越来越倾向于直接回答问题,不再把你推到外部网站。 这对内容创作者来说可能是个坏消息,因为流量会被 ai 截走。这个现象背后是一个更大的信号, ai 已经不是稀缺资源了,它正在变成水电气那样的基础设施。同年, open ai 在 四月发布了 gpt 五点五、 anthropic, 刚出了 cloud open 四点七 几家顶级模型,能力越来越强,价格越来越低,方向完全一致。这对普通人来说是红利,但不是所有人都能吃到。拥有 ai 工具本身不再是竞争优势了,真正的竞争力是,你会不会用, 会用 ai 完成真实产出的人,效率是不会用的人的十倍甚至百倍。这场价格战在加速一个分化,会用的人越来越强,不用的人越来越落后,而且这个差距在加速拉大。不是现行的。 我在 cstu 读书,学校从二零一八年就开 ai 课了,不是现在跟风,而是七年前就把 ai 工具融入课程,鼓励学生用 ai 来辅助学习和做项目。这种思维训练比工具本身更值钱。不是教你用哪个模型,而是教你怎么和 ai 合作,怎么把 ai 能力转化成你的实际产出。 我是 vina, 一个在硅谷陪读的妈妈,也是 cstu 加州科技大学的研究生。你现在用 ai 最多的场景是什么?是聊天还是真的用它做出了什么东西?评论区告诉我,我们聊聊。

如果只看标题, gemini 三点五好像只是一次常规模型升级,但这场发布会真正想讲的,是 google 要把 ai 变成整个产品生态的操作层。先看 gemini 三点五 flash, 它不是只给聊天提速,而是在为智能体代码任务和长流程执行做准备。 官方反复强调三件事,速度、成本、还有行动能力,所以参考片里说的一年省十亿。重点不是噱头,当企业每天都在调用模型,模型便宜一点,速度快一点,最后都会变成真金白银。 第二个重点是 java spark, 你 可以把它理解成一个云端智能体入口,用户不用自己准备电脑环境,也不用手动拼工具,直接用对话安排持续性任务,比如整理信息、跟进流程、定期处理机械化工作,关掉电脑以后也能继续跑。 这个方向不新,但 google 的 优势很现实, chrome、 gmail、 地图、 youtube、 支付、搜索这些入口本来就在他手里,别的智能体需要到处接工具, google 更像是把自家的工具直接串起来。第三个重点是 gemini, 它的卖点不是只会生成视频, 而是让输入和输出都走向全模态,文本、图片、音频、视频都可以参与进来,生成结果也不止限于一种形式。官方演示里改视频、换风格、合成角色都可以放在同一个流程里做, 这意味着以后创作可能不用在八个 ai 工具之间来回切。再看开发者测 anti gravity, 二点零也被拉到台前演示,重点不是补一段代码,而是让多个智能体一起推进复杂项目,写代码、开浏览器、跑测试、修问题、再验证,开始变成一个壁画。 所以 google 这次真正发布的不是一个孤立模型,它是在给整个 google 宇宙做一次 ai 版本升级。 搜索、地图、邮箱、视频浏览器都会慢慢变成能对话、能记住上下文、能帮你完成动作的界面。 jamming i 三点五最值得关注的不是单向跑分,而是模型能力、工具入口、执行成本和生态数据被放到了一张桌子上。 如果 google 真能把这些东西打通, ai 就 不再只是网页里的聊天框,它会变成你打开浏览器、地图、邮箱和创作工具时默认就存在的操作层。这才是这场发布会真正值得盯住的地方。关注我继续用普通人听得懂的方式,拆解 ai 产品和开发效率的新变化。

一分钟看完本周 ai 大 事。谷歌在二零二六年开发者大会发布 jimmy 三点五 flash, 强调它不是单纯回答问题,而是为编程 agent 多步骤任务优化。官方称它在复杂编程、长期任务审计和文档处理上速度更快、成本更低。对普通人来说, ai 正在从问答助手变成能持续干活的员工。 谷歌发布 jimmy 原子,先从视频生成和视频编辑开始,支持用文字、图片、视频等参考内容生成统一视频, 重点提升物理理解、角色一致性、视频编辑和故事表达。对普通创作者来说, ai 视频不再只是文声视频,而是开始逼近真正的视频后期和内容制作工作流。谷歌发布 gemini spark, 一个能在后台运行的个人 ai agent, 可以 连接 gmail、 日历、 chrome 浏览器等工具,帮用户做研究、购物、规划行程和处理任务。它的关键不是聊天,而是你关电脑,它还在干活。 谷歌宣布,搜索将支持更长、更复杂、更像人类对话的问题,并更深度接入 ai 模式。搜索结果不再只是网页列表,而是可以生成计划表格、互动看板,甚至触发谷歌产品内的行动。 普通人未来搜东西可能不是找答案,而是让 ai 直接完成下一步。谷歌和三星公布了首款集成 jamie 奶大模型的 android x 二智能眼镜,并联合 gentle monster warby parker 设计镜框,预计今年秋季推出。 它可以通过语音和摄像头理解你眼前的世界,完成导航、拍照、发消息、实时问答等操作。真正关键的是,詹米娜也不再只待在手机 app 里,而是被带到脸上,变成随时在线的个人 ai 助理、 google deepmind ceo 哈萨比斯罕见地以一句话结束发布会。当我们日后回望今天,可能会发现我们正站在起点的山脚下。它重申,通用人工智能大概率在二零三零年前后到来,并表示其影响是工业革命的十倍,且只用十分之一的时间发生。 openai 宣布一个内部通用推理模型,推翻了离散几何中关于单位距离问题的长期猜想。这个问题最早由数学家 erodes 在 一九四六年提出,重点是它不是专门训练的数学模型,而是通用推理模型做出了原创性证明, ai 不 只是帮人整理资料,而是开始产出人类专家也认可的新知识。 openai 在 五月二十一日更新 codex, 加入应用截图、理解目标模式、浏览器标注等能力, 让 codex 更理解当前应用窗口、前端页面和任务目标。对普通人来说,你不再需要一步步告诉他怎么写,而是给结果标准,让他持续推进。对开发者来说,这正在冲击初级工程师测试、前端修改和代码维护工作。 openai 与戴尔合作,把 codex 带到混合云和企业本地环境,让 ai agent 更接近企业内部代码库、文档、业务系统和操作知识。 官方提到, codex 已有每周超过四百万开发者使用,并且正在从代码场景扩展到报告、反馈、处理、销售跟进和跨系统协调。对职场人来说,这意味着 ai 不 只是个人工具,而是企业内部流程自动化系统。 anthropic shoco standless, 一 家做 sdk、 c l i 和 mcp server 工具链的公司。 这个事件看起来偏技术,但本质很关键。 agent 要真正替人干活,必须能稳定连接各种 api 数据库和业务系统。也就是说, cloud 不 只是想变聪明,而是想变成能接入现世工具链的执行者。 metah 在 五月二十日前后推进重组计划,裁员并将约七千名员工转向 ai 相关项目,同时削减管理层级,用更小的团队和 ai native 组织方式运转。最值得讲的是,这不是 ai 会不会影响就业的讨论,而是大公司已经开始按 ai 工作流重构组织。 anthropic 的 mitos 模型引发政府和金融行业关注,因为它能显著提升漏洞发现效率。虽然专家认为立刻造成无限黑客攻击的担忧被跨大,但真正的变化是 ai 已经开始降低漏洞发现门槛,这意味着未来网络安全会进入 ai 对 ai 的 时代。

大家知道啊,我一般不轻易说离谱这种词,但就在刚刚,我把谷歌二零二六 i o 大 会上最新发布的 gemini 三点五 flash 接入微信的时候,真的忍不住说了句,这也太离谱了。为什么呢?因为 gemini 三点五 flash 让微信活了过来,我甚至觉得它已经突破了土林测试, 不仅非常认真,非常自然地回复了用户,甚至做到了用户根本不知道他就是在跟 ai 聊天。比如,当用户说话说到一半的时候,他能够带着情绪去回复用户说,哎,你说话只说了一半吧,急死我了,这哪里是 ai, 这是真人吧! 更夸张的是,但 jimmy 三点五 flash 结合十六 ai 桌面智能体,它更是具备了操作电脑的能力,能像真人一样的自己去识别聊天窗口, 点开新的对话,新的私信、新的群,跑过去回复用户。我们的一些用户真的已经开始玩土林测试了,看看到底谁能分清楚这是 ai 还是真人。如果你也想体验这款 jimmy 三点五 flash 加微信智能体,让你的微信自己会看、会想、会说,就在评论区打 ai。

听说了吗? gemini 三点五终于更新啦!这次更新和以前完全不同,这一次推出了 gemini 三点五 flash 的 版本,后续的 pro 版本将在下个月更新。 但是不要小瞧这个 flash, 它已经秒杀了三点一 pro, 谷歌自家的旗舰版。这一次更新让妈妈再也不用担心我睡觉的时候没有办法加班啦!谷歌更新的 spark 功能,你只需要 在睡觉前给他一个任务,在云端他便能帮你的任务完全搞定。当你醒过来的时候,任务已经完全摆在了你的面前。同时,这一次 gmail 三点五 flash 还让你体会到了什么叫快,什么叫省,四倍的升成速度和之前四成的价格还能达到更优于之前的结果。还有那做视频的 omni, 你 只需要扔张照片进去, 特效视频全都出来了,同时说几句话就能让他帮你把剪辑工作搞定,再也不用担心不会剪辑的问题了。说句大实话,以 后三十五岁以上的各位再也不用担心被裁员了,毕竟有人在你干不动活的时候能出来帮你加班了。各位,关注我,每天带你听一些 a i 圈的大实话。


朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。