ip 环境也会影响 ai 大 模型的账号稳定性?最近一些朋友咨询我,说是自己的 ai 大 模型用着用着有被限制登录或者明显降质的情况。搜了一下资料才发现原来 ai 大 模型也会去检测你的 ip 平台会去识别你是否存在滥用批量注册异常使用等业务。很多人可能说我就是正常去搜搜资料,日常工作使用的,怎么就被识别到了? 发生这种情况不要着急,可以先去一些合规的检测网站上测一下当前网络环境的共享人数网络类型等。如果发现是共享有风险, 尽量去更换更加优质的环境,再去使用你的账号。这一点和做社媒是一样的,任何平台需要的都是稳定安全,长期使用的真实用户。看到这种环境一眼假的,当然会采取限制降至甚至封号等措施。
粉丝1660获赞1587

gemini 三点五 flash 发布三天变美国大豆包,这不是什么野鸡 ai, 这是谷歌三天前才在 i o 大 会上吹上天的 gemini 三点五 flash, 官方说它速度是一重一线 ai 的 四倍,性能远超自家前代旗舰,二十四小时不到就开始降至现在全网统一评价。快是真的快,蠢是真的蠢,它唯一的优点就是更快的告诉你错误答案。 有人让他写个护肤科普,肩带三点五开始犯病,直接给你输出几十行,死死死。 有人让他算三百加一百四等于多少,他一本正经的告诉你,等于四百六啊。很多人说这是谷歌的服务器,顶不住偷偷砍算。我翻了几百条开发者社区的贴子。第一个真相,他的默认是 high 档位, 而三点五 flyx 官方写的是 medium, 但实际逆向出来的却是 low。 为了达到二百八十九 tok 每秒的恐怖速度,他把所有能省的步骤都省了, 深度推理砍了,逻辑较验砍了,甚至连最基本的算术计算都懒得调用工具。第二个真相,它涨价了三倍,还更费 tok。 上一代三 flyx 的 每百万输出是 tok 零点五美元,输出九美元。 更坑的是,为了完成同样的任务,他会在后台进行更多无效的自我修正,导致 token 的 消耗量平均上涨了百分之四十。第三个真相,发布会吹的 computer use 功能上线直接没了,官方连个解释都没有,好像从来没提过这事一样。 那谷歌为什么要这么做?答案很简单,下个月要发布三点五 pro 了。这是谷歌玩了无数次的老套路,先发布一个吹上天的阉歌版,让所有人来测试,把流量炒起来,等大家骂他笨的时候,再推出一个真正好用的 pro 版,让你心甘情愿掏钱。而且他还故意把旧的 flash 模型下架, 要么用轻的更贵的 flash, 要么等更贵的 pro。 也许从某种角度来说,人家这是精准的商业算计,用一个阉割版模型吸引了全球流量,还涨了价,顺便为下个 pro 版铺路。大模型的军备竞赛早就变味了,现在比的不是谁更聪明,而是谁能把用户当韭菜割的最舒服。

dance 二点零这次终于有对手了!谷歌刚刚发布的视频模型 omni 到底行不行,我们一试便知。先来看 omni 强在哪里?首先是视频编辑能力, omni 能够在改变画面元素的同时,保持角色和场景的一致性,比如把现实中的雕塑变成泡泡,一触即破, 把自拍里的镜子变成液态,让人碰到就变成终结者。或者是把小提琴手从音乐厅挪到草地上,再变换一个拍摄角度,不过他好像忘记把琴带出门了,真是尴尬。其次是物理引擎更加精准,那说人话就是重力、速度和碰撞之类的效果更加真实。 另外,奥尼也拥有了全能参考的能力,除了能够参考图像、视频和音频合成最终效果之外呢,还能给视频加上指定的特效包装。正为我的动销同事捏一把汗, 那接下来我们看看同框对比 omni 和 c dance 二点零谁的效果更好呢?实测下来, omni 的 物理效果确实更加优秀啊,画面风格也更加丰富多变,但中文能力就远远不如国产模型 c dance 了,这些有机材料就能自醒发光,而且 c dance 的 人物位置更加稳定,画面更有影视风格。 目前这面的 omni flash 模型已经正式上线,不过每天只能生成三条视频,你觉得 omni 能够和 c dance 一 战吗?来评论区咱们接着聊。

母亲言新出了个模型啊,怎么样?这个模型他说说非常厉害。 jim 五吗?我看看啊,像有的官方说的,他的 humanity last exam exam 评分是比较高的啊,就拿这个评分来说啊啊,其实我们测一下会有很大的问题,你看一下这个屏幕,我看看 我们呃抽取了 horamis 的 mass 数据集,大概是一千多道,然后去测这个质朴清源拿这个呃正比奈,正比奈 flash 作为这个评判遇到一个什么问题呢?我发现他在解答这种数学类的问题的时候,他的思考时间头肯输出了将近两万,也就是说他两万还在思考都没有输出完, 所以说我们这个他根本就测不了,在我们看来,然后即使测的了的话,一次回答的成本大概在呃五毛钱左右,就一个问题大概在五毛钱,而且还两万都没有出答案,所以我们在想会不会是我们的测试出了问题, 于是我们又到了他的这个官方上,就试验了一下啊,现在还在跑是吧?我们这个数据集从呃几分钟之前就开始跑,呃直接停掉,然后我们可以往上拉,一直拉一直拉,就你就说他这个思考过程无限的延长,无限的思考,他虽然这个回复的内容是正确的,但是他貌似陷入了一个死循环的过程。 就是你是让他回答了一个问题是吧?数学问题, melodies 里边的一个数学 max 类别的问题啊,问题其实不复杂,他是一个单选,他有两两种类型,第一是选择题,第二是那个检查题。我们在问给他这个数学问题的时候,问了两道到三道,基本就是无限循环,然后他的费用基本在无限上涨, 所以我们我们也可能比较怀疑像这种评分它虽然很高,有没有可能它的思考过程会非常的长,可能是无限的,也他可能把这个给忽略了,他能思考一个问题,思考五分钟出了一个答案。我们也测了一下,像 jimmy、 nike 这种可能也就几秒钟就出答了,所以它会存在这样一个差异点, 所以说它这个评价体系稍微有点问题。也不算吧,我们后续可能还会对这些整体评价再整体测评一下,至少我们现在现在来看还是跟大家想的差别很大, 太大了。数学问题你要等个十几分钟去给你解出来。那我都做完了,你自己都做完了,哈哈哈,考试都结束了是吧?该交卷了。对,我们也建议在啊,我们建议在回答的时候还是把这种时间这个综合的都考虑进去。

gemini 也出桌面端了,我用它做了动画,开发了游戏,还尝试了一系列的常用功能,还真有点平替 codex 的 意思了。就在昨天 google i o 开发者大会上,发布了一系列面向模型搜索、开发者工具和多模态创作的一整套 ai 更新, 有新一代基础模型 gemini 三点五,有融合了 nano、 banana 和 vivo 等模型能力的多款桌面端 agent 的 重度用户。 我们也终于等来了 google 版的 codex itigraphy 二点零,我已经迫不及待想上手玩一玩了,那么话不多说,马上实测。嗨,这里是头哥不请自来的 ai 频道,我们先来看一下它的界面,如果不仔细看,我真的以为自己打开的是 codex。 左边是项目和对话任务,右边是主要的对话窗口,对用过 codex co work 或者其他桌面端 a 阵的工具的朋友来说,基本没有任何的学习门槛。这里可以看到, atigraphy 已经把刚刚发布的 gemini 三点五 flash 集成到了模型列表中, 而且之前 it gravity ide 版本里已经支持的模型也被保留了下来,比如 cloud sonic 四点六,还有 cloud ops 四点六。光是模型种类这一点, it gravity 就 比 codex 丰富了不少。 所以接下来我们就通过几个案例详细盘一盘 it gravity 的 能力到底怎么样。第一个案例当然是制作我们熟悉的 remotion 动画视频,之前的节目里,我们已经详细介绍过如何使用 codex 配合插件市场中自带的 remover 插件制作像这样的动画效果。但 itagraft 有 一个很明显的区别,它并没有自带的技能库和插件市场,所以这里我们先要安装下这个技能。 我们先新建一个项目,然后把 remotion 最佳实践这个 scale 手动安装到项目的点 a 阵子文件夹中。接下来我们就直接输入这段指令,使用 remotion 制作一个介绍 it graffiti 二点零的动画视频,要求浅色主题,将 logo 与 logo 的 配色融入到视频风格中。 输入完成后, a 阵的没有马上开始写代码,而是先开始分析我们的需求以及当前项目里这个 remote skill 的 能力。然后他先给我们生成了一版详细的实施计划。 这一点就和 codex 的 工作方式有着明显区别,因为我们一开始并没有主动开启 autograph 的 计划模式, 但他仍然先进入了计划阶段。从体验上来看, itgraphy 这一点很打动我,所以这里我先检查了一下他的实施计划, 确认整体思路没有问题之后,就让 agent 继续执行,并自动渲染出了视频文件,你看效果是不是还不错?第二个案例我想稍微上一点难度,我们让 agent 使用 react 加 three 点 gs 开发一个三 d 太空设计游戏。 这一次我们直接开启 atigraphy 的 计划模式,先不让它马上写代码,而是让 agent 先和我们讨论具体要做成什么样子。这点就很像 codex 里的计划模式, agent 会一步一步向用户确认游戏细节,比如核心玩法是什么, 是固定视角还是第三人称视角,有没有剧情模式,有没有关卡推进等等。待所有细节都确认完成以后, agent 就 会生成一个详细版的实时计划,确认没有问题,我们就让 agent 继续执行。 经过几分钟的开发,一款打开浏览器就能玩的三 d 太空设计游戏就搞定了。到目前体验下来,我们的感觉是, atigraphy 并不是只把 codex 的 界面复刻了一遍。像这种面对复杂任务时停下来先把任务规划清楚,再一步一步执行的能力, 是现代 a 阵的终端里最重要的能力之一。最后,我们再来测试一些平时经常会用到的场景,比如 codex 里的自动化功能, 它可以让 a 阵子定时执行一条指令,每天帮你检查信息、整理资料或者生成固定格式的简报。而在 atigraphy 里,这个能力叫做定时任务, 它提供了几乎相同的能力,比如,我们可以指定一个每天都要执行的指令,每天早上九点检查 github training 里推荐的热门开源项目并输出中文总结。 创建方式也很简单,你可以像这样在定时任务菜单里直接添加,也可以在聊天窗口里通过杠 schedule 加上这段自然语言描述,直接创建定时任务。 这样一来,它就不只是一个你输入才会工作的工具。甚至在一些固定的标准任务上,它已经几乎可以替代像 openclaw 这样的常驻智能笔了。 下面我还想测一下 itigraphy 能不能生成图片。在 itigraphy 里, agent 也同样继承了自家的 nano banana 生图模型,我们只需要在提示词里明确要求它生成图片, agent 就 可以直接完成图片创作,这个能力对内容创作者很有帮助。 最后, ideography 还带来了动态 sub agents 功能,就是一个主 agent 带领一群专业的子 agent 一 起完成复杂任务。我们可以直接在体脂词里指定使用 dynamic sub agents 创作多个子智能体。 然后 atigraphy 就 会自动启动紫 a 阵特并行处理每项工作。展开右侧边栏,可以看到每一个子 a 阵特都在并行工作中。把复杂任务拆分成多个紫 a 阵特之后,每个紫 a 阵特只需要专注于一个非常垂直的小领域,它的 目标更清楚,上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的上下文更集中,出错概率也就更低。这次体验下来,不敢说全新的 atigraphy 可以 平替 code, 但确实值得你认真尝试一下。 桌面端 a 阵子越来越卷,可实用的工具也越来越多,希望朋友们都可以用上能力更强,成本更低的好工具。智能指手段,人类才是答案。这里是头哥不请自来,我们下期再见,拜拜!

哈喽大家好,欢迎收看我们金米零基础保姆教程的第八期。上期视频我们带大家搞定了金米的全套基础设置模型,选择、万能提示词,还有三大王牌功能。 很多同学学完之后会发现设置基本全开了,模型也选对了,但是用起来依旧效率非常低,答案也生成的非常敷衍,逻辑混乱。那是因为你只学会了基础操作,却不知道新手最关键的进阶技巧和闭坑逻辑。本期视频全程干货,没有废话, 教你五个高阶的实操方法,彻底把精密的性能拉满,告别低效使用。另外提一嘴,本期视频所讲到的所有内容,包括贴士、磁模板,还有官网链接都会放到评论区下方,有需要的可以自行去领取。 首先,先纠正一个所有人基本上都会惨的致命误区,就是很多人他会在同一个对话框里反复的去修改提示词,反复重发,这是最大的禁忌。就金米尼,他的上下文记忆特别强,旧的错误指令杂乱对话会持续干扰 ai 的 判断。记住核心铁律,新任务 新问题必须新建新对话,只要做到这一点,你的输出质量一定是有翻天覆地改变的。第二,升级你的万能提示词基础公式基本上人人都会,但是想要真正让 ai 去出精品,必须增加限制条件。给大家一个升级版的可以直接复制的提示模板, 你是顶尖领域专家,开启深度思考模式,依照实时联网作答,拒绝编造分布拆解问题,逻辑完整,内容详实,按照 markdown 排版内容重点加粗复盘优化后输出成品,提问时一定要加上使用场景、字数限制、 文风要求以及禁止内容。写论文要严谨,写文案要爆款,做选择题要出步骤,精准约束之后 ai 再也不会给你出笼统模板。第三,超长文档高阶用法,仅米支持七十五万字超打上下文 不只是简单总总结,上传 pdf、 电子书、论文合集之后,别只会让它概括全书,记住三个高阶指令,局局梳理框架,精准解锁答疑 对比、排查漏洞。不管是期末复习、文献研读还是资料整合,都能一键完成,几乎碾压市面上所有 ai。 第四, 多模态深度实操图片、视频、音频是金米的核心优势。上传错题不只要答案让它拆解考点标注易错点生成同类题型。上传网课视频 一键提取带时间戳的笔记上传会议录音、自动整理记要和核心要点,学习、办公、复盘全部高效搞定。第五,专属智能体 gim, 一 键提效一分钟。搭建私人 ai 助手, 根据高数学作代码策划等不同场景设置专属的人设以及固定的输出格式。保存之后无需你重复写长期的词,随开随用, ai 会越用越适配你的个人习惯, 长期使用效率直接翻倍。最后给大家总结新手的三大红线,不毁用旧对话不关闭实时联网,复杂任务优先使用 out 对 顶级模型。 看完这期视频,你就会从只会闲聊的新手变成了会精准使用 ai 的 高级玩家。赶紧动手试一遍!关注我,下期视频带你解锁金米专属场景实战,彻底解放你的学习和办公效率!

我故意写坏了一份代码,埋了十个 bug, 丢给八个 ai 修最快的一分钟交卷,最后垫底淘汰了。这期不是从零写 demo, 同一份坏代码,同一份 prompt, 同样二十分钟,看谁真的会修 bug。 题目单文件 html 一 百九十三,行零依赖, 双击可跑。正常的 boss 是 一群鸟,分离对齐内聚,自己形成小群,坏掉以后就是现在这个样子,从屏幕中心往外炸,像烟花。 prompt 很 干净,不告诉他有几个 bug 给行号,只说现象鸟不成群,速度不正常。这一周边界不对,修对就是修对,没修对就是没修对。阵容分三组, 首类四个, deepsea v 四 pro kimi k 二点六, mimo v 二点五, pro 千万,三点六, plus 千万。从 max 退回 plus, 因为 max 没有可用 api。 复活赛两个分别是国产代码王 g l m 五点一和被全网冠以测试标杆致演员的 mini max m 二点七。注意仍然是复活赛。 同题同评分结果好就复活垫底继续淘汰挑战者,两个曾经前端最强的 g m n 三点一 pro 和最深入人心的豆包 c 的 二点零 pro 评分三块, bug, 正确性八十分,视觉表现十分,响应效率十分。八个窗口同一份 prompt 开始, mini max 最快一分钟交卷, mimo 紧跟一分零七秒,千问一分半。 g l m 一 分四十,前四个都在两分钟以内。 gemini 两分三十秒,三十九 k tokens, 本期输入量最大的豆包两分四十七秒,反过来 token 最省才十三点二 k kimi 三分五十五, deepsea 三分五十九, 两个都接近四分钟。先别被速度骗。上期 mini max 是 最快交卷,结果垫底淘汰。这题看的是谁把鸟修成真正的鸟,从天梯最下面往上看,先看翻车的,再看修的像样的 mini max m。 二点七,一分钟交卷,全场最快。 打开一看,画面几乎空了,鸟不是在集群,而是直接飞出,视野,只剩灰色的轨迹托满屏幕。 mini max 号称 ai 界的测试质检员,它能通过的测试最好在人工看一眼。这期就是现场版。十个 bug, 只修对四个。 bug 一, 参数互换没动。 bug 二,分离方向反了,没修。 bug 四,内聚力出错了,变量。 bug 五,这轴分离整行漏掉。 bug 七,对齐祖尼没有 bug 十, s e p g 符号也反了,六个,没修。不是差一点, 是三条核心规则全废了,分离废了。对齐废了,内聚也废了。五十五分,复活失败,继续淘汰。先问三点六, plus 自爆修了六个,实际确实六个数没撒谎,但漏了四个都是致命的。 bug 一 两个变量互换没动,鸟的视野从八十缩到十四。 bug 二,分离力 x y 方向反了,没修,鸟往邻居身上撞,不是离开。 bug 七,对齐祖尼,没有 bug 十, s e p g 符号反了,没修。视野缩到十四,加分离力反向,鸟要么看不到邻居,要么往邻居身上冲。画面上鸟越来越少,十四秒之后基本就剩轨迹了。七十一分,倒数第二。 mini max 淘汰以后千万就是下期危险位。 mimo v 二点五, pro 一 分零七秒第二块修对八个 bug, 数量不差,但画面完全不像鸟群,满屏均匀散点,满屏均匀散点像萤火虫。 bug 一, 参数互换,没修。 visual range 只有十四像素,鸟的视野不到屏幕宽度的百分之一, 看不见邻居当然不会成群,每只鸟各飞各的,颜色倒是很丰富,因为每只鸟的方向都不一样,反而色彩斑斓,速度也正常,留存也正常,就是没有群。八十分代码分不低,但视觉只有三分,速度快救了它一命。 deepsea v 四 pro 九个 bug 修对了,群落有了,但整片画面紫粉色 boys 的 颜色映射是朝向全画面一个颜色说明三百五十只鸟几乎都在往同一个方向冲,不是渲染 bug, 是 对其力没有阻尼。 每一帧叠加平均速度零点一六秒,全原状到 max speed。 四个修了九个 bug 的 模型里, deepsea 视觉最差,群落评分只有四,颜色多样化直接零八十一分。 kimi k 二点六也是九个,漏了 bug 七, 但画面比 deepsea 好, 但画面比 deepsea 好。 群落更紧凑,颜色有紫蓝粉三个方向,不是纯单色,不过速度还是贴顶,拖尾明显偏长。鸟能成群,但转向迟缓,像高速公路上一排车, 八十三分儿比 deep sea 高两分儿,高在颜色没有那么单调。豆包 sea 的 二点零首登场,两分四十七秒, token 只用了十三点二 k, 本期最省的也是九个 bug 修队,漏了 bug 七,视觉上有三到五个明显的小群, 方向比 kimi 稍丰富,但速度同样偏硬,拖尾长和 kimi 视觉同分,赢在效率快了一分多钟后肯少了一半。八十五分首登场,直接 a 加 g l m 五点一,上期三十六分出局的选手,这期一分四十秒交卷,也是九个 bug, 也漏了 bug 七,但视觉是国产里最好的。多个群同时存在,绿青蓝紫黄都有颜色覆盖,接近三百六十度。唯一问题,拖尾偏长,速度贴顶漏了 bug 七的后遗症,但整体已经接近标准答案八十七分,国产最高分从三十六到八十七。 g l m 这次确实打回来了, gemini 三点一, pro 偷坑最多三十九 k, 但这一次他把钱花对地方了,十个 bug 全部修对,视觉和精准答案放在一起看,几乎分不出来。多群分散,方向丰富,速度柔和。关键就在 bug 七 对其力要减去自身速度再乘权重才有阻尼,其他七个没减, gemini 是 唯一一个减了的。九十五分,本期 vs 加这期真正的分水岭不在语法,在语义错的那行,把邻居平均速度乘上权重 直接加到自己身上。对的那行呢?先用邻居平均速度减掉自己的速度,再乘权重,就差一个减去自身权重。看着像对的变量对,语法对权重也对,但它不是让鸟慢慢接近邻居速度,是每一针往速度上加油门零点一六秒全圆撞到 max speed 等于四,然后全程贴顶, 所以 deepsea 紫粉一片,全在往一个方向冲。 kimi 和豆包拖尾长速度下不来。 g l m 虽然好看,但鸟转向还是硬,因为惯性太大。八个模型只有 gemini 找到了 七个,国产模型全部漏掉。还有个细节,很多模型自爆修了八个 bug, 实际核查是九个,因为他们把 x y 分 离方向和这周分离方向合并算了一条。 sammy 自报八个,实际十个全对。这种 bug 不 难写,难的是看出来它错了。语法检查过不出来,单元测试也不一定覆盖。只有真正理解 boss, 算法里对其是收敛不是叠加,才会发现这半句少了。从上往下 mini max 五十五,千问七十一,速度快没用漏的全是致命的 miimo 八十, deep secret 八十一, kimi 八十三, 三个挤在 a 区拉开差距的全是视觉 memo 代码分六十八,不低但没群。视觉三分, deepsea 和 kimi 都修了九个 bug, 分 一样七十二, deepsea 输在颜色视觉五, kimi 群落更好看视觉七,豆包八十五, a 加和 kimi 同样九个 bug, 同样视觉七,赢在效率 token 只用了十三 k, 本期最省 g l m 八十七,国产最高视觉八分,国产唯一进前两名 jimmy 九十五,唯一全球唯一找到 bug 七,视觉满分。没什么好说的,下期改什么评论区说了算。点赞最高的方向,让一个 ai 出题,其他 ai 来写。也有人想看真实开源项目,想看哪种题?想让谁上场?评论区告诉我。

谷歌今日凌晨发布了 gemini, 在 底层逻辑上简直就是一次史诗级的进化,瞬间引发了轰动,我们一起来看看实际的测试效果吧。哈喽,各位小伙伴们大家好,今天给大家演示一下最新的视频模型 omni flash 的 使用方法。 好,这个的话呢,它支持使用十秒啊,然后三十个积分这种方式操作好,那么怎么来操作呢?假如说我们要做这样的一个漫剧效果 好,那么首先第一个我们可以使用分镜啊,这个是我之前做的分镜。好,那么我直接把这个分镜的话呢,放到我的这个提示词里边啊,那么我可以直接到这里艾特一下就可以了。好,我艾特一下分镜,点击确认。好,然后的话呢,我可以直接说 啊,使用啊,根据分镜,或者我把它删掉啊,根据分镜生成动画。 好,然后我艾特一下这个分镜,这个分镜好,可以了。好,然后人物参考,使用这一个人物。好,然后场景参考,场景参考, 再使用一下这个场景。哎,我的场景也有了。好,这样子的话呢,那么就直接就 ok 了啊,然后我们直接来生成好生,呃,动画流畅,然后运镜流畅 就可以了。好,那么就直接点击生成好,这个的话呢,大家就可以看到一条非常运镜流畅的,并且呢有音效的这样的一个画面呢,就可以展示。 嗯,而且它的准确度是非常高的啊,就是没有脱离我们的这一个分镜,所以的话呢,这个是一个非常好用的功能。

你是不是也感觉到,最近 gemini 疯狂降至,不仅指令遵循变得有点差,输出的质量也是直线下滑,经常搞的人心力交瘁。但我发现了一个特别神奇的现象,明明是同一个底层的模型,把它换到另一个产品里,表现真的是天差地别。它不仅瞬间变聪明了,而且极其听话。这个能让 gemini 满血复活的免费神器,叫做 notebook lm 的名字非常直白, notebook 代表笔记本 lm, 也就是 large model 大 圆模型,合起来就是大模型驱动的智能笔记系统。之所以它不降质,本质上是因为它用了一种叫本地数据源铆钉的技术,把大模型的注意力硬生生的锁在你给的 资料里。这就像给 ai 戴上了专属的眼罩,不让他去全网瞎看,只能死磕你的资料。这样一来,他就不瞎编了,回答的准确率自然就上去了。那为了展示他的实力,我直接拿前阵子刚开完的二零二六谷歌 l 大 会试了试。以前做这种科技大会的深度盘点,光是满世界找不同渠道的发布会录像、官方技术博课,还有各种科技媒体的分析文章,就能扒掉我一层皮。 但现在有了 notebook l m, 整个流程就像开了外挂一样,大家看我的操作。首先新建一个笔记本,输入咱们想要研究的主题, 也就是二零二六谷歌 l 大 会。接着最关键的一步来了,把信息员选定为网页,然后开启深度研究模式直接走。你点击运行后,你大概只需要等个十分钟左右,他就会在后台自动帮你规划搜索路径,把几百个最终这场大会的网站全部过一遍,然后挑出三十多份高质量的官方研报和权威评测,通通导入,变成你的专属知识库, 直接给你生成一份综合报告。资料全导进去之后,你就可以开启审问模式,直接向他提问了。比如你问他这次大会发布的全新 ai 智能体到底在哪些场景落地了。不管问题多复杂,他不仅能给你精准的回答,更绝的是每一句话的后面都会清清楚楚的标上数据来源。 你点一下这个标注,就能直接定位到大会原文里的具体段落,彻底告别 ai 胡编乱造。但这还不是最炸裂的,闹腾不可 i m。 最让我感到惊喜的是他的多形态输出矩阵,他能一键变身为播客、 ppt、 视频、图标等多种形态,而触发这些形态的开关就在页面右上角的这个区域。我个人觉得最有趣的就是这个音频概览,你只要点一下生成两个 ai, 主持人就会用纯正的中文腔调把你丢进去的枯燥资料像聊八卦一样聊出来,里面不仅有各种生动的语气词,甚至连互相打断笑场都模拟的惟妙惟肖,不信你听。 google 每月处理的 ai token 数量是九点七万亿。九点七万亿其实已经是一个很庞大的数字了。是啊, 那除了播客这个演示文稿,也就是 ppt 生成功能质量也很不错。虽然目前整体的设计感大概只有七十分的水准,但信息结构切分的非常清晰,拿来当汇报的初稿绝对能帮你省掉一大半的时间。另外,虽然生成的 ppt 显示能下载为 ppt x 格式,但每页欢腾片本质上是一张不可编辑的扁平大图。 也就是说,你没办法直接在 powerpoint 里点击去修改某个独立的文本框内容。如果你只是想快速向老板或者客户汇报大纲,它完全够用。但如果要精细扣字眼,目前还得依赖通过提日词来进行针对性修改。除了刚才那种满世界找资料的联网伸缩功能, note 不 可 i m, 其实还有一个更实用的王炸玩法, 可以直接上传本地的 pdf 研报,或者丢一个油管的视频链接进去。一旦你这么做,它就会收起发散的注意力,百分百盯着你给的这些资料,帮你做最精确的深度拆解。最最关键的是,这么顶级的 ai 服目前完全免费哈! ok, 那 以上就是本期视频的全部内容了,我是林一研究所的风筝,咱们下期视频再续前言。

大家平时打开 gmail 网页,是不是把问题往里面一丢,拿到答案就撤了?如果真是这样,那就亏大了。因为坐在输入框的下方,官方其实偷偷塞了一整套的工具箱进去,只不过绝大部分人连点都没点开过。今天这期视频,咱们就花几分钟的时间,把这两个常常被无视的按钮 私信盘明白。那在具体展开之前,咱们先弄明白这两个按钮到底是干嘛的。左边这个添加文件本质上是一个信息接入中书,能帮你把各种外部资料为给 ai。 而右边这个工具里则是塞了一整套非常强力的专属应用理论。听不明白?没关系,我先给大家介绍一个我个人最喜欢也是最炸裂的功能, kanos 小伙伴肯定跟我当初一样,光看名字压根不知道他是干嘛的。说简单点,这个工具的作用就是把 jimmy 分 成左右两块,左边就是你和他沟通的过程,右边则是沟通的成果,方便你直观的对局部进行修改。如果你是写稿子,那么你在左边描述需求,右边就同步把你的需求形成了文 字。这样如果你想要进行修改和调整,就有了明确的把子,做到了真正的指哪打哪。但对我而言,我其实更喜欢他的代码模式。比如我想开发一个每日 a i 新闻汇总网站, 简单的描述一下我想要的风格,他就开始哗啦啦的写代码,写完以后,他会自动切换到预览。当然,如果你的提示词给的比较简单,他深深的页面也会略显拉跨。但是没关系,真正给劲的操作来了这里我在网上找了一个我很喜欢的参考图, 然后把图片继续喂给左边,跟他说按照这个风格和样式帮我重构代码。大家看这个就是界面的强大之处了。他对参考图的识别以及对审美的理解,掉到所有的一堆别的东西,咱们按使用程度分了个层,快速过一遍。 最成熟好用的肯定是这个制作图片的功能,也就是大名鼎鼎的 nasa banana。 这玩意应该不用我多说,网上的教程早就满天飞了,唯一要留意的就是用量。如果你是 pro 会员,标准质量的图片,每天能跑最高一千张原声摄影级别的高质量图,每天最高一百张基本管够。接着是进阶专属的 deep research, 这是专门给有深度调研需求的人准备的, 也就是说,你如果对某个具体的领域的知识想要进行深入的多,然后是制作视频的 well, 三点一和音乐生成功能, 这两位我只能说是限额劝退风。 vivo 虽然网上吹的人挺多,但每天就只让生成两到三个短片,感觉拿来抽卡都不够用的。音乐生成每天也就二十条的限额,非专业从业者随便玩玩还行,指望拿它当主力生产工具还是差点意思。 最后,如果你真心想要好好学习,但完全不知道从哪下手,这里有个绝对不能错过的功能,也就是学习辅导。你不用去报什么速成班,直接告诉他你是个没有任何技术背景的纯小白,他会把复杂的学习炼炉直接掰碎成最容易理解的小步骤,他甚至不会直接扔给你答案,而是像一个老手一样,通过反向提问的方式,一步步引导你思考, 直到你靠自己弄明白了想要什么,最后才给你规划建议。那了解完了工具按钮,我们来看看左边这个添加文件按钮,他可不只是个简单的上传入口。就拿这个导入代码功能为例, 经常碰到这样的场景,平时经常刷到一些博主为了流量把产品或项目吹的天花乱坠,但当我跑去验证的时候,才发现,大多都言过其实,白白浪费了大把时间。现在有了这个功能,我直接把仓库的地址往这里一贴, jimmy 的 就能自己去通读代码,我自己实测下来,让他阅读仓库以后进行提问,回答真实的程度非常高,而且结合 jimmy 的 强大分析能力, 甚至还能跟他探讨实现一些特殊方案的可能性。还有这个从云端硬盘添加的功能也很好用。我平时经常会收集一些优质博主的视频内容,作为我的创作灵感来源,所以我自己写了一个小工具,把这些灵感收集分析并整理到云端文档中。 那当我需要用到界面来写稿的时候,直接添加这个文档进来,就能作为信息源了,非常方便。还有这个 notebook lm 功能,它其实就是能够添加你在 notebook lm 中建立的笔记,这个咱们下期视频仔细 撩,它真的巨好用,最关键的是它还有免费的用量,对普通用户来说绝对够用。至于剩下的两个选项,上传文件就不必多说了,它基本能吃透市面上所有的主流文档 音视频格式。关于相册选项呢,官方宣传是它能够快应用理解你的生活。比如你想换汽车轮胎,但不知道型号,它能直接通过你相册里偶然拍到的汽车照片识别车型,直接给你推荐合适的轮胎。 ok, 那 以上就是本期视频的封真,咱们下期视频再续前言。

hello, 大家好,今天这期视频给大家分享一下 gemini 最新推出的这个模型三点五 flash, 我 自己的一个实际使用感受。我自己的话是在 cursor 里面去使用的,因为 cursor 呃 gemini 三点五 flash 出了之后,它就直接上了,然后我可以呃快速的搭配一个以前已经用过的 a 卷,去有一个 呃保持相同变量的一个实际感受,然后在之前的 gemini 三点一 pro, 或者说 gemini 三 flash 啊,在之前的版本里,它的这个对于 agent 驱动 agent 的 一个可用性几乎是没有的,就是它几乎没有办法在 agent 里面正常使用。我估计没有什么人会把 gemini 三点一 pro 作为这个 agent 的 基作模型, 为什么呢?因为 gemini 它虽然有一百万的上下文,但是它的指令遵循性很差,它是唯一一个我在 cursor 里面开启 plan 模式,它会自己直接去修改代码,无视那个。我估计 plan 模式应该是注入了一些 prompt, 然后他直接没有修改那个呃 plan 文件,而去直接改代码了。还有一个问题就是在呃对话轮数比较高了之后,他经常就呃输出的内容就有点奇怪了,我,我不知道是什么原因导致的,反正呃 很少有听说有人会把 gemini 三点一 pro 当做一个这种呃编程 a 卷的一个基作模型,那 gemini 三点五 flash 呢?它相比于之前的 gemini 三 flash 价格是贵了三倍的。我们可以看这个 openroad 上面 呃输入是之前是零点五美金,输出是三美金每一百万 token, 然后现在的话是呃一块五一块五美金输入,然后九美金输出贵了整整三倍,它的价格已经快追上之前的 gemini 三点一 pro 了。之前的 gemini 三点一 pro 的 话是十五美金, 那呃它这一次价格贵了三倍,我认为不应该和之前的三 flash 去对标了,而是应该对标之前的三点一 pro。 那 我在 cursor 里面搭配 german 三点五 flash 去使用呢?它 呃基本上已经能够有一个正常的编程 agent 的 使用的一个基础能力了,也就说我在里面让让它帮我去修改代码,帮我去正常对话,执行到五六十万上下文的时候,它大体还是比较准确的。 然后 jammer 它这个模型之前虽然比不上 gbt 和 cloud 在 这种 a 卷方面,在编程方面,但是它自己有自己的优势,就是它的 ui 特别好。然后我之前把 jammer 三点一 pro 作为一个外置的一个工具,如果我需要做 ui 设计的时候,我会让 呃 cloud 或者 gbt 去单独调用 gemini 三点一 pro 去生成一个 html 文件。然后我自己其实有一个 skill, 这个 skill 的 话就叫做 gemini designer, 它就是调用我外部连接的一个呃 gemini 模型,然后是用了 gemini 三点一 pro 去做这件事情的。 然后 gemini 三点五 flash 搭配 close 使用的话,给我实际感受它速度很快,然后编程能力的话我觉得只能算是凑合,呃跟 那些很强的模型是完全比不了的,跟 gbt 五点五或者说呃 cloud 的, 我觉得 cloud 三奈特四点六它都比不上它,毕竟价格也还是比终究是比它便宜一点的。然后它的好处就是它的输出速度会比较快一点,然后看它呃 官方的介绍说它的这个 tps 是 能够达到两三百 to 看每秒。那在我自己实际使用的过程中,其实没有说非常非常的快速,它的思考速度可能很快,但是它在把代码写出来的时候还是需要等一下的。因为在 cursor 里面有一个更加变态的模型,就是这个就是 cursor 自己的这个 compose 二点五 这个模型的话,它的输出速度是非常变态的。然后我现在自己认为呢,这个 german 里面自带这 compose 二点五的编程能力差不多 啊,没有说呃,胜负非常明显,只是说取向上有区别。 compose 二点五的话,它就很像 gpt 这种模型,它的编程能力强, a 卷能力强,但它的 语言说出来的话的理解能力会比较差一点,可读性会比较差一点,所以说写的方案或者说让它去写一些呃文文本类的,它做的不是很好。 然后 gbt 五点五也是这样的一个问题,那 gbt 的 话它就会写得比较好。这个问题呢,它其实不仅体现在单纯的写文章,很多时候我们在做一些网页的时候,网页上面会有文案, gbt 五点五和这个 composer, 它们很喜欢把一些网页的原数据写上去,就是 我们让它做一个什么网站,它要把我们的原始命令写到这个网页上面去,它不知道我们的网站是面向用户的,而不是面向我们这个开发者的, 这个是我在实际使用的时候发现最大的一些问题。那所以说这个 gemini 三点五 flash 呢?它相比于 composer 二点五,在这个 agent 方面,比如说在 composer 里面使用的话,它是没有优势的,我会优先使用这个 composer 做一些日常任务。 那 gemini 三点五,它的输出的文本效果挺不错的,它不会那么重的 ai 味。虽然说 gemini 它的本身的这种文案性格是比较喜欢用形容词,比较喜欢用比喻,比较喜欢浮夸一点,而且还有很多的双引号, 那我们可以通过一些基础的提示词调教,比如说我这里在写一个课程,那我呃会用它来帮我校正我的这个写作口吻,还会帮让他帮我做调研,然后整体它的文案水准我觉得是很不错的,因为呃现在的大模型很多都太趋重于这个 a 卷能力和编程能力了。但是 呃在文案方面,现在做的比较好的可能是 cloud 的 open 四点六啊,四点七的文案能力已经很垃圾了,那现在有一个新的模型能够也能把这件事情做好,我觉得是蛮好的,给大家在用模型的时候多一个选择,因为不是每个人都 用这个模型来进行编程的。而且还有一个点,就是 jimmy 刚才有提到它的 talk 输出速度变得很快了。那我们如果再做一些 ai 应用的时候,比如说呃我之前做了一个 ai 狼人杀,我对于它的这个 呃玩家发言的等待时间要求比较苛刻,我希望他在一两秒之内就能够说出很长的一段话。或者说我有一些这种 ai 应用,就是对于他的这个 ai 的 talk 输出速度要求很高的,我就可以有一个新的选择,用这个 gemini 三点零 flash 来做, 而且 gemini 相比于 gpt cloud 它还有一个优势,就是它支持原声的这个视频识别。虽然说我们也可以通过这种 抽帧的方式去让 cloud 或者 gbt 识别,但是 jamming 的 话它会更方便一点。它原生的这个 a p i 是 支持我们直接去识别视频的,而且 jamming 本身它的这个 呃视觉识别方面我觉得是做的会比这个 gbt 和 cloud 更好的。尤其是在我们做一些很细的,比如说我想要在一个截图里面框住某具体的某个元素,那 jamming 在 这一点做的是非常好的。 然后我觉得 jamun 一 直就是给我们提供多一个选择,但是还是希望他在 a 卷方面能力能够发挥的更强一点。所以说我们可以看一下后面 jamun 三点五 pro 的 一个呃发布之后,我再给大家分享一下他的实际感受。好,今天的分享就到这里,谢谢大家,拜拜。

呃,那昨天,昨天用那个 jimmy 奶没有弄,弄好,然后今天的话用这个 cloud 试一下,然后的话直接以这样一句话去跟他说, oops。 然后他他不会先去直接去做,他会先问清楚我们这些问题,然后再去决定怎么去做。哦,刚才听到那个声音就是我的 cloud code。 这个好了,设了一个 hulk。 好,再从这开始。信息员,我想要哪一些?我想一下我要哪一些信息。嗯,其实技术上跟中国的 这个需要 api 不 太好弄。嗯, read it 都需要,都需要 api 就 不用了。 那肯定用这个呀,内容怎么处理?先试一下这个吧。好吧, 我喜欢按主题分,但让他自己来工作。再再等一会了, 一次性成功。然后的话,像昨天的那个 jamila, 他, 他还是。 我们可以让他们两个来做个测试,然后让他也以相同的那个问题吧,以相同的这个问题去去做这样的一个工作流,看看谁能够一次性的完成。 他也来,他也来,两个人一起来。 哦。我想一下,还没有给他 a b i k, 我 准备给他那个 deepsea 的 a b i k。 我 觉得那个性价比比较高一点。 那我们来看一下他写了哪些东西。构建文件共导入, 接收文件提示词。我们先看一下 jimmy, 它 允许使用这些工具。 m c p dock m c p。 那我们会在这个里面等一下吧。等他, 等他们两个去把他们的工作流做好。不是,他给了我一份 readme 文件。 md 文件,我靠, 可以直接导入的,但是,但是我这个人比较懒,我不喜欢直接导入,我让他帮我导入。我看,我们看一下这个文件翻译加要 abc 里面锁影 导入前做三件事,关掉,打开复制 准备。 ok。 我 发现他们如果你不跟他说用什么大圆模型的那个的话,他们好像默认都是用 openai 的 apikey 那 个这个也是,基本上也是默认都是用那个。 哦,还在 这是。 嗯,很详细。你按照这个其实也能做,但是既然有你那就没必要按照这个做,就让他直接做了哈。但是, 呃,那个输了,这个让他直接做,然后我把我的 d p i a p i k 已经给他了,就让他自动化的去完成这个这样一个工作。呃,没打通 我的那个他没有连接到我的那个 n 八 n 上面,原上的 n 八 n 上面,但是呢因为 我很多任务并行,然后又限制了,就是这这额度太太少了。 我不知道是什么原因啊,就是我感觉我之前用的时候我还是感觉额度挺多的,够用的。那到现在的话我发现十几分钟二十分钟就已经给我用完了, 还有可能我觉得是中文的原因,我觉得后续可能用英文好一点。那我直接把这个复制进去吧。 那这这个的话就得自己去填这个 a b i k 自己去填这些信息了。但是我本意上是完全不用自己动手的。那自己动手就差点意思了, 但是这额度又不够,那这又没办法,那就先自己动手吧。后续测一下 codex 吧,听说 cdx 的 话额度会高高一点。感觉这个额度真是不够用啊。这是很奇怪的点,之前我记得很好很很长的额度的,但但但 我得研究一下这个额度了,之前用的时候我并没有感觉到这种受限的难受。

专买新模型三点五 flash 不 再只是简单的聊天模型,而是在往完整的 ai 系统方向引进,可以写代码,做网页小游戏,自动的查资料,汇总成报告一个概念,我们可以通过理解物理世界生成视频,我总结了八个 id, 还有各种给力的场景和用法,其实词和你有可能忽略到的新入口,我也都放进了视频出发。 首先是模型,按照我们以往的认知, flash 一 直是便宜轻量,够用就行,秀实力的呢,一般都是 pro, 但这次不一样了,在编程 agent、 工具调用这些干活的场景里,它不仅超过了上一代 pro, 速度还提升到了四倍。当然,这里说的是执行能力,不代表它就是那个聪明的。 但也正因为如此,一个趋势呢,就变得很明显了,速度加执行力正在超过单纯的智力。所以这次 flash 呢,直接被推上了默认的默型,那我们又该从哪里能够用到呢?还是我们的老朋友 a s 丢丢, 那在这里就能看到这次它更新的所有的模型,那你要是不去选它,然后直接来问它的话,它默认的呢,就是三点五 flash, 还有就是网页,它呢,每天也会有少量的额度。 nano 不, nano pro note, 酷狗 im 音乐生成 v 五,三点一呢,也更新成了 omni, 而这些联动呢,在网页里才 能玩得到。好,我们先来看一下它的思维怎么样,那我在这里问它一个问题,八米长的竹竿是否能通过高四米,宽三米的门? ok, 他这个速度确实是很快,那我们来看一下他的回答怎么样?说在二维几何条件下,不考虑竹竿的厚度是可以穿过这个门的,那他还在这里用钩股定律给我算了一下,说最后通关的办法呢,是利用三维空间 可以斜着划过去,考虑的方向还是挺全面的,不过这次更新影响比较大的呢,是卡哇斯网页 ui 生成,那这是一句简单的提示词,那我让他给我做一个闯关小游戏, ok, 那 他现在是已经出来了,那我们现在打开他,哎,这个画风倒是很贴切,这些按钮呢,也是在的,那我用键盘来控制他的方向, 哎,是可以的,那由此我们就可以发散思维来做网页科普。现在呢,他在这里是出了两个思考等级标准和扩展,在标准下,他的回答速度呢,会比较快一些,大多数的问题都是够用的, 如果需要处理长篇复杂的问题,那这个扩展他的推理步骤呢,会比较多一点,当然回答的相对来说会比较慢一些。那这次我们就用扩展功能来做一个汽车网站, 那在这里给出我的提示词,然后我们来看一下,这个配色很高级啊,算是保持了专门来前端一贯的审美水准,包括我再去滑动他,他呢也会有这种互动特效,还有这里的企业文化车型的一个展示, 他还不是一个空壳,哎,那我再进一步的去查看一下,哎,是不可以的了,不过用来做一个小小的 demo 草图的一个交互算是够用的了。 而且我发现最近 prompt 工程师这个词特别的火,那我呢,也做了一个科普的页面,来讲解 prompt 到底是怎么来影响结果的,还是一样的步骤,那给出我的简单提示词,那他现在是给了我一个可交互的网页了,那我在这里输入写一句夸人的话, 他回答的是你很优秀,那我在这边再给他一个带有身份情绪的题日词, ok。 哎,他给我的就是这样的一个回答, so, 跟我们归机朋友聊天的时候,题日词的信息呢,还是比较重要的,那除此之外,我们还可以换个场景来做教学知识互动,比如物理的电路图,那我先选好卡哇斯,给出我的题日词,那我们来试用一下 那这里的电路电阻,然后我还可以在这个地方来控制它的电压,那其他的位置呢?我也是可以在这里随意的去更改的,就很好的让我直观的感受到了。 那其次就是 db research, 他 不是更聪明了,而是会自己的去完成任务列。之前是你们一个问题,他回答一段内容,然后就结束了, 而现在我再给他一个调研的主题,那他一开始还是遵循他原本的一个优点,先让我们确认方向,然后我们 觉得 ok, 然后让他开始调查,你看他现在就会按照我们的话题方向开始去一个板块,一个板块去分析。而这些信息的出处点呢,也是给我逐个的展示出来了,整个来看的话,他会把总结的内容都融进来了, 你看公式表格这些我想要知道的那些点,那我也可以根据我想要了解的板块,在这里直接跳到对应的位置,包括他把那些网页的技能按钮也搬到了这里来,那根据这次调研出网页, 我信息图导出可用的文档都是很方便了,也省去我再把内容复制到文档里,然后再给他导一次了。 其实要说视觉方面冲击力比较大呢,就是专门的欧曼奈,号称可以任意形式输入视频方式输出图片文本,大家都见怪不怪了,那我这次用手机拍了一段遛狗的视频,然后我们发给他输入我的提示词,我们来看一下,他自动给我补了光影,调了色彩,那我再给他换几种风格,换个环境, 而且你有没有发现他这里的固定元素现在都是没有崩的,那我还可以在这里多轮的去进行编辑,每加上一条新的指令呢,他就会再继续上一条的指令,继续给我更改,这跟直接给剪辑式沟通有什么区别?那我再测试一下他的音频输入,我先上传我需要用的素材,然后让他按照这个音频的节奏给我生成画面。 哎,他给我回复暂时是不支持的,有点小翻车了。接下来就是理解物理世界能力,这也是欧姆莱重新定义的一点,我只给他我的提示词,让他大概去做一个中小学物理课堂历学演示的一个场景,他这个小球受重力自由的滚落,连续完成撞击 动能的这个传递,这种一系列的连锁反应也严格遵循了这种重力弹跳动能守恒的物理公式,就能够感受出来他是在理解世界的这个运行方式。那下次我们再去做教学案例的时候,就可以给他一个概念, 简短的一个话语,它就不只是给我生成了一个像视频的东西,而是运用它的知识把概念做成了讲解视频。 today, we'll explore acid base neutralization watch the color change as the base is added they react to form water and salt。 除了放在明面上的这种视频方式,我还发现了一个类似于分身功能的视频制作方法。通过几秒钟的个人视频,那他这个人物呢,就做好了,有点类似于骚扰的味了, 不过需要切换到规定的语言,你才能看到那个入口。那说到视频就绕不开 ai 造假了,所以他们也把三分 id 往前推了一步,就是 ai 内容隐形水印,是写进图像、视频、音频里的隐形记号,当然我们肉眼呢是看不到的,通过工具就可以判断出它到底是不是 ai 生成的。 除了类似的技术,在网页端呢,也更新了几个小亮点,那首先就是开启了个性化的功能,你给专卖提出要求,比如回答问题的时候要概括要点,回答内容过长的时候要给我分条列出,他呢就会根据你的规定来和你沟通。在回答专业的问题上就不再像聊天了,我也不用再去另外的自己总结一遍了。 了解过 i o 大 会的也能感受的到,谷歌这次想做的是一个智能的全家桶,那网页呢,也出了一个可以把其他工具关联进来的入口,你像邮件、硬盘、日历、文档,在各个方面来了解你,在工作中呢,也会给你更进一步。不过 统一事件深农还有一个就是个性化的开关,根据你和他的聊天越来越多,他呢就会了解你的喜好,记住你的习惯,模仿你的思考方式来服务于你。 当然这也是要通过我们和归机朋友长时间的磨合来达到一个效果。不过随着这次更新出来了一个记忆导入,这个有点难吧,这个怎么导入啊?人家连步骤都列出来了, 怎么来提取记忆在哪里进行一个输入?其次就是自动干活的能力,定时给你发送你设置好的那些问题,随时掌握你关注的各种事项。那在之前我们基本上只能在 ai 编程工具来实现,那现在我们可以打开定时操作, 新建一个,然后填好我的要求,然后时间给他规定好。看默认的话还是在桌面生态里边去展示。如果你连接了外部的生态,那有些任务呢,也可以输出到你的邮件里。整体看下来,这次根本就不是在更新某一个功能,他是把所有能力一点一点缩到一个地方一个入口。 所以问题不在于他多了什么能力,而在于他正在让我去别的地方,这件事情变得没有那么重要了。好了,喜欢这个内容的朋友,我们下次见。

大家好,今天早上,呃, google 开了他们的 i o 大 会,然后也正式推出了 gemini 三点五 flash 的 新的模型,然后我们现在来快速测一下,看它的能力怎么样。 这第一个我要它创建一个 ppt, 然后大概是一个呃客服的一个系统,然后要六页 ppt, 然后它们的字体要清晰啊,然后要每个问题有一个,呃自己的一个,嗯, 要产品要有一个,然后问题有一个,价格有一个,然后啊,等等最后的一些一个流程吧。然后他根据我的需求呢,先制定了一个计划啊,这是他的计划,然后我可可以继续,我们看一下怎么样,这个地方需要跑,那我就继续。 好,这个结果出来了哈,就是就是他做的 ppt, 感觉这个审美还是非常在线,比这个 codex 我 感觉强不少, 就是字体啊,或者是它的这个选择的颜色,还有这个动画设计啊啊,都是挺不错的啊,觉得可以,我们干第二个测试吧。第二个测试的话, 我跟他说要一个这种啊大览图,然后需要有这个产品的一些按,按不同的进行分类,然后他也是啊,搞了一个这个计划 啊,主题啊,字体啊,然后它的画面啊,它的这个整个结构啊,它应该怎么样去去设计,然后它的边框啊,它主要的画板等等,就是它自己有一个有计划以及验证,这都差不多,跟 codex 跟 cloud code, 我 们待会儿看一眼 效果用,哎,好了,第二个也做好了,我们去看一下啊,这是它的一个整体的状态, 都还有各个的一些详细的数据 面框, 根据这个自动进行一个变化,然后它的,哇,感觉这个完全没问题啊。就是这个,我的 u i 还是很能打,前端确实比这个 open i 强不少。我感觉再看一下第三个,三个我要它做一个小游戏吧,看它能不能做。 对,这边同样是有一个,先有计划,然后让你继续啊。 对,这个就是在浏览器里面做一个小游戏,然后就是这个用来收集一些啊 token, 然后用你的键盘去控制上下左右啊,然后重启啊等等,看看行不行。 对啊,这边还是反复地出现这个,而且你点一它不好使,你必须点 submit。 这个是就是他们新的这个 啊, i d e anti gravity 就 反重力。我觉得这个设计还是一个是抄了 codex 二,一个抄的还不好啊,挺挺值得被吐槽的我觉得。 而且他们,呃,我看他们最新的这个就是这个叫 anti gravity, 它另外有一个,如果你想要看它具体代码,就像以前的 i d e 一 样,它把它原本的那个名字改成了 i, 就是 把这个新的,把这个名字 啊做成了新版的 anti gravity, 但是原本的那个就叫做 anti gravity i d e 就 重新改了一下名字啊,也是让人挺摸不着头脑。嗯,有点奇怪。 嗯,看起来也好了,我们去看一眼啊,这是这个游戏的一个页面,我们看看他,是他说哎呦,它是有音效的哇,这个怎么?嗯啊,要接住 a p i, 然后接住接住绿的这个意思吗? 对,那就是要避开对不对?嗯啊对, 让我自己死一下嘛。会重启只有一次 ok 啊,最后得分,然后重启 ok, 还挺有趣的,就是整个没什么问题,音效也很好,然后动作也很连贯,不错不错,达到了这个要求。好,我们现在再看另外一个测试吧,就是一个三 d 的 模型,看它行不行。 三 d 模型啊,相当于要用那个 three d j s 去创建一个,然后是一个旋转的,同样有一个计划,然后让它执行, 同样的我们继续 使让它进行跑这个脚本, 然后这要是做完了,我们可以看一下,哎,中间有遇到一个错误,然后我修复了一下,我们可以看一下啊,工作了十九秒,然后它就生成 三 d 的 for harvard 的, 上面 这个有三点五。 有点看不明白哦,这个是什么东西? ok, ok, 相当于你把鼠标放在上面,它会显示各个模型的一些细节,它感觉整个是一个,它在晃动,现在我点上去之后,它在来回的晃动,也看不清楚,然后这个下边可能会显示一些这个,呃, 基本的东西,就是不动,拉不动,这个有一点点拉垮了,效果不太好,有点,有点不太行。 先看一下他们这个评分的一个标准,他们就今天早上刚刚发布的这个三点五哦,他们在扣顶上,是这边,是啊,七十六点二,然后仅次于这个五点五,然后比这个四点七还要高哦, 然后比之前的 pro 是 他们的轻量级模型啊,他说比他之前三点一的这个 pro 版本还要高哦, 然后就是这种就是 agent 的 能力, agent 能力也是远远的超过了前两个。就是这种啊,也超过了 opus 四点七,仅次于这个五点五,然后 看一下,就总的来说还是像这种打这个中的都是啊,搜塔就相当于是最高分的,感觉 从评分上来看是很优秀的,但是在网上其实已经很多人出现吐槽,就是实际上生生产用起来就是不如啊,首先不如五点五也不如这个啊, opus 四点七哈,这个是大家的一个目前来看测评的一个结果 啊,所以我这边测评主要是看一下前端是不是还是一样能打。因为啊, jennifer 来说他们的一直设计这一块啊,是比那个呃周鹏 i 要好一点点。总的来说就是啊,我的个人体验就是 啊 gemini 这个三点五 flash 我 觉得一般般,就是我如果你要问我日常啊,工作或者是生活,又会用这个啊来作为我的主力模型吗?我觉得答案就还是不会,就是我本来现在用的也不多,因为啊,它在逻辑推理啊以及这种 agantatic 的 能力上还是 明显的弱于 open i 跟这个 cloud。 所以 啊,我会持续关注吧,因为他们下个月应该会推出他们的三点五 pro 啊,那会是他们的旗舰模型,也希望到时候他们能够啊奋起直追啊,这样就是不要被他们两个另外两家落下太多,有机会大家也可以去试一试。

谷歌你做模型给我做好了呀,接下来三点五 flash 真的 就拉完了,就比如我问他三点五 flash 大 概是个什么水平,他回答我这个什么,他回答我 step 三点五 flash, 他 直接这个理解能力首先就不行, 然后我就想着那我再问一句吧,我说 jamming 的, 结果他回我什么 jamming, 一 点五 flash, 他 甚至连连网搜索都懒得搜,他就直接用旧的知识库里的信息去给我回答,直到最后我直接说三点五 flash, 他 才去就真正的回答对了。 然后我们去用 cloud 去跟他对比一下,我问 cloud 三点五 flash 的 什么水平,他第一时间是能反应过来,我再问三点五 flash 的, 然后后面我又补了一句,他就直接就回答对了,对了,而且这个是三奈特啊,几个月前的模型,我们再看一下他新出的那个 antigo, 二点零只有这个,嗯,对话历史和日常任务没了,就就这俩。 然后我们看 codex, 真的 就没法比,有插件,有自动化,还有搜索,就就光这这一个侧边栏都比它多那么多功能,而且还有直接能用的什么 play mode, agent mode 之类的, 然后这个 antigravity 呢?他甚至连一个直接能看见的 play mode 都没有,真的就拉完了。不知道谷歌在下什么大级,但是现在的见面礼真的很拉,还是希望谷歌以后越来越好,我是不开心,祝你们天天开心。
