就在刚刚,谷歌 gemini 遭遇大规模模型争流攻击,黑客仅通过十万次提问,便成功克隆核心逻辑,全球 ai 安全警报拉响八道硬货了。 这就像苦心打造的精密保险柜,被人用一把简单钥匙轻松打开,个人更倾向于这是 ai 安全领域的灾难级预警,暴露了大模型在知识产权保护上的致命短板。专业解读, 蒸馏公鸡通过低成本交互提取模型知识,绕过了传统加密,对闭源大模型的商业壁垒构成了严峻挑战。这波安全警示太重要,赶紧点赞收藏!
粉丝952获赞1.2万

最近 ai 圈爆出一个超级大新闻,谷歌官方正式确认,自家的旗舰模型 jimmy 正在遭遇大规模的蒸馏攻击,而且手段非常恐怖。 可能很多人听不懂什么叫蒸馏攻击,我用大白话给你讲清楚,这不是黑客入侵服务器,也不是偷代码,而是用合法接口疯狂提问。攻击者用精心设计的提示词,一轮攻击就向 jimmy 发起了超过十万次的提问, 太天呐,太恐怖了!他们要的不是答案,是模型的脑回路,通过不断试探、诱导、逆向推理,把折磨你内部的决策逻辑、推理机制一点点的拔出来,最后训练一个高仿克隆模型, 相当于用极低的成本偷走谷歌几十亿美金的研发成果。这是什么概念?谷歌明确说这背后是商业动机,说白了就是竞争对手 ai 公司在光明正大的偷技术。 以前科技行业竞争是挖人挖团队,现在 ai 时代是直接挖模型本身了。 不用入侵,不用破解,只要疯狂提问,就能把顶级 ai 的 核心能力拔干净。这件事真正可怕的地方在于,大模型的知识产权正在面临着前所未有的危机,谁能通过 api 提问,谁都能试图复刻 安全、合规、版权全是漏洞。这也给所有 ai 公司敲响警钟,模型越强,越容易被盯上,接口越开放,风险就越大。未来 ai 竞争不只是比谁更聪明更便宜了, 还要比谁更安全、更防偷,谁能守住自己的核心技术。这波 ai 商业间谍战才刚刚开始,那么你知道怎么保护大冒险的安全吗?我们来讨论一下。

距离 google 发布其中一个 gemini 三模型已经超过六十四天了,那就是 gemini flash。 而在那大约三十天之前,它们发布了 gemini 三 pro, 所以 我们正在接近 gemini 三发布将近一百天了。而你必须要想到在当前这种 ai 生态系统中,那相当于大约一百年。 所以今天 google 正在介绍 gemini 三点一 pro。 在 这个视频中,我将会浏览这个模型的一些更新,稍微谈一谈这如何与发布时间表相契合,并且我们将快速看一看这个模型实际上能做什么,因为它现在正在被推广到大多数使用 gemini 模型的 google 应用程序中。 这么耐三点一 pro, 所以 如果我们进入并查看关于这个的博客文章,我们可以看到一些有点有趣的事情。所以,首先,这只是一个三点一这一事实本身就有点有趣,对吧?这么呢,从来没有除了某种零版本或零点五版本以外的任何东西。 这是我们第一次看到零点一版本。我确实认为这一点有点有趣,因为自从这个模型的最初版本发布以来已经将近一百天了。 显然,在那段时间里,他们通过 gemini think 模型产生了很多影响,并且他们显然正在采用其中的一些想法以及一些技术,并将其放入这里的主 pro 模型中精准测试。好的,所以,如果我们进入并查看这里的精准测试,我认为真正的要点在这里, 不是仅仅将其与其他模型进行比较,所以他们当然将其与三菱四点六和 oppo 四点六进行比较以及 gpt 模型。但真正是与 gemini 三 pro 进行比较,我们可以某种程度上看到一些东西, 所以如果我们查看,例如人文学科期末考试,这是一个巨大的提升。相比于 gemini 三 pro, 它比 sony 四点六更多,它比 oppo 四点六更多。但是看看我们相对于 gemini 三 pro 看到的提升,并且不要忘记这只是一个零点一版本, 对吧?而我会说,主要原因是像我将在一秒钟内向你展示的那样,当我们实际上做一些查看一些视力时,这里的这种 thinking high 模式真的就像是一个 bitthink mini, 一 种他们在这里进行的事情。 我们也可以在查看像 r k g r k g i 时看到这一点。百分之七十七。相比 jimmy 三 pro 的 百分之三十一,显然你知道的 entropic 模型在那方面做的要好得多。 google 可能甚至没有真正考虑过为此进行优化。也许是在 gemini 三 pro 中,但我们可以看到这里有一个巨大的提升。并且虽然 google 没有在他们的驳客文章中这样说,这绝对看起来像是他们开始获得用于训练这类任务的非常好的 r l 环境,然后转化为更好的精准测试。 我们也可以再查看你知道的一些其他可能具有 r l 环境的东西时看到这一点。比如编码精准测试,像这种 m c p l s 的 东西在那里,你可以想象你正在做那种 agent search 等等。所以显然我们正在看到不只是精准测试展示了这一点, 我们可以在这里看到好的,你知道的,让它为设计生成东西。三点一 pro 已经看起来比三 pro 好 得多。 在此,这是一件你可以想象已经通过一个非常好的 r l 环境完成的事情。对于某种程度上,你知道的图形设计,在编码等方面也是如此。我们我们可以看到好的这个模型在这些方面已经变得更好了。 现在除此之外, google 实际上在这里并没有说很多,对吧?所以这有点有趣。就像我说的,这是一个零点一版本。也许在过去,他们基本上会说,好吧,这是另一个新的 jimmy 三 pro 预览。就像他们在二点五预览中所做的那样。在我们获得 g a 之前有多个预览。 现在在这里看起来,似乎他们不是仅仅推出另一个带有更新日期的新预览,而是他们实际上决定称之为 jimmy 三点一 pro。 并且那些精准测试我认为确实证明了这一点。 所以让我们跳进去玩一玩这个,并看看他的表现。我想向你展示你实际上如何利用这个模型拥有的不同瓶颈级别,这样他可以从你知道的非常快速的思考,一直到你正在查看五分钟以上才能返回完整答案的事情。 好的 thinking levels 演示,所以要开始你来到这里,并且你基本上只需选择最新的模型。所以如果你没有看到它,只需点击全部。 它们当然正在推出它,你应该能够很快在这里看到它。所以我将从国际数学奥林匹克问题中的一个问题开始 现在这个问题。当我去年用 deep sink 模型运行它时,它能够给我们正确的答案,但它花了很长时间,对吧?我想从记忆来看,十七分钟以上在我们获得 first token 时间之前, 所以你可以在这里看到我们已经有了这个设置。我将 thinking levels 设置为 high, 并且我们可以看到它确实正在花费你知道的时间来获得你知道的答案。这部分是因为我们将 thinking level 设置为 high。 使用之前版本的 gemini 三 pro, 你 只能有 low 或 high, 现在你可以在其中有 low midi 或 high 作为设置。 所以你会注意到,当他在这个过程中,我们已经某种程度上进入两分钟的思考,但我们在这里寻找的答案基本上是零一和三, 所以让我们看看我们是否将获得答案。好的,所以我暂停了他,当他实际上正在进行时,他最终确实得出了正确的答案。他花费了你知道的超过八分钟才得出这个答案。这大约是 didink 过去所花时间的一半。 但这展示了这个模型真正有点有趣的事情之一。那就是如果你将 thinking set 为 high, 这几乎就像 gemini 的 一个迷你版本 did think, 这是他们某种程度上强调的事情之一。这个模型现在已经从 gemini 中吸取了经验教训。 didthink 包括早期版本和更近期版本。现在与此同时,如果我将其设置为 low, 对 吧?我们应该在这个上面得到思考要快得多的东西。好的,因此,虽然思考要快得多,但在这种情况下,它实际上没有得到正确答案。 所以当你为这个执行不同任务时,你确实希望利用 thinking level。 另一个,人们一直在做很多的任务是创建 svg, 而这个是我只是要求他为我制作一个骑自行车的猫的 svg。 所以 如果我们将其渲染出来,你可以看到好的。它也许不是世界上最好的猫,但它出来了。你知道的相当好。 看起来这只猫带着一条围巾。我们有我们的自行车,看起来相当准确,我们甚至有一条链条。我们有猫的腿,实际上在踏板上。这在里面是有点好的 好的。所以,如果你想自己试用这个模型,你可以进入 a studio 并免费试用这个模型,并尝试你自己的提示,并某种程度上看看。记住,这里的大事情是,你应该尝试不同的 thinking levels。 如果你将其设置为 hack, 它可能需要更长时间来给你一个答案。但当你这样做时,你绝对会从这个模型中获得某种像 gemini think mini 的 东西。 所以这个模型正在向 gemini pro plan 推出,它已经在 google cloud 上推出。如果你想在那里试用它,你当然也可以在那里使用它。 我会说,虽然这是一个增量的零点一步骤。它是一个大的更新,基本上使模型重新回到与 oppo 四点六以及最新 gpt 模型相同的竞争领域。 正如三 pro 在 过去三个月中推动了专有模型以及开放模型权重的某种全新起飞一样。现在,既然 jimmy 三点一 pro 已经推出,并且实际上已经显著提升了其性能, 我们是否将看到其他模型发布?新版本已尝试赶上。无论如何,在评论中分享你的想法。如果你喜欢这期视频,别忘了点赞和关注,这样就不会错过最新内容了。

昨天谷歌发布了新的模型哈基米三点一 pro, 如果我们只看名称的话,就会发现他只提升了零点一,那是不是能力也只是提升了一点点呢?并非如此,这次更新虽然是一个非常小的版本,但是他的整个推理能力有了一个非常大的跃升。而且我们看他官方展示的例子,只能说明官方很懂啊,他知道自己模型的强势点在哪,就是前端视觉, 所以他们展示的是一个视觉方案。那么这只是卖家秀,接下来呢,将给大家展示买家秀是怎么样的。 首先来到战备贷官网,不管你是什么账号,都可以进行使用,只不过额度不相同。就比如说我现在是一个免费的账户,点击右下角可以切换到 pro 模型,它默认使用的就是三点一,一个经典的小游戏,让它加上了音乐, 我与板栗仔不共戴天,就是我这个免费账户,只用它生成了这一个案例,然后就已经达到了限额。然后是我的 pro 账号,让它生成了一个动画 svg, 展示一只穿轮滑的鸵鸟,我觉得还是非常让人满意的,只不过这个行走动作呢,有点奇怪,像是倒着走一样。 只要你是付费用户呢,你这个额度其实就非常多,可以一直去用,但是相应的他也学会了 open 那 一套,对一些账户呢,给你随记录邮也就降至免费版,虽然次数少,但他肯定不会给你降至,原因呢,就是因为他肯定要让你看一个非常好的效果,然后你才会愿意花钱去购买他们的套餐。至于你已经购买的了,我就随便给你路由,一会让你好用,又让你不好用。 这个就比较烦人了,学坏。给大家看一下我其他的生成效果,重复了很多次,有的降智了,有的不降智。就比如说这个,当我点击皮卡丘的时候,他会有一个闪电。 我靠,但是有些时候他做的还挺好看的。你比如说一个精灵球,我去释放,然后会出来一个皮卡丘,它整个质感是不错的,只不过耳朵的位置错了。我也可以去继续跟他聊天,让他去纠正,他是可以纠正的。我测试过 制作一个赛车飞速行驶的 svg 动画,那它呢?就会自动帮我们进行设计,去思考应该怎么做。那最终结果是这样的,你可以看一看,是完全可以用的,非常的惊人。 但是因为我刚睡醒啊,有点起床气,没有那么激动。什么意思?在同样的提示词下,拆 gps 的 表现就非常的糟糕。而 cloud 的 欧帕斯四点六同样非常惊人,完全可用的状态。那国产模型里边 dbc 老师生成的呢?也是非常幽默,那可以看一下是飞驰。 哇哦,那现在我们再来看 jimmy 生成的这个,这样对比之下,我们就能发现他的细节比上面两个模型要好非常多。不过这个时候呢,可能有朋友要质疑, 那你生成个 svg 有 什么用啊?就只是看着好看,好像没什么用。拜托,这是 svg 啊,他是一个矢量图,这个意思是不管我们放大多少倍,他都是没有像素点的。就比如说,我们可以直接把这一段矢量图放在我们的网站中,我之前他制作一个精致的赛车网站,把 svg 动画当做头图展示, 直接让他来进行生成,这网站虽然生成了,但是说实话,配色整体的感觉是非常丑陋的,所以呢,我让他变得高级优雅,有设计感。这几个词呢,几乎已经被他训练在里边了,他一检测到这个词他就知道了啊,你想要一个那样的, 我就给你个那样的过礼盒了。属于是现在我们再来看这个风格呢,就变得非常高级了,包括这个车的颜色呢,也进行了重新设计。 哎呀我靠,艺术,这就是艺术。我这里呢还让他做了一个小小的演示动画,就是先是一个手机,然后变成赛车在赛道上跑,然后赢。我看一下 整个动画呢,可以说是非常流畅而且很巧妙。这个模型对于一些三 d 效果呢,做的也是非常不错。就比如说我让他制作了一个图书的网站, 然后是三 d 悬浮的书,然后可以这样去滑动去选,还让他制作了一个三 d 的 赛车游戏,你可以注意一下这个车上面的灯光反射做的非常好啊,还有这个碰撞, 每撞一下速度就会减慢,撞三次就死亡了。然后就是经典重现 mac os 系统,哇,整个图标的设计呢,也变得非常好看了哈,挺可爱的。 还有这个小游戏对赢家 x 贪吃蛇,这能放大吗?还可以全屏细节,还能在系统设置里面呢,去设置壁纸。 哎呦,总之这个版本的更新呢,前端依旧是非常的强劲,那至于后端,我们有更好的选择,高的欧巴斯, openid, 酷拽的都是不错的。 至于 jimmy 的 话,就写写前端吧,他们好像是要在前端的路上一去不回了,要走到头,依旧牛大了,依旧无敌,非常的寂寞。各位如果感兴趣的话,可以下去自己试上一试, 得出自己的结论,不要看我怎么说,也不要看别人怎么说,好不好用你用不用,最终呢还是自己来决定的。那以上呢,就是本期视频的全部内容了, 对你的帮助和这个视频做的还不错的话,欢迎给个一箭三连,有什么想看的内容呢,也可以在评论区留下你的足迹。那最后祝大家新年快乐,今天已经初四了,年都跑远了,给大家拜个晚年。依旧祝各位晚年幸福,晚年安康,我们下期再见!拜拜!

对普通人来说,其实没有必要去搞复杂的 ai 工作流,比如 n 八 n 之类的,那些都跟业务高度绑定了,适合 b 端用户使用,门槛也挺高的。对于咱们 c 端的个人来说,用 gemini 就 够了,因为 google 最近升级了 gemini 里的 gem 功能,现在它可以升成工作流了。 我先给你们演示一下,这是我的需求,很简单,我希望詹姆奶能根据我输入的关键词进行全网搜索,查找最新的三到五篇英文核心报道或者论文, 然后进行信息的蒸流,排除掉那些废话,然后再提取核心事实和观点,最终我要它生成一个深度的分析报告。这个是新版 gm 的 界面,已经改成对话的形式了。把那一大段需求输入进去之后, gm 奶会做分析和拆解,自动生成一套的工作流。 它的每一个步骤都是根据我的需求来的,比如先研究关键词,然后再做 deep research 等等。 咱们来做一个测试,我给他一个关键词, robo taxi。 这个是我最近比较关注的话题,因为我持有特斯拉的股票, 他们的 robo taxi 业务在监管层面有很大的进展,开始真的实现无人化了,那这个会对公司的基本面以及股价有非常非常大的影响。稍等片刻之后,一份报告就出来了,包括 call, fax, key, insights 等等。 那看到这里,你可能会说,这不是跟搜索功能差不多吗?从内容层面来看,你用 deep research 在 聊天的状态下也可以得到类似的东西, 但是啊,那些内容都是纯文本的形式。而在新版 gm 这边,它给的是一个页面,一个应用, 除了单纯的展现之外,还可以有别的功能,比如下载,这个就是 google 想要实现的,叫做 mini app, 用咱们熟悉的概念来说,就是 google 版的小程序,通过工作流这个小程序,把结果分装成了一个独立的实体, 它交付的不再只是信息,而是实体,或者说是软件,而且这个软件是可编辑可更改的。比如刚才演示的例子,它输出的结果是英文的,我可以通过对话让它改成输出中文,并且信息源依旧是英文的, 像这样的改动一两分钟就完成了。如果你觉得通过对话的修改还不过瘾,想要更细致的控制,可以进入后台页面,那这个时候你会看到完整的工作流可以针对每一个节点做修改,比如修改某一个节点的使用模型。 通过新版卷 google 版的小程序,普通人日常的大部分需求都可以得到满足,它拥有极低的门槛,开箱即用口喷就好,而且与酷狗全家桶的集成是原生的,体验最丝滑。 而且之后 google 肯定会升级这个小程序的能力,不只是一些前端界面的呈现,还可以有更强大的后端能力,这个是肯定会发生的。当然啦,新版 gm 的 缺点或者说它还做不到的地方是没法跨生态打通。 比如你想搭建一个 ai 工作流,让它先把数据存到 noose, 再发给 slack, 最后再写入 micro, 那 gm 奶还搞不了这种跨生态的复杂链路,而这个就是 nba 的 强项了。所以现在简单的任务可以全都放到 gm 里去实现, 等你遇到复杂的业务流了,你再去考虑上 nba。 ok, 以上就是本期内容,想了解 ai, 想成为超级个体,想找到志同道合的人,就来我们 newtype 社群,那咱们下期见。

大家好,欢迎来到 ai 新闻早班车。大家好,今天有三个重磅消息,都和 ai 未来的走向息息相关。听说有个攻击事件闹得挺大,谷歌的 jammer 模型被征流了。对,这可不是小打小闹,黑客用了一种叫征流攻击的手法,对着 jammer 问了超过十万次问题。 十万次?这是想干嘛呀?简单说,就是想套出模型内部的知识。你想啊,大模型训练一次成本多高?要是能通过反复提问把它的逻辑数据分布偷出来,那攻击者自己就能搞出一个差不多的模型。这不就是偷知识产权吗? 没错,而且这次是商业动机驱动的。谷歌的安全团队说,攻击者来自全球多个地区,目标很明确,要么克隆模型,要么强化自己的 ai 系统。那这事危害有多大? 风险挺高的。谷歌的威胁情报专家打了个比方说这是煤矿里的金丝雀,预示着更大的危险可能还在后头。你想,连 jammy 这种级别的模型都敢碰,那些中小企业的定制 ai 工具不是更危险吗? 确实,那些定制模型里可能包含了公司的敏感数据和商业逻辑。所以啊,这对企业来说是个警钟。 ai 开放服务固然方便,但安全防护必须跟上,尤其是处理敏感信息的场景,得考虑更严格的访问控制和监控机制。 嗯,看来 ai 安全不只是防数据泄露,还得防这种知识提取。说到安全,国际上也有新动作。就在巴黎 ai 大 会上,近五十个国家一起签了个全球 ai 治理框架。这么多国家一起签,这框架主要管什么? 核心就两点,安全和人权。它明确禁止了致命自主武器这类高危应用,同时要求 ai 发展必须尊重人权。那对企业有啥直接影响? 最大的好处是统一标准。以前企业出海,每个国家的 ai 合规要求都不一样,成本高、麻烦多。现在有了这个框架,相当于有了一个国际公认的基础。 那和欧盟刚实施的 ai 法案是啥关系?他们是互补的,欧盟法案是区域性的具体法规,这个框架是更广泛的国际合作。畅意两者叠加,其实给企业指了条明路,既要满足当地的法规细节,又要符合全球的安全论语共识。 这么说, ai 治理真的从各管各的走向一起管了?对,这是个里程碑,它意味着国际社会开始认真对待 ai 的 跨国影响,也为未来的技术合作铺了路。说完地上的,再看看天上的 浙江实验室,最近搞了个大动作,把十个 ai 模型部署到了卫星上,建成了全球最大的太空计算星座。在卫星上跑 ai 模型,这有什么特别的? 你想啊,传统的地面数据中心有能源散热的限制,太空里温度低,有充足的太阳能,理论上是个更理想的算力环境。那现在这些卫星能干啥? 算力挺强的,整体达到五 p o p s, 能支持一千四百亿参数的大模型运行。这意味着卫星可以自己处理数据,比如实时分析灾害影像,监测农作物长势,然后把结果直接发回地面。这不就是新上智能吗?数据处理不用再传回地面了。 没错,效率会高很多。以前卫星拍张照片得花时间传下来,地面再分析,现在直接载轨处理,分秒级就能出结果,对于应急响应、智慧城市管理这些场景价值太大了。这技术听起来挺未来的,离我们普通人远吗? 其实不远,比如你手机里的天气预警、导航的实时路况,背后都可能用到这种太空算力的支持。而且它带动了整个产业链,从商业航天、卫星制造到星载处理器都在快速发展。看来中国的太空 ai 布局已经走在前面了。 今天这三条新闻其实串起了一个大主题, ai 技术越强大,我们越需要关注它的安全治理和基础设施。 从蒸馏攻击到全球治理框架,再到太空算力,确实能感受到 ai 正在从实验室玩具变成真正影响世界的生产系统。 对科技爱好者来说,这些都是值得深度追踪的前沿。对职场人来说,了解 ai 安全风险和全球合规趋势,也能帮我们更好的应对技术变更。希望今天的早班车给你带来了一些启发,感谢收听 ai 新闻,早班车,我们明天见!


谷歌刚刚推出了它们迄今为止最强大、性能最优的 ai 模型 gemini 三 one pro, 而且它的能力堪称全方位无死角,强大到离谱。所以本期视频我就带大家盘一盘它的用法和应用场景,秀一秀它的酷炫功能。 当然少不了要把它和其他模型在规格、性能、跑分上拉出来留一留,做个全面对比。话不多说,咱们直接开整。 感谢 hapspot 对 本视频的赞助好了。在我录这期视频的时候,三点一版本应该已经在 jamaican 应用里上线了,所以如果你选择 pro 版本,注意看这里显示用的就是三点一 pro, 那 咱们就来试几个提示词看看。 首先测测它生成新点子的脑洞有多大,我打算让它设计一款移动操作系统,要比安卓和 ios 都更牛。 主屏幕上又包含八个应用,解释一下你的设计运行逻辑,还有这么设计的原因?接着在工具里我选择 canvas, 这样就能在侧边窗口预览它生成的结果了。点击运行好了,它搞出来的系统长这样,名字叫 fluidos 流体操作系统, 这就是该系统的八个核心应用。首先有这个 amni, 或者叫顶部横幅,它是整个手机的大脑,我猜指的就是屏幕上这块。点进去看看,它本质上是一个统一的 ai 智能体,它会读取你的日历、邮件、位置信息,然后主动精准地推送你当下最需要知道的事情。 比如你下一个会议几点开始?下一个应用叫 fred 信息流,这里将所有消息、邮件、私信和通话统一汇集于一处。所以这里提到为什么要有独立的短信、 whatsapp 和电子邮件应用? fred 统一管理您的所有通信。 接下来是 science 应用,它汇集了来自智能手表、手机、传感器等设备的所有生物特征数据。此外,我们还拥有 flow, 它就像一个通用的媒体播放器。然后我们还有 prism, 我 想就是这个了。所以这不仅仅是一台相机,更是一款具备实时翻译、文本复制和视觉搜索功能的增强现实镜头。 然后我们还有 shift 键,就是这个用于导航。所以这大概就像谷歌地图吧。但它知道您何时出门上班,无需您询问便会主动显示交通延误信息。然后,我们还有这个保险库图标,我才是用来存放安全密钥、信用卡和密码的。 接着,我们还有这个家庭图标,用于控制您的智能家居设备。现在这个问题没有正确答案,这正是其设计初衷。但请告诉我这个有多好?你觉得它比安卓或 ios 更好吗? 好的,这是我的另一项常规测试。那我就上传这张图片了,让我们用它来根据这张图片创建一个美丽的三 d 动画。让我们看看它在编码方面的表现如何。好了,来看看我生成的效果。 这座宝塔看起来确实非常精美,细节丰富。相比我用同一个提示词测试过的其他模型,包括所有其他顶级模型,到目前为止, jimmy 三点一生成的这座宝塔细节还是有所缺失。 另外,樱花部分的细节也可以再丰富一些,但仅凭一个提示词就能达到这个效果已经相当不错了。事实上, gemini 三点一 pro 在 三 d 建模和空间理解能力上又强得多, 那么这里还有一些 gemini 三点一 pro 生成的其他三 d 作品。这是和之前 gemini 三版本的对比。如你所见,在所有势力中,新版本的细节和生成质量都明显更胜一筹。 如果你让它生成一些不同主题的 svg 动画,你会发现 gemini 三 pro 在 这方面表现要出色得多,整体效果看起来流畅度、细节度和准确度都提升了不少,相比旧版本进步显著。 好了,接下来我们看看他的音乐创作能力如何。不过首先得给他做个能创作音乐的交互界面。那么第一步,先让他生成一个钢琴卷帘窗界面,这样我就能在时间轴上拖拽和绘质音符了。来,点击运行。好了,这是我一开始搞出来的东西,咱们放一下听听看灵不灵。 没问题,第一个版本跑通了,不过吗?真正的考验是让他整出点真正炸裂的音乐来。于是我接着输入生成一首气势磅礴、情感充沛的三十二小节钢琴曲,要细节拉满,捕捉一位钢琴大师收官演出的审讯。然后诺,结果出来了,咱们来听听看。 哎,其实你们可能看不太清,我把它缩小点,这样所有音符就都能看见了。好了,现在再放一遍,继续往下走。 that was actually really good, everything sounds like pretty harmonious, there's no dissonance involved here, i tried the same test with another state of the art model called jlm5 and it's a lot more incoherent so this one actually sounds really good, it has some inherent music composition knowledge built into it alright next let's test how good it is at lighting physics so。 现在我让他整一个模拟场景, 主角是三个金属球,因为两个球太没挑战性了,已经有些别的 ai 模型能搞定两个球了。然后让这些球悬浮在一个街景上空,街景就用随便哪个公开的三 d 街景视图都行,并且参数可以调。比如反射率、粗糙度这些材质属性,来看看它生成的效果。 好了,这是我得到的第一个结果,真正的考验在于这些球体是否能在彼此内部形成反射,所以第一次迭代时,他没能搞定这个问题,于是我就输入了球体之间没有相互反射,然后经过调整, 这就是最终的迭代结果。如你所见,球体之间确实形成了相互反射。接下来我们挨个测试一下每个球体,确保所有功能都正常。先看这个金色球体,我们来调调它的反射率 没问题,再来试试粗糙度,粗糙度也没问题。然后是反射亮度,同样有效,我们还能改颜色,比如我们把它改成蓝色, 这个也行。接下来我们玩玩中间这个硼合金球体,它的反射率调节也没问题,粗糙度也 ok。 注意看,当我调整粗糙度时,它在其他球体上的反射效果也跟着变了。 接着我们再调调反射亮度,同样有效,非常棒。最后我们再来试试这个红色金属球体,确保它也能正常工作。没错,所有的参数调节都奏效了,所以仅仅用了两次提示词,我就做出了这个功能。完整的漂浮球体模拟效果,我可以随意调整各种参数, 而且视觉效果非常出色。接下来给大家展示几个 gemini 三点一 pro 非常厉害的实际应用,我可以上传一大堆收据,然后让他把所有收据都解析出来,然后把数据填入一个电子表格列名,包括日期、项目、总金额和货币, 我们点击运行看看。好的,看结果出来了,没错,他把所有项目都列出来了,而且货币信息也完全正确,他连那张几手的收据都搞定了,那张用的是加元,不是港币,这真是太牛了。 之后我们可以点击导出到表格,打开看看,这就是最终结果,非常棒。既然他能分析图片,那我们来试试这张寻找沃耳朵的图片,让他在这张图里把沃耳朵找出来,并且圈上。好的,我这就切换到专业模式,然后点击运行。可惜啊,这个答案让人大失所望, 他说沃尔多根本不在图利,但这不对,他明明就在图利,真让人失望,这就是典型的 ai 幻觉,他完全是在胡编乱造,他彻底搞砸了。不过 gemini 三点一真正厉害的地方在于,他不仅能分析图片,还能处理视频和音频。 所以我首先上传这个关于日本地震模拟的讲解视频,然后让他根据这个视频的内容创建一个应用程序。 我先给大家放一下这个视频,我想让你制作一个日本地震的交互式动态演示。比方说我们有一张这样的日本地图,首先请在地图上标出或显示日本所有的主要城市,然后左侧会有一个边栏,我可以在那里调整各种参数,比如地震相关的 震级之类的各种参数,这些就是我可以调整的设置,只要我在地图上随便点一个地方,比方说我点这儿,那你就要开始模拟一次地震。这将会是一个动画效果,地震波会缓慢的扩散,一圈接一圈,一直传播到触及其中某个城市为止。 然后根据地震的震级大小,我希望你能计算出每个主要城市可能遭受的破坏程度。请注意,我在指令里并没有用文字详细说明这个应用程序的任何细节。我既没提日本,也没提地震, 任何相关信息都没给他,需要全靠自己从零开始领悟这一切。仅仅通过观看这个视频,咱们点击运行,看看他能生成个啥。好了,看,这就是我的成果,是不是很酷?咱们来实际操作一下,看看灵不灵。我可以在地图上随便点一个地方就能触发一次模拟地震,那我们就点这里试试。走,你 注意看,他甚至能自动瞧,他自动给我调出了日本的地图。接下来我们把镇级调高一点,漂亮。现在我们把镇级调小一点,可以看到这基本没影响到任何大城市。咱们把镇级直接拉到惊人的九级,然后我们把镇中设在这附近,看看会发生什么,是不是超酷的。没错, 他完全按照我视频力的要求来执行,太酷了!说到谷歌的 jammer, 如果你曾花费数小时手动查找资料,却只触及皮毛,那我有个好东西能彻底颠覆你搜集信息进行研究的方式。来看看如何用二十分钟干完十小时的调研活儿。这份由 hapsbot 出品的营销人员必备, 谷歌 gemini 与 notebook r m 指南,我已经把它放在下面的描述里了,可以免费下载。这份指南能让你在几天内就成为任何领域的顶尖专家,无需数月,只需几天而非数月。借助能将耗时大幅压缩的 ai 研究工具,把过去几小时的工作压缩到几分钟完成。你能处理的信息源 比整个团队加起来还多,并能发现人类通常会忽略的信息模式。指南里提供了详细的分布说明,教你如何利用 gemini 的 深度研究能力,从数十个信息源中搜集全面的资料。此外, 还会教你如何使用 notebook 二 m, 把这些原始数据转化成可落地执行的洞察方法,包括 ai 生成的摘要,甚至个性化的语音简报。我最喜欢的一部分是,里面详细列出了这套研究工具的十一种实际应用场景,包含了从内容创作到竞品分析、 危机公关策划等方方面面。里面的案例具体演示了如何在实际营销工作中运用这些工具。这份资源是由 hop spa 的 制作的,他们也是本视频的赞助商,点击下方描述里的链接就能免费获取。 好了,我们再来看另一个例子,用它来为你获孩子量身打造个性化学习内容,简直易如反掌。比方说,咱们让他给孩子们设计一套趣味化学课吧,课程包含多节课,他一共设计了三节课。咱们开始上第一课。 这里需要添加一些氢原子和氧原子,用来合成一个水分子。我这就快速操作一下瞧,一个水分子就合成出来了。整个过程非常流畅,动画效果也是丝般顺滑。接下来我们试试下一课讲的是物质的三种状态, 固态、液态和气态。哎呀,这里图片加载失败了,然后这里需要我们选择正确的固态,我就随便选一个填上吧。嘿,居然对了!最后一刻,我们来点疯狂的化学反应,咱们在烧杯里混合几种原料看看。 接下来就是见证奇迹的时刻。我们再点一次混合,这次试试把醋和洗洁精混在一起,结果啥反应也没有。那我们再试试洗洁精加食用色素。哇,出现了神奇又多彩的泡泡!这只是个简单的例子。以上所有这些仅仅来自一条指令。 当然,你还可以继续给他下指令,让他生成更多课程,或者把你想学的任何内容都涉及得更详细。好了,接下来咱们瞧瞧他编辑游戏代码的本事如何。我打算开发一款类似超级马里奥的二 d 平台跳跃游戏,把游戏做得酷炫一点, 并且把所有内容都打包进一个独立的 html 文件。游戏里用的素材、模型和特效都从公开渠道获取好了,这就是生成的结果。 我们来点击开始游戏试试。你看这游戏看起来跟超级马里奥简直一模一样,连音效都配上了,要是我从这掉下去会怎样?哦,果然,游戏结束了,看来所有功能都运行正常。 想想看,仅仅靠一条指令,它就能生成一个功能完整的二 d 平台。游戏里面还有敌人,包含金币收集机制和音效。当然,我还可以继续给他下指令,让他增加更多关卡或者自定义游戏规则。接下来正如我稍后会讲到的, gemini 三点一在某个方面能力超群,那就是科学知识和推理。 我这就举一个医学领域的例子,请分析这种鸡营养不良症中抗鸡萎缩、蛋白缺失的分子病理机制,对比不同疗法,并评估近期临床试验的长期功能预后,最后还要生成清晰美观的表格和图标。 这次呢,我打算把 chaos 功能关掉,然后直接点运行,看看它会给出什么结果,这就是生成的内容了。看,这里给出了抗鸡萎缩、蛋白缺失等的分子病理分析, 然后这边是对 d m d 疗法的对比分析。这个表格内容详实,设计精美,信息量十足,你甚至可以直接导出到电子表格。接下来,这里展示了一些长期的功能性成果。我喜欢詹曼奈三点一的一点是,它非常简洁, 不绕弯子,也没有任何凑字数的废话。它回答问题非常直接了当,并且给的都是我需要的干货信息。 这里还有一个表格,直观地展示了功能差异。这个表格同样也能导出到电子表格,差不多就这些了,也就是说非常简短精炼。 这个问题并没有标准答案。目前市面上所有顶尖的 ai 模型都能帮你整合信息,所以关键真的在于你更偏爱哪种风格。看起来, gemini 三点一的风格明显更简洁,而其他一些 ai 模型则提供了更为详尽和深入的分析。 以上就是我的一些快速演示,接下来看看 gemini 三 pro 的 一些规格参数。如你所见,它能处理文本、图像、音频和视频多种输入。 此外,它的上下文窗口高达一百万 tokens, 这大致决定了你一次性能在提示词里输入多少信息。 jamming 目前拥有最宽的上下文窗口,高达百万令牌。这大概相当于七十万个单词,一个中等规模的代码库,或者超过一小时的视频内容。 相比之下,许多其他顶尖 ai 模型的上下文窗口就小得多了。接着,这里提到三点一版本的架构是基于 gemini 三的,这只能算是一个小幅改进,算不上什么重大升级。这里还提到,目前你可以通过 gemini 应用来使用它。我在这个视频里展示的大部分演示 就是在 gemini 应用里完成的。此外,你也能在 nobel 二 m 这个平台上使用它。这是一个非常实用的平台,能帮你学习知识并生成学习笔记。而对于开发者来说,也可以通过 google 的 a s studio 来使用。还有 gemini 命令行工具以及 google 的 集成开发环境,名叫 anti gravity。 它和 carter 非常像, 只不过它的底层是由 gemini 驱动的。此外,在安卓 s studio 以及其他一些企业级平台上也能用。接下来我们看看它的实际表现到底如何。这里有一些精准测试结果,它们将 gemini 与市面上顶级的模型进行了对比,包括 opus 四 six thinking max, g p t five 五二 extra high 以及 g p t 五非 codex extra high。 但正如你所见,在大多数精准测试中, gemini 三点一 pro 的 表现都更胜一筹。 例如,在 humanities last exam 这项测试中,他在不使用任何工具的情况下拿到了最高分。这个精准测试专门考察 ai 对 一些非常冷门的知识的掌握程度,例如这里有几个来自人类最终考验精准测试的样题, 这道题大多数人估计都答不上来,这涉及的知识点相当深奥冷门。但大家可以看到, gemini 三 e pro 模型在不借助任何工具的情况下,既没上网搜也没干别的,得分却是一骑绝尘,这说明他的脑容量里塞满了海量的世界知识。再看 r k g i 二精准测试,这个领先优势简直逆天了, 我觉得光看这个表格还不足以体现他的牛,所以我再给大家放一张 r k g i。 二的排行榜,方便参考。 y 轴代表分数,也就是模型的表现好坏。可以看到, gemini 三一 pro 高居榜首,甚至超过了被标签挡住的 opus 四六模型大概就在这一块,而其他模型都被远远甩在了后面。 那么为什么这个结果这么重要呢?如果你对 r a g i 二精准测试不太了解,简单来说,它主要评测 ai 解决视觉谜题的能力,但它的意义远不止于此。下面我们来看几个例子。 首先,模型会看到一个问答范例,例如这里的正确答案时,所有蓝色方块都应该向左移动,而所有红色方块则应该像这样向右移动。 接着,模型会收到一个新问题,它需要根据这个规律来找出答案。然而,这不仅仅是在解视觉谜题那么简单,因为对于 ai 模型而言,它其实无法真正学习新知识,因此训练完成后,它的权重和参数配置就固定不变了。所以 ai 模型想要真正学会新东西 其实是很难的,吸收新规律,并像这样运用到自己的答案里。正因如此,大多数模型在这个精准测试中的表现都不尽如人意。但正如你所见, g p t 三的得分却一路高歌猛进 冲到了这个位置,这说明他似乎具备某种涌现能力,能够真正学习和掌握新规律,这些规律是他在训练数据中从未接触过的。 此外,他在 g p q a 钻石机准测试中更是独占鳌头。这个测试考察的是研究生级别的科学知识,他在 terminal bunch 上的表现也堪称一绝,在其他智能体编码机准测试中同样表现优异,而且他在处理长上下文方面的表现也相当出色。 换句话说,即便你输入海量的信息多达约七十万字,他依然能够对所有内容进行透彻分析,并非常精准地给出你所需的信息。当然,这些只是他们自家公布的机准测试数据。 接下来,我们也来看看一些独立第三方的评测结果。这里有一个独立的排行榜,如图所示。 gemini 三点一 pro 是 目前最智能的模型,这是根据其智能指数排名得出的结果。它的得分远超 opus 四点六 max 和 gpt 五点处 extra high, 使其成为当前市面上你能用到的最佳模型。 不仅如此,它的性价比也非常高,因此即便它的价格反而更便宜,使其成为目前性能最强、 性价比最高的闭源模型。但有趣的是,如果你查看另一个名为 r o m arina 的 排行榜,那么 gemini 三点一 pro 在 文本任务上的表现就不如 opus 四 six, 而在编程方面,它的排名直接掉到了这个位置,甚至还不如 g p t 五点 two。 微震模型也是如此,其性能甚至还不如之前的 gemini 三 pro。 所以 我在不同的排行榜上看到的结果有些相互矛盾,因此 参考多个排行榜就显得尤为重要,这样才能全面了解模型的真实表现。至于其他排行榜,比如 s w e bunch 和 live bunch, 可惜的是,截至本期视频录制时,这些排行榜还没放出 gemini 三点一 pro 的 数据。 不过, gemini 三点一还有一个超赞的功能值得一提,那就是它的幻觉率非常低。这里展示的是人工智能全知 artificial intelligence amnesons 精准测试的幻觉率。如图所示, gemini 三点一的幻觉情况远少于其他一些顶尖模型, 比如卡的 opus 四点六和 g p t 五点 two。 也就是说,它胡编乱造,给你错误答案的可能性更低。当然,这种情况仍然会以一定的概率发生。如果你真的想要一个幻觉率最低的模型,那最好的选择就是上周刚发布的开源模型 g l m 五,这个确实很强。有一点要注意,这个五十分不代表它有一半的时间会产生幻觉,仅仅表示它在这个测试基础上答错了百分之五十的题目。好了,关于 jammy 三点一 pro 的 评测到这里就差不多了, 它目前是市面上最聪明、性能最强的模型之一,你现在就能用上。而且 gemini 应用力已经上线了,所以不妨亲自试试,然后告诉我你觉得怎么样?

大家好,今天我们来拆解 google 首席科学家、传奇工程师 jeff dean 的 最新访谈。作为 ai 界的先驱,他透露了 google 在 gemini 时代的核心战法,如何通过帕里托前沿和软硬协调重塑人工智能的未来。 首先, jeff 提出了一个核心概念,拥有帕里托前沿。这意味着 google 不 只追求最强的模型,如 gemini ultra pro, 还要通过蒸馏技术将大型模型的推力能力灌输给更小 更快的模型,如 gemini flash。 这种战略让 flash 版本能在保持极低延迟和成本的同时,表现超越上一代的旗舰模型。 google 追逐的帕累托前沿并不是静止的,它处于不断攀升和向外扩张的状态。其次, ai 的 感知正在从人类模态走向非人模态。 jeff 指出,未来的 gemini 不 只能读文字、看视频,还能理解自动驾驶的雷达、数据、 lidar、 医疗影像、 mri 甚至是基因组信息。更震撼的是, google 正在攻刻万亿级上下文,目前的一百万或两百万 token 只是起点。 未来的愿景是让 ai 实时关注整个互联网,或者你一生所有的数字状态,包括每一封邮件和每一张照片。未来的 ai 将不再是一个通用的工具,而是一个真正懂你、能处理现实世界物理法则的私人智能体。为什么 google 能做成这件事?秘密在于硬件协调设计。 jeff 从系统工程的角度解释了一个惊人的数据,在芯片上,移动数据的能耗远高于计算本身。通过 tpu 与软件的深度定制, google 利用低精度计算和高效的数据批处理,实现了性能与能效的极致平衡。 ai 正在改变软件工程的本质。 jeff 指出,通向通用模型的趋势也不可阻挡,通用模型在大多数任务中都会胜过专用模型。对于开发者来说,编程范式正在发生巨变。 jeff 预测,未来的软件工程师将管理五十个 ai 实习生组成的智能体团队。人类的核心竞争力将从写代码转变为精准定义规格。当 ai 的 生成速度达到每秒一万个头肯时,它将有充足的时间进行复杂的链式思考推理, 生成比人类更可靠、更高效的系统架构。从二零零一年将搜索锁影搬进内存的革命架构。从二零零一年将搜索锁影搬进内存的算法 更极致的硬件。 jeff dine 的 视野不限于算法的迭代,更在于如何构建一个垂直整合的、从底层硬件到顶层应用的高效生态系统。 他相信,通过持续的大规模投入、稀疏化模型、 spa models 以及对可信的不懈追求, ai 将在未来几年内实现更令人惊叹的能力飞跃。关注我,带你提前看懂未来!


谷歌刚刚扔下了一枚重磅炸弹,就在今天,官方正式宣布,全新的 jimmy 三点一 pro 模型在全球范围内全面推送。如果你觉得这只是个常规的更新,那可就大错特错了。先来看一眼这份让人倒吸一口凉气的成绩单,再代表着大模型抽象推理能力天花板的 a r c a g i 二测试中, jimmy 三点一 pro 直接狂飙到了百分之七十七点一。 作为对比,科二的四点六最高是百分之五十二点九。再看看 rtfoster analysis 最新的大模型智力指数排行榜, jimmy 三点一 pro 更是以五十七分的绝对优势空降榜首,可以说是在代码、数学和复杂推理领域完成了真正的霸榜跑分。没输过,那实际体验到底怎么样?我们直接上机实测,打开网页端,在模型选择器里,我们精准地切换到最新的 jammy 三点一 pro 专业版, 接下来给它上一点点强度输入提示词的动画。注意看接下来的画面, 系统不仅迅速响应,还直接唤醒了全新的 canvas 协助界面。屏幕左侧, jamie 正在以不可思议的速度疯狂手搓 html 和 javascript 底层代码。而在屏幕右侧,根本不需要你去配置任何本地环境, 网页直接把动画实时渲染出来了。蓝天白云、太阳、公路,还有这只有模有样的鹦鹉,所有元素的几何图形拼接全部由代码独立完成。但这还不是最让人头皮发麻的,它不仅懂视觉,它还懂复杂的交互逻辑。看到左上角这个速度控制滑块了吗?当我们用鼠标拖动滑块,鹦鹉登自行车的频率、车轮转动的速度, 甚至是背景里云朵和公路的滚动速度,全部实现了完美的动态同步调整。从听懂需求,编写复杂逻辑,这是把一个全能程序员直接塞进了你的浏览器里,这绝对是目前的生产力版本。答案,目前谷歌仅对 pro 套餐以上的订阅 用户开放最新模型,还没有订阅的也没关系,可以看一下我上个视频如何使用学生认证号一年 pro 订阅这期视频还是老规矩,评论点赞加转发超过五十,从评论区抽一位我的粉丝,送一个成品号。

gmail 三点一 pro 重磅更新啊!我们今天测试一下 gmail 三点一 pro 和 gpt 五点二 think 模型以及 cloud office 四点六 think 模型,对于文章的理解能力怎么样?接下来呢,我会上传同一份文档,同一样的提示词,让它们去理解,并且给到我们绘图指令, 绘图指令我们统一用 nano banana 模型来处理啊。首先呢,我们来到这个 gemini, ok, 把提示词粘贴进去啊,然后提示词粘贴进去之后呢,这边我们选择三点一 pro 模型啊,三点一 pro 模型,然后分析解析,这个时候 gemini 就 会去深度理解我们这篇文章,并且给到我们绘图提示词。 ok 啊, jimmy 已经分析完成了,并且给到了我们 nano banana 的 绘图提示词啊,我们把它复制下来,然后的话,我们这边新建一个对话,选择 nano banana 模型,把这个提示词粘贴进去,这边选三点一 pro 啊,这个就是 jimmy 三点一 pro 绘制出来的一个效果啊,大家觉得怎么样? 还是还是可以的,还是不错的啊,比之前三点零 pro 提升很多很多。接下来我们用 g p d 五点二升屏模型来重复一下上面的操作啊,我这边就加速了啊,有些步骤我就给大家省略了,兄弟们啊,快一点 可以看到 g p t 五六二 thinking 模型,目前已经完成了思考。这个提示词相比于 gemini 三 pro 的 话,长非常非常多啊,长非常非常多,我们来把它丢给 banana, 绘制一下图片,看下效果啊,丢给我们的 banana 模型,丢给 banana, 那这个就是我们用 gpt 五点二 ck 模型去深度理解我们那篇文献,并且给到绘图提示词,然后用 banana 复制出来的一个图片。效果啊,大家觉得跟 jamal 的 比起来怎么样呢?这张 还是不错的效果,效果还是不错的。最后的话,我们用克拉的 oop 的 ck 模型啊,也同样的重复一下上面的操作,这边我就加快处理一下,还是一样的上。 然后 cloud office 四点六的 cking 模型就会深度理解这篇文件,并且给到我们绘图指令,我们把绘图指令同样的操作丢给我们的 jimmy 啊 jimmy 就 可以了。祝我用 cloud office 四点六 cking 模型去理解文件,并且 绘制出来的图片啊!大家看一下这个效果,觉得更喜欢哪个?那可以把这个你喜欢的打在公屏上啊。

科技界又迎来重磅消息,谷歌刚刚发布了全新 ai 模型 gemini 三点一 pro, 这款产品在推理能力上实现了惊人的突破。 最新测试数据显示, gemini 三点一 pro 在 关键性能指标上直接翻倍。在评估逻辑推理能力的 a r c a g i 二测试中, 得分从上一代的百分之三十一点一飙升至百分之七十七点一。更令人振奋的是,在权威机构 a r t i f i c i a l a n a l y s i s。 的 十项评估中,这款模型拿下了六项第一, 包括编程能力、科学推理等关键领域。更厉害的是,性能提升的同时,价格却保持不变,每百万输入 token 仅需两美元, 输出 token 十二美元,成本只有竞争对手的一半。谷歌 ceo 皮查伊和 deepmind 负责人哈萨比斯都亲自为这款产品站台。现在开发者已经可以通过 google ai studio、 gemini c l i 等平台抢先体验, 企业客户则可以通过 vertex ai 获取访问权限。普通用户订阅 google ai pro 或 ultra 服务后,也能在 gemini 应用中使用这款强大的 ai 助手。最让人期待的是它的实际应用场景,从构建航天仪表盘到生成动态可视画图形, gemini 三点一 pro 展现了惊人的创造力。 谷歌表示,这次预览发布将为后续全面推广奠定基础,未来还会进一步优化智能工作流程。这款兼具高性能和性价比的 ai 新品能否帮助谷歌在激烈的 ai 竞赛中扳回一城,让我们拭目以待。

谷歌 g m nine 三点一 pro 来了,官方原话很直白,这是它们用来搞定复杂任务的升级核心智能。大家好,我是杜宇,带你看懂 ai 赛道的前合十二。今天聊聊谷歌的这一次更新啊。 g m nine 三点一 pro 支持原声多模态输入,文本、图片、音频、视频、 pdf 都能塞进去, 输出是文本上下门窗口最高一百万 token, 输出最高六点五万 token。 你 以前用大模型像是带个随身小本子,记两页就翻车,现在它像是背了个一 t 的 移动硬盘,还能边看边想。 官方模型卡也写得很清楚啊,它面向复杂推理,长上下文、多模态理解以及 agentative use, 也就是更会当智能体干货。那这次更新到底亮点在哪呢?我来总结一下。而且我后面会给你一个特别适合国内创业者的捡钱姿势,你听完就知道该往哪使劲了。 第一个亮点,推理能力是增长脑子。官方拿了 arc a g i r 这个专门考新题型逻辑的基准来说, gemini 三点一 pro 拿到了百分之七十七点一的 verified 分 数,而上一代的 gemini 三 pro 是 百 分之三十一点一。怎么理解?以前他像刷题,刷到题库就会换个出题老师就开始胡说八道,现在更像是看懂出题人的脑回路。就好比我们做投资竞调啊,以前模型是能被公司介绍 ppt, 现在是能听出创始人话里哪个是愿景,哪个是水分, 这差别直接决定了你是投对项目还是交学费。第二个亮点,常上下文不是噱头,是能把大工程装进脑子里。 一百万投坑什么概念呢?你以前让 ai 帮你看合同,他像是在地铁里看书,挤来挤去只能看一段。现在他像直接把你这份合同补充协议往来、邮件会晤,甚至你老板的口头承诺,都摊在会议室的这个长桌上面,然后给你标红。 这里有坑哎,这里要改,这里对方在偷换概念。第三个亮点,他更像是会用工具的同事,不是只会聊天的网友。 官方文档里, gmail 三点一 pro, 支持函数调用、结构化输出、代码执行以及 grounding 到 google search 等能力啊。面向的就是那种需要多步执行,而且要靠谱落地的智能体工作流, 可以把它理解成以前大漠形势、嘴强王者,给建议是一套一套的,但现在是他不仅会说,还会自己去查,自己去算,自己把结果按你要的格式交付,像个能干活的实习生,甚至有点儿经验的助理。当然,我也先把丑话说在前面,他是 preview, 真实体验会因场景波动啊,但方向很明确,从回答走向交付。第四个亮点, web coding 官方展示了,它可以直接从文字提示生成可用于网页的动画 svg, 还能做复杂系统的格式化整理,甚至写出交互式的三 d 场景原型。 以前你想做个可交互的页面,要么找前端排期,要么自己熬夜学。现在你更像是在点菜,哎,给我来个能点的,还能解释清楚为什么这么设计的。 这对产品经理、独立开发者,甚至做内容的人都是挺狠的。原型会变得更便宜,试错会变得更快,审美和判断反而更值钱。好,接下来讲,这次更新对普通人到底有什么意义? 最直接的就是 ai 的 价值正在从会说变成会做作业。以后啊,你跟别人拉开差距的,不是你会不会用某个模型,而是你能不能把任务拆的清楚,让模型一次交付到位。以前你整理资料,对比方案,写汇报要一个下午,以后呢?你最值钱的时间应该是用在两件事, 一,提出好问题,第二做最终判断。别再把自己活成人肉。复制粘贴机啊,内岗位真的很危险。给国内创业者带来的机会是,可以把散装行业经验变成可复制的产品。 国内很多行业其实不是没知识,是知识都在微信群聊天记录里,在老师傅的脑子里,在各种奇奇怪怪的 excel 里。 以前你做软件产品,很难把这些吃进去,现在模型能吞下去,还能理解并输出结构化的结果。这就给了创业公司一个机会,把行业经验做成可交付的智能体流程。你卖的不是 ai, 你 卖的是结果。 gemite 三点一 pro 这种更新啊,表面是在卷模型能力,实际上是在压缩从想法到成品的时间。时间被压缩之后,赢家通常不是最会写 prompt 的 人,而是最会选场景、最会做交付,最会把收益算清楚的人。你如果是普通人,就把它当外挂,大脑别用来偷懒,用来提速。 你如果是创业者,就把它当成生产力引擎,别做花活去做能进业务流程,能产生现金流的东西。点关注不迷路, ai 搞钱,我带路,我是杜宇,咱们下期见!