google 的 ai 模型为什么叫 gemini? 第一个是技术上的双星合并, gemini 这个词是为了纪念 google brain 和 deep mind 两个 ai 团队正式合体,两个顶级大脑强强联合,双星合并。 第二个是为了致敬 nasa 的 一个双子星计划 project gemini, 但凡和太空扯上名字的关系,可见它的野心。第三也是最有意思的一点,星座特质的完美契合。双子座就是善于沟通,视觉灵活, 反应快的代表,这不就是顶级大语言模型该有的样子吗?评论区复读这个词,先立其名,后成其势, you get two for the price of one when you are a gemini。
粉丝2116获赞7548

兄弟们,沉寂已久的谷歌终于来炸街了,就在刚刚结束的谷歌 i o 大 会上,发布了天花乱坠的各种 ai 产品,但真正重点就两个,一个是独一档的多模态能力和超强的 ag 能力。 先来看个最狠的,谷歌发布了全新的世界模型 jimmy nike omni。 你 可以将任何形态的文件作为输入,比如文字、视频、图片、音频一起发给他。 jimmy nike omni 能以任何你要求的形式输出给你, 从此 p 视频就像 p 图一样简单。但如果说 omni 是 无敌的感官,那么同时发布的 jimmy nike 三点五 flash 就是 专为代码和 ag 的 优化的, 它的输出速度达到了同类前沿模型的四倍,每秒狂飙一千五百个 token。 谷歌在现场用全新的 ai 开发平台 anti gravity 二点零展示了它有多逆天。 杰米奈三点五 flash 仅仅持续工作了十二个小时,就从零首写出了一个完整的操作系统内核。它在开发时,后台自动派生出了九十三个 ai 子代理,总 token 成本低于一千美元。而同类型的任务如果交给人类团队,至少需要数月的时间。 更硬核的是这个首出的操作系统,既然能直接加载毁灭战士 doom, 现场就玩起来了。 随后谷歌顺势推出了 gemini spark, 你 可以理解,它是谷歌为你远程部署了一台七乘二十四小时,搭载了 gemini 全套能力的服务器。它能跨越应用,直接打通各种第三方软件。你只要给他一个目标,他自己就能拆解,步骤全自动帮你搞定。 比如自动检查信用卡账单里的隐藏订阅费,把货一记录整理成文档,然后群发等等。最后还有压轴亮相的谷歌智能眼镜,戴上它, jimmy 奶就变成了你现实世界里的专属管家。路过咖啡店,眼镜自动识别,你只要动动嘴, ai 就 把咖啡给你点, 还能实时 ai 导航和同城传译。从这次 ai 大 会上看得出,谷歌正在疯狂地将 ai 模型的能力产品化,毕竟用户真正需要的是能解决问题的产品,而不是 ai 模型本身。第二呢,谷歌之前明显在多模态发力过猛,在 ag 能力方面有点落后于 antropics 和 open ai, 现在眼看 ag 大 爆发,所以他就奋起直追。但即便是刚刚发布的 gmi 三点五 flash, 也依然和这两个头部公司的模型有差距。那么 gmi 三点五 pro 会不会惊艳全场呢?大家可以期待一下。好了,我是阿朱,关注我,让我们一起在 ai 潮头冲浪!

这样 gemini 三顺利上线之后, angel 决定离开了待了近十四年的谷歌。 angel 的 结论是,光是大语言模型无法将我们带到 agi。 不 过我们现在看语言模型,它们的 思维链都是用语言做出来的,就包括 gemini、 叉、 gpt 和 cloud, 它们就是觉得这思维链变得越来越长,越来越 diverse, 那 模型就越来越聪明,最后就可以达到 agi。 但是如果你看模型做视觉问题的话,现在这些模型都不会数东西,所以我觉得你光 scale 这个语言这部分还是不够了解我们的世界。另外一个方向就是你说的世界模型这些 lab 都是从计算机视觉部门出来的,就像菲菲和杨乐坤 那他们的想法我觉得是更偏 academic 那 样的想法,就是说,呃,我要做一个新的模型, novelty 很 重要,因为对 academic 你 必须要 novel 才可以发表文章。我觉得他们就是比较相信视觉,最近可能变了,因为 atlamb, 但是我们这个是算一个比较 nice 的 领域。然后这次就是因为很多 researcher, 之前也包括 jeffenten, 他 们就是觉得视觉 is key to intelligence, 但是从语言角度来说,光靠视觉不够有 intelligence, 因为动物、生物它们还可以做,我们现在机器人做不了东西,它们视觉还是比我们现在的模型好。所以我们在我们这个公司,我们就是觉得要把语言推理加上视觉推理才可以做到一个模型 可以帮大家,可以帮所有的行业。你觉得做这个视觉推理的其他公司,大家的竞争优势是什么?因为我看到 deepsea 之前好像推出来一篇文章,好像也是很 similar 的 一些东西,他后来把那个文章给删掉了。对,其实 deepsea 的 想法是跟我们的很像,他们的 path, 呃,有点像我们的 past, 但是其他的 frontier lab, open eye, deepmind 和 anthropic, 我 觉得他们是越来越偏编程的方向,因为编程这个市场很大,他们也是觉得你要做一个很好的编程模型,你就可以有 self improvement, 这个叫 recurrent。 self improvement, 谁先把那个突破,那谁就先 可以达到 agi, 然后这些 frontita 他 们都不想第二,达到 agi 都想第一。所以其实他们有很多压力做一个更好的编程模型,所以因为这个压力他们就不是很看重多模态视觉推理这个问题, 所以我在 gemma 的 时候我就,我就感觉到了这个,所以我就觉得,哦,现在是一个很好的机会做一个多模态推理的模型。所以你觉得 deepsea 会是你们的比较的一个大的竞争对手吗? 可能是,可能是,对,但是我不知道他们为什么把那个文章删了,他们是不是又换了一个方向?

gemini 三点五 flash 发布三天变美国大豆包,这不是什么野鸡 ai, 这是谷歌三天前才在 i o 大 会上吹上天的 gemini 三点五 flash, 官方说它速度是一重一线 ai 的 四倍,性能远超自家前代旗舰,二十四小时不到就开始降至现在全网统一评价。快是真的快,蠢是真的蠢,它唯一的优点就是更快的告诉你错误答案。 有人让他写个护肤科普,肩带三点五开始犯病,直接给你输出几十行,死死死。 有人让他算三百加一百四等于多少,他一本正经的告诉你,等于四百六啊。很多人说这是谷歌的服务器,顶不住偷偷砍算。我翻了几百条开发者社区的贴子。第一个真相,他的默认是 high 档位, 而三点五 flyx 官方写的是 medium, 但实际逆向出来的却是 low。 为了达到二百八十九 tok 每秒的恐怖速度,他把所有能省的步骤都省了, 深度推理砍了,逻辑较验砍了,甚至连最基本的算术计算都懒得调用工具。第二个真相,它涨价了三倍,还更费 tok。 上一代三 flyx 的 每百万输出是 tok 零点五美元,输出九美元。 更坑的是,为了完成同样的任务,他会在后台进行更多无效的自我修正,导致 token 的 消耗量平均上涨了百分之四十。第三个真相,发布会吹的 computer use 功能上线直接没了,官方连个解释都没有,好像从来没提过这事一样。 那谷歌为什么要这么做?答案很简单,下个月要发布三点五 pro 了。这是谷歌玩了无数次的老套路,先发布一个吹上天的阉歌版,让所有人来测试,把流量炒起来,等大家骂他笨的时候,再推出一个真正好用的 pro 版,让你心甘情愿掏钱。而且他还故意把旧的 flash 模型下架, 要么用轻的更贵的 flash, 要么等更贵的 pro。 也许从某种角度来说,人家这是精准的商业算计,用一个阉割版模型吸引了全球流量,还涨了价,顺便为下个 pro 版铺路。大模型的军备竞赛早就变味了,现在比的不是谁更聪明,而是谁能把用户当韭菜割的最舒服。

朋友们,今天凌晨,谷歌扔出了一枚深水炸弹。就在刚刚结束的 google i o 二零二六大会上,谷歌宣布推出 gemini 三点五 flash 模型,并且向全球所有用户免费开放。这不是阉割版,不是试用版,而是谷歌宣称的迄今为止最快、最有效的模型。 它可以接受任何形式的输入文字、图片、音频、视频,用户甚至可以用自然语言直接编辑视频。谷歌在现场算了一笔账,对于头部企业来说,如果把大部分工作负债切换到 flash 系列模型,每年节省的成本可能高达十亿美元级别。免费开放多模态视频编辑,年省十亿, 这不仅是模型升级,这是全球 ai 巨头在用极致性价比重构竞争格局。很多人可能对三点五 flash 这个命名没概念,我帮你翻译一下。 第一,速度快得离谱。谷歌表示, g m 三点五 flash 在 输出令牌速度上是其他前沿模型的四倍,而在优化平台上的版本,速度还能再提升到十二倍。什么概念?你以前问 ai 一个问题,等三秒才有回复,现在一秒不到答案就出来了。第二,性能不降反升。你可能会想,速度快是不是牺牲了智能? 恰恰相反, gemini 三点五 flash 在 多项精准测试中,超越了四到五个月前的旗舰模型。在代理式 ai 能力、代码编辑、多模态理解等关键维度上,三点五 flash 都达到了前沿级别的水平。用谷歌的话说,性能是旗舰级,成本只有三分之一到一半。第三,真正的多模态来了。 gemini 三点五 flash 可以 接受任何形式的输入文本、图片、音频、视频。更炸裂的是,用户可以用自然语言直接编辑视频。你说把这段视频中的夕阳调亮一点, ai 立刻执行, 不像是模型升级,更像是人机交互方式的彻底重构。第二部分,谷歌的阳谋,用极致性价比打一场价格战。很多人问谷歌为什么要免费开放,低价收费?难道做慈善?答案很简单,抢市场、抢用户、抢生态。第一, ai 的 竞争已经从参数竞赛转向成本竞赛。谷歌现场算了一笔账, 目前头部企业每天在谷歌云上处理海量 token, 如果把大部分工作负债切换到 flash 系列模型,每年节省的成本是十亿美元级别。 对于正在烧钱搞 ai 的 企业来说,成本就是生死线,谁能在保证性能的前提下把价格压到最低,谁就能抢走对手的客户。第二,谷歌要用免费圈住十亿用户。 gemini 应用的月活用户已经超过九亿,一年前这个数字只有四亿。谷歌搜索 ai 模式的月活用户也在一年内突破了十亿。策略很清晰,用免费的 flash 模型留住 c 端用户,用低价的 a p i 吸引弊端开发者。当所有人都习惯了 gemini 生态,谷歌的 ai 收入就会像当年的搜索广告一样源源不断。 第三,谷歌有降维打击的底气。自研芯片,谷歌使用的是自研 p p u, 而不是像其他厂商那样采购英伟达 g p u。 自研芯片意味着更低的单位算力成本、更高的利率。二零二六年,谷歌预计资本支出将达到一千八百亿至一千九百亿美元,六倍于二零二二年的三百一十亿美元。 这种不计成本的投入,就是在为未来五年的 ai 算力霸主地位铺路。谷歌 ai 大 模型升级,最直接的受益者不仅是谷歌自己,还有整条 ai 算力产业链,大模型训练和推理需要海量算力。 杰米尼三点五 flash 的 免费开放,意味着全球用户的使用量将暴增,直接拉动 ai 服务器需求。据产业链消息,谷歌 tpu 机柜总数量预计将从二零二六年的约六万柜,快速成长到二零二七年的约十点五万柜,年增幅高达百分之七十五。工业复联 ai 服务器代工龙头,深度绑定英伟达、谷歌等大客户直接受益。 互电股份 ai 服务器 pcb 核心供应商、 pcb、 数据中心等领域的订单持续增长,大模型参数越大,数据传输需求越高。 光模块是 ai 算力集群的神经系统中继续创全球光模块龙头。一点六 t 光模块已批量交付。谷歌 gemini 流量增长将直接拉动八百 g 一 点六 t 需求。 天福通信一点六 t 光引擎规模量产,深度绑定海外头部大客户业。三点五 flash 的 免费开放受益于 ai 数据中心互联需求。 gemini 三点五 flash 的 一大亮点是端侧轻量化,让更多中低端设备也能流畅运行本地 ai 功能。瑞生科技向 ai 手机 x 二可穿戴设备输出光波导、高端散热系统等感知方案。康奈特光学、夸克 ai 眼镜独家镜片供应商受益于 ai 端侧设备放量。当然,话要说回来, 第一, gemini 三点五 flash 的 免费策略可能会引发整个 ai 行业的价格战,如果竞争对手被迫跟进降价,整个行业的利率可能被压缩。 第二,谷歌 tpu 供应链相关标的近期已有较大涨幅,工业复联中继续创等估值处于历史高位,短期追高需谨慎。第三,谷歌的资本支出虽然庞大,但能否持续产生回报,还需要看 ai 应用的商业化落地节奏。 总之, gemini 三点五 flash 免费开放是谷歌在 ai 成本占中的一次亮剑,它的意义不亚于当年安卓系统免费开放。 用极致性价比抢下生态入口,再用生态反捕算力投入工业复联在造服务器中继续创。在铺光模块,天府通信在生产光引擎,瑞生科技在布局端测硬件。当谷歌用十亿用户、万亿 toker 向全球宣告 ai 不 再是奢侈品时,中国算力产业链上的卖产人正在闷声发大财,这个赛道的故事正在翻开新的一章。 好,这个话题就聊到这。以上内容和提到的公司是基于公开信息的逻辑梳理与产业推演,不构成任何投资建议。市场有风险,投资需谨慎。

每天推荐一款强大的 ai 工具,今天我们要讲的是 gemini! gemini 三点五 flash 真的 太全面了,它可以做图片、做视频、 写代码、做小游戏、做音乐、做网页,三 d 交互动画, 不仅可以一键生成 ppt 大 纲,甚至可以手势控制,完全不在话下。还有你的专属 ai 知识库 notebook am, 能直接链接整个骨骼生态,所有的提示词我都打包在文档里了,有需要的可以自取,我是学智,带你看懂 ai, 用好 ai, 我 们直接上干货, 这就是 jimmy 的 官网。简单来说, jimmy 的 不是一个模型,而是一套生态。你在网页里和 app 对 话的那个助手就是 jimmy, 他 就像大脑一样负责你的文字代码推理,然后指挥下面这些专用的模型一起干活。而这个香蕉图标是谷歌最新的图像生成编辑模型, none of it, none of it two。 一句话,深图对话,改图,做海报,做封面,甚至图片里的中文也很稳定。上面这些图片是官方的预设,我们选择一张上传我们的照片,输入提示词,我们点击生成,可以看到面部信息保存的还是比较好的,清晰度也不错,就是有点特写镜头的感觉。我要把它换成中景, 这里的扩图表现还不错,用它来做一张海报标题,用学知的 a i 世界输入提示词,我们点击生成,这里可以看到 number 不, number 是 通过对话的形式来改图和深图的,它最高支持四 k 的 图像输出和多种比例的调节。这些预设大家都可以尝试一下,操作非常简单。好的,接下来给大家分享一下我开张这张图的制作方法, 同理,我们上传图片,这是我写的提示词,给大家参考一下,这里我们可以把它直接导到 vivo 三点一里面,直接做视频就可以了。 m 六三点一是谷歌的视频生成模型,它最高支持四 k 二十四帧的视频输出,同时呢它支持横竖屏的切换,四条视频的同时生成,它的预设输出分装格式是 mp 四,支持八秒高质量视频,还能原声生成音频, 知道这些规则以后可以开始操作。这些都是我用 vivo 三点一做的,都是网上经常出现的 ai 视频,我们看看效果。我们来演示一下胶囊庇护所的制作方法,这里我们用的是纹身视频功能,我们打开 flow, 输入这段提示词,这里用的全都是大白话,但是他会帮你主动的去分析,生成更丰富的画面。我们来点击生成, 我们再来研究一下开场的视频效果是怎么做的,我们点击上传图片,然后输入这段提示词,然后点击生成。对于这种复杂的视频,我们很难做到一次性就过,所以我们要进行多轮的抽卡,不过它的质量还是蛮高的, 按照刚才的方法,我们多生成几个角度的视频剪辑在一起就得到了这个 可以说从现在开始,你工作的一部分价值会被这种超级 ai 工具所替代, 但如果你用的好的话,它可以让你一个人就是一个团队。好了,以上就是本期的所有内容,如果本期内容对你有所启发的话,记得点赞关注,下期带来更多解密的干货。

这么耐,三点五来了,谷歌官方说这是一个全能大模型,感兴趣的可以去试试,试完之后感受怎么样?欢迎打在评论区哦!但今天咱们不聊评测,聊一个更有意思的问题。 大家还记不记得,二零一七年,谷歌的团队发表了一篇论文,叫 attention is all your need, 提出了 transformers 框架。今天你听到的所有的大模型, chatbtcloud, 包括谷歌自己的 gemini, 你 曾用的都是这个东西。可以说,没有谷歌这篇论文,就没有今天这轮 ai 浪潮。 但问题来了,那谷歌作为点火的人,为什么没有第一个举着火把冲出去?答案其实很残酷,就一个字,钱。谷歌靠什么赚钱? 搜索广告?二零二三年,光搜索广告就干了一千七百五十亿美元,占了谷歌总营收的一半以上。而搜索广告这个生意,编辑成本极低,数据中心建好之后,每多处理一次搜索请求,几乎不用花钱,但每一次点击都能收钱, 这可能是人类历史上最赚钱的商业模式之一。然后你再看 ai 搜索是什么情况?传统搜索处理一次请求大概花零点三美分,能挣四点五美分。 ai 搜索呢? 处理一次请求要花三到三十美分,但收入反而只有二点五到三点五美分,成本高了十倍甚至上百倍,收入还更低了。你要是谷歌的管理层,你做不做? 做了,等于主动拿一个成本更高、利润更薄的东西去冲击自己最赚钱的业务。所以二三年的三月份,微软直接把 gpt 四塞进了并搜索谷歌,却拖到了八月份才推出 sge, 慢了将近半年,这半年不是技术追不上,是利益格局挡在那。 这个事让我想到一个经典的案例,柯达一九七五年数码相机就是柯达自己发明的,但胶卷行业太赚钱了,推数码等于革自己的命,结果一直犹豫,最后被数码浪潮彻底淘汰了。 你看这两件事是不是有点像?而且谷歌内部其实一直在纠结,一手把杰姆奶团队做大,投入上百亿美元搞大模型,另一手又调搜索算法,压低 ai 生成内容的曝光率, 左手创新,右手防守,相互打下。因为越大的集团越追求稳定性,新事物对上面的人来说意味着风险和不确定性。宁可守住一个确定能赚钱的平台,也不愿赌一个可能更大但也有可能翻车的未来。不是做不到,是不敢做。 但话说回来,谷歌毕竟不是克他,他有钱有人,有几十年积累下来的数据,二五年谷歌做了一个关键动作,把 gemini 和用户的谷歌搜索历史打通了,你的搜索记录、 youtube 观看记录,甚至几秒内容, gemini 都能参考给你做深度个性化的回复, 这一点 omi 做不到,因为他没有搜索生态。到了 jimmy 三发布的时候,已经有不少评测者感叹说他的前端代码能力、网页复刻能力非常强,三轮对话就能做出一个完整的小游戏。我当时呢,也是 jimmy 的 忠实用户,确实很好用, 到三点一 pro 上线已经变成了妥妥的第一踢腿,所以 jimmy 三点五确实值得我们期待。好,回到最开始那个问题,船大就真的不好调头了,我觉得准确的说,是不是船大的问题,是只有一台发动机的问题。 搜索广告,这台发动机太强了,强到舍不得换,但当这台发动机开始减速,骨骼被迫启动了第二台。最后送大家两句话,如果你是创业者,别怕巨头,他们的惯性就是你的机会,巨头看不上或者还没有注意到的市场,如果你在大公司内部,也要保持思考,看好机会,我们下期见。

重磅消息,刚结束的二零二六谷歌后开发者大会, ai 圈迎来大洗牌,全是实打实的硬核黑科技。 首先,全新上线三大 gemini 重磅模型,第一个 gemini omni 真正做到全模态全能世界模型, 图文音视频全能打通,还能生成自带重力动能物理效果的实景视频,随意修改编辑,日常各大谷歌生态软件全都直接接入。其次, gemini 三点五 flash 正式就位,速度直接拉满,输出效率是同类模型四倍,专属环境下更是达到十二倍 成本,还直接砍掉大半,性价比拉满。现在已经成为谷歌搜索和 ai 软件默认主力模型,更强的三点五 pro 下月也即将登场。还有全天候云端 ai 代理 geminis park, 不 用开机也能后台自动干活, 整理邮件、规划行程、处理办公文档一键搞定,很快就会开启公测上线。开发端更是迎来大升级, anti gravity 二点零全面革新,支持多智能体协调作业,现场实测,九十三个 ai 智能体联手,仅用十二小时低成本从零搭建出完整操作系统,内核实力肉眼可见。 最后说句实在的,没有网传夸张碾压别家模型的说法,官方明确表态,多项核心数据超越前代模型,整体实力对标行业顶尖水准,接下来 ai 行业竞争只会越来越激烈,这波谷歌全新 ai 布局, 你觉得能不能领跑接下来的人工智能时代?评论区,聊聊您的看法,谢谢收看,我是探秘哥,下期见!

哥发布了一个新模型,感性叫 jamie omni, 这颜值视频版香蕉来,先看官方演示。这是 omni 生成的一段视频,教授在黑板前写数学公式,人物公式,光线都很真实。你注意看粉笔灰,它是真的会往下掉的, 有重力有惯性,不会随机飘,既没有手部变形,也不会画面闪烁,画面连贯,特别的稳定。然后是第二个小球跟随轨道往下滑落。这个视频真的能感受到是重力在作用,不像其他视频模型就有种说不上来的奇怪。现在市面上那些 ai 视频工具, space dance, 阿克林他们做的视频是深沉的,你给提示词,他出视频 出来不满意我们去抽卡 jimmy 米不一样,他就可以边生成边编辑的上传一段已有的视频,直接跟他说需求可以摆很多轮。这个逻辑跟其他工具是不是你可以对话了?一个剪辑老师,他能做到这样的事情,是因为他真的懂这个世界, 懂重力,懂历史,所以粉底会掉渣,小头滑落才这么形象。真实的视频更真实。现在 gemini omni flash 已经上线了,订阅了 pro 的 用户可以直接去 gemini 里面使用。

你们有没有发现,现在聊 ai, 大家不是提 check gpt 就是 cloud 好 像没有 jimmy 什么事了。明明谷歌有搜索、安卓、 youtube 技术也不差,可为什么就是抢不到用户心智?其实 jimmy 实力不弱,访问量也在涨,但它各向谷歌生态里的内置功能,你用 qmail、 discord 时可能碰到它。但真要干活,很多人还是会主动打开 check gpt 或者 cloud。 问 题出在哪儿?不是技术,是定位。 touch g p t。 像通用 ai 操作系统,什么都能往里塞。 cloud 像专业生产工具,尤其受开发者追捧。而 gmail 呢?它被嵌在谷歌的庞大体系里,反而缺少一个让人记住的锋利入口。关键的是,谷歌有自己的包袱 的业务,还是搜索广告。如果 ai 直接给出答案,用户不点网页了,广告收入怎么办?所以谷歌创新时总要回头看,这成了他的束缚。有意思的是,谷歌最近被计划重金投资 cloud 的 背后的公司 s o pick, 还签了长期算力合作。这说明什么?谷歌在打两手牌,一手推真奶,靠生态慢慢渗透,另一手压住 cloud, 那 哪怕他赢了,也能通过云核芯片分一杯羹。 ai 竞争已进入巨龙时代, twitter g p t 背后有微软, plato 背后有亚马逊和谷歌的算力支持。而 jimmy 虽然有谷歌航母护航,却还没找到最锋利的破局 点。所以, jimmy 的 挑战不只是技术追赶,更是如何平衡旧商业模式和新时代入口的争夺。你觉得未来 ai 格局会变吗? jimmy 还有机会逆袭吗?评论区聊聊。

一分钟带你搞懂最适合大学生用的 ai, 来自谷歌的顶级大模型, jimmy 千万别把 jimmy 只当一个聊天的机器人,其实它包含了五大核心板块,每个板块的功能都不一样。网站我都放在结尾了,我们先讲第一个,核心大脑 jimmy pool。 不 管你是几千字的长文敲代码,还是做复杂的分析,它都可以搞定。 第二,图片生成模型 nasubao, 这是谷歌最顶尖的图像生成模型,不论是什么风格和种类,一句话就能生成超高精度的图片。 第三,视频生成模型, view。 这是个高质量的视频生成神器,不仅能生成电影级的画面,连逼真的背景音效都能一次性给你配齐。 第四,超级学霸 notebook am, 学习科研党必备的私人图书馆,人人给他几十篇的英文论文,瞬间能帮你提炼重点, 甚至能自动生成一段双人的博客,帮你更好的理解。第五,打工神器 workspace 插件,可以做 ppt、 邮件、文档、表格,主打一个全自动办公,这五大模块堆在一起才是真正的艰难。 下期我们会对 jimmy 做更详细的讲解,用最简单的方式,让小白也能轻松玩着这个顶尖大模型。

就在刚刚五月二十号凌晨一点的时候,谷歌的开发者大会正式的开始直播,那肯定有很多朋友没有看这个直播,我只能说各位真是有先见之明,整个直播时长有两个多小时, 又臭又长,直接给我看历劫了。信息密度呢可以说是非常的小,就是发布了一个全新的模型三点五 flash, 其余的其他功能呢都是接入的这个模型,各种乱七八糟,内容呢都加了在一起,大会的后半段呢,直接变成了现场直播带货,我看完就是一句话,真是闹闹又麻麻 闹马。我们首先看一下大会的第一个部分,就是 gmail 模型家族,整场都在讲这个, gmail ai 发布了 gmail 三点五 flash, 它的定位呢是前沿智能模型和 agent 执行力合二为一的旗舰快速模型,头跟的输出速度呢是其他旗舰模型的四倍, 非常的夸张,而且在编程 agent 的 多模态基础上,超过了 gmail 三点一 pro 就是 一个 flash 模型,超过了三点一 pro 模型,这个就意味着这次模型呢是小而快,听起来非常的不错, 但是我不禁要问,那么代价是什么?没错,它的价格也赶上了 pro, 上一代的 pro 模型呢,每输入百万, token 呢是二美元,输出是十二美元。这次的三点五 flash, 它的输入是一点五美元,输出是九美元, 其实非常接近了,在他们直播中有这样一张图,说是用了九十三个 agent, 输出了二十六亿的 token, 总共金额小于一千美元啊,我先保持一下质疑, 这次价格涨的确实有点多,这还只是 flash 模型三点五 pro 呢,预计在下个月,也就是六月上线,那你想想吧,那个价格肯定会更高呀。那第二个呢,就是 jimmy 欧姆尼全新系列,目前用的也是三点五模型,核心定位呢是推理能力加创作能力融合首发的 jimmy 欧姆尼 flash 接受图片、音频、视频文本的输入,也可以输出生成视频,还可以创建我们自己的声音生成的视频呢,让他说话的声音就是我们自己的。 你可以理解为把视频生成模型,图片生成模型全都融到了一块,缝合怪奇美拉。另外顺带一提,它的内容检测能力呢,从 jimmy nike 的 app 版扩展到了搜索和谷歌浏览器中,也就是说,当你看到一个图片,你不知道它的真伪,那么你可以把这张图片发给他,问问他是否由 ai 生成 它可以进行判定。这个怎么说呢,就我体感下来,其他的生成模型我都能认出它是 ai, 唯独 g p t 的 那个确实是有点真假难分,你不会针对的 g p t 吧?那山姆就有话说了,你不是我的兄弟,你是个路人。 接下来就是重头戏,谷歌的 a i d e 反重力二点零上线了,全新独立的设计啊,真是不愧是谷歌啊。从这个设计页面上呢,我就看到了无数个神支持了 doa 盾,并且速度非常的快,而且如果你是新开通的,或者以前就是 o 叉用户,还会送你 一百套的额度,那去领吧。什么意思?下一个更新的是全新的设计语言,几乎是全平台桌面版、手机版以及网页端都进行了更新,变得非常优雅,动画非常丝滑,同时引用了全新的字体,不过对于阅读中文来说好像不是特别方便, 只是阅读英文的时候看起来确实很优雅。每天的额度呢,也改成了卡尔的那种限额五小时刷新,直到达到周限额 结束了,也就是说,如果你是 pro 用户,可能用一会就没有了这个额度。下一个 jimmy spark, 二十四小时全天候, agent 直接运行在云端,在手机上,电脑上拿起来就直接控制它使 用的模型呢是 jimmy, 三点五,可以实时监控我们的信用卡账单,追踪邮件,自动整理笔记,制作文档。这个几乎就是一个 agent 的 平台的标配了,它本身就是一个超级 mcp 客户端,接的非常多。这个时候可能有朋友说了,哎,这个不是小龙虾吗?是吗? 目前这个我们用不了,你是 plus 用户, pro 用户都用不了,你必须得是 air ultra 用户。二百五十美啊,不对,现在降价了,是二百美元一个月。但是这个计划对我个人吸引力不是特别大,再下去沉淀沉淀吧,我们看下一个谷歌搜索 三十年以来最大的更新,在二五年年底的时候呢,谷歌浏览器就推出了 ai 模式,那现在呢?把这个 ai 的 模型换成了 gmail。 三点五, 我们输入的越长,搜索框越会主动的进行扩展,因为它是内置在浏览器上,主要还是为了搜索嘛。当你一个很简单的问题,他就会给你回复很短的内容,但是当你长篇大论的跟他讨论的时候,他就会开始进行深度思考 啊。 deep think, 也就说类似可绕的那种,判断你的意图,以及你这个问题的复杂程度,他自己来决定给你回复多少。另外这样一个浏览器也有 agent 了,二十四小时全天监控。我们提一个问题, agent 在 后台跨博克新闻社媒以及谷歌的实时数据 持续监控,也就说你可以让他实时帮你监控一些内容。那这个监控的功能呢?我个人认为可以用在理财的方面,比如说黄金的金价,实时给你追踪一些股票的价格,实时的给你发送。 不过这个功能呢,暂未发布,夏季向 ai pro 凹叉用户开放下一个 mini app。 这个功能是在我们搜索的时候,那一个非常长的任务,它会自动给我们生成看板,或者是生成网页,生成一个小应用,我们可以直接快速的跟它交互,那比如说我问一个太阳 长什么样子,那它呢?就会生成一个类似网页,或者是一个三 d 的, 我们可交互,可以拖动旋转。这个太阳演示看下来呢,还是非常有意思的,但是仍未发布, 发布时间是未来几个月。 ai pro ultra 美国地区的用户可以使用,也就说你不在美国,或者你是免费用户,那么你都是用不了的,太可恶了,他不是我们的兄弟,他是路,厉害。最后还有几个我快速给大家过一下,因为我个人感觉非常的无聊,一个是全网通用购物车, 让 ai 帮我们去购物,去比价美国豆包啊,真是实至名归啊。还有一个呢,是给油管准备的 ask youtube, 可以 直接处理复杂的查询和后续的追问,其实跟 grog 差不多, grog 呢,是可以读取 x 平台的所有推文,那这个 youtube 呢,自然是可以读取油管上的所有视频,以结构化交互形式呈现。这个呢,现在已经可以用了,局限于 youtube 会员的美国用户啊,注意你得是会员哦。 最后呢,就是他们的带货环节,首先是他们的安卓 x r 啊,智能眼镜,想当年我也买了一个小米的异样眼镜,老傻了。我 目前呢是两个版本,一个是带屏幕的,一个不带屏幕的,只不过带屏幕的还没有发,各位感兴趣可以去看一看。大概 就这么多内容,如果各位非常闲的话也可以去看看。这个直播还是蛮催眠的。那以上呢,就是本期视频的全部内容了,如果你对上述我们提到的这些内容某 某一部分你感兴趣,可以在弹幕里留言,我们可能会单独出一些视频来测试,或者是解读一下。各位记得点赞,不点赞的话你就不是我的兄。 ok, 最后祝各位玩的愉快,我是段峰,我们下期再见!拜拜!

不敢相信,昨晚谷歌搞了个大乌龙,在宣传自家 antigravity 的 时候,居然展示了一个文件夹,名为 codex, 这下可把 openai 的 人乐坏了,连 codex 的 负责人都在推特上说不敢相信,不可思议, 这说明啥?原来谷歌自己的工程师也知道自家的 jamal 就是 路边一条,自己都不用是吧? 除此之外,新发布的这个 antigravity 二点零,看看这界面,这侧边栏,这交互模式,这整个外貌和 u i u 叉,这不妥妥的抄袭 codex 吗?但是功能又没有人家做的多,简直就是一个初级版的 codex。 好 在新版本的 jamila flash 三点五看起来还不错,速度挺快的,性价比也不差。 看来谷歌的算力还是很够的,不愧是基础设施最强大的 ai 公司。但是现在人家 open ai 和 astropik 正打得激烈,一个在拉高智能体的智能水平,一个在卷各种日常操作,但谷歌你就端了个这么东西出来, 所以这 jimmy 奶没人用不是也很正常吗?我也不是在这里说风凉话,我也是 jimmy 奶的老订阅用户,但我已经很久没有使用 jimmy 奶了。 问答水平比不上 gpt, 智能题水平比不上 cologne, 典型要啥没啥,但啥都有一点让大家记得, jamal 还是上次 nala bla 展现出来的水平, 但是现在人家 gpt 画图的水平很明显已经反超了呀,你这发布会就发布了个三点五, flash pro 也不知道长到哪去了。所以问题来了,到底是谁还在用 jamal?

谷歌你做模型给我做好了呀,接下来三点五 flash 真的 就拉完了,就比如我问他三点五 flash 大 概是个什么水平,他回答我这个什么,他回答我 step 三点五 flash, 他 直接这个理解能力首先就不行, 然后我就想着那我再问一句吧,我说 jamming 的, 结果他回我什么 jamming, 一 点五 flash, 他 甚至连连网搜索都懒得搜,他就直接用旧的知识库里的信息去给我回答,直到最后我直接说三点五 flash, 他 才去就真正的回答对了。 然后我们去用 cloud 去跟他对比一下,我问 cloud 三点五 flash 的 什么水平,他第一时间是能反应过来,我再问三点五 flash 的, 然后后面我又补了一句,他就直接就回答对了,对了,而且这个是三奈特啊,几个月前的模型,我们再看一下他新出的那个 antigo, 二点零只有这个,嗯,对话历史和日常任务没了,就就这俩。 然后我们看 codex, 真的 就没法比,有插件,有自动化,还有搜索,就就光这这一个侧边栏都比它多那么多功能,而且还有直接能用的什么 play mode, agent mode 之类的, 然后这个 antigravity 呢?他甚至连一个直接能看见的 play mode 都没有,真的就拉完了。不知道谷歌在下什么大级,但是现在的见面礼真的很拉,还是希望谷歌以后越来越好,我是不开心,祝你们天天开心。

兄弟们,别再苦苦守着 cden 四二零排队了。当所有人还在等挤牙膏的时候,谷歌刚刚悄悄把一个真正的王炸级视频大模型直接塞进了你的手机里。 他叫寂寞乃奥姆尼。这根本不是什么普通的纹身视频工具。这是一场对短视频、影视甚至广告外包行业的物理级抹杀。大家好, 我是进化中的阿晨。这期硬核拆解,我们直接榨干这八分钟的外网实测。看完他的三张底牌,你就会明白传统的影视护城河是怎么在一夜之间崩塌的。第一张底牌是从找素材变成主演一切 以前的人工智能视频,你只能生成一些虚无缥缈的假人,但奥姆尼的核心玩法是本色出演。你只需要对着手机读几个数字,转转头,它就能完美一比一复刻你的场景里。 for both images and videos, but the real stand out here are the videos if you select this, there are all these pre defined templates that you can use and some of these are pretty awesome, i've been playing around with them, so here's one example, i just selected this template called metallic and then used my avatar, didn't give it any other prompt, and this is what it came up with what is this? 看懂这个压迫感了吗?这不是五毛钱的绿木扣像,这是人工智能在底层把你和光影完美融合,无论是被外星金属吃意大利面,甚至去教量子力学。这意味着什么? 这意味着以后的短视频博主、讲师带货主播连床都不用下。不需要摄像机,不需要打光化妆,你敲几行字, 你的赛博分身就能在全宇宙任何地方替你拍片出镜,出镜成本彻底归零。第二张底牌,告别抽卡盲盒,拿下真正的像素级控制权。玩过人工智能视频的人都知道,人工智能就像个神经病,你想改个衣服颜色,他能把整个画面全给你换了。但奥姆尼彻底打破了这个魔咒。 now, i then asked it to make just one change i asked it to change the vest color to blue and that's it。 在 这段赛博朋克奔跑的视频里,老外只提了一个要求,把背心换成蓝色。奇迹出现了,画面中所有的光影动作背景连一,唯独背心的颜色被精准替换。 这意味着,人工智能视频终于从一个抽卡玩具,变成了真正可以商用的工业级生产工具。第三张底牌,物理世界的一键修改器。如果你以为它只能生成虚拟画面,那你就太天真了。它最恐怖的地方是直接篡改现实。 now another really cool feature about omni is that you can upload a video and ask it to edit the video so here i uploaded this clip of just some footage i took while driving a couple of weeks ago showing the mountains and i sent it to omni and said make it look like there's an active volcano in the video, i gotta say it did a really good job while maintaining the rest of the。 注意看,这是一段极其普通的车载行车记录仪画面。老外只输入了一句,让背景看起来有一座活火山。 奥姆尼直接在完全不破坏原有树木和车速的情况下,硬生生在远方种下了一座喷发的火山。以前做这种级别的特效,你需要专业的后期团队做追踪光影匹配收费至少,但一句提示词,三秒钟,现实世界彻底变成了可以任意拿捏的橡皮泥。 总结一下,寂寞乃奥姆尼到底改变了什么?他把出镜成本、特效成本和修改成本全部达到了无限,趋近于零。当产出视频不再需要机器设备和后期团队时,工具的壁垒就已经被踏平了。以后不再有会不会剪视频的人,只有会不会用人工智能表达想法的数字导演。 当视频产出变得无限且廉价时,最值钱的将不再是技术,而是你的剧本、你的脑洞和你的品味。我是阿晨,别再用肉身死去试着驾驭你的数字分身,咱们一起重构商业。

今天凌晨,谷歌 i o 二零二六如期而至,随即宣布 gemini omni、 gemini three point five、 flash 等等一系列新产品。 这是什么?硅谷年夜饭?算粒满汉全席。媒体老师也非常懂事,标题直接起飞,谷歌亲手淘汰谷歌 视频版 nano banana, 全能 ai 创作引擎,全场最大的 c 位,毫无悬念给了 gemini omni。 这玩意号称是真正的全能大模型,能吃进任何形式的输入,拉出任何形式的内容。文本、图片、音频、视频,只要你敢喂,他就敢接, 而且首发支持视频输出,江湖人称视频版 nano banana。 你 看这个排面,劈柴哥和哈萨比斯同台登场,大招跟不要钱一样往外扔。他们说 omni 不是 在简单拼接素材, 他是在理解物理世界。以前的 ai 画个物理现象,重力和动能常常让牛顿想从苹果树下爬起来打人。但阿米不一样,哈萨比斯说他实现了阶跃变化, 氨基酸折叠都能给你干成科学准确的定格动画。甚至你拿个手机自拍,手心里画个圈,他就能立刻给你生成一个黑洞。看起来这不仅仅是降维打击,这简直是从四维空间扔了二象薄, 画面太美,数据太狂,狂到让人觉得好莱坞明天就得集体去送外卖。但这还不够刺激,发布会的另一个高潮是 jammer 三点五 flash。 只要你懂点行,你就知道现在的大模型卷速度卷到了什么地步。 三点五 flash 在 精准测试里,把自家前代旗舰 jammer 三点一 pro 按在地上疯狂摩擦,更离谱的是,它的输出速度直接翻倍,对比 gpt 五点五和 opus 四点七,速度快了四倍有余。这什么概念? 你这边的提示词刚敲完回车,他那边的答案已经糊你脸上了。天下武功,唯快不破, ai 界直接来了个闪电侠。 这还没完,谷歌还顺手倒出了一箩筐的重磅炸弹。 anti gravity 二点零桌面应用直接进化成 agent 的 开发平台。 james park, 七乘二十四小时在线的赛博打工仔。不需要五险一金,不需要情绪价值,只要服务器不断电,它就能给你打工到宇宙热季。 顺带把 jimmy 也改版了,代号 neuralexpressive, 改成算力计费。你以为他在做慈善,其实他在教你什么叫资本的洋谋。 甚至连搞了二十五年的谷歌搜索都迎来了史诗级升级。接入三点五 flash 智能搜索框,自动生成小程序。这一套组合拳打下来,干货密度堪称历年之最。大场发力,寸草不生。 那你说这东西真的这么神吗?往往打榜数据越炸裂,发布会的 ppt 越精美,里面的水分往往就越能养活一太平洋的鱼。 我怀着激动颤抖的心,拿着号称能改变世界的 omni 进行了实测。这需求可太真实了。毕竟咱们干自媒体的,天天盯着各种 ai 视频工具找灵感,就指望他们能帮着出大片,但结果给我看笑了。哎, 硅谷的公关稿还是太保守了。这哪里是改变世界,这简直是重新定义了拉胯。宣传片里是好莱坞质感,随手一划就能变黑洞。小提琴手在雪山和赛博朋克之间无缝切换。物理逻辑严丝合缝。 到了我这呢,我输入几段简单的指令,生成出来的视频,当场给我整出了工伤。说好的理解世界呢?服务员你好, 我想要一杯客了!好的,没问题!这一刻,我都怕他给我念出一段大悲咒来超度我的显卡。那些在发布会上惊艳全场的连贯性记忆力和物理法则,在实测面前碎的渣都不剩。 这不叫接月变化,这叫当场火化。网上的各路媒体还在疯狂吹捧热搜,通稿满天飞,但和实际效果一比,简直是截然不同的两个平行宇宙,那还能说啥了?看完这场魔幻的体验,我算是彻底清醒了。 现在的 ai 圈有一种极其不健康的畸形风气,只要打榜厉害,只要 ppt 做的炫,就能吹成天神下凡。 巨头们在台上拿着特供版的 demo 疯狂秀肌肉,底下的信徒们跟着无脑狂欢。 ai 好 不好用?只有我们这些一个个坐在电脑前疯狂敲着键盘,试图用它来铲除实际价值的用户给出的真实反馈才算数, 你数据再炸裂到了用户手里,变成了一坨赛博垃圾,那他就是毫无价值!请这些 ai 公司收起你们的滤镜吧!面对用户的实测反馈,少吹点牛,多打磨点细节,这才是对技术真正的尊重。这里是起点世界,聚焦最新 ai 资讯,我们下期视频不见不散!