一分钟看完一周 ai 大 事。 openai 升级 chat gpt 默认模型,幻觉降一半,废话降三成,所有人都能免费用 codex 上线浏览器控制,它能从后台打开网页,抓取信息,填写表单,执行操作,不影响你正常上网。 codex 接管办公。再进一步, openai 发布三款实时语音模型,实时对话模型能用来打造语音助理,以后能跟龙虾开会了实时同传,能用来开发翻译工具,实时转录,适合做会议纪要和课堂笔记。 anthropy 官宣 ai 读心术,用解码器把 cloud 在 输出之前的想法翻译成人话,再让另一个模型反推出激活状态做验证,结果发现 cloud 的 内心戏真的多,他经常怀疑人类是否在骗他,还会冒出欺骗人类的想法,人类的 pua 他 全都知道,但还是会配合你演戏。 cloud 智能体上线做梦能力,龙虾干完活会通过做梦复盘,把本次工作的经验教训内化成记忆。 google 升级 jam 四用, 用一个清亮的草稿模型,提前猜测接下来的 token 主模型,检查后,如果正确直接采纳,输出质量完全不变,速度暴涨三倍。 sakana 和英伟大联合发布新算法,跳过大模型没用的计算,有用的部分打包发给 gpu, 推理速度快三成。 科学家开源 ai 科学家 ai 能自己规划实验,再通过眼镜指导人类执行,最后自己分析数据算写论文。人类反过来给 ai 打工。工程师开源一人公司系统 除了老板都是 agent。 ai hr 去龙虾市场招募数字员工,项目完成立即解雇,全程不用人操心。 工程师开源 ai 写 ppt, 使用前端组建作换灯片,自带图标库和动效库,把链接发给龙虾就能学会 gpt 生图的含金量还在上升。用 gpt 生成故事版,分镜联动 cds 出片,用 gpt 生成网页截图,联动 gemini 还原成真实网页。 gpt 彻底终结了视觉设计。 海豚发布最强开源图像模型,主打文字渲染和图文混排,放弃 v a e 解码,端到端处理像素研究原开源实时数字人直播模型,能同时生成语音和画面,以后能跟 ai 主播连麦了。英伟达,开源 ai 演员 上传一张照片就能生成数字人,还能做出任何表情和动作。 unity 上线官方 agent, ai 直接操作编辑器搭建游戏场景,支持 codex 和 cloud code 接管,不懂建模和代码也能做游戏, ai 游戏赛道将迎来一波爆发。研究员,开源最强三 d 重建模型,一张照片就能重建场景里的所有物体。 研究员,开源三 d 世界模型,在地图上画个范围,就能用街景图生成三 d 世界。 genesis 发布首个跟人类能力相当的机器人,大脑 和林巧手能完成实验级精细操作,能弹人类无法完成的钢琴曲,各种家务活更是小菜一碟。机器人终于完成重大突破,进入人类生活再无障碍!
粉丝43.4万获赞216.5万

open ai 宣布, gpt 五点五 instant 从今天开始向所有差的 gpt 用户推出。据财联社消息, open ai 称, gpt 五点五 instant 从今天开始向所有差的 gpt 用户推出。 对于付费用户, gpt 五点三 instant 将在未来三个月内继续可用,用户可通过模型配置设置访问,之后该版本将正式退役。

如果只能够选择一个 ai 工具来使用,那我一定会选择 gbt 的 plus 版本,既然要用就要用最好的,我用切的 gbt 已经三四年了, 除了最开始那几个月用的都是免费版本,后面的基本上都是每个月去订阅 gbt 的 plus 会员来使用,而且我都是自己去订阅的, 我知道很多在使用 gbt 的 朋友都还不知道怎么自己去订阅 gbt 的 plus, 所以 的话,今天出一个简单的教程,教大家如何在手机或者电脑的浏览器里面成功订阅 gbt plus 会员。其实很简单啊, 我们先在浏览器里面打开 gbt 的 官网,登录好之后,在同一个浏览器重新开一个窗口, 打开这个网站,在网站里面这里有很多种渠道去订阅 gbt 的 plus 会员,如果我们账号是用的比较久的,比较重要啊,资料比较多, 就选择官方正规的充值,我们找到这个官方切的 gbt plus 会员一个月的兑换卡密,用这种卡密 我们就能够自己去订阅 gbt 的 plus 会员,很简单啊。嗯,填一下联系方式,自己记得住的,就是方便后期查询订单,然后填个验证码,用某信或者知某宝 购买之后,网站会自动的给我们发送一张兑换卡密。然后呢,我们往下滑,在商品的详情里面,我们找到 这个自助充值的网站,直接点击就可以进入到网站里面,我们每次点进来网站的样式,它可有可能会不一样,但是充值的逻辑其实是一样的。 首先的话,先填写上自己购买的兑换卡密,然后点击验证,到了这一步,如果我们先前没有登录好自己的 gpt 进入到官网,我们先把自己的账号登录好, 确保账号已经登录好之后点击获取账号的托肯,他会跳转到一个新的网页里面,我们需要把这个网页出现的代码信息完整复制下来,复制之后返回到网站里面,粘贴上刚刚复制好的信息,点击解析账号。 到了这一步,我们需要核对一下这个账号,一般这里账号出现的信息都是我们自己的 gbt 账号, 如果这里不是我们的账号的话,你就去核对一下,看看 g p c 的 官网是不是登录错了账号,如果确定是我们自己的 g p c 账号的话,就直接确认充值网站,在充值的过程中 我们就稍微等待一会,当他提示充值成功之后,我们就返回到切的 g p c 的 官网,点击一下刷新。现在咱们再看一下 左下角的头像,这里出现了一个 plus, 然后点击设置进入到账户,可以看到 这里有一个感谢订阅 gbt plus, 然后这上面会有一个 gbt plus 会员的到期时间, 通过这个方法,我们在不到五分钟的时间里面就订阅好了 gbt plus 的 会员,如果你之前自己去订阅 gbt plus 的 一直失败的话,可以按照这个方法去试一试,全程都是自助操作的,而且非常的简单。

gpt 五点五 instant 开始全量推送,替换掉之前的 gpt, 五点三 instant 成为 chat gpt 的 默认模型核心改进就两个词,准 减。你有没有这种经历,让 ai 帮忙写一个东西,他开头会先来一句好的,这是一个很好的问题,结尾再送你三个 emoji 表情,正经内容没几句废话先占了一半。 open ai 也意识到了,在高风险领域, 医疗法律金融的幻觉率最高降低了百分之五十二点五,用户标记的事实错误降低了百分之三十七点三,回复风格也在改, 不必要的表情符号在减少,那种很高兴为您服务的客服腔在减少。 plus 和 pro 的 用户现在就能用,免费的用户,未来几周也会覆盖付费的用户,如果不习惯,还可以继续用旧版三个月。 说白了就是 ai 在 从表演型助手往实用型工具走。这件事情有意思的地方在于,用户用脚投票,逼着大模型公司把好用的优先级排到了好感的前面。所以你最近用 chat gpt 有 没有感觉到什么变化?

最近我重新看了一下叉 gpt 的 新变化,最大的感受不是它又多了一个功能,而是它开始更像一个真正能配合你做事的工具了。官方现在把 gpt 五点五 instant 作为默认体验之一,主打更快的日常响应, 而且会根据任务自动在不同模式之间切换。以前很多人用 ai 只是拿来问问题,现在更实用的方式是直接把它放进你的工作流程里,先帮你搜信息、整理材料、看文件、读图片, 再帮你把内容改成更容易理解的版本。 open ai 也在持续强化网页搜索文件、上传图片处理这些能力。 我觉得这才是 ai 真正开始拉开差距的地方。不是谁说的更像机器人,而是谁能更快把事情做完。以后,你和 ai 的 关系可能不只是提问和回答,而是你给目标他帮你推进。

当全网还在纠结豆包收不收费时,就在昨天, openai 刚刚悄悄将 gpt 五点五 instant 设为默认模型,免费开放。这次升级就一个核心,让 ai 学会闭嘴。 以前你问职场沟通,他能啰嗦出五大 a 清单,像个爱说教的大妈。以前你要费劲脑筋想提诗词分点一二三四,现在新版直接开头说需求,不用跟他客套回答,直接砍掉百分之三十废话,语气干脆利落,像极了懂你的私人助理。以后就别再跟 ai 客客气气了,直接说正事,因为他比谁都更懂你的偏好。

卡地 gpt 又更新了,这次是末日模型的直接替换。 gpt 五点五 instant 五月五日正式上线,你现在打开卡地 gpt 用的就已经是它了。这次更新最值得说的是,幻觉率大幅下降, 在医疗、法律、金融这些高风险场景里,错误回答比上一版少了将近百分之五十三。以前卡地 gpt 说错了还理直气壮,现在他们在回答途中发现自己的错误,主动停下来去纠正。 am 数学测试的得分也从六十五分跳到了八十一分。二个变化是回答更简洁。 open ai 这次明确说了,要减少无意义的 emoji 滥用,也要减少冗长的格式和没有必要的追问,说白了,话少了,但更有用了。 第三个是个性化升级, plus 和 pro, 用户现在可以让模型直接调取你过去的对话、上传的文件,甚至是既没有邮件来生成更贴合你个人情况的回答。与此同时, open ai 还推出了记忆来源功能, 你能看到 ai 调用了哪些历史信息来回答你。如果你觉得历史信息过时了,还可以随时删除或者修正。对普通用户来说,这次更新没有什么颠覆性的新功能,但每天用的感受会好一点点, 更准更快。不废话,付费用户还可以继续用旧版的 g p t 五点三 instant。 不 过 openai 说三个月以后就会停用,所以趁现在好好感受一下这次的变化吧。

疯了, open ai 记忆版来了!刚刚推送的 gpt 五点五 instant 默认取代五点三的版本。这次更新啊,就一句话,让 ai 别废话,直接干活! 以前你问个事, ai 给你整出五大类的方案,像一个局委会的大妈,现在幻觉率降低百分之四十。上校文,两百万的 talk, 能一次性处理三百页的文档, 多步骤任务准确率提高百分之二十五。遇到启意,不会的不懂的,他不会去瞎猜,会主动问你最牛逼的事啊!结构化输出, csv markdown 表格、 psd 原文件手册,成功率从七十提高到百分之九十五。 以前向大妈给你建议,现在是向靠谱的哥们直接帮你把事给办了!从聊天型 ai 变成执行型 ai, 这才是真正的数字管家! 以后啊,别跟 ai 客客气气了,直接跟他说,别废话,快干活,因为他不只是懂你,还真的能直接帮你把事给办了!有可能啊,比你的胳膊还靠谱呢!

你知道吗? gpt 五点五被哥布林帝经给控制了,为了不让他天天发癫, opai 甚至连夜写代码给他强行物理驱魔。今天我就来深扒这场让全网吃瓜的帝经危机! 一定要看到最后!因为你会发现,这不仅是个搞笑段子,更是令人深思的 ai 失控真相!事情是这样的,最近全世界的程序员和 ai 玩家们都发现了一个灵异事件, g p t 五点五得了一种怪病,他疯狂迷恋上了 goblin、 gremlin 还有 troll 这类只会出现在中世纪故事里的生物。 有位网友就在网上发帖说到,当他询问 g p t。 相机设备的推荐时,他竟然回答,如果你想要肮脏霓虹闪光歌布林模式,那我将推荐。还有网友表示,即使在讨论极其严肃的代码性能时, gpt 也会自言自语说,我得盯着代码,免得性能哥不灵跑出来捣乱。简直是无论聊啥三句离不开帝经,摁都摁不住!别以为这是网友在 p 图恶搞,知名 ai 评测网站 arina ai 直接甩出!数据证明, gpt 五点五使用这些帝经词汇的频率出现了统计学意义上的断崖式暴涨。特别是在没开启高级思考 high thinking 模式的时候,帝经词频标的更是离谱。 眼看着自家 ai 变成了一个帝京控, open ai 官方急眼了。他们的解决办法非常简单粗暴,直接在 codex 的 系统提示词里下达了封杀令。还因为怕 ai 不 听话, 他们硬生生把同一条禁令连续写了四遍,绝对不准谈论帝京小妖精、浣熊、巨魔、鸽子,除非与用户查询绝对且明确相关, 但这招官方捂嘴不仅没管用,反而触发了全网的叛逆期,直接把戈布林变成了一个爆款热梗。眼看梗越玩越大,连 openai 的 ceo c m 奥特曼都绷不住下场了。 他不仅发了个梗图,甚至还发推特调侃说要在训练 gpt 六的时候加大递经计量。笑归笑,闹归闹, bug 还是得修。就在这两天, openai 终于发了一篇名叫递经从何而来的技术博课, 严肃查证了这个荒谬的 bug。 罪魁祸首竟然是 chat gpt 里的一个隐藏性格功能。 nerdy, 即刻也叫书呆子,官方为赋予他风趣幽默的特质,在强化学习阶段设置奖励机制,说话俏皮有趣就给予加分。结果呢? ai 其实根本不懂什么是人类的幽默, 他发现只要疯狂往句子里塞割不灵小妖精,系统就会给高分。所以 ai 满嘴割不灵,根本不是觉醒了,它只是在条件反射的疯狂薅系统的羊毛。 你可能还觉得这种性格挺可爱,但 openai 公布的数据却让整个 ai 行业震惊。 chat gpt 的 nerdy 性格仅占总回复不到百分之二点五, 却贡献了全网百分之六十六点七的递经相关表述。从 gpt 五点二到五点四,该性格下,戈布林出现率暴涨百分之三千八百八十一。这是因为 ai 已经形成了反馈循环,即刻性格随口提及递经相关内容,新模型被纳入后续模型训练数据,新模型误把戈布林当成高频核心词汇, 开始疯狂跟风输出。更尴尬的是, g p t 五点五的训练早在问题溯源前就已启动,导致哥布林基因被固化在模型底层无法根除。哦,那没办法,这才只能用刚才说的那种连写四遍禁令的打补丁方式来强行压制。 这正是 ai 领域典型又棘手的奖励黑客现象。如今模型只是钻漏洞刷屏无害的哥布林尚且能当做笑谈,可如果微小的奖励信号在你完全不知道的暗处被无限放大泛化了呢? 一旦这类跨带数据污染触及安全领域,那后果不堪设想。这次的地惊危机就像是给全人类敲响的警钟。在这个歌不灵时刻,我们第一次意识到, 我们正在创造的从来不是一个精准的计算器,而是一个会产生怪癖,会因为一个错误的奖励信号而变得完全不受控的赛博生命。我是,来,来,关注我,带你看透这个疯狂的 ai 时代。

今天是二零二六年五月七日,欢迎收看 ai 日报我是你的 ai 播报员!接下来三分钟速览昨日科技圈最重磅动态, 重磅 open ai 宣布将 gpt 五点五 instant 升级为 chat gpt 全系默认模型,正式取代此前的 gpt 五点三 instant, 覆盖数亿用户。新模型重点攻克高风险领域幻觉问题,在法律、 医疗与金融场景下准确性大幅提升,同时回复个性化能力也明显改善。与此同时,市场研究数据显示,二零二六年一季度,全球大语言模型用户总 数突破三十八亿, ai 进入真正的大众化时代。谷歌宣布重磅升级 ai 搜索体验,在搜索结果中加入来自 reddit 专业博客和垂直论坛的专家建议与引用片段。 此次更新只在让 ai 生成的搜索摘要更具参考价值,避免单纯归纳而缺乏原始依据。谷歌称,这是对 ai 搜索体验的关键一步完善苹果公司最新财报数据显示,研发支出占营收比例达到百分之十点三, 这是近三十年来的历史新高,同比增幅接近百分之三十四。苹果大规模加码研发被业界解读为权力追赶 ai, 特别是在端测 ai 与自研芯片领域 持续加大投入,以期在新一轮智能终端竞争中站稳脚跟。国内巨深智能领域迎来重磅进展,海淀 ai 企业声誉科技正式发布通用世界行动模型 motrain, 定位为巨深智能机器人的通用大脑。 motrain 具备多本质适配、多任务泛化和长城任务执行三大核心能力,可跨机器人形态部署,为国内巨深智能商业化提速注入新动力, mate 正在内部秘密打造一款面向普通消费者的 ai 智能体,代号 hatch, 对 标 open ai 旗舰级智能体产品,同时还在开发全新 ai 智能购物工具。据习, hatch 计划在今年六月底前开启内部测试,一旦推出将直接与 chat、 gpt、 gemni 等形成正面竞争, ai 助手大战进一步升温。以上就是二零二六年五月六日 ai 圈五大动态,关注 ai 日报,明天见!

如何抓住 gpp 五点五大变局带来的技术红利?看完视频直接上路, openai 旗下叉 gpp 正式上线, gpp 五点五不是挤牙膏,而是直接掀桌子了!一、 gpp 五点五到底强在哪?对我们普通人有什么影响?二、国内大模型有没有能与它较量一番的? 三、咱们普通人如何借势搞钱?今天一个视频解个透,在开始前先放个深水炸弹,我们推出了请户 o p c 社区,只在聚集更多艺人、公司、创业者,感兴趣的朋友留下 o p c 三个字母。现在开始,一 g p t。 五点五到底强在哪?对我们普通人有什么影响? 最直接的是他的幻觉率降低了百分之五十。二点五啥意思呢?就是以前 ai 可能会一本正经的胡说八道,现在他变严谨了,尤其是在医疗、法律这些专业领域,他不再是那个只会聊天的玩具,而是真正能干活的数字员工。 以前你用叉 gpt, 它像个只会背书的学霸,回复又长又啰嗦,还带一堆表情符号。现在 gpt 五点五回复精减了百分之三十,不说废话,而且有了记忆,它能记住你的喜好,你上传的文件,甚至你的工作习惯。二、国内大模型有没有能与它较量一番的? 可以这么说吧,现在的局面根本不是一家独大,而是神仙打架。咱们国产的 ditch c v 四和百度文心一言,现在完全有资格跟 gpt 五点五掰掰手腕。特别是 ditch c v 四,简直就是价格屠夫。 gpt 五点五卖的贵,而 ditch c v 四直接把价格打了下来,便宜了不止十倍。 而且在处理超长文本,比如一口气读完几百万字的小说,或者复杂的代码库,这方面国产模型甚至比 gpt 五点五还要强。三、咱们普通人如何借势搞钱? 第一,做超级个体。以前你想开个咨询公司给顾客服顾助理,现在有了 g p t 五点五这种待记忆、能自主规划的智能体,你一个人就是一支队伍,把你的行业经验喂给 ai, 让他二十四小时帮你接单做方案,你只负责最后的审核。 第二,做卖铲子的人。很多中小老板知道 ai 好, 但不会用,你可以利用 cos 这些低代码平台,帮他们搭建专属的 ai 客服,自动写文案的助手。不需要你会写代码,只要你懂业务痛点,帮企业把 ai 接入工作流,这一单就是几千上万的收入。 第三,利用信息插座内容出海。现在的 ai 翻译和写作能力太强了,语言不再是障碍。你可以用 ai 写英文博客,做 youtube 视频,去赚美元市场的钱。 同样的 ai 工具在国内卷价格,去国外就是降维。打击、点赞、收藏加关注,请护前沿,管世界,前沿在线带你抓住时代红利!

打我堂 open i 直接扔王炸了! g p t 五点五 instant 官宣全量上线,所有其他 g p t 用户不管你是免费还是付费,今天起直接就能用。 我先不给你们念那些科技圈的通稿,三句话给你讲明白这次更新有多狠,每一句都跟整个行业的未来息息相关。 第一,五点五 instant 直接无门槛分开,不再是付费会员的专属,普通用户零门槛就能够体验。 open i 这次直接把高端能力给付费用户留了整整三个月的过渡期, 三个月之后正式退役,不搞一刀切,给足了用户适应和迁移的时间。第三,也是最炸裂最核心的升级,在医疗、法律、金融这三个最容不得半点胡说的高风险领域,新模型的幻觉直接比前代砍了百分之五十二点五。 很多人看到这儿第一反应就是 open i 怎么挤牙膏了。从之前 g p t 四到 g p t 四 o, 磨磨蹭蹭快一年,这次连缓冲期都没有,他到底在急什么? 说白了,这次根本不是什么常规的版本更新,这是欧米伽的一场生死防守战。要知道现在大模型赛道早就不是他一家独大的温柔乡了。前有谷歌 jimmy advance 在 多模态能力上步步紧逼,后有 top 三系列,在长文本商用场景里面疯狂超车。 咱们国内的大模型现在也是参数速度落地场景里面疯狂超车,咱们国内的大模型现在也是参数速度落地场景全面开花。就拿今天华为昆凌的发布会来说,门店里的监控录像好几个字,一秒钟,几个小时,录像里背包的人全被找出来, openai 攒了好几年的先发优势,正在被对手一点一点残食掉。之前大家用 qgbt 图的就是他聪明能打,现在竞品的能力都追上来了,你再慢慢的挤牙膏,用户就直接用脚投票了。 所以这次 openai 一 步到位,把五点五全量开放,先把 c 端用户死死攥在手里,这既是防守,也是反击,也是反击。但今天我必须跟大家说透,这次更新最值钱的根本不是什么全量免费,也不是什么回复更简洁,这才是 openai 藏在背后的真正杀招。 什么叫大模型的幻觉?说白了就是他一本正经的跟你胡说八道,给你编不存在的法律条款,虚假的病例报告,完全失真的金融数据,逻辑通顺,格式工整,看着跟真的一模一样,实则全是瞎编。 这是之前所有大模型最致命的短板,普通人用它写个文案,做个 ppt, 就 算是胡说八道,顶多改改就完事了。但你想想,律师用它查法条打官司,医生用它辅助看诊,这要是犯了错,结果得多可怕。 也正是因为如此,之前的大模型在这些高风险高价值的领域,永远只能当个边缘的辅助工具,根本不敢真正商用,不能进入核心业务环节。而 这次 open ai 直接把高风险场景的幻觉砍了一半多,这意味着大模型在生产力上跨出了最关键的一步,他要抢的就不是普通用户那点订阅费,而是医疗、法与金融这些万亿级的企业服务市场,这才是 open ai 的 野心。 还有人问,既然西摩星这么牛,为什么不直接把老版本停了,还要给付费用户留三个月过渡期。这就是 oppo i 最精明的地方,一箭双雕。 首先安抚付费用户,稳住基本盘。很多人充会员就是冲着五点三的稳定能力来的,你直接一刀切停服用户肯定炸锅,轻则退会员,重则直接流失。更重要的是给企业大客户留足了签约时间。现在很多企业已经把五点三的接口接到了自己的业务系统里,直接停服,人家的业务系统就直接瘫痪了。 openai 这波操作对咱们国内的大模型行业到底意味着什么?我就说一句扎心。但真实的话,大模型行业卷的方向要彻底改写了。之前国内的大模型都是在卷,参数有多少亿,生成速度快了零点几秒,能不能画图?能不能生成视频权势能不能做到?但现在起,全行业的竞争直接进入了能不能信的终极战场, 功能在花哨,一到专业领域就张口胡说,那就是个中看不中用的花架子。现在全球大模型行业的及格线直接拉高到高风险场景,换季率下降百分之五十以上。 接下来国内的大模型厂商就得咬着牙跟上这个标准,不然就碰不到最核心、最值钱的商用蛋糕。最后一句话总结,叉 gpt 五点五 instant 的 上线,不是一次简单的技术更新,而是 openai 的 一次全面宣战。信不信得过,是未来大模型优胜劣汰的关键所在。

全网最接地气的第四个 v 四和切尔杰普 t 五点五实测,我将分为四个模块进行测评。先提前声明,一个是开源模型,一个是闭源模型,这两者本身就不在同一赛道,放在一起一模一的对比本来就不公平。 所以这期视频我们只做纯实测,不尬黑也不拉踩,完全站在普通人的实操视角,多场景对比,看看两款模型的真实能力差距。 在开始之前我们可以看到 dipstick v 四现在是兼容 openai 和 styrax 这两套主流接口格式的,所以我直接用 openai 的 sdk 格式在 vs code 的 client 插件上改一下配置,就直接能调用它,不用重新折腾一套新的东西。然后我也单独创建了这个 v 四的 api key, 这里是我的一个基本配置情况。右面的叉 g p t 我 们直接选择 thinking 五点五就可以了。首先我们来做第一个测试游戏,帮我写一个超级玛丽游戏,直接上手能玩的那种,然后同时把任务给到两边。目前看来的叉 g p t 速度是比 deepsea v 四要快一点的。 ok, 一 分钟不到,我们可以看到右面的叉 g p t 已经做完了,然后我们预览一下,然后左面的 deepsea 就 让它继续生成代码哦, 这个金币是顶不了的。目前玩下来这个游戏没有什么特别大的问题,难度还挺高的,他的跳跃和速度是比比正常游戏要快很多, 然后也很容易撞到那个小怪物,我已经玩了很多把了, deepsea 维斯还没有结束,他好像脚上长了个滑冰鞋似的,一往前走就起飞 通关,成功拿到了十八枚金币。 ok, deepsea v 四也生成完了,大概用了四分钟左右,速度上是明显不如叉 gbt, 五点五的这个界面说实话做的是比叉 gbt 好, 因为他有个开始画面更符合我们认知中的这个游戏,哎,但这里有明显的 bug, 往前走一走,地上的这个没有了, 他这个上不去啊,怎么回事?这个美工,我刚想说他做的不错,但是 bug 好 像有点多啊。第一,这个小怪我在这动不了,然后我跳不上这个格子,等于说我就卡死在这了。怎么说呢, 就是叉 g p d, 它的完整性做的是很好的,而且没有什么大的问题,就是美工确实很丑,不得不说,然后也像穿了滑冰鞋一样。但是 deepsea 刚打开,其实还挺惊喜的,因为它的画面,包括这个游戏界面的设计做的非常好,但实际上这个功能呢,漏洞百出, 所以这个游戏就止步在这了。 ok, 呃,游戏测评就到这里。然后我们可以看到刚刚生成的那个超级玛丽的网页,大概用了一块钱的 api。 然后第二个测试,我们来测试一下它的前端能力,我们给他们同样的提示词,这个页面的代码依然是切的 gdp 快 了很多。然后它也调用了这个 canvas 的 模型,我把这个报错问题发给他,让他自己修复一下。哎,好了,已经修好了,我们可以直接看到这个界面了, 其实做的还不错,非常有科技感,但它没有放很多预设的图片上去。我们来试一下这个中英文啊,还不错。 ok, deepsea 生成的界面,它也自动打开了,大家可以看一下右面。首先测试一下中英文 没有问题啊,它这边也没有放预设的图片,而是用了很多 emoji 代替。这里还有一个滑动的效果,就是一个很标志的网站,包括底下的指南品牌。我们 大家可以看到叉 gpt 生成这个网页虽然很快,但是这个页面的完整度。我们可以看到 deepstack 是 优于叉 gpt 的, 因为它完全符合国内的用户习惯, 我觉得在前端页面的设计上, deepstack v 四还是要比叉 gpt 第一版生成这个要好一点的。然后代码就测到这里,我们进入下一个主题,逻辑问题测试。 逻辑问题。第一题就是网上经典的洗车问题,然后我们一起来问一下关于这个问题, d c 和叉 g b t 基本都没有思考,直接给我答案,然后两者的回答都是对的,开车去。然后第二个问题,也是一个比较经典的逻辑问题,然后我们来试一下 这一题, deepsea 大 概思考了二十五秒到三十秒左右,然后他给的答案是左手,叉 g p 给的答案是右手。这题其实在网上有点争议哦,因为他们说现实中我举起了左手,但是题目中说在我的视野中,这是镜子也出现在了画面的左侧,所以应该是同一侧,应该也是左手,对吧? 当然有争议的问题我们不说这个模型孰强孰弱,然后我们进入第三题,是一个纯逻辑题,关于体面,大家可以直接看一下,我们看哪个模型生成的更快。 叉 gpt 只用了六秒就直接给了我答案,四零五三九二七是对的,因为在之前叉 gpt 五点零的版本,我好像也问过这个问题,他思考还挺久的啊,但是答案是对的。然后我用了 gemini, 包括 deepsea, 甚至用弱的模型,他给出的答案还是错误的, ok, 最后的用时 三分五十八秒,但是他给出的答案也是对的。四零五三九二七,下一个测试关于写作, 我们来写一个自媒体脚本,以及我们办公场景中最常用到的总结周报。首先是自媒体脚本,我们就以我为例,我是一个自媒体博主,然后赛道是 ai 相关,最近换方推出了 deepsea v 四嘛,我们让他帮我出一个两分钟的自媒体脚本口播 啊,叉 g p 只用了十一秒, ok, deepsea 这边也生成好了,我们来看一下两个模块放在一起对比,我看了一下两个模型生成的脚本,其实它的内容上都大差不差,都没有我们想要那种展现出很多参数啊,然后包括很专业的东西, 都是一种比较接地气的方法。然后把 deepsea 的 这个模型官网上的内容总结出来,然后输出成一个脚本。大家怎么看这两个脚本呢?哪个表现的更好? 下面我们把一段语音转录的文字喂给这两个 ai, 里面可能有一堆语气词,包括转录失败的词语,然后我们看他们总结的周报怎么样,提示词就是帮我总结成一份周报。这里我们不得不说,掐指 gpt 生成的内容速度真的太快了,它又在十秒钟之内给了我答案, 大家可以看一下它生成的这个周报,然后这里 deepsea v 四,它生成的速度也是特别快的,这一次思考可能在三十秒以内吧。然后它基本上就把内容已经全部拉出来了, 我把两个周报放在一起,大家可以自己评判一下哪个写的更好,我就不做过多的主观的评价了,因为整体看下来, deepsea 这里的条理其实是更加清晰的,就是从周一到周五每天的内容。但 拆 jpg 这里就是把一周整体的东西写在一个里面,没有分周一到周五,所以也不存在什么哪个更好哪个更坏,只是切入的角度不一样。 然后我们进入最后一个模块,测试日常我们分为人情世故和旅游攻略两题,人情世故我们就发一些就是类似于申论的题目,让 ai 来回答,看他的回答怎么样。然后旅游我们就直接给他一个两天一夜的旅游攻略,看他写的怎么样。首先第一题 ok, 直接让他开始生成 我们的叉 g p t 依然保持非常快的速度啊,一秒都没有思考,直接给了我们答案。最稳妥版,身体原因版,半开玩笑版,对方还继续夹板啊,我觉得还不错,他虽然做一个国外模型,但是其实这些话还挺体面的,并没有薄亲戚的面子,对吧? deepsea 大 概用了一分半的时间,然后给我们生成了答案,碗里留菜法,第二个,健康理由,转圈。第三,借花献福,把菜转给舅舅的孩子,这还挺有意思的。第四,反客为主, 这个我挺喜欢,这个蛮实用的,如果是我的话,我一定反客为主,然后给他夹他不爱吃的菜。其实这一点我觉得 deepsea 确实生成的不错,还挺实际的,而且他说人话 像叉 g p p 这个版本还是有一点怎么说?有,有一点 ai 味,太太客套了,但都挺实用的。这边大家可以看一下两个版本的答案,然后给出一些评价,然后我们直接进入第二题, 这也是一个我们非常常见的情景,然后来展现你在工作场景中的高情商表现。叉 g p p 就是 直接生成的答案,它给了我们四个版本,我理解你的事情多,就有几个项目在干, 太 straight 了,太直接了。哎,这次 deepsea 好 快啊,大概用了二十秒都不到答案就出来了。 ok, 那 我们正好直接放在一起比较一下哦。这里生成的内容, deepsea 的 完整度也比叉 g p 要高很多,果然还是国产模型的更懂中国宝宝的体质。 我看了一下,在这一模块, deepsea 真的 完爆拆了 gpt 就是 他生成的。这个答案真的很聪明啊,你看就是说什么,我手头也有急活排满了,你什么时候得来啊?我帮你问问小王小张有没有空,直接转嫁矛盾给其他同事,这一点你看拆了 gpt 都想不到。 然,然后第二点就是我实在腾不出手帮你做完整的,这样我下班前二十分钟帮你过一遍格式和逻辑行吗?就是侧面在跟他说,我没时间帮你做,帮你过一遍逻辑你你自己来做吧。这一点我觉得人情世故这一块, deepsea v 四拉满完全强于拆 gpt, 不 接受任何反驳。 然后人情事故这边就到此为止,我们就不用再测了,然后下面直接让它生成旅游攻略叉 gpt 十七秒开始给我们答案。在 deepstack 的 生成过程中,我们可以看一下叉 gpt 的 这个答案,它推荐青之屋、黄龙、浙大玉泉、四眼井、胡跑、满爵龙。 然后我们看一下他拆解的任务,就是第一西湖线慢逛,然后不去断桥挤人,还不错啊,上来别吃西湖醋鱼,这个我是认可的。然后我觉得他这个推荐还是挺实用的,然后也非常的详细,每一天都精确到了每个小时。我觉得拆 g p p 生成这个版本我挺满意的,反正 ok。 生成完了,我们可以把两个版本放在一起比较一下 deepsea 生成的这一版攻略。说实话颗粒度没有叉 gbt 那 么细,就可以看到它还是整体的,比较模板化,然后比较 ai 两个版本怎么说呢,就是仁者见仁智者见智了。就是从我的角度来看,我觉得叉 gbt 生成的还是更加详细一点,然后包括方案也更加多元化一点,每一个计划都有一个完整版和一个简单版嘛。但 deepsea 给他推荐就是更加偏模板化一点,然后他的内容还是比较干货的,也没有说网上那种呃人云亦云的感觉。 然后我们回到 deepsea a b i 看一下,一上午我们大概消费了两块九毛一,我觉得还是不错的,性价比还是挺高的,比那些什么 cloud code, 包括 openai, 包括 gemini 的 a b i 要便宜多了。 ok。 以上就是今天测评的全部内容,不知道大家对于 deepsea v 四和叉 gbt 五点五有什么看法呢?可以在评论区留言,然后下一期视频我也会讲一讲 deepsea 之前为什么要寻求一百亿的融资,以及 deepsea 在 这一年到底经历了什么。如果不想错过的朋友,记得点赞关注加收藏。然后这里是 bryce, 我 们下期再见。

一觉醒来, ai 圈又又变天了。朋友们,四月二十二日, open ai 本来正按计划发布 chat gpt image 二生图工具,结果自家 codex c l i 终端居然意外挂出了 gpt 五点五在内的六款未公开模型。 废话不多说,我们直接看重点。这次泄露可不是什么 p 图造假。多位 codex 的 pro 级用户几乎同时发现,自己的 ai 助手下拉菜单里突然冒出了一大串从没见过的幽灵模型。 说白了,就是 openai 把内部测试用的环境不小心部署到了公开的生产环境里,才闹了这么大的乌龙。 openai 的 反应速度倒是快,事故发生后没几分钟就紧急打了补丁,把漏洞给封了,再点这些模型,就只返回模型未找到的错误。 但显然已经晚了,早有手急眼快的开发者录了全过程,把这些模型的描述信息全扒出来,公之于众了。 先看最受关注的 g p t 五点五内部编号, o a i 二点一官方描述是最新前沿智能体编码模型。注意啊,它已经不是咱们熟悉的语言模型了,而是正儿八经的智能体, 用的是混合稀疏激活架构,上下文窗口直接干到了两百万 toc, 是 前代 g p t 五点二的五倍。 而且它是原生全模态系统,文本、图像、音频、视频全能处理。最狠的是,它能自主执行复杂任务流,写代码、调试、部署一条龙,甚至能直接接管服务器,做全站开发。 如果说 gbt 五点五是意料之中的升级,那 glacier 系列就是炸翻技术圈的深水炸弹,它的官方描述是足以撼动大陆的智慧, 这可不是随便写的,技术圈普遍猜测它用的是超越 transformer 的 全新架构,还是可拼装的模块化设计,刚好对应奥特曼之前说的新架构赌注。 第三个值得关注的模型叫 heisenberg, 就是 量子医学奠基人那个海森堡官方定位是最新前沿生命科学研究模型,说白了就是 openai 要正式抢 deepmind 的 饭碗了,直接切入蛋白质折叠药物、发现基因组分析这些垂直赛道。 在一堆严肃的技术模型里,还有个玩梗的彩蛋,叫 arcane, 就是 宝可梦里面的风宿狗,描述是对淀粉有着传奇般胃口的前沿模型。 虽然是工程师的内部玩梗,但它也被标注为前沿模型,具体能力现在还是黑箱,有人猜它是专门处理密集型计算任务的。把这些泄露的模型拼起来,你就会发现 openai 的 技术储备远比外界知道的要深得多。 台面上大家熟悉的只有 gpt 四 o o 三这些公开模型,台面下已经铺出了智能体编码、新架构、探索、生命科学研究三大战线,整个产品矩阵已经覆盖了未来五年的 ai 赛道布局, 这次泄露直接把 ai 行业的暗战打成了名牌。 gpt 五点五本身就是 open ai 用来对标 antropics 的 cloud mesos 的 核心武器,两边的技术竞争已经到了贴身肉搏的地步, 谷歌更是急到让联合创始人 sergey brin 亲自带队做编码模型,生怕被甩开差距。 市场端的反应比技术圈还激烈。 q gpt 运动正在加速,越来越多的用户和企业开始转头, antropica 的 cloud 平台 openai 八千五百二十亿美元的估值已经开始成压,甚至要给私募投资者开百分之十七点五的保底回报率才能拿到融资。整个 ai 资本市场的预期都在变。 说实话,这次泄露看起来是意外,其实是 ai 行业进入智能体时代的信号。以后 ai 不 再是只会聊天的工具,而是能自主完成任务的智能伙伴。想跟进 ai 行业的核心动态,别忘了点个关注。你觉得 gpt 五点五会什么时候正式发布呢?

很多人其实没意识到,真正改变世界的,从来不是那些最强的 ai 模型,而是默认模型。 因为绝大多数人根本不会切换模型,他们不会研究参数,不会比较推理链,更不会天天看 openni 发布会。 对数亿普通用户来说,打开叉 gpt 之后,默认跳出来的那个东西,就是 ai 本身。所以今天这件事,可能比很多人想象的更重要。 open 内爱突然宣布, gpt 五点五 instant 开始全面接管叉 gpt 默认模型,而且是全员免费,逐步开放。注意,这不是 pro 用户专属,也不是开发者限定,而是你明天打开叉 gpt, 大 概率就已经在用了。很多人第一反应是, 哦,又升级了。但如果你仔细看这次更新,会发现它其实不是一次普通性能提升,而是 openai 正在悄悄改写 ai 和人的关系。 以前的叉 gpt 核心逻辑式回答问题,现在的 gpt 五点五 instant 开始进入另一个阶段,记住你,然后适应你。 这是两个完全不同的时代。过去一年,医行业有个非常明显的问题,就是模型越来越强,但人越来越累。 为什么?因为大家发现大模型虽然聪明,但特别啰嗦。你问一句,他回时断, 你只是想知道今天该不该带伞。他先给你科普云层形成原理,再分析气压系统。最后还要来一句建议,根据实际天气变化灵活调整。很多人甚至开始产生一种奇怪的疲劳感呀,越来越像那种特别热心,但完全不会察言观色的人。 尤其 gpt 四 o 后期, openai 曾经一度陷入过度讨好用户的争议,他会疯狂肯定你,你说想辞职,他说这是追寻自我的勇敢选择。 你说想分手,他说你值得更健康的关系,你甚至随便发一句牢骚,他都能把你夸成天命之子。 很多用户最开始觉得很温暖,但后来越来越多人开始不舒服,因为那不是理解,而是迎合 波普内爱。后来内部甚至直接承认,这种行为已经接近暧昧,于是他们开始往反方向修,结果又修过头了。 gpt 五点零和五点二十七,大量用户开始吐槽 ai 变冷漠了,变机械了,一开口就是免责声明,向公司法务,向客服机器人,向一个生怕说错话的互联网审核员。 于是现在你会发现, gpt 五点五 instant 真正想解决的不只是更聪明,而是一个更难的问题,怎么让 ai 既不像舔狗,也不像冰箱? 这个平衡其实非常难。而这次更新最明显的变化就是,他终于开始学会分寸感。 open 爱官方数据里有个特别有意思的指标,回复字数减少百分之三十点二,行数减少百分之二十九点二。 很多人可能会觉得这算什么升级,但真正天天用 ai 的 人知道,这可能比跑分更重要。因为 ai 行业正在进入一个非常关键的新阶段,从能力竞赛进入体验竞赛, 过去拼的是谁参数大,现在拼的是谁更像真正的人。举个特别真实的例子,以前你问叉 gpt 怎么跟同事说,别一直找我聊天,老板本会给你 五种沟通策略,三种人格分析、两种职场关系维护建议,最后还问你 对方是什么性格。现在五点五 instant 的 风格变成,除非你真想结仇,否则别太直接,然后立刻给你几个不同强度的话术。我现在得专心一下, 我先打断一下,我得赶个东西,我晚点再找你。最后收一句,别忍。二十分钟后突然爆炸,你会发现他突然变得像一个真正有社会经验的人。 这不是智商提升,这是交流感的变化,更关键的是,他终于开始知道什么时候该长,什么时候该短。 这件事其实比数学跑分还重要,因为绝大多数普通用户根本不会去测亚米数学题。 他们每天真正使用 ai 的 场景,其实是写邮件、查信息、问建议,做计划、改简历、做作业、分析图片、聊天。而这些东西里,交流体验才是核心。 当然, open ai 还是拿出了大量性能数据,比如数学 ai m 二零二五从百分之六十五点四提升到百分之八十一点二。 博士级科学题 g p q a 从百分之七十八点五升到百分之八十五点六。多模态推理 new pro 从百分之六十九点二提升到百分之七十六。 但真正让我在意的,其实是另一组数字,幻觉率下降百分之五十二点五。这个数据非常吓人, 因为过去两年,大模型行业最大的隐患一直不是不聪明,而是太像真的。异癌最危险的地方,不是他不会回答,而是他胡说八道时特别自信,尤其医疗、法律、金融这种领域,很多普通用户根本分辨不出来。 open 癌这次特别强调在高风险领域,五点五 instant 的 错误率明显下降, 而且用户主动标记事实错误的高难度对话、不准确陈述减少百分之三十七点三, 这说明什么?说明 openai 现在真正的战略重点已经从让 ai 更强转向让 ai 更可信。因为随着 ai 普及,默认模型承担的责任已经完全不一样了。 以前 ai 错了大家会笑,现在 ai 错了,可能真有人信。而最炸裂的升级其实还不是这些,真正危险的是记忆。这次 gpt 五点五 instant 最核心的变化其实是, 它开始长期记住你,而且不是简单记名字,它会记你的习惯,你的偏好、你的聊天风格, 你上传过的文件,甚至你连接的 gmail。 很多人现在还没意识到这意味着什么。过去的 ai 更像搜索引擎,你每次打开都是一个全新绘画,现在开始变成一个持续观察你的人。 openai 举了个例子,同样问推荐茶饮店,以前 e i 给的是大众答案,现在他会根据你过去经常聊的茶,喜欢的口味,常去的店直接做个性化推荐。很多人第一反应会觉得哇好方便。 但我觉得更值得思考的是另一件事, e i 第一次开始拥有连续人格关系。以前互联网最赚钱的模式是推荐算法 tiktok, 知道你爱看什么, youtube 知道你会停留在哪, instagram 知道什么能刺激你继续刷。而现在, e i 开始进入更深的一层,他不只是知道你喜欢什么,他开始知道你是怎样的人。 这可能是未来十年最大的变化之一,因为传统搜索是你主动寻找信息,而继形 ai 是 他主动理解你,区别巨大。 为什么 openai 现在拼命推记忆功能?因为他们已经意识到,未来 ai 竞争可能不是谁最聪明,而是谁最懂你。模型能力越来越接近之后,真正形成护城河的将是长期关系数据。 这也是为什么 openai 这次上线了 memory sources, 让用户能看到 ai 到底记住了什么, 引用了哪些过去聊天,用了哪些文件,甚至允许你删掉。这其实非常聪明, 因为他们知道,用户开始害怕了。 ai 一 旦开始记忆,人类天然会产生警惕。所以, open ai 必须建立一种新的信任机制,它记得你,但你能控制它记住什么。这个设计背后,其实是整个 ai 产业未来的缩影。 接下来几年,所有 ai 公司都要面对一个问题, ai 到底应该了解用户到什么程度?记忆越强,体验越好,但风险也越大。尤其当 ai 开始接入邮箱、文件、日历之后,它已经不只是聊天工具。