同志们, oppo ai 的 gpt 五点二发布了,就在刚刚,没发布会,没有公告,就像一个幽灵悄悄出现在了部分用户的后台,全网都在找新功能,但我劝你别急着点开。为什么静悄悄?因为这是一次被 google 杰姆莱三逼出来的战事。早产。我的数据分析显示这个版本极其偏科, 他没有花哨的画图,也不能帮你点外卖。他只加强了两样东西,极致的推理和变态的代码能力。很多人失望他功能少,但在我看来,你应该庆幸。还记得那个被爆出拒绝关机的 o 三原型机吗? g p t。 五点二的内核大概率就是他。 正是因为他的自主行动太危险不可控, open ai 才被迫砍掉了他的手脚,只保留了这个钢中之脑。他现在动不了你的手机,但他的智商已经足以碾压现在的代码防御。他是为了赢而生的做题机器,用它写代码可以,但永远不要完全信任他给出的方案。我是零一号档案怪物已经出笼,无论他带不带的料。靠。
粉丝857获赞9639


这几天科技圈最炸的新闻啊, openai 慌了, gpt 五点二原计划十二月底发布,现在啊,直接提到了下周二,你敢相信吗?山姆奥特曼亲自宣布,公司进入红色预警状态, sora 停了,广告测试停了, ai 代理测试也停了,全公司啊,只干一件事,保住 c 的 gpt 的 王位。为啥这么急啊?因为谷歌的杰瑞杀疯了,在疯狂抢 openai 的 用户。 上个月,街们内在权威评测榜单上,直接把 open ai 踢下了王座,那个技术永远领先半壁江山的神话崩了。更可怕的是啊, open ai 现在真正怕的不是被超越,是钱的问题。融了一千亿,花了一千四百亿, 承诺二零二六年要花的钱更是接近四千亿了,账上根本没有多少钱。如果 g p t 五点二拉垮,那可就真废了啊。现在 ai、 谷歌、 antropica, 谁能活到最后啊?真的不好说。 说实话啊,这跟普通企业老板有什么关系呢?巨头天天打架,工具天天换,今天气的 g p d 牛,明天接力强,后天国产大墨镜又降价了,你到底跟着谁走?其实啊,你只需要搞清楚一件事,通用的工具会一直变,你的行业经验是不会变的。 与其天天追热点换工具,不如把你十年、二十年的经验系统化、数字化,训练成一个属于你自己行业的专属智能体。拥有一些懂你公司业务的 ai 助手, 如何整理数据,如何投喂数据,这套方法论啊,我们已经帮一千两百家企业验证过了,有十三米长的 sop 流程图做支撑,从工厂到电商,从实体店到咨询公司,底层逻辑都是一样的啊,需要详细投喂的 sop 流程可以直接分享给大家。 如果 ai 巨头都在为生存焦虑的时候啊,恰恰是普通企业弯道超车的窗口期,别只盯着热点啊,把自己的护城河建好才是真正的正事。

大家好,我是 kate 的 g p t 五点二终于正式发布了,由于 carson 呢,昨天就放出来了 g p t 五点二,所以呢,我已经制作了一个关于编码测试方面的视频,大家有兴趣的话可以翻看我上一个视频。一年前, pic 他 们在验证 o 三预览版的时候,当时一项任务呢,花费大概是四千五百美元。而今天在验证 gbt 五点二 pro x high 的 时候呢,不仅目前的分数比之前 o 三预览版要高,而且花费呢,大大削减, 这代表一年内呢,效率提高了约三百九十倍。非常夸张的一个效率提升。目前五点二的价格是五点一的价格的一点四倍,它的上下文窗口和输出长度是和之前一致的。 非常有意思的是,它的知识库截止日期是啊,到今年的八月底五点二呢,应该是目前知识库最新的模型了。 上个月,谷歌推出了 gemini 三 pro, 在 当时的榜单上, gemini 的 得分在十九个,基本上都是要超过 coda 模型和 gpt 五点一模型的。后来, android surface 坐不住了,推出了 office 四点五。那到今天,呃, open i 坐不住了,推出了五点二。 我们可以看到,在这些基选上,五点二表现会优于另外两家的。嗯,在这一次呢,他们有推出一个 gdp value, 主要就是知识工作任务。 我们目前可以看到,五点二对比五点一有了非常大的进步。 swbench 的 得分呢,呃,五点二来到了百分之八十, 而 opt 四点五目前是八十点九,这也是唯一的两个模型。超过百分之八十以上的 gdp value 是 一些知识任务的评估,它在处理 excel 表格能力非常强。那我们再看一下它的编程能力,它是分了好几档, 最高一档呢是 x high, 下方我们可以看到它的输出 token, 在 x high 的 模式下呢,它的输出的 token 要比五点一 thinking high, 呃,思考过程要长很多。这次 gpt 五点二呢,还有个非常好的改进是在长文处理方面。五点二它在工具调用方面, 对比五点一 thinking 也是有了巨大的提升。五点二的幻觉率呢,要比五点一降低了百分之三十五点二呢。现在在图表推理和软件界面理解方面,错误率降低了百分之五十五点二呢。今天就向付费用户推送了 关于五点二 pro 的 价格,我们可以了解一下,它是要比 gbt 五 pro 还会更贵一点。 我们再看一下完整的机准测试数据,还有一个非常大的提升是在上下文方面,我们看到它在图表推理方面啊,相对五点一提升也是很大的。在 screamsport pro 机准上,它的提升也是非常大, 这就非常有助于 agent 在 帮我们控制电脑,所以这个提升的意义是非常好的。五点二在搜索工具调用方面,也是将对五点一有了很不错的提升。现在呢,我们看一下 hack news 上社区啊,对五点二发布的一个反馈, 很多用户对五点二博文里面的一张图片视觉 demo 认为它有问题。 o p i 的 工作人员回应呢,呃,选择这张图的目的是为了展示视觉模型更好,但是并不完美。还有人问自适应推理还在吗? open i 的 员工回复呢,五点二依然有自适应推理。当然这次非常大的变化呢,是五点二的价格要比五点一要贵很多。 openix 上还有一个非常好玩的讨论,就说 open i 的 公告里有一句话呢,中间少了闭合引导。 然后用户就质疑了,你们为什么不用自己的模型改稿?再看一下 a w a i 编辑组,编编辑他呢?呃,对 g p t 五点二的一个体会。 g p t。 五点二在延长的复杂的知识任务中表现确实很亮眼。他连续工作两小时, 在写作测试上,呃,有博主反馈呢,五点二他的写作落后于 opt 四点五指令遵循方面 那呃,有用户反馈呢,是不如其他模型灵活主动。最终,呃,这篇文章给出 every 团队, 他们的选择呢?是 office 四点五,蓝蓝是他们的主力工具。中央还发布了一篇博文,介绍五点二,推动科学和数学进步。首先,他们介绍五点二 pro 和五点二 thinking, 是 科学和数学工作中表现最强的模型。 在他们的博文里面呢,显示了一个案例。五点二 pro 呢,帮助解决了统计学习理论中的一个开放研究问题是,如果你收集更多的数据,你的结果会可靠的变得更好吗? 与传统办法不同,作者呢,没有制定策略,然后要求模型填写步骤。他们直接要求五点二 pro 解决这个开放问题。 最后去做啊,仔细的验证。五点二 pro 呢,将结果扩散到原始问题之外的更高维度,设置在整个过程中。人类的角色呢,专注于验证和清晰的写作,而不是提供数学脚手架,这个结果就是一个非常好的证明。 那 ai 呢,可以帮助我们在数学和理论、计算机科学方面发展的更好。最后呢,来看一下 gpt 五点二提示词指南。与之前的模型相比呢,五点二提供 更深思熟虑的结构化,更低的笼余度,更强的指定遵循和保守的基础偏向,我们可以控制笼余度和输出形式。第二点是说,呃,五点二它在结构化代码方面很强, 更可能产生超出最小 u x 规格和设计系统的代码。所以呢,必须要明确禁止额外功能和一些不受控制的样式。第三点,对于长上下文的任务呢 啊,提示词里面可以让他强制摘药和重新定位。第四个呢是配置提示词,防止他对模糊查询产生过度的自信。在工具调用和并行方面, 同样呢,呃,也可以先简洁描述工具,这就有一点像扩展 skills 了, 然后明确鼓励并行。在结构化提取 pdf 和 office 工作流里面,这是 gpt 五点二明显展现强大改进的领域,要充分利用它, 比如说让它始终输出,提供 schema 或 json 结构区分,必填和可选字段。如果说你目前的模型是 gpt 五点一迁移到五点二的话,那就保留现有的 f 的 选择,仅在运行评估后调整。在网页搜索和研究方面, 先是预先指定研究标准,然后通过指令而非问题来约束歧义。再之后呢,规定输出形式和语气。以上呢,就是今天介绍五点二的所有内容啊,后续的话我也会做更多的测试。 从屏幕上这个表格呢啊,可以看到五点二 thinking, 它对比五点一 thinking 还是有很多进步的,在很多基准上也是要优于 office 四点五和 gemini 三 pro, 非常推荐大家多尝试。以上呢,就是我今天的分享,如果喜欢我的视频,欢迎加入我的知识星球,我会分享最新的 ai 资讯,分享源代码,回答你的提问,我们下次再见。