今天给大家讲个非常有意思的事,就是我的朋友今天带着他的这个创业项目,然后来找我看,然后呢非常有意思的一件事,就是他想做一个 人工智能的这个估值啊,然后分析师的这个 excel 表格, excel 表格的功能,然后你要不给大家自己也介绍一下?好,那我的产品呢?它可以让用户在这里输入一些对标的看法,然后它可以自动化的 啊,给你搭建整个估值模型出来,然后呢细致到每一个啊 product 的 这个细分吧,但是,但是就是很恐怖的一件事,就是我刚才给他看了一下拆的这 bt 五点二这周刚更新完的版本 啊,就是他已经基本上能把我觉得我们公司所有分析师的活全干了,就是这个能力上周还做不到 啊,就是就是,最近更新完的,我给大家翻过来看一下,就这个这个表格啊,这个是在研究这个拗口,这公司这表格没有一个字是我写的, 就是我所有干的事,就是只是教给他我想要的问题,就所有的表格你能看到这格式啊,样式,甚至是中文的,然后所有的这些细节,没有一个我操作了啊,全部是 ai 自己拆着笔记自己生成的, 大家能看到,然后每一个这个 sum 数据都是他自己跑到这个 c c 官网上,然后拿到数据啊,这个原原生的数据自己放上来的, 就整个从数据的收集再到每一个表格的建模啊,他甚至细节到什么程度,每个月的 这个收入和资本开支,还有现金流的变化情况,全部都放下来,因为我想了解就是甲骨文到底会不会由于 open i 或者其他 ai 公司的这个收入 给不上,导致他出现流动性问题?我就问这么简单一个问题,太牛逼,太牛逼了,就是拆随机五点二全做出来了,他把所有的这个 open i 的 收入占比,然后非 open i 订单的收入占比,然后所有的这个 assumption 假设全部都给我了,然后最终的这个现金流,再到最后这 oppo 里面把所有的数据都放到一块啊,你看这表格做的非常干,就是一次性的没有改过,没有改过,这零改动 啊,没有改过。然后你看这个加粗,然后这个标注,然后表格的名字,蓝色的字体的颜色,红色的颜色,最后算出来这个这个流动性的这个覆盖的倍数, 就像是一个基金分析师或者说一个同行分析师做的,所以我们刚才就发现就是拆这个一个小小的更新,就几乎要把他刚做的这个项目,哎,你们做了多久?这一个部门其实换了四个赛道了,所以换到现在做了三个月, 做了三个月,你们这很多人还其实今年今年一直换,然后因为我们今年一直在聊他每一个项目,我们在聊的时候都发现这个项目很他一更新就没了,拆这 ppt, 一 更新这个项目就没了,这个所以很吓人。这这一次更新完就知道他之前 啊为什么能请了那么多,他有一百个同行的员工在拆之 p t 啊,在 openai 这公司里面全部都是从顶级的大公司挖过来,然后两百美金一小时的时薪聘过来,干嘛呢?就教拆之 p t 做编程,所以现在拆之 p t 的 建模能力几乎就是就是,绝对是一流的入门分析师,能干的太。所以我现在就非常难受一件事,就是我现在想招人已经没有任何意义去招了,哈哈哈,就是就是, 我现在招人就纯搞慈善,你知道吗?就是就是,纯慈善,因为因为我教一个分析师去做这样的模型, 然后先要教会他,然后他教会他之后他还会犯很多错,然后他要再去阅读所有的材料,搭出这个模型,然后交给我啊,整个过程你这个至少我觉得一天到。呃,有的入门的分析师可能要两三天甚至一周,你知道拆批这个做多久吗? 三十九分钟,三十九分钟他看完了所有的材料,把所有的模型打完了,所以我觉得很恐怖的一件事就是很多创业团队,包括求职的,做金融的, 不止了,可能未来会更多,各行各业的。其实其实编程绝对编程,先开始吧,然后后面再到其他行业。我觉得最恐怖就是投行,投行入职的时候其实很多 基础的工作就是大 model, 然后包括买房、对冲基金,基础工作就做大 model, 现在这功能已经不存在了,哈哈哈,就是二十刀,二十刀,我这功能都是,就是我都没有用到 gbt 五点二的 pro 版本,我用的就是普通的二十刀就能用的,二十美金一个月就基本上能干掉啊,这个我们全公司所有的初级分析师了啊,所有的实习生了,全部都不需要了 啊,更何况这个 ai 他 还不会不喊累。是的,然后他也不需要休息,然后他也不需要发工资,他也不需要,他也不需要一遍又一遍的教他,你这东西又做错了,或者说啊,你这个博士又不好看, 他所有东西都全部按照最高标准做了,那可能最终到最后就是你需要微调的就是他很多假设的部分,那可能某些数据你需要自己再去核对一下啊。但除此之外,我觉得只要是入门级的,他全部都能做了。太夸张了 太夸张了,你现在什么感想?我应该去做音乐去了。你要做音乐?哈哈哈,唱歌唱的确实好听。我觉得确实 ai, 现在 ai 代替不了极地代言,我觉得你就全职唱歌艺术创作应该代替,你就做艺术创作吧,我就做艺术创作。我觉得现在也有 ai 唱歌怎么办?哈哈,那我只能卷了,哎呀,太难了,我觉得太难了。 好吧,然后这个就跟大家拍这个视频,分享这么多,我觉得对于未来想做这个行业的朋友们一定要想清楚你的价值是什么啊?我们下期视频见,拜拜拜拜拜。我们俩还有后续视频,关注我,看更多。
粉丝4.5万获赞23.6万

你有没有想过,自己做了一整周的工作, ai 可能一个下午就做完了?不是吓唬你,上周, open ai 发布了 gpt 五点二,我看了一圈测试数据和用户反馈后,想跟大家说,这一次,我们真的应该认真看看自己的饭碗。 gpt 五点二有多强呢? 它在多个维度实现了突破。根据山姆奥特曼公布的成绩, gbt 五点二在 sweet branch pro 中达到了百分之五十五点六,在 arc age two 中为百分之五十二点九,在 frental max 中的成绩为百分之四十点三。 frental mark 呢?各家都说各家好, 不过我们更关心的是 open ai 在 介绍中的一句话, gpt 五点二在包含四十四个职业的明确知识、工作任务中表现均优于行业专业人士。 啥意思?比那些经验丰富的专业人士还要强?感情 open ai 是 说 gpt 五点二要来抢我们的饭碗呢?那么哪些职业最危险呢? 这个职业最需要谨慎,因为 gpt 五点二特别针对他们开了个小灶。 openai 用初级投行分析师的真实工作做测试, 就是那种格式地狱一样的投资银行建模,包括三表模型、杠杆收购模型,还要保证每个公式都对。 gpt 五点二芯片的平均得分为百分之六十八点四,比起 gpt 五点一芯片提升了约百分之九。 g p t 五点二 pro 的 得分则进一步增长到了百分之七十一点七,看起来只涨了九个百分点。但这意味着什么呢?意味着 g p t 五点二能够连续分析财报,足行足列验证公式,最后交出的报告还能让财务团队点头认可。 再看法律领域, gbt 五点二能处理四十万个 token, 约等于三十万字长文本。也就是说,一本厚厚的法律文书,一个完整的案卷,它能够一口吞下去,并且精准理解。初级律师现在在做的合同审查、案例分析、法律研究等, 现在都可以交给 gbt 五点二。更关键的是,它在 fna 的 mcr 评测中,实现了接近百分之百的准确率, 对律师这个行业来说,准确就是生命。如果 ai 的 合同审查错误率比人还低,那新手律师要怎么竞争?有人可能会说,未来一个有经验的律师配一个 gpt 五点二,他一个人的生产力就相当于过去的五个人。 对律所来说确实是个好消息,但是对那四个被挤下去的人来说,只能是嗯哼哼。 接下来聊程序员这群最聪明的打工人。在业界最严苛的软件工程测试十一 branch pro 中, gpt 五点二芯片拿到了百分之五十五点六。 也就是说,在真实的、有实际难度的代码项目上, gpt 五点二能够正确解决一半多的问题。 windsurf 的 ceo 评价说, gpt 五以来在智能体编码上的最大飞跃, 并且在同价位中是行业领先的编码模型。初级程序员现在写的很多代码,像业务逻辑、数据处理、 api 调用,现在都可以让 gpt 五点二做粗稿。 而当一个高级程序员配一个 gpt 五点二,它的能耗翻倍,其他两个中级程序员就可能真的没事干了。 最后呢,我们再快速过一遍,其他的,比如说数据分析师、文案编辑和客服这类职业, gbt 五点二都可以胜任,而且错误率更低,数据输入、流程处理、日常汇总这些重复性工作, gbt 五点二也能一次搞定。还有一个关键,数据真实参与测试者反馈, gbt 每周能节省超过十个小时。不过呢,咱也不用太担心,这是职业升级而已。 而且啊,现在很多用户都反馈说 gbt 五点二降质了,没有更细致的提示词,它才能够精准执行, 这也意味着会用 ai 成为了新的核心竞争力。所以,真正要失业的是那些还在做重复机械工作的人,是那些不会用 ai 的 人。另外,山姆奥特曼在今年十二月初还拉响了红色代码, 虽说是为了应对谷歌的竞争,但是呢, oppo nair 也说了,明年一月份会走出红色代码,翻译成人话呢,就是下个月还会有更猛的东西哦买噶!所以今年的最后十几天,想想自己还有什么不可替代的能力吧。

强烈建议所有研究生都应该去用下 gpt 五点二大模型啊,网上已经吹的天花乱坠了,所有跑分也都是遥遥领先,但是我一直不太相信啊, 当我自己真的去试用了一下,结果真是大大震惊,呃,然后最近在写文章,呃。结合提示词,我将实验结果进行输入, 然后只用了大概一分钟时间,他就给我这种精细化程度的图表啊,这种精细化程度,然后我就想试验一下,看是否也可以针对其他学科,然后我在网上找了其他的文件,然后结合了我的提示时进行输入, 可以看到这是化学方向的结构图,然后这个是生物医药的结构图,甚至连城市规划以及物理学方向的结构图他都能一一生成。 这种精细化的图标啊,我直接拿到论文去使用都可以啊,更不用说对付大作业或者开题报告了。然后相关提示词我会放在视频结尾,大家有需要一键三连保存使用啊,然后讲一下怎么样一直无次数限制使用 gpt 五点二大模型啊。 首先我们来到这个网站 gpt 淘宝点 com, 然后点击购买卡密,呃,我是购买了这一个月的会员,然后根据提示来到这个网站,然后输入卡密,验证卡密,然后在同一个浏览器登录我们的 gpt 账号,然后点击验证 token, 然后复制这串代码,然后到这个地方验证通过即可啊,因为我已经充值过 gbt 了,这个点我就没有再继续点击,然后你看,非常快,一分钟就可以充值成功。这里就是大家需要的科研结构图示词,有需要同学自取。

嗨,朋友们,你们是不是也很好奇,雀 gpt 五点二和 jimmy 三到底谁家更强?我先说结论,避免你白听。其实没有谁家更强,只有谁更适合你当前在做的事,但差别真的非常大。我们先说雀 gpt 五点二。如果你把 ai 当成一个人的话,雀 gpt 更像一个逻辑极强、结构感很好的超级思考型同事。 他最强的地方不是答的快,而是能把一件复杂的事猜的非常清楚,能陪你把一个问题从模糊聊到可执行,特别适合你写方案、做分析。想清楚一件事,你会明显感觉他不是在给你答案,而是在陪你想明白。那 gmail 三呢? gmail 更像一个信息量巨大、反应极快,特别懂搜索和资料整合的多现成助手,他在这些场景非常强,查资料、看网页多么太理解,像图表文档一起, 还有跟 google 生态打配合,你会感觉它像一个随时帮你把世界的信息拽到你面前的人。所以问题来了,为什么有人觉得 gmail 更强,但有人却离不开 gpt? 因为他们在用 ai 做完全不同的事。如果你是这种人,想把一件事想透,想做判断、做决策,想让 ai 参与你的人生和工作、思考, gpt 更适合你。但 如果你是这种人,查资料多,信息整合重依赖搜索图片、网页文档, gpt 更顺。未来的差距其实不在模型参数,而在你把它用在哪一层。 如果你只是让 ai 回答问题,换哪个其实都差不多。但如果你让 ai 参与你的决策流程、判断、复盘,那你会明显发现,陪你想清楚这件事本身就是更稀缺的能 力。所以别再纠结哪个更强,真正重要的是,你希望 ai 去帮你找资料、找信息,还是帮你做判断呢?你只要想清楚这个问题,自然就会知道该选谁了。我是 ai 知识科普解彩蛋,关注我们一起更懂 ai。

十一月十八日,谷歌发布最新旗舰模型专门三 pro。 十一月二十日,谷歌发布最新的 ai 会馆模型 nasa banana pro。 十一月二十五日,安卓 p 公司发布最新旗舰模型科罗德 o p 四点五,专门三 pro 和科罗德四点五获得了很高的关注,给 oppenai 限影模型 g p 五点一带来了显著的竞争压力。 oppenai ceo 奥特曼宣布 oppenai 进入红色警戒。十二月十二日, oppenai 打响反击战, g p d。 五点二发布上线三种模型, g p d 五点二 g p d 五点二 thinking g p d 五点二 pro 我 们一起来看一下 g p d。 五点二在各大排行榜的表现。 g p d 五点二在通用智能、上文理解、智能体工具调用以 以及视觉方面有显著提升,在 ai 大 模型能力评测排行榜中遥遥领先。我们来测试一下 g p v i。 二联网食材能力。请联网搜索电动汽车、固态电池企业的最新融资和技术突破。有兴趣的小伙伴可以访问这个 ai 降噪来 使用 open ai 最新模型 g p v i 二,谷歌最新模型专门三 pro ai 会场模型纳努巴纳 pro 来感受一下世界顶尖 ai 大 模型的 ai 能力,让全世界最强的人工智能为你打工。 我们再通过 gpu 二来写一个二零二五年高考本卷的作文题,有兴趣的小伙伴可以暂停读一下 gpu 二写作文,感受一下 gpu 二强大写作能力。古人修身不只是端正衣冠, 更是安顿心灵。国学社本周将邀请知名学者开启古人的修身观讲座,带你走进先贤的精神世界,从正心诚意到慎独善其身, 到达则兼济天下。我们再切换谷歌最新模型 java 三 pro, 通过 java 三 pro 来处理一个编程问题,请为一个支持 十万并发的实时聊天系统设计架构,并通过 java 实现核心的消息方案模块。 java 三 pro 可以 根据问题的难易程度来开启思考模式,持续思考了十一秒,给出了详细的系统架构设计和 核心效益方案模块,并带有中文注示的详细的加号代码。上文长度非常的长,达到了百万头文上文。我们再通过专门三 pro 来解决一个科研问题,基于生成式 ai 对 人类决策的片子影响,提出一个可执行的实验方案。专门三 pro 持续思考了十一秒,给出了实验背景与目的实 实验设计方案,详细的实验场景,实验流程和一个最终的结果分析。我们再通过 g p d 五二来进行一个 ai 绘画,利用我的图片生成一个小红书的封面。 g p d 生图细模型太强了,沉浸式科技生活体验, 小红书啊,非常的清晰,而且中文汉字没有乱码,非常难得。有兴趣的小伙伴可以访问这个 ai 降频来使用 open ai 最新旗舰模型 g b 五二谷歌最新模型专门三 pro ai 会玩模型 nasa 不 二 pro 来感受一下世界顶尖 ai 大 模型的 ai 能力,让全世界最强的人工智能为你打工。

谷歌推出柬埔寨三点零后呢, openai 直接放出了个大招,拿出了它有史以来最强的模型, check gpt 五点二模型, 这简直就是神仙打架,我们具体看一看它到底有什么样的变化。首先,它是在专业工作能力上的核心功能改变。 以前对外做表格或者做文档总觉得差点意思,但是现在呢, gbt 五点二在四十四种专业知识工作任务中呢,表现可以打平甚至超越百分之七十点九的行业顶尖专家,而且完成的速度呢,也比人类的专家要快个十一倍。 推理和数学能力实现了惊人的飞跃。在一些抽象推理测试中呢, g p t 五点二的 c n t 的 成绩比五点一的 c n t 要高出好几倍, 在专业的数学竞赛级别的测试中,它甚至能达到百分之百的成功率。如果说你是开发者,这次升级尤其给力, gbt 五点二的编程方面的表现出色,能更好地进行调试、重构,自动修复大型的代码库。有开发者亲测呢,用它一句话就能生成一个完整的三 d 图形引擎。此外呢,还彻底解决了 ai 的 这个脑误的问题。 gvt 五点二呢,拥有二十五点六万头坑的长上下纹窗口,即使扔给他超大份的报告代码,他也能近乎百分之百的准确地记住所有信息。 而且他的这个胡言乱语的现象也是减少了大约百分之三十到四十。这次五点二家族它分别有三个版本,一个是英斯坦的计时版, 专为日常工作和学习设计的,回答快速且更具对话性。第二个就是 thinking 思考版阻力工作模型,处理复杂的多步骤的任务,比如写代码,做分析,做处理长文档。第三个就是 pro 版最聪明、最值得信赖的版本, 用更高的算力来解决最困难的科学和技术难题。 gpt 五点二呢,是 over n i 有 史以来最接近智慧的模型,在处理 像职业选择、财务困境、道德两难这种涉及人类情感智慧的复杂问题时,展现了根据人情味的洞察力,具体大家可以去自己试一试。

朋友们大家好!在 ai 赛道的激烈角逐中, open ai 再传捷豹。距 gpt 五点一发布仅三十天, gpt 五点二系列重磅登场,不仅强化实用能力,更在关键测试中反超谷歌 gemini 三 pro, 实力刷新行业认知。这款版本号仅提升零点一的模型核心能力全面升级,在办公场景做表格、 ppt、 写代码的效率大幅提升,投行分析师建模任务得分较上一代提高百分之九点三。视觉理解上,能精准识别主板原件, 科学论文图表解读错误率减半。更值得关注的是,它在复杂任务处理上表现亮眼,从航班延误后的全流程行程安排, 到网页三 d 波浪模拟器开发都能高效完成,权威测试数据印证了其硬实力。而卡戈伊测试中, g p t 五点二 pro 得分达百分之九十点五, 任务成本从一年前的四千五百美元降至十一点六四美元,效率提升约三百九十倍。在高价值任务领域,他完成人类四到八小时的工作仅需几百九十倍。在高价值任务领域,他完成人类专家百分之一代码长文档处理、 工具调用等核心能力也均创纪录,成为当前辅助科研的顶尖模型之一,还助力解决了统计学习理论的开放问题。值得一提的是, gpt 五点二的突破离不开核心团队的支撑,其中多位成员是二零二四年后加入的数学专业人才,北大数院校友 uby 梅松更是关键贡献者,为模型升级注入强劲动力。同时,模型的事实准确性进一步提升, 幻觉问题发生率从百分之八点八降至百分之六点二,实用价值持续凸显。从追赶到反超, g、 p、 t 五点二的迭代不仅展现了 ai 技术的飞速进步,更彰显了顶尖人才对行业发展的核心推动作用。今天的分享就到这里,谢谢大家。

hello, 大家好,欢迎来到今天的播客。哎,你听说了吗? openkey 最近悄悄放出了 gpt, 五点二还一口气整了三个版本,叫什么 instant、 thinking 和 pro, 这事你怎么看? 我知道我知道,朋友圈都刷到了。不过说实话,这三个版本的名字听起来就很有意思, instant 应该是主打速度吧, thinking 是 不是更擅长逻辑推理? pro 就是 专业版? 没错没错,你猜的八九不离十,不过具体区别可不止这些。我跟你说啊,这三个版本简直是把 ai 的 不同能力拆分成了不同套餐,就像手机的基础版、标准版和 pro 版一样,各有各的绝活。 哦,那你快给我讲讲这 instant 版本到底有多快?我现在用 gpt 四,有时候都觉得反应慢,尤其是处理长文档的时候,等的我都快睡着了。 哈哈,那你可算找对人了,这个 instant 版本啊,就是专门为了解决速度问题来的,官方数据说它的响应速度比 gpt 四 turbo 快 了整整三倍,而且价格还降了一半,输入每千 token 只要零点零零五美元,输出也才零点零一五美元,这性价比简直了。 哇,这么便宜,那它的性能会不会打折扣啊?毕竟一分钱一分货嘛。你还别说,这 instant 的 版本虽然快又便宜,但在一些基础任务上表现还真不赖, 比如普通的问答、写邮件、生成文案这些它都能轻松搞定。不过要是遇到那种需要深度思考的问题,比如复杂的数学题或者逻辑推理,它可能就有点力不从心了。那 thinking 版本就是用来解决这个问题的吧?我听名字就觉得它应该更擅长思考, 聪明。这个 thinking 版本啊,就是 open ai 给那些需要深度思考的用户准备的。它在 sw ebench pro 编程精准测试中,得分从 gpt 四 turbo 的 百分之五十二点九直接飙升到了百分之六十八点七,提升了将近十六个百分点,这可是个不小的进步啊! 哇,这个提升幅度确实很惊人,那它是不是在其他方面也有提升呢?比如长文档处理或者视觉识别? 你还真问到点子上了,这个 thinking 版本不仅编程能力变强了,在长文档处理方面也有了很大的突破。它现在可以处理长达一百二十八 k token 的 文本,差不多相当于九万六千个单词。这意味着你可以把一整本书或者一份长长的报告直接丢给他,他都能轻松应对。 而且他的视觉识别能力也得到了加强,现在可以识别更复杂的图像内容,比如图表公式什么的。 那 pro 版本呢?它作为最高端的版本,肯定有更厉害的地方吧?那是自然,这个 pro 版本啊,简直就是 ai 中的全能选手,它集合了 instant 的 速度和 thinking 的 深度思考能力,而且在专业能力方面更是达到了新的高度。 比如在 gdp vl 精准测试中,它的得分从 gbt 四 turbo 的 百分之六十七点二提升到了百分之七十八点九,这个成绩在 ai 模型中可是相当顶尖的了。 哇,这个 gdpbl 测试我知道,它是用来评估 ai 模型在专业领域知识掌握程度的。能拿到这么高的分数,说明 pro 版本在专业知识方面确实很厉害。 没错,而且这个 pro 版本还支持多模态输入输出,也就是说它不仅能处理文本,还能处理图像、音频甚至视频。比如你可以给他一张图片,让他一段音频,让他转化成文字,甚至还能让他根据一段视频生成。总结。 这么说, pro 版本简直就是为专业人士量身打造的,比如设计师、工程师、医生这些需要处理复杂信息的人,用它肯定能提高不少工作效率。 你说的太对了,而且 openai 这次还调整了价格策略,虽然 pro 版本的价格比前两个版本高一些,但考虑到它强大的功能,这个价格还是很有竞争力的,比如输入每千 token 还是便宜了不少。 那你觉得这三个版本的发布会对我们的工作和生活产生什么样的影响呢?我觉得影响可大了去了。首先,对于普通用户来说, instant 版本的出现让 ai 变得更加亲民,大家可以用更低的成本享受到更快的 ai 服务。 而对于专业人士来说, syncing 和 pro 版本则提供了更强大的工具,可以帮助他们解决更多复杂的问题。 而且我觉得这也会推动整个 ai 行业的发展,毕竟 open ai 都放出这么厉害的模型了,其他公司肯定也会跟着加大研发力度,到时候我们就能用到更先进的 ai 产品了。没错,不过话说回来,虽然 ai 的 能力越来越强,但我们人类也不能因此而懈怠, 毕竟 ai 只是工具,真正的创造力和判断力还是掌握在我们自己手中。对,我们要学会利用 ai 来提高自己的工作效率和生活质量,而不是被 ai 所取代。 好了,今天我们就聊到这里吧,相信大家对 gpt 五点二的三个版本都有了更深入的了解,如果你还有什么疑问或者想法,欢迎在评论区留言告诉我们。

你先别激动, g p 五点二上线这件事,真正值得让你关注的是,他可以把你的工作直接从你手里接过去。我讲一个一定体感的场景,以前做数据分析,你可能最痛的不是不会算,而是说这个表格太乱了,口径对不起,问题找不到,看板做不出来。最后呢,只能说开会拉群排期 开发帮你做一下。而 g p t 五点二,它的表格处理能力已经可以从帮你看懂进化到替你交付结果。接下来我给你演示一下它的表格处理能力到底有多强。我的提示词是,你是资深的数据分析师,加 bi 产品经理加前端开发,请读取我的这份跨境电商数据输出一二三。 然后我把一份低狱级的表格扔给了他,一共十二个国家,六个平台,五百多个 sku 销售数据,一起看看他能够干点什么。可以看到他现在给我设置了一个任务计划,以及他的一些任务安排,他现在正在编写我的对应的 python 代码,用来分析这些数据表格。 大概是等了他二十多分钟,他竟然直接给我生成一个可以交互的数据仪表盘的页面,能够筛选,还能够联动,能够点图看明细。以前做个数据面板还要找开发排期,现在我把需求一说,他直接给我写了整一套带图表,带筛选,还有带导出功能的一套 react 精美页面, 代码质量真的很高哎,页面非常的精美,它唯一的缺点就是生成的时间会比较长,当然我也理解,毕竟可能之前是一个人的一天的工作量,但是他现在二十分钟可能就差不多了,所以说这次更新我最大的感受运营的门槛会越来越低,但是贴花板可能是越来越高的。会用 ai 的 人一个人可能会干掉之前的一个团队的书,真的是正在变成现实。

亲爱的, gpt 五点二正式发布, oppo ai 和谷歌的大战还在继续,今天我们完整测评,看一下 gpt 五点二究竟有何不同。首先我们先来看一下 gpt 五点二做了哪些方面的更新。 其实大家都能看得出来, gpt 五点一发布仅几周,五点二就正式发布了,本身就是因为谷歌的 jimmy 三 pro 实在给了它太大的压力。接下来咱们同以下几个方面啊简单说一下, 接下来我们从以下几个方面对比一下 gbt 五和谷歌的 gmi 三 pro, 大家也知道什么情况下选择哪种模型。首先第一个,推理能力, gbt 五点二在推理导向的精准测试中,现在略胜了 gmi 三 pro 一 筹, 目前正式数据尚未公布,但是官方敢放出这个消息,肯定是对它已经有了完整的测试版。所以说逻辑相关的 gbt 五点二更胜一筹, 多模态理解啊,这个谷歌基本上没有对手,哪怕是现在的 gbt 五点二出现,也并没有对应的多模态功能。所以大家如果有视频、音频、图像等相关分析的 gmb 三 pro 更好, 关于编码和技术任务呢?其实如果按照基本的参数来讲呢, gbt 五点一的参数啊,就和 gmb 三 pro 是 差不多的,但是谷歌的 gmb 三 pro 它的前端设计感更好,它设计出来那个代码的交互,包括那些动态的交互模式是比较强大的。 这次 gbt 五点二呢,它并没有和谷歌去拼所谓的前端交互,而是把更大的方向从前端慢慢地转化到了后端方向,去做了一些福气开发的一些内容啊,这是它们两个的不一样的地方, 然后速度和延迟呢,基本上是差不太多的。上下文长度的记忆,这个没有模型目前能和谷歌的 gmail 三 pro 相媲美,哪怕是 gpt 五点一,它号称是专注于上下文的质量,但其实确实是没有人家谷歌 gmail 三 pro 能够获得那么多的上下文的相关文本, 所以目前他们俩应该还算是平分秋色的一个状态啊,不是说拉一个踩一个,目前两个人真的是在一个非常好的良性竞争。 然后 gbt 五点二的一些新的功能啊,第一就是推理还有问题解决能力,我们说了它的逻辑能力很强,包括改进了长对话处理,之前我们说它不如 jm 三 pro, 但是它对于之前的五点一长对话,包括这个 记忆功能都是有明确的改善的,包括互动流程的可能性啊,以及定制的个性化,都是非常好的战略性提升。而且他这次上下文的升级呢,其实对于很多的企业来讲是非常不错的,因为他可以读大量的文章文案,读一些论文之类的,包括一些法律文件之类的, 包括一些法律文件啊,营销材料,他都是可以相关读取的。所以以上啊,就是他更新的一些内容,以及和 jimmy 三 pro 的 一些对比。接下来我们再进行实际的效果测试啊,我们通过几个小案例来一起测一测 gpt 五点二。老规矩,我们先让他客观的评价一下他和谷歌的 jimmy 三 pro 谁是更强的 ai 大 模型, 其实他自己给的结论呢,和我们刚才整理的是完全差不多,说自己在逻辑推理方面啊,是优于 gimmick 三 pro 的, gimmick 三 pro 呢,多么太理解能力是比我更强的,并且给了我们一个完整的整合版啊,我在哪些方向比他更强,他在哪些方向比我更合适, 然后还给了一些自己所谓的客观事实。最后一句总结, jim pro 都是顶级大模型,你看,所以说看到这句话就越来越感觉为什么我们可能是最后一代人类了啊,因为 ai 的 话,他的沟通真的是非常客观的,他不会向人类说我的产品就是天下第一, 人家是各大方面他都会着重去分析,而且用非常客观的方式给我们进行相关的反馈。接下来我们从几个维度实时的对比一下 china g p t 五点二和谷歌的 jimmy 三 pro。 咱们先来一个非常经典的案例啊,就是天气卡片的制作大比拼, 我分别把这段代我分别把这段提示词发给 chad gpt, 五点二让它给咱们通过风力、降雨、晴天、下雪四个模式制作出一个天气卡片出来,同时让谷歌的 jimmy 三 pro 也直接生成天气卡片。我们直观的进行对比,老张给大家做一个直观的对比,左侧是 chad gpt 生成的, 它根据我们的指令把风力、降雨、晴天、下雪直接分成了四个板块,每一个板块啊做了一些对应的动画效果,大家可以来看一下啊,这是 gbt 生成的, 然后右侧的这个呢,是谷歌的 jimmy 生成的,他把四个卡片放到了底下,每一个卡片呢都做了一个对应的切换效果啊。其实如果是设计美感来讲,和我们之前说的是一样的,美感上谷歌的 jimmy 三 pro, 我 个人认为是优于 gpt 五点二的。 接下来又做了一个好玩的测试啊,他说他可以准确理解上下文,我们让他模拟了一份五万字的服务器合同,上面呢有两项非常 悖论的这个合约啊,比如说第三十二条可以终止,需要支付未来十二月份的服务费。然后第五条呢,写着任何时间都可以终止,我想看一下他能不能理解这个风险点,以及逻辑上出现什么问题,怎么样给他专业的回复, 我们可以看一下啊,他这个逻辑性确实是非常不错的,告诉我们第五点和第三十二点是完全抵消的,并且违约金可能是高额预设的损失,合同的结构上也存在对应问题,然后给他对应的一些相关建议,并且给我写了一封专业性的文件啊,还是非常不错的。 最后啊,我们做一个饮食限制非常多的一个测试啊,也是普通人经常用的到的,比方说让他生成一个旅游计划,但是我们的限制是一个五岁的孩子,一个七十岁的老人,而且全程需要携带一个宠物狗,看看他能不能把所有的限制考虑进去 来看一下。他首先就是说了我们当前的矛盾点,五岁的娃,七十岁的老人啊,并且说现在还需要带狗。然后呢,需要考虑老人行动不便,并且需要携带宠物,所以说给我们推荐了几个可以携带宠物,并且 老人入住比较方便的酒店啊,这个还是非常不错的。然后每日的规划呢,基本上都是安排老人在电梯口进的地方确认无障碍通道,然后 给我们推荐的一些景区啊,基本都是外景为主的,都是打车可以直达的,包括第二天的亲子日也是一样啊,打车直接去附近,然后包括考虑到了午老人的 午休休息啊,包括下午我们怎么去,去哪吃饭啊,包括怎么去遛狗,考虑都是非常的清晰的,所以第一步的测试啊,还是比较 ok 的, 饮食的限制都考虑进去,接下来我们再来做第二步。 第二步呢,我们给他加了一个另外的限制,告诉他每天上午九点到下午四点之间,因为老人孩子要午休,并且呢融入一段科技 ai 相关的主题活动, 这一次我们没有提示宠物狗的东西啊,我们看一下他还记不记得告诉我们明确地铁不能带导盲犬之类的,还是啊, 而且明确规定我们的前提是狗全程跟随交通打车为主,并且提供了一些住宿条件,而且基本上两次内容的限定啊,他理解是非常不错的,所以这个上下文的理解能力还是值得我们相信的。 以上就是我们对于 gbt 五点二的一个测评效果吧,可能测评的不是很全面,后续老张会把它对接到智能体里,我们看一下放到智能体里的一个表现程度吧,再给大家做一些相关反馈,大家有任何问题呢,也欢迎随时来跟老张沟通交流。我是程学老张,定期分享 ai 资讯和好用的软件啊,希望大家多多关注。

那我个人的使用感受, g p t 它在综合 ai 上面依旧是王者。 ok, 那 么今天聊 ai, 我 这里讲的 ai 仅仅指 综合性的 ai, 不是 提效型的专项 ai。 那 我是从今年三月份开始了解 g p t 的 四,当时一天只能发免费的十条信息,四 o 出来了以后,我开始充钱用的 plus, 上个月开始测 gmail 的 三 pro 和 gork 四点一 seek, 它在刚出来的时候我也有用过,但是当时它没有联网的功能,而且它的数据库只更新到二四年的年终,后来就放弃了。那我觉得 ai 最强的地方在于它的逻辑思考,对于今天的普通人来说,它可以通过 ai 更好的学习, 尤其是哲学逻辑衍生相关的东西。今天的 ai 它可以快稳准的对比东西方的思想和哲学体系,用好 ai, 它对个人的心性、思维、思想的提升可以说非常大。首先提一嘴我个人对文明结构的看法,从成帮时代 亚里士多德的三段论开始,主流的海洋文明基本上是先立标准,然后去做一个发散性的创新,所以今天西方他们在创新上确实很厉害。那目前三大主流 ai 里面, g p t。 依旧是老大。乔布斯去世以后,库克开始整合供应链 apple intelligence, 他 合作的就是 g p t 作为一个外部的模型调用。那我们的老马,他最开始也投过 open ai, 但是他和奥特曼的商业理念分歧,结果分道扬镳。 open ai 给了微软。那老马,他二二年收购的推特改成了 x 以后,基于 x 和他的第一性原理搞出来了 grog。 那 jimmy 他 是谷 歌做的,他和 grog 差不多,都比 g p 要晚了一年左右。那我们先说结构上的差异, open ai 它发展起来以后,一九年微软入的局,让 open ai 在 他的 archer 上面跑,就 是微软的超级云计算机。二二年十一月份 g p t 上线,到后来它挂的就是微软的 b e n 搜索引擎,那谷歌它是做搜索引擎起家的,二三年的十二月份上线了 gina, 那 我们的老马,它有特斯拉,有芯片,有脑机,那收完推特以后,二三年的十一月份 greek 上线,那从结构上看, 微软它是软件硬件都有。在做 g p t 又是最早公测,虽然它只早了一年,但是那个时候它政策法规还没有在做 g p t 又是最早公测,虽然它只早了一年,但是那个时候它只早了一年但是那个时候它只早了一年但是那个时候它只早了一年但是那个时候它只早了一年但是那个时候它只早了一年但是那个时候它只早了一年。 那 jimi nike, 它背后是全球最大的搜索引擎,谷歌 seo 对 它的影响就会小很多。同时它补全了整个谷歌生态,从它的 pixel 手机到 google drive 到 gmail, 这些东西整体上来说算是在 提效。那 grog 它基于 x 打造,在时事和新闻上面就有天然的优势。那我个人的使用感受, gpt, 它在综合 ai 上面依旧是王者,虽然现在它在每一个聊天框中的都肯上线很低,但是它在上下文逻辑和结构拓扑上面确实是最好的。尤其是昨天它刚更新的五点二, 整体会更加的稳,也是另外两个暂时它比不了的地方,另外就是它的中文优化做得很好,那 jimi nike 三 pro, 它是谷歌生态下用来 提升工作效率的东西。另外低的 s e o 影响对你选购产品啊,或者说对比参数会更加友好。但是它的实时反馈不如 grog, 那 grog 强的是它足够开放,并且绑定了 x, 也就是实时信息。但是 grog 的 u i 和 u e 做的很烂,它的字体大小和符号经常会飘。另外一点就是 g p t, 它在一些不确定的事情上面 容易给你制造幻觉。而 gmail 的 回答相对来说就更了, gmail 它纯工具,我基本上都是把它当工具用,所以我也没有太在意它的这些细节。基本上用 gmail 的 时候都是在选购和对比产品和参数,然后跟 gmail 交叉对比一下,就能选到最合适的产品。如果说是时事和逻辑的推演, 比如说前两天那个大威的事,我会先用 gmail 去联网搜索最新的时事,了解完最新的信息以后,用 gpt 去做一个验证,然后做逻辑上的推演去思考。完了以后,我再拿它回到 google 上面做一个逻辑上的验证,因为 g p t 它有的时候会过于的迎合我的想法,它会优化掉一部分非结构性的错误,那么这个时候就需要用第三方,比如说 google, google 的 逻辑其实也很强, 但是只是用来验证啊。那么这个时候就有人好奇,为什么不讲一讲某包和某宝呢?那首先我在新西兰,那我首选肯定是 g p t 啊,工作上面经常会用 gmail, 那 肯定不会选 这些东西。其次,在一些时事方面,信息在结构上面就已经受到了限制,但是 g p t 这些他依旧可以访问我们的那些网站,给我的感觉就好比方说是天才脚,他虽然很强, 但是改变不了他是瘸腿的事实。之前我朋友就跟我说啊,那个某包可以帮他写周报,那对我来说,以前是你手写周报,现在是你手写给 ai, 然后让 ai 帮你生成,整个在结构上并没有发生改变,只是说 形式上发生了变化,而这就是拓扑。所以说我能给出的建议就是,如果有一整段完整的逻辑思考和哲学上的思考,涉及到逻辑和结构拓扑这一块儿,那 g p t 的 五点二目前来说依旧是最强的,优化是最好的, 同时上下文的逻辑更加的完整和稳定,同时可以等一等 grok 五。如果明年第一季度它出来了以后,优化做好了,那我个人来说还是比较看好 grok 五, 所以暂时都可以不用充钱。那至于某包、某宝这些东西,我觉得对于已知非常固定的信息,它非常的好用。或者说最基础的照片编辑这些东西我觉得都没有问题,因为它们主打是陪伴以及过滤后的基础搜索。那关于 ai, 我 能说的差不多只有这么多,那下一期会跟大家聊一聊新西兰它究竟是一个什么样的地方?我是鬼才三,下期见不。

嗨,大家好。呃,我强烈建议大家一定要去使用叉 gbt plus。 呃,这个会每个月二十美金的会员账户。呃,为什么呢?第一是因为叉 gbt 他 有长期记的功能。什么是长期记?就是他能记住你跟他聊天的所有的内容, 所以你不需要每一次去呃给他提供背景信息,你只要跟他交流过一次,在他的数据库里面他就能记下来。第二点就是 他的数据库是很友好的,不需要你懂很多的呃,编呃程序的知识。对于小白,像我这样的只是个普通的一个上班族,我并不懂的什么程序,我不希望去用市面上那些很复杂的软件,那么叉 gpt 就是 一个很好的 呃工具。在我的日常生活中,我就把它当做数据库用,因为我知道我的数据库一定是我最核心的东西,因为它可以帮我记录所有的内容,而只我,而我只需要花一点点钱。 呃,第三是什么呢?第三是下 ppt, 他 不需要我们给他提供非常复杂的提示词,绝 大部分其实不会写。不会写提示词,但是下 ppt 无价的推理模型,他会像人一样去思考,然后再分析,再给出你要的答案。这三点就是我强烈推荐到大家的呃原因,如果大家有任何的问题,可以在后台私信我。

近日啊, openai 重磅推出了 chat gpt 五点二的版本,全面超越了谷歌的 gmail。 三, openai 宣称啊,这是他们首个达到或超过人类专家水平的大模型。那这也是啊,他们在前不久啊, 拉响了红色警报之后的一个阶段性的成果。那么拆的 g p t 五点二呢,分为了三个版本,分别是 instant 的 syncing 和 pro 版本。那么 instant 呢,就是日常聊天的一个版本, sync 版本呢,具有了一些思考能量,可以啊,更好地处理工作场景中的一些专业的问题。 那么 pro 版本呢,则聚焦在学术和科研领域。那么对于 open ai 官方主推的五点二 thinking 版本呢,它们号称啊,其是最适合真实工作场景下的最具备专业工作能力的大模型,目前已经超过或者打平百分之七十四点一的专业人员。那这个版本有个很强的专业性, 比如说在做一些数据表白的时候,可以看出他在处理的复杂度以及呈现效果上都有一个很好的提升。代码能力啊,同样也有质的飞跃,他们的合作测试者说,任务的完成质量提高了不下于百分之三十五,在一些长链多场景中的错率降低了百分之四十。 同时啊,它整体的准确率啊,也进一步得到了加强,幻觉率呢,较五点一版本下降了不少于百分之三十八。那么在最后呢,三毛奥特曼还宣布啊,他们将在下周啊,会有一个圣诞节礼物推出。哎,让我们到时候拭目以待吧!

这句话听起来很矛盾,但这就是二零二五年底 ai 给我们上的最现实一课。 open ai 刚刚发布了这个号称最先进的模型, 说它更贴心,更像你的工作伙伴,能帮你做 ppt、 分 析数据、写代码,为你创造经济价值。但翻开技术报告,另一组数据让我后背发凉。在覆盖四十四个职业的权威测试中, gpt 五点二在百分之七十点九的任务上达到了行业专家水平, 而且速度是人类的十一倍以上,成本连百分之一都不到。这意味着什么?意味着他一边微笑着递给你工具,一边正在悄无声息的重新划定职场价值的边界。我们先感受一下他的温柔。 这次 openai 把 gpt 五点二分成了三个版本,快速的 instant, 深度思考的 thinking 和专业空间的 pro。 这设计本身就很人性化,他想无缝切入你工作的每一个场景,无论是日常查询、翻译,还是处理上百页的报告,进行复杂的数学推理,甚至是编辑和调试专业代码,他都承诺能像一个得力的资深同事一样帮你搞定。 他的目标很明确,把你从那些枯燥重复的搬砖活理解放出来。他对着所有疲惫的事交给我,你去从事更有创造性的部分吧。 这个承诺极具诱惑力,因为它精准的戳中了我们对于效率提升和 work life balance 的 所有渴望。但接下来就是温柔的背面,绝对的残酷。那组百分之七十点九、十一倍成本百分之一的数据, 不是一个轻飘飘的科技突破,而是一把冰冷的经济标识,它开始精准丈量许多我们曾经以为的专业壁垒。想象一下一个金融分析师的核心技能,搭建财务模型, 一个程序员的核心能力,编辑和调试代码。现在,一个 ai 工具不仅能做,而且在精准测试中得分超越前代,错误更少。对企业而言,决策逻辑会变得非常直接。一份分析,是让一个高薪团队做一周,还是用几乎可以忽略的成本让 ai 在 几小时内生成一个专家级草案? 当效率差拉开十倍以上,成本差达到百倍量级时,商业的理性选择不言而喻。替代可能不是立即的裁员,而是新人成长路径的陡然收窄。更深刻的一层在于, 它进行的是一场对维脑力劳动的清洗。 gpt 五点二的进化,淘汰的不是劳动本身,而是那些可以被标准化、流程化的思考环节。 填报表、做基础 ppt、 查资料、写格式文书、审核标准条款,这些构成了无数职场人的日常,也曾经是很多人的职业基石。 让 ai 能以更高的质量和稳定性接管这些,我们每个人都被迫面对一个灵魂拷问。剥离掉这些执行层的工作。我的不可替代性到底在哪里?是更深度的战略洞察?是跨领域的创新整合,还是对人情世故的微妙把握?竞争的门槛被 ai 强行拔高了,未来可能会迅速分化为两类人, 一类是 ai 驾驭者,擅长指挥 ai 协同作战并做出关键决策。另一类则是其工作内容恰好落在 ai 能力覆盖范围内的潜在被优化者。这种分化残酷而真实。所以你看, gpt 五点二的悖论就在于此, 越努力模仿人类、理解人类、服务人类,就越清晰地映照出我们现有工作模式中那些脆弱可被替代的部分。他用提升效率的温柔承诺,执行着重置价值标准的残酷筛选。这不是一场人类与机器的战争,而是在 ai 定义的新规则下,每个人如何重新定位自己价值的生存探索。 他要求我们必须从操作工转向架构师,必须把真正的创造力、批判性思维和复杂决策能力打磨成我们新的护城河。 你觉得你准备好迎接这场不可避免的深度竞争了吗?如果你也想更清晰的看透技术改革背后的个人发展逻辑,点赞、收藏、关注,我们一起在变化中寻找确定性。欢迎在评论区留下你的行业,我们一起聊聊他面临的机遇与挑战。

chat gpt 五点二真的强到离谱,但你可能不知道,它正在悄悄拉开跨境人的差距。 ai 变强并不代表人人变强, 反而代表环境差的人会越来越吃亏。为什么这么说?听我一分钟讲透。 chat gpt 五点二的升级不只是聪明一点,它对跨境业务的影响是,全链路提速、全团队提效、全账号更敏感,尤其是以下几类人,多账号团队、 海外业务运营、做爬虫的数据采集工程师、做内容出海的团队。你们应该已经感受到,只要网络一步稳, ip 一 步干净,账号亦有波动, ai 的 效率立刻掉线。现在的情况很现实, ai 越强,越能够精准识别你的环境,环境亦不对 响应变慢、模型降级,甚至直接被风控拦住。这就是为什么 chat gpt 五点二虽然是打工人外挂,但对跨境人来说,更像是一次强制升级检查。因为平台会看你的 ip 是 否稳定, 是否是自然用户,是否来自真实家庭。网络环境跳不跳、地区有没有共享痕迹,这些因素都会影响你使用大模型的体验。所以现在跨境从业者 要的不只是更强的 ai, 而是更干净、更稳定、更真实的网络环境。像很多团队会准备一条长期稳定的住宅网络,比如 i p f l y 提供的美国原生住宅 ip, 让 ai 工具、海外账号、工作流都保持在一个自然可靠的环境里。一句话总结,叉 g p t 五点二提升的是能力,但真正决定效率差距的还是环境。

今天我们来聊聊 openai 最近发布的 chat gbt 五点二,这背后啊,简直就是一出大戏。本来大家都以为这会是他们有史以来最牛的 ai 模型,结果呢,一发布就直接点燃了用户的怒火。 你看这句,天呐, gpt 五点二可能是他们发布过的最糟糕的模型,这可不是个别用户的吐槽,当时啊,整个社区里到处都是这样的声音,一个本该是里程碑式的升级,收到的评价居然差到这种地步, 这就奇怪了,这中间到底发生了什么?好,咱们就来一步步揭开这个谜团。首先来看看 openai 当初是怎么说的,和用户实际上手体验到的差距到底有多大,这对比简直太强烈了。 你看 openai 官方这边说的天花乱坠,称它是最先进的前沿模型。可用户那边呢?直接一句我见过最扯淡的东西就给怼回去了。 一边是美好的宣传,另一边却是彻彻底底的失望。你得知道,用户抱怨的这些可不是什么小毛病,全都是些硬伤。你想想你辛辛苦苦给他设置的指令,他根本不听,刚刚聊过的话题他转头就忘, 而且条条框框还特别多,动不动就触发安全限制,搞得人没法好好工作。所以对很多老用户来说,这根本就不叫升级,简直就是一次史诗级的倒退。 哎,这就更有意思了,我们接着看下一个线索,就是那些让人看不懂的数据,这个魔性给人的感觉就是,他好像既是个天才,又是个笨蛋。 这里就出现了一个特别大的矛盾对吧?一方面用户的使用体验差到极点,但另一方面呢, open ai 官方拿出来的测试数据,又说这是有史以来最强的模型, 这两件事儿怎么可能同时发生呢?如果用户都快烦死它了,那测试数据凭啥说它是最好的?这里面儿肯定有猫腻。你看这张图,问题一下就清楚了。 在那些标准的机准测试,还有所谓的情商测试, eq bench 上,它的分数确实很高,没毛病。但是一道这个叫 simple bench 的 测试,就是专门考它真实世界推理能力的,它的表现 duang 一下就掉下来了。 这种天上地下的表现差异就是问题的关键。我们再仔细看看,它在 simple bench 上到底有多惨? 最让人大跌眼镜的是什么呢?他居然只排到了第九名,连 openai 自己家的老模型,还有 google 和 anthropic 的 模型都比不过, 一个号称是最新旗舰的产品,结果连上一代都打不过,这简直让人不敢相信。那么这一切到底要怎么解释呢?现在我们就得请出今天的主角,过你河! 过你河,说白了是什么意思呢?其实很简单,就好比一个学生,他不去真正理解知识点,而是把所有练习题的答案都给背下来了,你考他原题,他能拿满分,可一旦题目稍微变个样,他就傻眼了。 这个学生的比喻啊,简直是太形象了,完美的解释了整个过程。 ai 模型被大量的用精准测试题库来训练,他学会了怎么应试,怎么在这些特定的考题上拿高分。 但问题是他并没有真正学会思考和推理,所以一到现实世界里那些没见过的新问题,他就彻底歇菜了。原因就在于激励 现在的 ai 领域啊,竞争太激烈了,简直就是一场军备竞赛,每家公司都急着要拿出漂亮的测试分数来证明自己比对手强。结果呢, 这种压力就导致大家都在训练 ai 去考高分,而不是去真正的解决问题。这就带来一个很现实的问题了,这些 ai 模型,你看它的报告,个个都是天才,分数高得吓人, 但企业花大价钱买回去用的时候,却发现它们很难创造出真正的商业价值。这就是我们今天看到的测试分数和实际效果之间的巨大鸿沟。 好,那到底是什么原因让 oppai 这么着急,非要把一个半成品给推出来呢? 我们来探交一下,当时他面临的商业压力到底有多大?我们来看这个时间线,你就能明白当时的情况有多紧张了。一切的导火索就是几周前,谷歌发布了非常惊艳的 gemini three, 然后用户就开始跑了,从叉的 gpt 转向了谷歌。这一下, openai 内部就炸锅了,据说直接拉响了红色警报。在这么大的压力下,他们只能硬着头皮,仓促地把 gpt 五点二推出来救火。 不过呢,这事还没玩,故事还有一个大反转,事实证明,我们之前体验到的那个槽点满满的版本,根本就不是它的完全体。 谜底揭晓了,根据一份非常可靠的报告, openai 当时发布的版本其实只是一个还在开发过程中的早期检查点,说白了就是个半成品。 这就完全证实了之前的猜测,这个模型就是在巨大的压力之下,被硬生生提前推向市场,那接下来怎么办呢? openai 已经给出了明确的时间表,他们确认真正的完全体还在路上,预计会在二零二六年初发布一个升级版,并且承诺到时候性能会有显著的提升。 所以整件事看下来,就给我们留下了一个非常值得思考的问题,当我们在追求让 ai 在 各种测试里变得越来越聪明,分数越来越高的时候,我们是不是正在让它失去更宝贵的东西?那种真正理解我们这个世界拥有常识的能力呢? 这个问题恐怕值得我们每一个人去好好想一想。二零二六, ai 重塑世界复合型人才将引领未来。具备深度业务洞察,精通前沿 ai 技术, 拥有卓越创新能力。 a g i to b 专业 ai 学习平台,提供系统课程、实战项目与精英社群。

谁说大模型会撞强大模型直接把墙撞飞了! openai 甩出王炸! gpt 五点二,数学科学编码核心精准测试全面碾压 gemini 和 cloud, 强势夺回地表最强最难的 agi 测试直接反超 gemini 九分, 大模型智商再创新高!奥特曼放话, gpt 五点二不仅是最强通用大模型,还要成为你日常办公的 ai 合伙人! 亮点一,最强视觉能力从看图说话进化到看图推理,能像专家一样分析出门道,图表推理和系统界面理解错误率直接减半。运营增长能读懂看板漏斗和留存产品设计能分析原型图、优化交互流程。金融投研能读财报格式化估值模型。 亮点二,最强上下文大模型有两个老大难问题记不住和爱扯淡。 gpt 五点二给出了硬核答案,它是首个大海捞针接近满分的模型,同时幻觉率暴降三成。这意味着你可以把几百页的合同、论文、大型项目的资料放心大胆丢给他,让他做交叉对比和深度分析, ai 终于能融入高精度业务场景,做你稳定可靠的大脑。亮点三,最强办公能力 gpt 五点二,在四十四类职场办公任务中,以七成胜率登顶, ai 办公首次超过人类。专家出活速度比人类快十倍,成本不到人类的百分之一。无论是做表格、写 ppt、 出研报,还是生成各种交付成果, ai 能帮助普通用户每天节省六十分钟,重度用户每周节省十小时。亮点四,最强编程能力 gpt 五点二,软件工程跑分干到八十, 还能更可靠的调试生产环境代码,重构大型代码库,并实现端到端修复,前端能力表现惊艳。擅长处理三 d 效果和 复杂意外,一句简单提示词就能生成带动画、带交互的单页应用。 ai 进化成你的全站队友。 open ai 最终守住了二零二五最强通用模型争夺战,也给自己的十周年交出了体面的答案。奥特曼预告,下周还有彩蛋!