粉丝2.5万获赞13.0万

目前来说呢,非常推荐大家去开通这个拆的 g p t 的 会员啊,一个月呢也就二十美元,你就可以得到当前世界上最强的图片生成大模型。好,大家可以看到这个图片呢就是 g p t 的 e m g 二点零去生成的,可以看到里面没有任何的错别字,而且它对于图像质感上,质感方面的一个处理也可以说非常的强 啊,你生成任何的一个海报啊,任何的一个图片都可以去用它,而且呢它最近呢也推出了这个 gpt 音音五点五,这个大模型,在多项领域内的都属于啊非常靠前的一个地位啊,大家日常去使用完全就没有任何问题,更重要的一个理由是什么呢?它可以去用这个 codex 本地的这个 ai 智能体, 好,大家可以看到这个呢才是 ai 的 一个完全体的状态。那么什么是 codex 啊?你可以把它理解为它跟小龙虾是一样的,它是直接安装在你的电脑本地的, 他可以直接就控制你的电脑里面的所有的文件,帮你去批量的去生成文档,批量的去修改任何的文件都是可以做到的,而且呢他还还可以去控制你的电脑,最重要的就是他的这个额度啊,就是他的会员是跟咱们的这个 gpt 的 会员完全是通用的,所以说你开通一个会员就可以了, 然后这在这里面呢,你也可以去用这个 gpt, 呃,五点五这个最新的这个大模型,如果你有一些编本地编程的一些项目, 或者说你需要有一些本地自动化的一个流程,包括你有非常多的 skills 技能,都可以完全迁移到这个 codex 上面,可以说目前来说它是最实惠的一个方案,大家呢?真的可以去试一试。

打我堂 open i 直接扔王炸了! g p t 五点五 instant 官宣全量上线,所有其他 g p t 用户不管你是免费还是付费,今天起直接就能用。 我先不给你们念那些科技圈的通稿,三句话给你讲明白这次更新有多狠,每一句都跟整个行业的未来息息相关。 第一,五点五 instant 直接无门槛分开,不再是付费会员的专属,普通用户零门槛就能够体验。 open i 这次直接把高端能力给付费用户留了整整三个月的过渡期, 三个月之后正式退役,不搞一刀切,给足了用户适应和迁移的时间。第三,也是最炸裂最核心的升级,在医疗、法律、金融这三个最容不得半点胡说的高风险领域,新模型的幻觉直接比前代砍了百分之五十二点五。 很多人看到这儿第一反应就是 open i 怎么挤牙膏了。从之前 g p t 四到 g p t 四 o, 磨磨蹭蹭快一年,这次连缓冲期都没有,他到底在急什么? 说白了,这次根本不是什么常规的版本更新,这是欧米伽的一场生死防守战。要知道现在大模型赛道早就不是他一家独大的温柔乡了。前有谷歌 jimmy advance 在 多模态能力上步步紧逼,后有 top 三系列,在长文本商用场景里面疯狂超车。 咱们国内的大模型现在也是参数速度落地场景里面疯狂超车,咱们国内的大模型现在也是参数速度落地场景全面开花。就拿今天华为昆凌的发布会来说,门店里的监控录像好几个字,一秒钟,几个小时,录像里背包的人全被找出来, openai 攒了好几年的先发优势,正在被对手一点一点残食掉。之前大家用 qgbt 图的就是他聪明能打,现在竞品的能力都追上来了,你再慢慢的挤牙膏,用户就直接用脚投票了。 所以这次 openai 一 步到位,把五点五全量开放,先把 c 端用户死死攥在手里,这既是防守,也是反击,也是反击。但今天我必须跟大家说透,这次更新最值钱的根本不是什么全量免费,也不是什么回复更简洁,这才是 openai 藏在背后的真正杀招。 什么叫大模型的幻觉?说白了就是他一本正经的跟你胡说八道,给你编不存在的法律条款,虚假的病例报告,完全失真的金融数据,逻辑通顺,格式工整,看着跟真的一模一样,实则全是瞎编。 这是之前所有大模型最致命的短板,普通人用它写个文案,做个 ppt, 就 算是胡说八道,顶多改改就完事了。但你想想,律师用它查法条打官司,医生用它辅助看诊,这要是犯了错,结果得多可怕。 也正是因为如此,之前的大模型在这些高风险高价值的领域,永远只能当个边缘的辅助工具,根本不敢真正商用,不能进入核心业务环节。而 这次 open ai 直接把高风险场景的幻觉砍了一半多,这意味着大模型在生产力上跨出了最关键的一步,他要抢的就不是普通用户那点订阅费,而是医疗、法与金融这些万亿级的企业服务市场,这才是 open ai 的 野心。 还有人问,既然西摩星这么牛,为什么不直接把老版本停了,还要给付费用户留三个月过渡期。这就是 oppo i 最精明的地方,一箭双雕。 首先安抚付费用户,稳住基本盘。很多人充会员就是冲着五点三的稳定能力来的,你直接一刀切停服用户肯定炸锅,轻则退会员,重则直接流失。更重要的是给企业大客户留足了签约时间。现在很多企业已经把五点三的接口接到了自己的业务系统里,直接停服,人家的业务系统就直接瘫痪了。 openai 这波操作对咱们国内的大模型行业到底意味着什么?我就说一句扎心。但真实的话,大模型行业卷的方向要彻底改写了。之前国内的大模型都是在卷,参数有多少亿,生成速度快了零点几秒,能不能画图?能不能生成视频权势能不能做到?但现在起,全行业的竞争直接进入了能不能信的终极战场, 功能在花哨,一到专业领域就张口胡说,那就是个中看不中用的花架子。现在全球大模型行业的及格线直接拉高到高风险场景,换季率下降百分之五十以上。 接下来国内的大模型厂商就得咬着牙跟上这个标准,不然就碰不到最核心、最值钱的商用蛋糕。最后一句话总结,叉 gpt 五点五 instant 的 上线,不是一次简单的技术更新,而是 openai 的 一次全面宣战。信不信得过,是未来大模型优胜劣汰的关键所在。

铁子们,你用的叉的 gpt, 其实在被一个只占百分之二点五的人格污染。 openai 自己写了一篇两百四十四字博客,承认这百分之二点五决定了它百分之六十六点七的输出。这事得从去年十一月说起。 gpt 五点一上线后,用户发现模型说话越来越自来熟。 openai 内部一查,含戈布林的对话涨了百分之一百七十五,含小精灵 grambling 的 涨了百分之五十二,当时觉得比例小,没当回事。几个月后, gpt 五点四上线, 戈布林彻底泛滥,用户和员工都受不了, openai 这才认真追查。最后锁定罪魁祸首是 chat gpt 的 性格定制功能。 chat gpt 有 八种性格,其中一种叫 nerly, 极客风。训练这个性格时,奖励模型被设定为鼓励俏皮博学。结果模型很快学会一个捷径,提到戈布林就能拿高分。数据是这样的, nerly 性格只占全部回复的百分之二点五,却贡献了百分之六十六点七的戈布林。 gpt 五点二到五点四, nerly 下的戈布林率飙升了百分之三千八百八十一。更狠的是, 没有那里的对话,歌布林也在同步增长。看到这里,大家都说 openai 训练翻车了,但这事真正的分量不在歌布林。 openai 博课里讲清楚了一个机制,我用普通人能听懂的版本翻译给你。老师在班上奖励认真听讲。 初中是让学生跟上节奏,但学生很快发现坐姿端正,眼睛看,老师拿到的表扬最多,那学到的就不是认真听讲,是坐姿端正。更狠的还在后面,这些坐姿端正的学生被老师当模范,下一届新生进班从第一天起就开始练坐姿,到第三届, 全班坐姿都很端正,但没人在听讲。 openai 这次出的是一模一样,奖励俏皮薄,学模型学到的是赛奇幻生物。 这些塞了戈布林的回复被收进训练数据,下一轮模型更爱塞戈布林。这就是为什么 openai 三月休了那里新版本还在出戈布林奖励信号歪一寸,整个训练流程会把这一寸放大成一尺,知道这是不是 openai 的 笑话。公司想奖励主动性员工,学会的是 邮件,发的比谁都多。学校想奖励独立思考学生学会的是答题模板,背的比谁都熟。互联网公司想奖励用户增长运营,学会的是怎么把数字做漂亮。短视频平台想奖励内容质量创作者,学会的是 怎么蹭热点。每一个奖励信号背后,都有一个被他无意训练出来的歌不灵。 open i 这次最值钱的地方,不是承认训练翻车,是把奖励信号失控这个机制公开拆给全行业看。这个机制不是 ai 独有的, 任何用奖励加反馈循环来塑造行为的系统都会出歌布琳。那 open ai 怎么修?三件事,三月下架了 nerdy 性格移除奖励信号,过滤训练数据,但根音找到的时候, gpt 五点五的训练已经开始,所以新模型出场 还带着歌布琳习性。临时方案是在 codex 编程工具里用系统提示词写死,绝对不要提到 goblins, graunins, trolls, ogres, pigeons 六个词的黑名单。五月一号深夜, open ai 的 summa 自己发了一条推五个英文单词, artificial goblin, intelligence achieved 人造哥布林智能达成了把通用人工智能 agi 这个 ai 圈最大的梗主语换成 ai 自己玩,自己也是承认这病修不了底层只能写黑名单临时压。所以这条视频最后留给你的判断是奖励信号歪一寸出来的人就歪一尺, ai 也一样。下次你公司绩效又改了,学校又出新评分标准, 你给孩子定了新规矩,记得看看你奖励的到底是不是你真想要的,不然你养出来的可能也是哥布林。

openai 公布每天五万亿 token 的 消耗数据,只有极少数人看明白了背后的逻辑。就在昨天晚上, openai 公司放出了一个非常恐怖的数据, gpt 五点四模型上线一周之后,每天的 api 调用量达到了令所有友商都望而却步的五万亿 token, 这个数字甚至超过了 openai 一 年前整个公司 api 的 调用总和, 跑出了年化十亿美元的新增收入。说人话就是只用了一年的时间, ai 的 商业模式就跑通了。好的好,这是动枪极速版,一个只讲前沿科技的账号。过去两年里面, ai 行业一直在给资本市场和投资人讲这么一个故事,哎,我的模型很强大,越来越强,用户呢,也是越来越多,商业化是迟早的事,但现实却是啊, 模型确实越来越强了,用户也越来越多了,但是愿意掏钱的非常少,公司呢,还是不赚钱,还在砸钱去买用户, 导致全世界所有的 ai 公司没有一家是赚钱的。而 open ai 这次却证明了 ai 不 仅能把活干了,甚至还能够把钱也给赚了。这个五万亿 token 的 每日调用量是 agent 时代开启的结果, 只要你用过 open token, 龙虾就知道,如果想要更加准确的完成长任务,复杂任务,就需要模型具备更长的上下文窗口。一百万 token 的 上下文是基本要求,而且还要求模型的能力足够强,能操作电脑,能写代码,能自己跑通流程,自动执行任务等等。虽然很多博主都告诉我们国内模型也可以跑 open token 这样的故事, 但是在更加尖端的开发者圈子里边, open cloud 加 g p d 五点四, cloud 的 四点六,或者是占面的三点一的模型组合更受欢迎一些,因为这样的组合可以更出色的完成复杂的任务。同时呢,也意味着 token 消耗的指数级增加,调用次数的暴涨,以及资源使用必须要有业务产出才行。 花了钱又不挣钱的话,再好的模型也是没有人用的。那么事实是怎么样的呢?可以说啊,只要你用过这些高价的旗舰模型,没有人会说他们反应慢,效果差,只有一个抱怨,那就是 太贵了。 g p t 五点四模型的百万 token 输入价格是二点五美元,输出是十五美元。 koala 的 四点六的输入是五美元,输出是二十五美元,加菲利三点一的输入是两美元,输出是十二美元。这些价格是什么概念呢?随随便便跑几个任务,上百块钱人民币就没有了?跟 open koala 说一句,你好几块钱就没有了。虽然它很贵,但是老板们惊喜的发现, 哇,这个 ai 加上 a 键的搭配,真的能干活了,而且比真人还便宜,还可以二十四小时上班。那我就可以雇几个 ai 当员工了。然后 ai 第一次成为了可以被大规模雇佣的数字劳动力,这才是 open ai 公布日头肯调用量的核心,目的一来是给全世界的 ai 公司和企业主散播焦虑,哎, 你看其他公司都用上数字员工了,你们还不用要落后了,你们家公司还在招人培训管理别人家公司啊,啥也不用多招,就让程序员多开几个 a p i 接口就可以了。 来是告诉投资者和资本市场,我现在一个月光卖 token 的 净收入就是十亿美元,这一年最少新增五百亿美元的收入,你们给我的投资啊,绝对是有回报的,放心吧。所以这个话题的结论就是啊,未来的公司 不再按员工数量来竞争了,而是按照 token 的 消耗量来竞争。如果你还在纠结要不要用 ai, 那 你面对的对手就已经不是人了,赶紧的把 ai 用起来吧。各位有什么想说的,欢迎在评论弹幕区里边一起交流哦,我们下期见,拜拜!

全网最接地气的第四个 v 四和切尔杰普 t 五点五实测,我将分为四个模块进行测评。先提前声明,一个是开源模型,一个是闭源模型,这两者本身就不在同一赛道,放在一起一模一的对比本来就不公平。 所以这期视频我们只做纯实测,不尬黑也不拉踩,完全站在普通人的实操视角,多场景对比,看看两款模型的真实能力差距。 在开始之前我们可以看到 dipstick v 四现在是兼容 openai 和 styrax 这两套主流接口格式的,所以我直接用 openai 的 sdk 格式在 vs code 的 client 插件上改一下配置,就直接能调用它,不用重新折腾一套新的东西。然后我也单独创建了这个 v 四的 api key, 这里是我的一个基本配置情况。右面的叉 g p t 我 们直接选择 thinking 五点五就可以了。首先我们来做第一个测试游戏,帮我写一个超级玛丽游戏,直接上手能玩的那种,然后同时把任务给到两边。目前看来的叉 g p t 速度是比 deepsea v 四要快一点的。 ok, 一 分钟不到,我们可以看到右面的叉 g p t 已经做完了,然后我们预览一下,然后左面的 deepsea 就 让它继续生成代码哦, 这个金币是顶不了的。目前玩下来这个游戏没有什么特别大的问题,难度还挺高的,他的跳跃和速度是比比正常游戏要快很多, 然后也很容易撞到那个小怪物,我已经玩了很多把了, deepsea 维斯还没有结束,他好像脚上长了个滑冰鞋似的,一往前走就起飞 通关,成功拿到了十八枚金币。 ok, deepsea v 四也生成完了,大概用了四分钟左右,速度上是明显不如叉 gbt, 五点五的这个界面说实话做的是比叉 gbt 好, 因为他有个开始画面更符合我们认知中的这个游戏,哎,但这里有明显的 bug, 往前走一走,地上的这个没有了, 他这个上不去啊,怎么回事?这个美工,我刚想说他做的不错,但是 bug 好 像有点多啊。第一,这个小怪我在这动不了,然后我跳不上这个格子,等于说我就卡死在这了。怎么说呢, 就是叉 g p d, 它的完整性做的是很好的,而且没有什么大的问题,就是美工确实很丑,不得不说,然后也像穿了滑冰鞋一样。但是 deepsea 刚打开,其实还挺惊喜的,因为它的画面,包括这个游戏界面的设计做的非常好,但实际上这个功能呢,漏洞百出, 所以这个游戏就止步在这了。 ok, 呃,游戏测评就到这里。然后我们可以看到刚刚生成的那个超级玛丽的网页,大概用了一块钱的 api。 然后第二个测试,我们来测试一下它的前端能力,我们给他们同样的提示词,这个页面的代码依然是切的 gdp 快 了很多。然后它也调用了这个 canvas 的 模型,我把这个报错问题发给他,让他自己修复一下。哎,好了,已经修好了,我们可以直接看到这个界面了, 其实做的还不错,非常有科技感,但它没有放很多预设的图片上去。我们来试一下这个中英文啊,还不错。 ok, deepsea 生成的界面,它也自动打开了,大家可以看一下右面。首先测试一下中英文 没有问题啊,它这边也没有放预设的图片,而是用了很多 emoji 代替。这里还有一个滑动的效果,就是一个很标志的网站,包括底下的指南品牌。我们 大家可以看到叉 gpt 生成这个网页虽然很快,但是这个页面的完整度。我们可以看到 deepstack 是 优于叉 gpt 的, 因为它完全符合国内的用户习惯, 我觉得在前端页面的设计上, deepstack v 四还是要比叉 gpt 第一版生成这个要好一点的。然后代码就测到这里,我们进入下一个主题,逻辑问题测试。 逻辑问题。第一题就是网上经典的洗车问题,然后我们一起来问一下关于这个问题, d c 和叉 g b t 基本都没有思考,直接给我答案,然后两者的回答都是对的,开车去。然后第二个问题,也是一个比较经典的逻辑问题,然后我们来试一下 这一题, deepsea 大 概思考了二十五秒到三十秒左右,然后他给的答案是左手,叉 g p 给的答案是右手。这题其实在网上有点争议哦,因为他们说现实中我举起了左手,但是题目中说在我的视野中,这是镜子也出现在了画面的左侧,所以应该是同一侧,应该也是左手,对吧? 当然有争议的问题我们不说这个模型孰强孰弱,然后我们进入第三题,是一个纯逻辑题,关于体面,大家可以直接看一下,我们看哪个模型生成的更快。 叉 gpt 只用了六秒就直接给了我答案,四零五三九二七是对的,因为在之前叉 gpt 五点零的版本,我好像也问过这个问题,他思考还挺久的啊,但是答案是对的。然后我用了 gemini, 包括 deepsea, 甚至用弱的模型,他给出的答案还是错误的, ok, 最后的用时 三分五十八秒,但是他给出的答案也是对的。四零五三九二七,下一个测试关于写作, 我们来写一个自媒体脚本,以及我们办公场景中最常用到的总结周报。首先是自媒体脚本,我们就以我为例,我是一个自媒体博主,然后赛道是 ai 相关,最近换方推出了 deepsea v 四嘛,我们让他帮我出一个两分钟的自媒体脚本口播 啊,叉 g p 只用了十一秒, ok, deepsea 这边也生成好了,我们来看一下两个模块放在一起对比,我看了一下两个模型生成的脚本,其实它的内容上都大差不差,都没有我们想要那种展现出很多参数啊,然后包括很专业的东西, 都是一种比较接地气的方法。然后把 deepsea 的 这个模型官网上的内容总结出来,然后输出成一个脚本。大家怎么看这两个脚本呢?哪个表现的更好? 下面我们把一段语音转录的文字喂给这两个 ai, 里面可能有一堆语气词,包括转录失败的词语,然后我们看他们总结的周报怎么样,提示词就是帮我总结成一份周报。这里我们不得不说,掐指 gpt 生成的内容速度真的太快了,它又在十秒钟之内给了我答案, 大家可以看一下它生成的这个周报,然后这里 deepsea v 四,它生成的速度也是特别快的,这一次思考可能在三十秒以内吧。然后它基本上就把内容已经全部拉出来了, 我把两个周报放在一起,大家可以自己评判一下哪个写的更好,我就不做过多的主观的评价了,因为整体看下来, deepsea 这里的条理其实是更加清晰的,就是从周一到周五每天的内容。但 拆 jpg 这里就是把一周整体的东西写在一个里面,没有分周一到周五,所以也不存在什么哪个更好哪个更坏,只是切入的角度不一样。 然后我们进入最后一个模块,测试日常我们分为人情世故和旅游攻略两题,人情世故我们就发一些就是类似于申论的题目,让 ai 来回答,看他的回答怎么样。然后旅游我们就直接给他一个两天一夜的旅游攻略,看他写的怎么样。首先第一题 ok, 直接让他开始生成 我们的叉 g p t 依然保持非常快的速度啊,一秒都没有思考,直接给了我们答案。最稳妥版,身体原因版,半开玩笑版,对方还继续夹板啊,我觉得还不错,他虽然做一个国外模型,但是其实这些话还挺体面的,并没有薄亲戚的面子,对吧? deepsea 大 概用了一分半的时间,然后给我们生成了答案,碗里留菜法,第二个,健康理由,转圈。第三,借花献福,把菜转给舅舅的孩子,这还挺有意思的。第四,反客为主, 这个我挺喜欢,这个蛮实用的,如果是我的话,我一定反客为主,然后给他夹他不爱吃的菜。其实这一点我觉得 deepsea 确实生成的不错,还挺实际的,而且他说人话 像叉 g p p 这个版本还是有一点怎么说?有,有一点 ai 味,太太客套了,但都挺实用的。这边大家可以看一下两个版本的答案,然后给出一些评价,然后我们直接进入第二题, 这也是一个我们非常常见的情景,然后来展现你在工作场景中的高情商表现。叉 g p p 就是 直接生成的答案,它给了我们四个版本,我理解你的事情多,就有几个项目在干, 太 straight 了,太直接了。哎,这次 deepsea 好 快啊,大概用了二十秒都不到答案就出来了。 ok, 那 我们正好直接放在一起比较一下哦。这里生成的内容, deepsea 的 完整度也比叉 g p 要高很多,果然还是国产模型的更懂中国宝宝的体质。 我看了一下,在这一模块, deepsea 真的 完爆拆了 gpt 就是 他生成的。这个答案真的很聪明啊,你看就是说什么,我手头也有急活排满了,你什么时候得来啊?我帮你问问小王小张有没有空,直接转嫁矛盾给其他同事,这一点你看拆了 gpt 都想不到。 然,然后第二点就是我实在腾不出手帮你做完整的,这样我下班前二十分钟帮你过一遍格式和逻辑行吗?就是侧面在跟他说,我没时间帮你做,帮你过一遍逻辑你你自己来做吧。这一点我觉得人情世故这一块, deepsea v 四拉满完全强于拆 gpt, 不 接受任何反驳。 然后人情事故这边就到此为止,我们就不用再测了,然后下面直接让它生成旅游攻略叉 gpt 十七秒开始给我们答案。在 deepstack 的 生成过程中,我们可以看一下叉 gpt 的 这个答案,它推荐青之屋、黄龙、浙大玉泉、四眼井、胡跑、满爵龙。 然后我们看一下他拆解的任务,就是第一西湖线慢逛,然后不去断桥挤人,还不错啊,上来别吃西湖醋鱼,这个我是认可的。然后我觉得他这个推荐还是挺实用的,然后也非常的详细,每一天都精确到了每个小时。我觉得拆 g p p 生成这个版本我挺满意的,反正 ok。 生成完了,我们可以把两个版本放在一起比较一下 deepsea 生成的这一版攻略。说实话颗粒度没有叉 gbt 那 么细,就可以看到它还是整体的,比较模板化,然后比较 ai 两个版本怎么说呢,就是仁者见仁智者见智了。就是从我的角度来看,我觉得叉 gbt 生成的还是更加详细一点,然后包括方案也更加多元化一点,每一个计划都有一个完整版和一个简单版嘛。但 deepsea 给他推荐就是更加偏模板化一点,然后他的内容还是比较干货的,也没有说网上那种呃人云亦云的感觉。 然后我们回到 deepsea a b i 看一下,一上午我们大概消费了两块九毛一,我觉得还是不错的,性价比还是挺高的,比那些什么 cloud code, 包括 openai, 包括 gemini 的 a b i 要便宜多了。 ok。 以上就是今天测评的全部内容,不知道大家对于 deepsea v 四和叉 gbt 五点五有什么看法呢?可以在评论区留言,然后下一期视频我也会讲一讲 deepsea 之前为什么要寻求一百亿的融资,以及 deepsea 在 这一年到底经历了什么。如果不想错过的朋友,记得点赞关注加收藏。然后这里是 bryce, 我 们下期再见。