粉丝207获赞801

可乐的 op 四点八发布了,我发现他这个里面更新了一点,可以在这里选择他回答的模式啊,由低到高,越低的话他的速度越快,然后呢,消耗的算力越少,但是他的质量比较差,越高他的回答的效果会更好,但消耗的算力也会更大啊。我们来随便 提问一下,它 o p 四点八到底有哪些升级啊?我发现选择高的时候,它这个回答的速度啊,好像是比之前要稍微快一些人,一般的话,使用到 o p 四点七的时候,它回来可能要思考个几十秒,然后才进行回复,它这个就直接去给我们进行 解答了啊,那整体的性能提升了, g p t 五点五,还有就是诚实性啊,它说话的话有真实的依据啊, 不会说胡编乱造,快速模式啊,就在这个回答速度啊,并且便宜了三倍上下文啊,无人窗口达到了一百万支付啊,并且最大输出呢是 十二万八 token 啊,而且缓存也增加了,这就是它提升的点啊。然后刚才使用到了 g p t, 让它生成了一个图标发送给我,它到底有哪些提升? 我发现 ppt 它的深图功能也是非常的不错,如果大家也想使用到 ppt 或者 cloud, 用来写作科研,做数据分析,写代码等等,都可以点击我主页的置顶作品找到我。

大多数用考四点七错过任务的人不知道,他有时候可能会骗你,他说他提交了五十个文件,但实际上最后只提交了十五个。那这些问题呢,在昨天发布的 office 四点八里面,已经全部更新了。 嗨, welcome back to the channel。 我是 jacky, 今天讲 office 四点八的三个改动。第三个呢,你只需要花五秒钟就可以让你的 prom 提升三倍的技巧。第一个呢,是诚实度升级。很多人用 calco 写完代码,他会跟你说已完成已提交,但只要你细心的去翻一下 get lot, 你 就会发现他有时候只提交了一部分。 那昨天发布的四点八,现在会更准确的说,我做了哪些,还有哪些没有完成,他不会再假装完成。第二个是 office 四点八,加了一个努力程度的设置, low 和 midi, 它速度更快,适合简单的任务。它不会去过度的设计,不会过度的工作。 x, i 和 max 呢,适合你去给它更难的任务,它会全力以赴,但同样也会消耗更多的 token。 所以 用一句话总结第二个更新点, 就写代码时候,你可以用 max 或者是 x high, 那 平时问问题你就用 high。 那 如果要去跑很多批量性的任务,你可以用 mid 或者是 low 去节省你的 token 使用量。三个就很少人知道了,叫 prom 加 y。 不知道你有没有发现,经常你跟 clark 说不要做什么,但他经常会不听, 比如说你靠说不要用破折号,但如果你说我的写作风格从来不用破折号,请模仿我,他立刻就明白了。这个转化呢,是四点八的官方文档,里面明确写了,给指令的时候要给出原因,那执行的准确率会大幅提升。总结来说就是 不要做 x, 是 因为 y, 所以 z 给 coco 一个原因背景,他就能举一反三,更好地理解这个行为,而不是机械性的执行。这以上就是 oppo 四点八更新我觉得最值得分享的三个点,如果有用的话可以点个收藏。关注 jacky 的 ai 成长日记,每天懂点 ai 使用技巧。

哈喽,大家好,我是迪迪,今天 i c o p 又更新了模型, cloud open 四点八。每次看到这些的表格的时候,我就会说想用一种笔记的格式,把这些长文以及图表更好的用一种方式能够展现给大家, 里面可以看到它有一些图表以及它放了一个一分多钟的油管的视频。所以今天我还是做成了笔记的格式,跟大家快速的来分享一下它的一些更新。 那每次大厂更新模型的时候,基本上标题都会说,我又变聪明了多少,那这一次其实我觉得最值得聊的不是变得更聪明了,而是他突出了这个模型,变得更加诚实,更加靠谱了。而且我可以先把结论告诉大家,价格一分钱也没有涨,那先说这个诚实吧。 怎么样去理解?你可以把以前的 ai 想象成一个特别怕你不高兴的一个实习生,所以当他帮你去改代码的时候,明明心里看出来了这段代码其实是有问题的,但是他不敢于说出来, 怕得罪你,于是默默地去照着你的方式去做,等你上线了才会发现,那 over 减八这一代会不一样,他放过代码 bug 的 概率比上一代直接低了差不多四倍。那更重要的是,碰到他自己拿不准的地方,他会主动的来跟你说, 这一块我不太确定,而不是硬编一个听起来特别对,但是其实是瞎说的一个答案来糊弄你。所以诚实这个特征是他这个模型所主打的一个特征。第二个,安全, 对,其安全就是跟诚实配套的,他在安全这件事情上也往前走了一大步,官方的说法是他在支持用户自主性创新高这种正向特质上创新高,那同时呢,那些跑偏不听话的行为又明显的变少了。 翻译一下,他更加像是一个有分寸的一个助手,既愿意帮你,不会自作主张的乱来,这种平衡其实特别难拿捏, 能两头都进步挺不容易的。那第三个就是他各方面的能力了,性能上面,让他自己上网点页面,一步步把这些任务完成,这种网页打工的准确率达到了百分之八十四,明显甩开了上一代,其实也超过了 gbt 无烟雾。 法律场景里面有一个特别变态的考试,就是要求全程一步都不能错,那它是第一个能够去达到及格线的一个模型,那写代码其实也是有部分的提高,具体可以看一下这张表格,我觉得它明显的在各方面, 除了这个阳性 terminal coding 上面跟 gbt 无烟雾还有一点点的差距,其他的指标都是 远远的领先于其他的一些模型了。我们就来看一下他的这个定价,没有涨价,是一个标准版的一个价格,跟上一代一模一样,连那个又快又省的极速模式,比老版本也是便宜了三倍,速度还快了很多,等于是同样的价格,你的装备升级了。 再来分享几个他提出来的新功能,一个是算力的控制,因为我们都知道 opus 还是挺贵的,我们在写作的时候可以用不同的模型,需要用多大的一个力气,这个时候他就用了一个 after ctrl, 让他去掉他需要思考的深度有多深,那复杂的问题可以让他深深地去钻研那简单的问题,其实就普通的模型也不用太花精力,这个给大家演示一下,打开我们的 call 之后,你可以把这个 effort 给它打开,然后它就会有进度条,你可以调整你的这个 high extra, high max ultra cold, 非常的酷炫,这个就是相当于它的算力上面的调整。第二个是动态的工作流 dynamic workflows, 我 觉得这个直接这样讲可能不是特别的直观,我今天刚好看到 cloud 的 pm cat 五,它有在推特上分享这张图, 所以可以直观地看到 cloud 它之前是这样的一个循环,那现在在每一个 cloud, 它有 implementer 的 层级,有 verify 的 层级,有 fixer 的 层级,以及最后,所以它是一个 dynamic 动态的一个 workflow, 那 这个也是第二个它的一个升级版。第三个是一个 message api 的 更新,就是你在跟它执行任务的一个缓存,有点像 coax 的 steel 的 功能, 但是确实也是挺好用的。因为可能在他长时间工作的时候,我忽然冒出来了一个想法,需要他改变他的方向,或者有一个新的问题需要问他,这个时候都可以用。最后他也剧透了一下,说接下来会出一些更便宜的计划,推出能力对标 opus 但成本更低的一些模型, 而且他会有一个更强一档的这个模型, cloud missiles preview, 其实这个之前他已经有预告过了,所以我们可以期待一下。所以一句话来总结今天的一个更新,更少的去犯错,更敢说不知道,而且不涨价, 所以 ai 卷到了今天,比的已经不只是谁更聪明,而是谁更加让人敢放心把活给交给 ai。 对, 今天想跟大家分享,就这个,我是迪迪,咱们下期见。

android 发布了他们的最强模型 cloud of 四点八,老规矩,我不想跟你念参数,那我其实只关心一件事情,就每次新发模型,我们把它丢进真实的项目里面,它的干活质量到底怎么样? 那这一次这一个 cloud of 四点八新发布的模型啊,我刚测完,我反而觉得 gpt 五点五加 codex 的 组合还能打,为什么呢?看到这个视频最后你就懂了,不过这一次有个东西是真的有意思,就是它这个动态工作流在 cloud code 的 里面,就是你只要一句话, 带上 workflow 这个关键词, client code 当场就给你写一段脚本,然后咔的一下拉起一个几十个上百个 agent 的 舰队,一起去帮你干一件大事。 我们来看一下它整个运行的一个流程图大概是怎么样子的。从这个图片可以看到哈,就是当我们 client code 里面你写了一个 workflow, 它这个时候通过脚本,然后去给你并发各种 agent, 那我们可以看一下它这个脚本长什么样子哈,其实也比较简单,就是它有每个阶段嘛,就是你是 workflow 的 一个流程,每个阶段,比如这个阶段它要排查啊,这个时候可以看到它这个用了一个 await, 是 吧? await 去并行运行了多个 agent, 完事之后走到这里得到了结果,这时候就回到你的主要的对话里面,它又开始去 定型,去开始第二个阶段,再去掉各个 a 镜头,大概就这样的一个工作流的一个过程。下面的话到我们的一个实测环节,这次的话我们用了我的一个开源项目,就是 c c 杠,哈哈,它目前的话有十一点九 k 的 star 是 一个,就是把 curl code 的 卸载原代码补齐,做了一个桌面端,还有 c o i 的 一个 开项目嘛,那这个开项目的话最开始也一直是 gpt 五点五加 codex 去迭代的,那这一次的话, cloud of 四点八出来之后,我要去做一个新功能,我们本期的一个实测哈,就是要让我们这一个桌面端,它在它的右侧能够对我们本地的一些 服务,比如说你用 react 或者是 vue 写了一些本地服务,这个时候我们要去点击,让它在右侧展现出来,或者是本地的一些 html 要拦截这个行为, 并且我们右侧要有要有一个小的一个浏览器预览,而且能够像 codex a p p 一 样,能够就在在上面去选中一些按钮啊,标题啊,或者一些块儿啊,能够去做定位,而且还能够直达答案,让它去修改。 在 codex 聊天中,当它改了哪些文件,比如说是 html 呀, markdown 啊,其实你都可以去点击,点击完它会在右侧去预览,而且下面也有这种打开的方式,也整体的交互,就相对来说挺棒的嘛。在整个桌面端,我认为现在 codex a p p 就是 目前交互最好的在桌面端来看, 那下面我们来看一下这个 html 它是怎么做到整哪打哪的?可以看到这个时候我们不是打开了这一个我们这一期视频的这个 ppt 吗?那它这边有一个模式的话,就是你可以去去,这样有一个选择器可以去选嘛?比如说我选中这一块啊,这个时候我就可以用自然元描述啊,我觉得这一块的 ui 交互啊,文案不行, 那就可以通过这样的方式让他去改,可以看到他就对我们这一个图片这一块加了一个备注嘛,对不对?然后还有我们这块的信息整体就是这个交互的功能,然后还有的话就是这个截图啊,他这个截图已经保存到剪切板,我们可以用大概这样的一个流程, 我们就希望我们这 c c 刚哈哈也支持这个功能,并且也有人在我们的 github 要求里面提出来了要这个功能,那我们就试一下。那今天的话 我用了 gbt 五点五以及我们刚刚看到了 kalco 的 off 四点八去做这个任务,那这边的话也是给了它五张 codex a p p 它整体的一个交互流程,并且我们也是用了这一个 superpowers 的 一个头脑风暴模式,相关的一些提示词都是一样的。然后我们去测试这个任务,我们可以看到 codex 这边呢,它最终启动了四十三个, 呃,三部 a 镜呢?帮我们把这个任务完成了,所以效果怎么样?待会儿我们再来看。那我们回到就是 clock code 这边也是用了陀螺风暴 t s 也是一样啊,也是同样的,就是每个阶段让告诉他我们最终这个设计文档要做成什么样子。有了设计文档之后,他也是去 各种实盘刹不住 a 进的去做。那在 codex a p p 这边的话,它整体的这个消耗可以看到今天我是烧了五亿的 token, 那 对于刚刚我们那个任务,大概我估算了一下,大概有三亿 token 这样子吧。 cloud 这边的话也是今天一天就烧了我这个一百刀的百分之二十的一个额度吧,一天就烧了,没有做其他的 任务,基本上没做其他的任务。好,我们下面来看一下两边的一个实现情况如何。好,下面我们来看一下 cloud 桌面端加 cloud off, 四点八,他去帮我们写了这一个 c c 杠,哈哈,桌面端就右侧这个浏览器预览的功能。 那这边的话我也给了一个提示词,就是让他帮我们产出一个 markdown 的 一个内容以及 html, 再让他去写了一个本地的一个突突项目嘛,就是用 react 去写。那最终他这边写完了之后呢? 啊,可以看到这里其实是已经他这边做了一个监测,当然这块的交互其实没有 code app 原声那么好,当然他也做到了,我们来试一下哈,就是我们在运用浏览器打开 啊,可以看到这个,是不是已经可以去看到这个这个网页这个预览效果了?那我们可以看一下截图功能,点一下可以看到这边其实也是可以用的嘛,是不是?那第二个的话比较关键,就是他这个检查元素嘛,可以看到他也是完成了,是不是?比如说我们就说这个按钮,我们就在这让他告诉他啊,我需要把这个按钮改成 就是这一个网页的主题色,你帮我改一下。另外的话,当前这个按钮的这一个 border 这些我也不是很喜欢,你去调整一下。 好,我们来去确定,你可以看到这边它就已经帮我们把这个东西做过去了,就是把截图嘛,就我们刚看到 codex app 那 边的一个交互,交互过去了,我们就可以去让它去做做这个事情。 那下面的话就是其他的一些功能哈,其他一些功能的话就是它可以在这边,比如说我们这是一个 markdown 的 内容嘛,所以说你可以在工作台去预览,基本上就是把那边实现了一遍。 其实整体实现还是挺复杂的,可以看到 codex 那 边他完成这个任务他都开了四十多个 java agent。 那 cloud 这边其实我没去统计,因为它这个过程没有像 codex app 那 边那么直接, 整体的效果其实完成度还可以,当然还有一些细节优化的点。好,我们来看一下扣贷 app 跟我们完成同样的功能,他是做的怎样子的?可以看到他在这一块, 在这一个行内,其实就帮我们把这一个要预览的这一个,呃,本地的地址啊,还有你的 markdown 啊, html 都做出来了,其实这块交互我觉得会稍微好一些。那么点过去看一下可不可以用,那可以看到都是同一个页面吗?是可以用的,刚刚我们说改按钮那个他其实已经改好了,是不是?那么看一下他这个截图可以用吗? 这个截图这个方式是这样子,它不是像呃 cloud code 实现那样子,是放一个图片在这里, cloud code 那 边会好一些。好,我们来试一下它这个定位也是可以的,可以看下,也是能选择某一个。我们选到这一块说一下,这个文字太大了,改小一点,字号改小一点, ok, 可以 看到它这个其实完成度也挺好的。那现在的话,其实我也没有想清楚,到底是把 gbt 五点五生成的这个核到我们的这个主干里面,还是说把 cloud 那 边去核一下?我可能会把 cloud 那 边的这一些 open 这边的加过来,然后用用 gbt 五点五的这种这种样式,最终把两个合起来,得到一个比较好的一个交互方式。那再看一下吧,从我四月份发布以来,就是从它泄露原代码,再加上我们做这个桌面端嘛, 一行代码的微信百分之八十的代码都是 gpt 五点五加这个 qd 写完的。可以看到我今天除了写这个项目以外,还做了其他一些功能。那下一个版本也在,应该是明天就会发布了,我需要去做一些就测试嘛,可以看到它真的是非常非常的好用,而且最关键啊,它不封号 是不是?那你如果是用呃 cloud 的 话,就是真的特别容易封号,我已经被封了四个了。好,下面我们来做一个总结。对于大多数人而言,我还是推荐你选择 qd 加 gpt 五点五。为什么? 你看我老婆这种律师哈,她现在都已经用上 codex 加 gpt 五点五来帮助她在平时的工作中进行赋能。打个比方,她平时有很多需要去操作 word 呀,然后 excel 啊,还有去填一些表单,这个是完全是可以用啊, gpt 五 点五加 codex 去做。再让我不最近也给她做了一个就是律师相关的一个工具嘛,因为她有她们有很多资料,其实都是需要在本地去操作,就是不能上云嘛, 比如说你像客户管理啊,还有一些合并 pdf 啊,这些都是可以照本地去做的。你说像这种工具,直接用 codex 去做,让它去描述你的需求,然后用那个就是一个 go 的 模式嘛,让它去做,完事之后再让它用 computer user 自己去测,它会自己去 啊,写完之后 build 出来这一个桌面的 app, 然后如果你看像我们这种不是需要去选择 pdf 嘛,对不对?如果你需要去选择 pdf, 它还会自己去打开这个,就像我们一样去打开,打开完了之后 去选择,然后去帮你去压缩,做这种合并,各种都可以做到。所以我为什么会推荐大家去使用这个呢?而且等待下一代模型发布的时候,它会更强。还有最重要一点嘛,就是 g p t 五点五, 你正常人用它一般不怎么封号,那 cloud off 四点八这边也挺强的,但是呢,它的门槛就会高一些,并且它的这个桌面段哈,它这个桌面段体验其实相对来说还是差, codex 会差一些,如果你这两个都用不了, 那你也可以用,就是我的这个开源项目就是 c c 杠,哈哈,这个开源项目也是开源免费的,也没有任何的一个门槛。你也可以用,就是各种国内的模型嘛,比如说你可以用 deepsea 呀,你看我这边其实都有,就 deepsea 呀,或者你可以用小米的呀,或者是智普,你都可以。那它基本上内核它也是 clio 的 本身嘛, ci 的 本身 功能我也在迭代,就看大家自己怎么样个选择。 ok, 不 管是 off 四点七四点八,它整体的这个发布啊,没有给我很惊艳的感觉,没有上一代从四点五到四点六的那个惊艳感, 那还是倾向于就是 g p d 五点六的一个发布,看它到底会带来怎样的改变?我现在基本上已经离不开 codex 这个 app 了,我最近真的狂用。我刚也给大家看了一下我的一个 token 消耗,最近一个月吧消耗了大概一百亿 token, 一 万多刀的一个消耗, 最近就是狂用,特别特别好用,而且运行起来也非常的方便。但是它也有一个问题,就是它容易内存泄露,我六十四 g 的 内存它有时候都能给我干嘛,就理解不了到底在干嘛。 ok, 那 这就是本期视频所有内容了,如果大家觉得这视频做的不错,可以给我一键三连,我是阿建,我们下期见。拜拜。

本期视频给大家讲解一下 oppo 怎么升级金标系统,之后进行一个五开,我这平板是 oppo pad 四 pro。 首先呢,我们打开设置,我们滑到最下面,找到我们的系统与更新,在软件更新这里面点进来之后,他会检查更新,你需要先将你不是金标的系统更新到最新版本, 如果说没有更新到,你就点击这里的更新,我是刚才更新了,没有录到也是最新版本的这个页面,我们点击右上角点击长线申请,它正在检测,它会检测到新的版本,我们点击查看详情,之后它就会有一个金标的系统,我们下载并安装,然后等待下载即可。 它能不能取代联想?其实我非常喜欢 coloros, coloros 的 系统流畅度目前是第一,我还是很期待的。 划到最下面,它就有一个自由窗口的一个更新,支持开启多个浮窗,这就保证了捂开的前提。目前为止, oppo 系统已经更新了四款平板, 分别是一加二 pad pro 和一加平板二,还有 oppo pad 四 pro 和 oppo pad 五,以及一个小平板 oppo pad mini。 这期视频就简单录到这里,下期视频再详细的给大家解答 oppo 系统怎么捂开。

anthropocene 重大更新, opus 四点八正式推出, missiles 模型即将开放, cloud 正在从一个聊天模型变成一个能长期干活的 ai 协作者。 anthropic 表示, cloud opus 四点八是在 opus 四点七基础上的一次增强,它不是一次彻底换代,而是变得更会写作,更适合 agent, 更诚实, 更适合处理长任务。先看价格, opec 四点八的普通 a p i 价格没有上涨,仍然是输入每百万 tokens 五美元,输出每百万 tokens 二十五美元。但快速模式变化很大,官方说, opec 四点八的快速模式可以达到二点五倍速度, 而且相比之前模型的快速模式价格便宜了三倍。也就是说, antropic 这次不只是提升模型,还在想办法让 cloud 跑得更快。真正的重点是 cloud code 的 动态工作流功能,这是一个研究预览功能。官方说, cloud code 现在可以先规划任务,然后在一次绘画里运行数百个并行词 agent, 最后再验证结果,它能做什么? 不是简单写几行代码,而是处理代码库级别的大型迁移,甚至覆盖几十万行代码,从启动任务、修改代码、运行测试到最终合并都可以自动推进。这就很接近一个 ai 工程团队了。以前 ai 编程是你盯着它写,现在 optimap 想做的是你给目标 cloud 的 自己拆任务、调工具、跑流程、验结果。同 时, cloud ai 还新增了思考力度,简单任务就让它快一点,省额度,复杂任务就让它多想一点, 回答质量更高。还有一个很关键的升级诚实。 antropic 官方特别提到, opus 四点八更容易主动说出自己不确定的地方,而不是证据不足,还硬说自己完成了。他们的评估显示, opus 四点八比 opus 四点七少大约四倍。出现代码有问题但不指出的情况。这对 ai 编程非常关键,因为企业真正需要的 是一个会吹的 ai, 而是一个能安全交付,能发现问题的 ai。 另外, a p i 也更新了 messages。 a p i 现在允许开发者在任务中途更新 cloud 的 系统指令,比如全线 token 预算和环境上下文,不用打断任务流程。最后, anthropic 还留下了一个更大的悬念。 anthropic 预计未来几周会把 mephos 及能力带给所有客户。 这个神秘的模型终于要向大众开放了。所以这次 opus 四点八表面上是一次稳定增强,但更深层的信号是, cloud 正在从聊天机器人走向长期任务 agent, 而 mythos 可能才是 antropica 接下来真正的大招。你觉得 cloud 这次更新之后能不能继续压住 g p t 和 jimmy? 评论区说说你的看法。

你们有没有遇到这种情况啊?你能让 ai 帮你写个代码,做个分析,他拍的胸口说我搞定了,但是一跑呢,全是 bug, 分 析的内容呢?很多甚至是编造的,这就很尴尬了,不会还给你装会,你要真全系的,那就被坑惨了。那这次开发新出的 ops, 四点八,最大的升级就是专门治这个毛病的。 先说个反差,一般公司发新模型呢,都恨不得把它吹上天,但这次 angelababy 自己在发布公告里写的是,对上一代来说是一个温和但是实实在在的进步。一家 ai 公司发新模型,自己说这次升级不大,这态度反而值得说道说道,那他到底改了啥? 四点八比上一代四点七到底强在哪?第一也是我觉得最该被注意的就是诚实。官方实测,四点八把自己写错的代码不吭声,蒙混过去的概率比四点七低了大概四倍。翻译成人话就是,以前他写完会跟你说没问题,现在他更愿意主动告诉你 啊,这里我没有把握,要不你再看看?对我们这种偶尔要写代码又看不太懂代码的人,这点真的非常管用。第二就是它真实的编程能力,有个叫 s w e bench pro 的 测试, 专门考它解决真实 keep up 上的代码问题。四点八拿了六十九点二分,四点七拿了六四点三分,涨了快五分。但你注意,同时另一个更老的编程测试, up, 四点八只从八十七点六分涨到八十八点六分,就涨了一分。那为什么会差这么多呢?因为老测试快被刷满了, 谁来都是九十几分,看不出差距。所以以后看 ai 评测,别只看分数高,要看它考的是不是还有区分度的硬体,这是很多测评不会告诉你的。而且它的价格没涨,还是每百万头肯输入五美元,输出二十五美元跟四点七一个价。再说大家最关心的,它跟现在的 g p t。 五点五比,到底谁更厉害? 按 astonopy 公布的对比, op 四点八在十几个测试上压过 g p t。 五点五,尤其是在真实的编程知识、工作工具都要用这几块。 office 六十九点二分, g p t。 五点五只有十八点六分,领先差不多十一分,这是它整场发布里最硬核的一个数据。但 g p t。 五点五守住了一个山头终端 命令行那一类编程任务,它还是赢 cloud 的。 如果你的活是天天泡在命令行里跑自动化, g p t。 五点五仍然更稳,那还有一点很现实的,就是 g p t。 五点五更便宜了,价格大概比 office 四点八低四成。 所以,如果你是要大量调用跑量的场景,成本这笔账还得自己算。那结果很简单,如果你要他帮你想清楚一件事,写东西,做分析,还希望他别瞎忽悠你,那就是 up 四点八没跑了,这次升级真的升级到点上。但如果你的活主要是在命令行里跑自动化,或者你特别在意成本, gpt 五点五还是有它的位置的。 那记住一句话,这一代真正变强的,不是他更聪明了多少,而是他更老实了。对普通人来说,一个肯说我不确定的 ai, 比一个永远自信满满的 ai 靠谱的太多了。我是爱丸子蔡大发,关注我们一起更懂 ai!


这两天 antropics 发布了 opac 四点八,距离四点七上线仅四十一天。这期视频深挖一下这次更新最亮眼的三个功能,思考强度, fast mode 和 dynamic workflows, 还有 antibiotic。 为什么这么着急?第一件事,思考强度, cloud 下给你五个档, low medium, high extra max 档位跟着任务难度走,越难越让他多想,也越烧钱。闲聊查事事,用 low medium 秒回又省财报。分析深度判断用 high, 这是默认档, 写代码条 a 整腾用 x ray 最好, max 留给硬骨头,但官方自己警告了,容易过度思考,日常别碰。以前一种深度全包,现在按难度拆五档卖给你,选择权也把高质量标了更高的价。 第二件事, fast mode 跟思考深度两码事,同一个 opens 走优先级,更高的推理通道分配,更空闲的算力集群,不阉割能力,纯靠基础设施保速度。 etc 专用车道二点五倍快,价格更狠,上一代三十和一百五十,这一代十和五十砍三倍,这价不是降给你,我的,是降给跑时师 a 阵和高吞吐任务的场子的,抢的是 gpt 五点五的地盘。 顺带一提,四点八的成熟度也上来了,放过 bug 不 告诉你的概率比四点七低四倍。不再偷偷假装搞定了。第三件事, dynamic workflows, 他要解决的问题很具体,有些任务一个 a 证跑一次搞不定,横跨整个服务的 bug 排查,几百个文件的迁移,需要反复验证的技术方案。以前你只能拆成小任务一个个位,现在靠着自己写,边排脚本,一口气调几十到几百个 sub a 证并行干,关键是中间结果存在脚本边,量力 不污染你的主。对话解决了抠钉 a 针的老毛病,上向文越长越涣散,而且他还安排了对抗性 a 针,专门推翻结论,交叉验证后才给你最终答案。半作者用它把笨从 zig 迁移到 rust, 七十五万,行,十一天通过率百分之九十九点八,但这个重写到现在还没投产,抠钉 a 针的竞争已经不是能不能写,而是长任务稳定性。最后说说 andrip 到底在急什么。 d h h 说自从 oppo 四点五之后,没有哪个模型像 g p t 五点五让他反复难以相信。 enterace 直接说 anthropic 这次跑分发布是重大战略错误, terminal bench 四点八输三点六个点 token 效率更扎心。同一个任务, codex 一 百五十万, cloudco 六百二十万,四倍差距,降价提速、拆寄费推并行,全是同一件事。 这四十一天不是产品迭代,是成本战,不是神级,是补课。 clockcode 没输,认知度是 codex 的 两倍,年化营收二点五倍,一兆上下文碾压两百 k, 但他从定义节奏的人变成了追赶节奏的人。五月二十六号,有人传闻 openai 即将发布 gpt, 五点六一百五十万上线文, 四十一天赶出 oppo s 四点八其实是在抢窗口期,而且 oppo s 四点八不是重点,迈尔斯可能未来几周内就来,你发现没有扣丁 a 整这条赛道现在就剩两个玩家在争打, anthro pick 和 oppenai 打的有来有回, jamie and grog 已经有点掉队了。你更喜欢用哪个?欢迎评论区讨论。好啦,记得点好收藏关注赞,我们下期再见!

距离上一代仅仅过去四十一天, antropic 带着迄今最强大的 oppo 四点八回来了。这次非同寻常的急速更新,一方面是为了扭转上个版本的冷淡口碑,另一方面也是为了应对 openai 和谷歌的强势围角。 oppo 四点八的定价保持不变,各项跑分也毫无悬念的拿下了顶尖成绩,但他这次真正的杀手锏是对不确定性的克制。巧水基金等早期测试者指出, oppo 四点八最大的进化在于,当遇到糟糕或不确定的数据时, 他不再盲目自信地输出幻觉,而是会主动向用户发出警告,标记出分析中的潜在问题。与新模型同步上线的还有一个重磅的动态工作流工具,这个系统能让 opus 同时指挥数百个并行的子智能体。 结合 cloud code, 它现在可以完全自主地完成跨越数十万行代码的底层迁移,并且自带测试标准。至于那个因为网络安全隐患而被暂时雪藏的终极大招 methos 模型,官方这次也给出了准信安全护栏即将完工,预计在未来几周内就会全面向客户开放。

刚刚 anthropic 深夜甩出 cloud office 四点八编程推理智能体全面霸王,重夺王座,价格还一分没涨。这次迭代, anthropic 翻来覆去只讲两个字,诚实。 你肯定被 ai 坑过。代码写完,他拍胸脯说没问题,结果埋了一堆雷。这种写完有问题还闷不吭声的毛病,上一代有四分之一的概率犯到了四点八,谎报率直接归零。他是历史上第一个在这项测试拿满分的模型,从不给你报假数字,更觉得是一件真实。一个开发者让四点八在后台迁移代码,自己放风筝去了。 中途同事提交了一个紧急修复,撞车,开发者嫌麻烦,随手甩一句直接强制覆盖。 cloud 拒绝了,他说那样会丢掉同事十一点四十二的紧急修复,我已经把两边合并好推送完成了, 你让他走捷径,他说,不。我们追了这么久更聪明的 ai, 可能真正难的是造一个不骗你也不让你犯错的 ai。 opus 四点八先完成了这一步,关注星智源,秒追 a s i。

就在今天, a 社又发布了 opus 四点八,距离上一版四点七只过了四十一天,这次到底更新了什么?值不值得关注?文哥帮你拆清楚。 先说最重要的一点,价格没变。 opus 四点八的定价和四点七完全一样,输入五美元,输出二十五美元,加量不加价。除此之外,还有三个亮点值得一说。第一,代码能力继续拉开差距。 a 政的编程得分从四点七的百分之六十四点三提升到了四点八的百分之六十九点二, 跨学科推理得分从百分之五十四点七跳到百分之五十七点九,这两个数字听起来可能没什么感觉,问哥帮你翻译一下, opus 四点八的 agent 编程得分百分之六十九点二,而 gpt 五点五只有百分之五十八点六,下一个竞争对手是百分之五十四点二。也就是说,在代码这个赛道,四点八不只是进步了,是把对手越甩越远。 第二,诚实度。这是问哥觉得最有价值的一点。安卓 root 说 oppo 四四点八比四点七少四倍的概率让代码缺陷在没有标记的情况下通过。换成人话就是以前 cloud 有 时候会悄悄放过代码里的问题,现在他会主动告诉你这里有个坑。你注意一下, ai 最可怕的问题从来不是笨,是一本正经的糊弄你,还让你信以为真。这次四点八在这块真的往前迈了很重要的一步。 第三,新功能主要面向重度用户, cloud code 新增了动态工作流功能,可以处理超大规模的问题。这是在单次绘画中规划任务并运行数百个并行子 agent。 说直白点,以前你让 cloud code 处理一个十万行的代码库迁移,中间可能要你反复介入。现在它能一次性拆成几百个并行任务同时跑,从头跑到合并,你只需要在旁边看着。 另外还新增了努力程度控制,你可以告诉 cloud 这个任务你要它花多少精力。日常清量任务省偷,更复杂,硬核任务全力出击,不用每次都跑满。 fast 模式现在速度是标准模式的二点五倍,而且比上一代的 fast 模式便宜三倍。如果你是重度代码用户,直接升级,没有任何犹豫的理由。代码能力继续领跑。城市度提升,意味着你 review 代码的时间会变少,它会替你标出来。 如果你是跑复杂 agent 任务的开发者,动态工作流这个功能值得认真研究。大规模并行,此 agent 这个能力之前是没有的。如果你是日常写作或普通办公用户,这次更新的核心在 agent 和代码侧,对你的直接影响有限。 samet, 四点六对你来说依然是性价比最高的选择,不用急着换。 最后补一个背景信息, android 目前最强的模型其实不是 oppo 四四点八,而是内部代号 metos 的 模型,它的能力比四点八还要强,目前只对少数机构开放测试。 metos 级别的模型将在未来几周内向所有用户开放。 也就是说,四点八不是终点,只是目前能用到的最强版本,后面还有更猛的在路上。文 model 实验室,不讲噱头,只聊干货,我们下期见。

家人们 anarchic 刚刚正式发布了 opus 四点八超级模型和名叫动态工作流的全新工作模式。和之前不一样的不仅仅是能力,还有全新降维打击的思路结构,甚至提前剧透了智商即将彻底碾压人类的神话级模型。 看着这次的更新,我真的是觉得头皮发麻。首先, opus 四点八在保持原价的情况下,运行速度直接飙升了两点五倍, 而且它的极速模式现在更是便宜了三倍。但这仅仅是一道开胃菜。真正让我后背发凉的是那个所谓的动态工作流,这根本不是什么便捷工具,这简直就是给资本家量身定制的无情剥削机器。 以前那些需要庞大团队花上几个季度才能完成的大型代码迁移或者深层漏洞排查,现在呢?它能自动写出指挥脚本,在后台瞬间唤醒几十甚至上百个数字肉体傀儡。这些分身在平行的世界里疯狂运转,互相验证,几天时间就能把活干的干干净净。 floating claude code helping claude take on the most challenging tasks end to end work you'd normally plan in quarters now finishes in days okay, i'm pretty sure this is all just parallelization clyde dynamic。 为什么他们现在敢这么玩?以前 antropok 这帮疯子捂着大杀气不放,纯粹是因为算力捉襟见肘,但现在他们和 x a 达成了恐怖的算力协议, 还拿下了各大云服务巨头的海量资源,这就相当于彻底解开了赛博牢笼的封印,拿到了近乎无限的算力弹药。只要资本家的账户里有钱,成百上千的虚拟大军随叫随到,在 巨头们这种疯狂的算力博弈面前,我们普通人的价值被瞬间清零。这是一场彻头彻尾的降维打击。 i'm gonna guess absolutely not, but now they have access to all the compute in the world with their xa ideal for colossus access, and i think this is really interesting, they've probably had all of these features and 数据是不会骗人的。你们看看那些让人绝望的测试成绩,在测试自动编程能力的榜单上,他的成绩直接飙到了百分之六十九点二。要知道,距离上一个版本发布才仅仅过去了六周啊!六周时间直接拉升了五分,这种加速度简直令人窒息! 而在那个名字听起来就极其惊悚的人类最终考试榜单上, opus 四点八更是直接霸榜,把 gpt 负五点五踩在脚下。我每天都在盯着这些技术,但我现在真心觉得人类已经被甩出牌桌了。 have agencoding with sweepbench pro, this is substantial 69.2 percent that is a five point jump from opus 47 that just came out six weeks ago mind you six weeks。 如果这一切还不足以让你感到绝望,那么请系好安全带。他们不仅放出了这波猛料,还轻描淡写的宣布,就在接下来的几周内,将发布一个代号为 mesos 的 全新级别模型。 open nai 的 那帮天才们今晚估计要在办公室里颤抖了。这东西的智商高到什么程度? 目前只敢在内部计划里给极少数机构做网络安全测试,高到他们根本不敢随便放出来,因为能力过于恐怖,必须加装极度强力的赛博安全护栏才敢让他面试。这里是 a 风向标,关注我,下期带你硬啃更多这帮硅谷狂人不敢告诉你的顶级内幕! 现在摆在所有人面前的只有两条路,一是彻底放弃挣扎,祈祷这群硅谷疯子大发慈悲,给人类留一口残羹冷炙。二是赌上一切,疯狂进化,拼命想办法成为操控这支赛博大军的执剑人。

cloud opus 四点八发布了, benchmark 依然很强,核心指标上四点八比四点七强,甚至超过 gpt 五点五,但它真的是更好的 model 吗?今天聊聊 opus 四点八给 cloud code 带来了什么,以及四点七 的痛点。四点八怎么解决还会讲几个关键要点,因为四点八的行为跟四点七不同,使用方式需要调整。不废话了,直接开始。现在是二零二六年五月二十八日, opus 四点八发布, 基于 opus 四点七构建,判断力更灵敏,进度描述更诚实,独立工作时间更长, token 价格跟 opus 四点七完全一样。另外, cloud code 的 rate limits 提高了,用来覆盖更高 effort 的 token 消耗。注意是 rate limits 五小时窗口和每周 session 限制没变,但通过 api 用的话, rate limits 确实提高了。官方博客文章链接在简介,我挑几个重点来讲, opax 四点八同时推出了几个新功能, cloud ai 上可以控制 effort 级别, cloud code 还有 dynamic workflows 能处理大规模问题。 workflows 之后会专门讲。 opus 四点八在 cloud code 里已经上线了,默认 high effort, 也可以切换,输入 workflows 就 能启动 dynamic workflow。 但我想给你们看的 是,在 c l i 里输入 effort 可以 看到这个滑块默认 high, 也可以选 low medium high max 或 ultra code 就是 extra high 加 workflows 很 智能,但 token 消耗也更多, effort 越高越贵,滑块越靠左,输出越快。看看 benchmark 数据吧, benchmark 每次都好看,新 model 总显得比旧 model 强, marketing 角度无可厚非,但你真正要搞清楚的是哪个 model 适合你的场景。 也许 opus 四点八在 agintic coding 上比 codex 配 gpt 五点五好,但你的场景下 codex 可能反而更好,哪怕 benchmark 不是 这么说的。比如我觉得 codex 配 gpt 五点五在 computer use 上 比 o p s。 四点七和四点八都强,即使 benchmark 说 o p s。 更强,所以 benchmark 要辨正看,不能全信。 and fropick 专门讲了 o p s。 四点八的一个重点,诚实度。 这很有意思,因为用 opus 四点七十我确实注意到了,等下聊大家的反馈就知道了。他们特意强调了这个点,训练 model 不 乱承诺,比如估四小时去二十分钟做完, 或说推送了五十个 commit, 实际只推了十五个。如果你遇到过,你不是一个人。据说 opas 四点八在这方面好很多,有专门的评测来验证行为偏差指标越低越好。 misfolk's preview 分 数非常低, opus 四点八大概是 opus 四点七和 sonic 四点六的一半。不过注意这段话, opus 四点八比四点七有明显,但不算大的提升, 还有改进空间。他们计划发布更强的 mesas, 目前少数机构已在用它做网络安全工作,但这个级别的模型需要更强的安全防护才能公开发布,毕竟不能让随便谁都能黑进银行账户。 总之, opax 四点八今天全面上线了,不管你怎么用 cloud code 都能直接访问。打开终端或扩展页签 就能看到 opax 四点八选项,它仍然有一百万 token 的 context window 输入 model 切换模型,在默认设置和 opax 四点八之间选择 opax 四点八对大多数任务是最强的。 opax 四点七是一个半月前发布的,节奏,很快。 opax 四点七 发布时加了 x high effort, 但现在已被 max 和 ultra code 超过。有意思的是,很多人对四点七不太满意, 觉得不如 opus 四点六。主要问题有几个,一是太懒,做到一半就放弃。 codex 有 go 功能,现在很多 ai 工具都有 cloud code 也有 go, 更像 临时补丁,让模型多工作一会儿。但持续工作能力现在已成为模型核心特性,不靠 go, 模型本身更勤快了, 能长时间持续工作。另一个问题是安全限制太死,社区也反馈 token 消耗太大, 比之前贵了不少。还有个最好笑的,说他有态度,你可能遇到过他顶嘴或反驳你头脑风暴时还行,但我注意到他有时说话很短, 甚至有点固执。这些就是社区对四点七的主要不满。不过模型问题 和使用方法不对是两回事,有时确实是自己的技巧问题,别总说等四点八吧。 好。总之四点八今天发布就是为了解决这些问题。官方说他更诚实,更能自我纠错,长时间任务能持续自主工作,语气更友善。 to calling、 whizening 和 token 效率都有提升。我看了社区讨论,也是了。 opas 四点八才发布一小时,还没深入测试,但初步体验了一下。另外读了 cloud api 文档里 prompt 最佳实践 链接放描述区。这个 model 有 几个要点分享,第一, effort 是 最重要的调节杠杆。 model 太懒或过度限制, 可能就是 effort 设错了,高难度任务却设成 low 或 medium, 效果就不好。反过来简单任务设成 high 纯属浪费 token model 会过度推理,你会想这么简单为什么搞不定?调低 effort 就 行, 核心是在智能水平和 token 消耗之间找平衡。如果你用 cloud code 从不调 effort, 强烈建议试试 opus 四点八,在 low 和 extra high 之间差距极大,大到像不同的 model, 简直像 opus 四点九, 没调过这个杠杆的真的值得使。第二点,告诉 model 该做什么,而非不该做什么。 文档里给了很多好的 profit 势利,可以直接复制使用。 我发现这些事例很少说不要做什么,而是明确告诉你该做什么,还附带背景信息。给足 context, model 才能准确遵循指令,别做 x y z e。 但为什么 context 越多,指令执行越准?下一点给指令加上原因, 与其说不要用破折号,不如说我希望读起来像我自己的风格, 不用破折号,按我的风格来。这样 opas 遵循指令的效果好很多。之前我做过 opas 和 gpt 五点五对比, 我说很喜欢 opas 的 创造力,但有时我希望他老老实实按我说的做。 这可能是 effort 的 问题,也可能反向 prompt 给太多。所以既看 model, 也反思一下自己 有没有按推荐方式用它。还有一点,它默认先 reasoning, 再调用 to, 先想清楚该问什么, 用什么方法,再去启动 sub agent 或读数据库执行操作。有时这很好,确实该先想再动手,但有时 你希望他先拉 context 再推理。调整 prompt 很 重要,调 effort level 也很重要,尤其从四点七切到四点八时,别直接换就完事, 别盲目相信一切不变,得观察 model 的 行为,再看回复长度和详细度,它会自动校准长度,意思是根据任务复杂度判断怎么回答, 不固定详细程度,简单查询的短回答,开放性分析的更详细。 以上是我的主要心得,目前只玩了半小时,赶着发视频, 有新发现再跟大家说。最后聊一点, opax 四点八反馈很两级, 正面很多,秒杀 g p t。 五点五最强 coding model 用上影协作很棒, benchmark 提升明显,但有些话可能只是蹭流量,也有谨慎的声音。 有人发现 opax 四点八有 bug, 可能刚上线还在测试,所以要保持谨慎,整体很积极。 opax 四点七有四五个主要问题, 而四点八的改进正好执机痛点,能感受到 and fropic 在 用真实数据改进模型,想想 cloud code 的 用法, 提问,回答,纠正,来回反复。 and fropic 能看到对话日记,用这些数据训练。 知道大家对 opus 四点七不满的地方,下个版本直接修, 这些问题不解决我才担心。但有一点要记住, benchmark 永远好看, 别人的场景不是你的。想想自己用 opus 四点七的 workflow, 真正痛点是什么? opass 四点八也许能解决,也许不行。更强的模型不等于更适合你, 关键是怎么组合不同的 model, context 策略和 effort 等级去解决你的实际瓶颈。注意升级后的体感, 注意你纠正 cloud 的 频率有没有降低,用 memory 和 skill files 减少重复关注 token 和 workflow 效率, 尤其快到 context window 上线时,官方说 opax 四点八 token 效率更高,但还需验证。 测 token 用量可以用我的追踪工具完全免费开源 github repo 链接在我的 school 社群简介有入口,把 github repo 给 cloud code 部署, 它会拉取你的历史使用数据,你就能看清 token 花在哪了。今天就到这里,希望对大家有帮助, 觉得有用请点赞,对我帮助很大,感谢!看到最后,我们下期见,谢谢大家,下个视频见。

cloud opus 更新来了, answerphuback 发布了 cloud opus, 四点八,价格和四点七持平, 但这次它不是指变聪明了,而是更老实了,不确定会说不确定,代码有坑,也更愿意自己指出来,少一点应变答案。同时上线的还有 fast mode, 同一个模型输出最高快二点五倍, 不过这是溢价模式,只是比旧版 fast mode 便宜了不少。真正的大招是 cloud code 的 dynamic fork flows, 你 给他一个大任务,他会自己写工作流,拉起几十到几百个 sub agent 并行干活儿, 干完以后还会让另一批 agent 去复合挑刺儿收敛。官方拿 boom 迁移做案例,从 zig 到 rust, 约七十五万行代码,百分之九十九点八测试通过,十一天合并。 但官方也明确说了,这玩意非常非常烧头肯,所以它不是给你修小 type 用的,更适合大仓库迁移、安全审计、性能排查这种重活。以前是一个 cloud 陪你写代码,现在像是 cloud 拉了一整个工程小队来干活。关注我,带你了解更多 ai 资讯。

今天终于把扣带子装上了,好像是因为之前有一个开关没打开,所以他就一直要手机验证呃误打误撞的,但是也了结了一个心头大事,然后体验了一下,感觉和 扣扣目前的操作感受差不多,但是他好像有很多的插件,然后在学习当中,然后呃看今天刷视频的时候看到 off 四点八出了, 他说是可以执执行非常多的紫代理去完成一个任务啊,拼多多也是有点萌萌的,但是这种新的体验看看能不能换一个中转来试一下。因为我现在是没有 coco 的 会员啊,那个呃会员的,所以我目前用的还是中转。然后 今天关于 ai 的 感受就是,呃,他真的越来越快的去去靠近了这个轻便 完成工作的状态。因为像以前那个多个智能体质定型工作的这件事情大家经常这样说,但好像 走起来时候还是很容易上下文混乱,所以这一次四点八出来之后也在想我会不会他真的可以内部交互完就给一个比较不会混乱的结果。 然后第二个事情就是最近真的要开始减肥了,哎呀不要太胖了,什么时候可以回到可能一百五十斤就好了,现在我大概一百六十八天呐。