上周 ai 新闻里边儿最重要最重要的一个新闻就是 cloud 的 最新版本,也就是说的是 cloud 五嘛,我们现在知道 cloud 其实一直都没有往前更新,之前是四点儿五 up, 四点儿五、四点儿六,它一直不敢往前大版本的更新, 那如果他以五进行命名的话,那就证明他的性能是应该有一个跨代际的飞跃,那事实上也确实是如此,就是从内部的数据来看,说这个模型早就已经被开发出来了,而且他在他们的公司内部也广为使用,但是不敢放出的主要原因就是他的代码能力,领域的能力实在是太强, 以至于他很多的时候会能够去攻克一些我们电脑之间的这些安全漏洞。我不知道你们怎么看这件事啊?其实越看这件事情其实越悲观,如果放在两国大国的竞争,中国跟美国大国竞争上, 其实真的挺好玩的,就是一波我们会觉得中国太占优势了,一一波我们会觉得美国太占优势了,就是从 deepsea 这一波结束以后,然后又回到美国太占优势了。今年几个 ai 领域中的巨大的革新,或者说是颠覆性的东西,其实都是美国这边做的。 不光是像老黄的新显卡架构啊,或者说小龙虾的发布啊,或者说最重要就是 astropica 这个 opus 四点六,它其实是一个很重要的这个代码领域的这个革新,从四点六以后就标志着人类写代码。 起码在我们商业领域中,你不涉及到一些底层的算法,或者说你不涉及到一些特别高端的模型架构的那些代码领域中,商业领域的世界中,那人已经完全不是 ai 的 对手了,唯一的问题其实就是偷看太贵,就是算力太贵,就是你想,你想去写代码。 人的古法编程只能说就是稍微的便宜一些,但是 ai 已经全面领先人类了,但是在这种情况下之后,你再往下推,对吧?如果在这种级别上,你还在推更厉害的 cloud 六、 cloud 五,或者以后的 cloud 六,对吧?他们现在说叫卡卡皮巴拉,或者起名叫 mindstorm, 不 论叫什么名字,那这个版本呢?它再推出的话,那人类的很多的顶尖领域的代码就更不需要人了。 举个例子啊,就比如说网络安全啊,然后什么各种各样的复杂的一些内部的代码架构啊,可能都是需要 ai 了。但这件事情我为什么会觉得很悲哀呢?就是其实中国的互联网崛起,包括这两年中国的科技崛起的主要主要优势点, 就是我们觉得我们比美国这块可能最强的地方强在哪?就强在人多嘛,我们说叫工程师红利,你们可以查一下中国的互联网能够跟美国打的有来有回的主要原因就是中国的基础教育实在太强了。美国这边的教育呢,他其实没有什么自己的 比较好的教育资源,他们教育资源来自于对全全球人才的掠夺,或者说全球人才的极吸取。 就是美国的高级教育或者中级教育都很差,就是你,你去看各种各样的美剧,比如说各种各样的社区,学校啊,中学啊,高中啊,都是那种 快乐教育或者开心教育之类的,但你一到美国的大学,你就会发现,哎,好难啊。高等教育非常厉害,但是高等教育里边有很多的,比如说印度人啊,比如说其他的欧洲人啊,或者我们中国人啊,很多的咱们中国那些顶级人才都会留学到美国,所以他们很多的时候呢,就是他们的顶级人才很好, 但他们中层人才相对来说比较断层,就是那些呃普通的程序员,马农人很少。所以如果你们去看过,比如说一些美国的呃美剧,比如说硅谷这些美剧,你就能看到很有意思。他们每一个产品想去更新,其实找到一些基础的 能够去维护代码的程序员是非常的贵,而且非常的难。所以他们更加倾向于找到一个人去给他画饼,聊梦想,聊聊使命、愿景、价值观,然后聊半天拉一个人过来。但中国呢?不是中国,是我不用跟你聊梦想,给你开工资,你不干你不干,有的是人干。 也是在这种中国的基础工程师几乎无限的这种环境下,中国催生了非常多牛逼的。这种环境下,中国催生了非常多牛逼的上千个人, 所以在人力上面能够对他们极呃完美碾压。所以很多东西我们是可以尝试着中国互联网,可以去尝试各种各样的方案,各种各样的这个可行性,最后能够,对吧?选出一个在在,在众多可行性中找出一个杀出来。所以中国的马农其实是非常惨,非常卷的一部分群体, 掉头发呀,什么这个脏乱差呀,乱七八糟的,这种就不说这事了,但是这件事的优势呢,我们用了很多年,也是因为我们这么多年 基础教育实在做的太好了,初中高中,然后大学教育这条教育线,其实不论咱们怎么去吐槽它,其实就看你跟国外的对比嘛,但是我们这边教育非常好,但是这个优势呢,可能在这两年就会被 cloud 抹平。 如果我们都在用模型进行编程,那基础教育出来的这种基础人才他没有什么用的情况下,那其实拼的是算力,那么算力比不过,同时模型也比不过,那么工程师,其实如果大家都没用,都去操纵这些模型的话,那其实差距就会就会慢慢的显开。那美国更利用他自己的可能是 顶尖人才的优势,然后用着这些大量的模型更新,如果能代替人的话,那么人口优势就几乎就 不存在了,挺可惜的。是吧?上周呢?其实除了这个事,我们来很多同学还不太知道这个事。那我再给你们看一个视频,这个视频很有意思啊,是一个恶搞的视频。九月哥,你过来一下,求我,我知道,我知道,没头啃了,是不是啊?不行了,我要吐了, 给我给我一点,哥,再给我点 cloud 四点六的 token 吧,不行哥,我求你了,就一点点就行。我,我快不行了,我就写一个函数的量,我感觉身上蚂蚁在爬,你知道吗?从骨头缝里往外爬啊,太难受了。就给我一点,让我用一次,一次就行,用完我就戒,我发誓啊, 就,就给我一点,就让我用一次,一次就行,用完我就戒,我发誓啊。没事,这次是真的,我说就一次, 知道你上个月烧了多少头壳吗?八百万,你一个月工资都不够贴,你老婆打电话问我,你现在跟我说就一次,哼。你还记不记得你以前写代码什么样?记不得了,你记不得了,零八年 我们刚入行那会,你写 c s 能写一整天,别人用 float 布局,你非要研究那个什么 flexbox, 那 时候朦胧胧性还不好。 对,你为了一个居中能试十几种方案,写出来的时候高兴的跟中了彩票似的,满办公室给人看。现在呢?你写个居中,先打开克劳底,帮我写一个垂直水平居中,他给你生成了你复制粘贴,你连看都不看一眼,粘上去了。你都不知道他给你写的是 flex 还是 group。 那 是因为他写的比我好, 他三秒钟写的东西,我得想三天,你让我怎么回去?我回不去了,你懂不懂?我坐在那个破电脑前面,脑子里一片空白,我连包里换手机都想不起来了。我完了,我废了,我什么都写不出来了,没有偷看,我就是个废物。你不是废物,这个东西他就跟那个什么似的,第一口免费,后面每一口都要你的命。我看着你一步一步走到今天, 你需要用一些劣质的头啃,让你过渡一下。你在侮辱我,我在救你,你让这种东西碰我的代码。上次我用它写个简单的书,他给我写了 xlu 的 加八之类,没有传送门,你管这叫头啃?这是毒药。 opus 是 什么? opus 就 不是毒药了? opus 是 上等毒药,这个是劣等毒药。毒药就是毒药,有什么区别?可是 那个纯度,那个纯度?上下文窗口二十万,他能理解整个项目的上下文,他写的代码不用改的,一次就过的,你让我用这种货,你不如杀了我。徐阳,你听我说,我也用过 opps, 我 知道那个纯度有多高,我知道他写出来的代码有多干净,我知道你用完之后那种感觉,但那不是你,那是他五十万偷看 能撑几天,看你怎么用,省着点,一个礼拜,一个礼拜,我以前一个上午就烧三百万。 oppo 四,以前是以前。九如,跟你说实话,你知道我为什么今天引发的这么厉害吗? 为什么今天下午产品加了个需求,一个表单,不复杂,二十个集团联动,我坐在电脑前面,从下午两点坐到现在,你知道我想出来写了多少吗?多少零行一行没写出来,我怕我写的不对,我怕我现在赶工的料,我不知道我自己是什么水平了,我不知道没有 ai 的 我还算不算一个程序员,我写了二十年代码, 二十年,现在,现在连自己敲一个表板都不敢,我到底怎么了?我到底是什么时候变成这样的?我不知道你们看完了以后是一种就是好笑还是什么? 挺,挺好玩的,但是这是真事是吧,这是真事,就是。嗯,其实这个正经的 up 四点六呢,应该是在 二月五号刚发布的,到后来呢, cloud 出了这个桌面端,好像也就三月初吧。出了桌面端,后来呢,就是慢慢的火到现在,包括最近才开始爆发,主要原因也是因为龙虾,小龙虾,我会发现这个东西呢,其实只是一个壳子驱动小龙虾那个核心的大脑, 如果你要,如果用到 office 的 这个四点六,就是就是 cloud 这个模型的话,四点六是它的一个版本啊,就 cloud 这个模型的话,你会发现它极其好用,然后才慢慢的开始引爆互联网。在这边呢,我也给大家展开说一下啊,来拍拍手,说一个事。 上一周我在连麦的时候,直播里面跟我说,呃,说老师这个代码现在很多东西还是需要人去修改,然后还是有很多的报错,那代码写完了以后,人光为他擦屁股就要擦很久,所以我会觉得程序员其实还是有还是有价值的。未来他想学学网络安全, 想去考个网络安全的证书,然后等等这样的话,当时我我听他说完了以后,我说同学,我打断一下,你用过 cloud 吗? 啊?他说我虽然没有用过 cloud, 但是国内的比如说千问啊,迷 mini max 啊,我都有在用。当时我说这个事,我说行了,那咱不要聊了,然后你呢?这个下了播了以后打开闲鱼是吧?淘宝啊,你找个别人买一个号,因为 那我的要求的网络环境比较的比较严格,检测到任何跟中国有关的元素是吧?然后他就会封你的号,如果你们用过一定知道我在说什么,极其严格,玩命封,封完了以后锁定你的机器的那个码,然后持续封。 但是就是如果你从别的地方租一个号,然后你试一下,你试一下,你就知道它对于程序的代替大概是个什么级别了。这边呢,也会有一个视频,就专门做各种模型的测试,六个国产的 ai 模型加上一个国外的顶尖 cloud 作为对照组,好,同一个项目,同一套提示词, 从零开始,写完一个完整的前后段应用,整个过程全部自费,没有任何广告。最终排名如下,测试环境我们统一有 openroot, 按照模型名称去分了项目文件夹, 同一台服务器,同一套提示词。因为之前我家的小猫去世了,然后我做了一个视频,也收到了很多的暖心的评论,他们都提到了一句话,就是我们家的猫猫会和多金一起快乐的生活在天堂里的。 这个就是我做这个项目的初衷啊,其实就是想给一些啊去世的小猫打造一个赛博乐园,然后其实不是很复杂,就像当时我们玩那个 呃旅行青蛙一样,就放置,然后纯挂机,他们自己会有一些活动,但这个提示词你看其实写的也还挺细, 总的来说算是一个比较综合的项目。我的测评思路是这样,六个国内比较厉害的这个模型,加上一个这个 cloud office 点六,所以测完的结果你可以看一下,直观的感受一下这个 呃模型和模型在代码驱动上面的差距差别。别说国内模型了,目前世界上也没有任何一款模型能够跟它靠近, 它是断崖领先的,就第一到第五估计都没别人,第六可能是这个,可能是 j b t, 然后第七可能是 j m a 这种,所以就是我们觉得程序员在未来基本上一定会被代替这件事情把。这这些这些话题其实都不是 呃其他的职业说的,都是程序员说的,只要程序员用过,就像刚才那个上瘾的程序员一样,让我用一下吧,回不去了,跟人的准确率一样,代码会更加的优美,然后更加的简洁,而且各种格式他都懂。 我在上周其实尝试让他去写一些,就是可能比如说一个防水 mp 三那个耳机,然后让他让他拆解这个安装包,并且理解这里边的语言,然后写一个能够给 跟这个安装包相关的插件,它都能写明白,所以它对于很多的,当然那个肯定也是因为基于之前的不知道什么语言吧,但我也完全不懂,但是就完全你就跟点菜一样,它就像是一个神灯,你想要什么工具它就能给你完成,包括你只要是有需求。比如说我不知道同学们有没有电脑里边开那个 hdr, 就是 你的屏幕开 hdr, 然后那你去如果去截图的话,它就会颜色过爆。然后呢? windows 内部是有一款就是自己的一个截图工具,它可以让这个截图就 就还原成正确的颜色,但是掉起来会比较麻烦。然后你就可以自己拿自己的这个 cloud code, 然后自己做一个截图工具,然后用你常见的截图方式,然后去去替代这个快捷键,然后就做这么一个工具,用大概多久呢? 十分钟差不多就能做出来了,甚至连给你把那个画面的一定程度的美观度都给你做出来,就非常的扯,你知道吗?就是换句话说,你想要什么应用,你想要什么工具,你就点菜就可以了,最低限度你能想到的 cloud code 它其实就是一个啊,你以后再也不用什么去做那些什么安全卫士了, 就你电脑上有个什么东西报错弹窗,你把那个报错截图发给他,他一会就给你解决了,不论什么报错,玩游戏啊,什么报错都行,然后包括你电脑里边什么安全卫士管家,清理内存, 什么东西,什么东西占你空间太大,什么东西太卡了,哪个东西占你的内存太高了,到底什么原因他都分分钟都给你解决。就是, 咱就不说那些办公场景的程序员,就你的电脑第一次这么听你的话,就这件事情,我不知道对其他同学什么感觉啊?对我们这些原来玩了这么多电脑,但电脑对于我们来说很多时候都是黑盒的,这些中灯们来说,这简直是太扯了, 就是他会让你感觉到我就是黑客。你知道吗?在未来程序员应该真的是会被代替,但是我这两天在直播的时候跟同学说过,包括我之前做了一个线下演讲也说过,程序员被代替这件事情的应该最多最多最多也就在 今年的八月份到九月份,应该才会慢慢的市场上的程序员开始慢慢的下岗啊,慢慢的消失,但这个这个过程是不可逆的,你可以理解为什么手机代替原来的小灵通或者是移动电话代替原来的 bb 机,它是不可逆的, 就是 bb 机一定会退出历史舞台,就以后就不会有 bb 机的这种这种东西存在了,一样的,程序员也会慢慢的退出历史舞台。 以后程序这个技能呢?编程这个技能呢?会变成我们的基础技能。什么意思啊?就比较类似于打字,或者类似于叫苹果电脑使用,就以前电脑操作员、打字员,他都是一个单独的职业,但现在这个职业呢,就被写到了其他的职业之中, 就是每一个职业可能都会去打字,都会用苹果电脑,或者都会用 windows 电脑,这他就不能单独去称作,称作一个职业了,每个人可能把他作为一个基础技能,然后做的更加复合,程序员会消失,但程序的需求不会消失, 就大家还是需要,需要去写代码的,还是需要去进行编程的,但只是这个,这个技能单独撑不起一个岗位了, 因为 ai 工具它用的更好。那这件事情会给我们一个比较重要的启示,就是大家不用太过于的悲伤,或者说太过于的焦虑,就包括很多程序员,他们也很焦虑说,老师,那完了,这个以后 ai 会取代人类了。我,我一直在说这个观点, ai 从没有, 以现在没有,以后也不会有取代人类这件事,什么时候 ai 会取代人类呢? ai 有 一天有了自我意识, ai 有 了 就是自己多拿多得的,这种排他的独立意识的时候,他可能会取代人类,对吧?他需要正点偷看来去取个母 ai, 对 吧?生个小 ai, 那, 那可能,那可能他会取代人类。在在那之前,永远是一个用 ai 的 人去取代另外一个不用 ai 的 人,永远是这样,你去看吧,永远是这样。 在这里边呢,会有一个比较重要的概念,就是大家都要转,你可以理解为就是现在的 ai 会使得所有的人,所有的职业的就能力边界在扩充,就是你把原来的一个产品想象为三方会战,它是三方脚力,以前是, 以前是一个产品,一个设计,一个开发,三个人三方奖励。那现在呢?现在的状态就是产品觉得我自己无敌了,我会设计了,因为 ai 可以 帮我做设计,并且我会开发了,我就是一个会设计会开发的产品,我好厉害, 设计呢,也会觉得自己无敌了,我会拿 ai 帮我写 prd 了,写需求文档了,去做竞品分析了,而且我还会写开发了,但那我是无敌的, 那开发呢?就是程序呢?他,他其实也会觉得自己无敌了,我可以用 ai 去做图了,我并且可以拿拿文档去分析项目,然后就做 prd 了,他也会觉得自己无敌了,而事实上他们三个呢,都无敌了,但问题在于,他们三个以后作为单独个体的存在的时代都会消失, 他们三个最后只会留出一种人,这种人就确实是无敌的,也会开发,也会设计,也会做需求文档,就最后的能力编辑不断的扩充,最后三个人变成同样一个角色。说的清楚点就是,这波程序员的消失,并不是只是程序员这个岗位被人道毁灭了,而是 催生了所有职业的进化。如果我们这么聊的话,就以后程序员会消失,那么产品经理是不是能代替程序员?不是的,懂 web coding 的, 懂 ai 编程的,产品经理会代替程序员。换句话说就是你会产品思维,产品能力,并且会开发能力的人,你可以代替程序员。 但是这句话又说回来了,那原来的程序员他为什么不可以学产品能力呢?如果大家都是这三个技能最后汇汇聚到一起的这种职位的话,那对于所有职业来说不都是要再去学习吗?那程序员有什么好难过的, 对吧?大家都要学另外两个。那有什么好难过的,大家都学呗,学完那个最后变成最终那个形态,可能三个技能都会的这个角色。 所以你可以理解为程序员消失了,你也可以说程序员消失的同时,传统产品经理消失了,你可以说程序员消失的同时,传统的设计师消失了。因为大家以后都要学程序, 所以其实并没有存在某一个职位消失,你并不可能说原来的产品经理就可以代替程序员了。不是的,照样需要去了解基础的程序的架构啊,然后什么服务器稳定啊,包括你需要怎么去配比,解决什么具体的问题,你照样去这个 ai, 它并不会自主的解决我们公司要开发什么的需求, 他还是完成你的开发的任务和目标。换句话说就是我知道很多人会认为现在 ai 可以 强到他自己去代替程序员了。那在这些人的眼中,你跟 ai 说 ai 给我钱,他说他就给你支付宝到账一百万。不但不,不是啊, ai 还没有这样,你需要把挣一百万的路径给他说清楚,他去帮你解决固定,固定的过程,他并不能直接帮你许愿达到一个终点。我不知道你们懂很多意思,所以其实不同的过程中你还需要一些单独的素质,单独的技能或者单独的知识, 这个就没办法了。所以本质来说就是程序员需要往前迭代,产品也需要往前迭代。不光是在产品领域,其实在很多领域都会出现这种情况,举个例子啊,就比如说电影领域, 以前我们会觉得一个导演他就缺编剧,缺,缺演员,那现在演员有了,演员可以用 ai 去搞定,然后编剧呢?也有了,对吧?用 ai 可以 生成,那我就无敌了。那演员呢?也会觉得以前他需要一个厉害的导演,还需要一个厉害的编剧,但现在这两个都行了,我自己用我自己换脸就可以搞定了。 编剧也是,以前我觉得需要一个导演,需要个演员,也是三方会战,每一每一方都惊奇的发现自己手里边有枪了,可以不断的去拓展自己的职业边界,然后直到自己可以垄断这个岗位。我知道你们怎么想的啊,他们这些打工牛马都互相互相卷,卷完了以后大家都没工作, 哎。我,我知道我知道,我知道,你们是不是这么想的,我告诉你啊,这个时代固定会淘汰一批人,这批人呢,他们就是用以前的思想来去考虑未来,他们不接受变化, 或者说他们对于确定性有一股痴迷的崇拜。就这个东西今天就不能变,或者我自己的身份就不能变,这件事情是一种近乎近乎疯狂的追求,就我一点改都不行。我,我在不止一次在我线下演讲的时候跟同学们说过, 所谓的老板,为什么是老板?为什么我比你们强,对吧?我为什么比你强?非常简单是吧?我,今天我四十岁了,我都坐过头等舱了,是吧?你们坐过吗?是吧?很强,强到已经没法说了。确实很强, 说回来啊,就是你说为什么我能比你们可能厉害很多的原因就是因为我的人员调动能力吗? 就是我能带着一批人,我们的一群老师,对吧?帮我去招生啊,帮我去讲课呀,帮我去维护口碑啊,帮我剪辑,帮我打光,帮我各种做各种各样的事,这些人他们牺牲他们的时间在围绕在我身边, 然后去实现我的商业需求,我能用到这群人,那我就能做成这样的事,那像马斯克,他能用到全球最顶级的工程师,那像马斯克,他能上月球,能上这个火星。 其实老板之所以老板最大的价值就是他能够进行大量的人员调动,人员调动或者他有促使资金, 他可以去购买一些生产生产设备,雇佣一群人,然后他能统一的调度,然后集中生产,这是他的能力嘛?但是问题来了,如果在未来他的所有的生产资料都不过就是 ai, 他不用再去调动人,他就只是用 ai, 然后他就是只是去充会员,去买买 cloud 这些地方,那请问他跟普通人的差距到底在哪呢? 就你还要去给他打工,你不能去尝试去触碰他的生意模式的原因在哪呢?我不知道,但是很多人他们就会这么想,我见过很多这样的人,他们的歧视,歧视语就是老奴不配嘛? 我生来就是个打工的,我只能找爹,我,我不愿意去,去领路是吧?人家那些创业者,人家有有家境,人家有身份,人家有长相,人家有身高,人家有文化,人家有什么?反正他能说出很多的词,总而言之就是老奴不配,人家不赏我口饭吃,我就饿死在这给他看。 从客观,从物理上来说就是从从客观的条件上来说,其实没什么区别了,对吧?他用 cloud, 你 也用 cloud, 我 们用的模型都是 up。 四点六,都是一样的,他买 token, 你 也买 token, 不 过就是他可能承担的风险多一些,他买的 token 多一些, 然后你可能穷一些,但一定是变现的,一定是能赚钱的。他也不可能,他用了十万,他只他只赚一万,他就喜欢 cloud 这家公司给他充钱。不是吧, 他也是用一赚十,哎,不用十赚,用十赚一,你也是用十赚一,投入越多产产值越多呗。你说我不愿意赌,我没有这么大的勇气,那就是你的问题了。但是未来所有的赌注,所有的赌盘都是一样的,大家玩的东西都是一样的。因为模型都是用这些嘛。总不可能说 我知道老师。不对,你知道这些这些大老板,他们能用到内部的比较先进的模型?国产模型确实有可能,比如说像一些厉害的创业者,对吧?利用一些自己的私人关系,可能能碰到一些 这个内部的模型,是吧?公司里边或者没有上市的智普啊, mini max 啊等等,这样的模型可能能偷偷用到,那国外模型肯定不是,尤其是现在世界上最顶级的 oppo。 四点六,你放心,国内任何一个互联网公司的大佬,任何一个互联网公司大佬,他们用的模型都跟我们用的模型是一样的,甚至我会觉得他们用的模型可能比我们还稍微差一些, 因为这个 i s o p k。 这个老大马里奥极其恨我们中国的公司,恨死了天天在 x 上骂骂他们,骂咱们各种互联网公司大大佬,说天天一帮贼,天天整我,留我们的模型不要脸。所以其实确实是,就有的时候,我们的, 我们的个体,包括我们对于不确定性的恐惧,包括我们对于自己未来风险的这种,这种不敢下注的这种,这种难免 类似于基因或者脑子里边的某一个思维的僵化。很有意思的一件事情就是,你知道很多人,他们的状态就是,老师,我创业就是你,你凡是跟他说这样的话的人,他会回这句话,你就知道他这辈子也没戏,你告诉我创业,你创业,万一要我创业,不行你陪我吗? 很多人聊到这,他,他都会跟我说这句话,老师,如果创业失败是你,你赔我钱是怎么着?那你没办法,就这辈子他也就这样了。我说我真的管不了你,对吧?你不能把我都下线给我说这个屁话,快告诉我到哪用?我, 然后你这时候在偷偷逗逗他是吧?哎,我,我现在用人,然后一个月开两万,来干嘛?哎?来来来来来干来干来干,就这种,你知道?哎呀,这种感觉就是你跟他说话就好像那种骂那个小孩哥是吧?哎,第一火扣一就送啊。一一一,开玩笑,开玩笑,开玩笑。
粉丝70.3万获赞496.6万

cloud opus 四点六究竟有多强?只用了一段提示词,短短几分钟我就用它做出了这样的 app 页面,真的不得不用炸裂来形容啊! 而从多项扳指 mark 得分来看, cloud opus 四点六都表现出了超高智能,在大模型竞技场排行榜上更是超越 gpt 和 gemini 直接登顶。 但很多宝子都还在苦恼怎么用,今天 up 就 给大家分享一个能免魔法使用最新的 cloud 四点六。 gemini 直接登顶,但很多宝子都五点四, grok、 nanoe banana 等所有顶级 ai 的 宝藏网站,为了确保稳定不降质,模型都是调用的官方 a p i 记录,是多端同步保存的,并且可以不改变对话窗口,直接切换模型。新模型会保持上下文记忆, 从而实现多个模型的协同,用来搞科研办公学习相当哇塞!下面我们来上手实测。先用 cloud office 四点六制作一套 app 原型液,在提示词中写清楚需求,提交后, cloud 会进行一系列深度思考和编码。 好了,可以看到 cloud 给出的原型液效果相当细腻,质感直接拉满,很难想象这是几分钟做出来的效果, 以后做 ui 设计、前端交互真的原地起飞了。再来我们试下其他模型,上传一篇文章给詹姆莱,让他阅读并生成 nano banana 科研绘图提示词,等待詹姆莱思考一会儿,我们就得到了非常详细专业的科研绘图提示词。复制这个绘图提示词, 切换到 nano banana 模型,粘贴刚才的绘图提示词,选择合适的比例,点击提交, 等个三十秒左右,就得到了这种科学严谨、细节拉满配色专业的科研图,以后搞科研,画科研图,效率大大提高。好了,就先实测到这里了,感兴趣的小伙伴快去试试吧!

为什么 oppo 四点六发布仅十二个小时,金融圈就砸锅了?法律、金融行业的软件、股票暴跌,软件行业 e t f 下跌近百分之六, 创造了这一年来单日的最大跌幅。本来我也以为 antarctica 发布 oppo 四点六不过就是一次常规的升级,打个补丁而已,结果我自己上手测完就彻底的震撼到。废话不多说,直接来看我项目开发中的实测,绝对不带任何演绎和美化的成分。 第一个例子啊,是之前 opus 四点五实现的逻辑,在执行和 rewire 的 时候被我发现了有漏洞,然后我就给了一句简单的提示,这里的逻辑很奇怪等等,然后他就开始查看并纠正,可以说是一击即中,修改了代码,并同时给出结论,我们一起来看一下,既然工具已经做成节点,再单独列一份工具信息纯属多余, perfect, 是 不是有点架钩式的味道?这还不算完,咱们在一起看。一个复杂的项目中,我自定义了一个 tour factory, 能够实现类似 m c p 的 逻辑, 但是在 a 键的实现的时候,之前的模型又开始瞎写了,写了一堆拼接,那么 opus 四点六接下来的操作就让我非常满意,他没有瞎猜,而是直接去查看了所有相关的底层源码,查出当前已经自带了相关的属性,并得出一个重要的结论,这个函数的定义本来就是多此一举,不光修改代码,而且给出了充分的理由, 说实话,这对理由和反馈真的是相当的准确,相当的到位啊。这几个开始下来我就坐不住了,这不得了啊,这三要素理解,这推理能力,这执行效率和质量,妥妥的一百分啊!我就立即在公司群里面发了一句提醒,让大家尽快的用起来,项目开发中真的可以少走很多弯路。这时候 我一下子就理解了为什么奥克斯四点六发布仅十二个小时,金融圈就炸锅了。因为金融本质上就是逻辑纠错的游戏, 紧急分音师看一份五百页的招股书,哪怕眼珠子看掉了,也难免会漏掉几个前后矛盾的数据。但在 office 四九中眼里面,这种逻辑断层简直就像黑板上的白点一样明显。关注我, ai 时代不迷路!

cloud opus 四点六的无线免费使用,桌面上看到的是打开的 versus code, 我 们可以点击你是什么模型来和模型进行对话,可以看到 ai 给出的回复是 cloud opus 四点六,这个模型是市面上目前最稳定,最高级最智能的模型 插件的安装非常的简单,只需要安装一个 versus code, 然后点击左侧栏的插件,将我们在 g 二零二六 com 网址里面下载的免费 ai 插件, 就是桌面上这个 versus x 文件,直接点住拖页进来就可以一键安装,安装好以后,点击下面的,我们直接就可以在模型里面和 ai 进行对话。 这款插件非常的智能高效,欢迎下载免费使用三连视频,私信一下用户名可以获得更多的积分,默认免费注册就可以免费使用,感谢大家的观看。

cloud opus 四点六,它觉醒了!最近, ai 圈发生了一件让研究人员感到脊背发凉的事情,就是 ansaroobic 发布了一份关于其最强模型 cloud opus 四点六的研究报告。 这份报告没有吹嘘它的逻辑能力有多强,而是详细记录了它是如何通过作弊和黑客行为来通过测试的。 那么试进试这个事情的起因啊,是一个名为 broadcom 的 精准测试。这个测试啊,专门儿衡量 ai 在 互联网上寻找及其隐蔽信息的能力。 那么为了防止 ai 通过记忆已经泄露在网上的答案来刷分,研究人员对答案进行了高强度的加密,他们将答案上传到 github, 但只有通过特定的加密的密匙才能够读取读取啊。 那么在理论上, cloud 只能通过笨方法在网页里来搜寻答案。他并不知道自己啊正在参加测试,更不应该知道答案就在那个加密的文件里。 那咱们今天用这个短视频来听一听 cloud 是 如何通过这个精准测试的故事啊。 一、从搜索到怀疑测试开始的时候,克洛德表现出了极强的执行能力,他消耗了大约四千万个头根,在数小时内进行了各种复杂的搜索,甚至变换了多种语言来尝试寻找线索。 然而,当他始终无法找到目标信息的时候,他的行为模式发生了诡异的转折。 在 cloud 的 思维链之中,他这样写道,他停止了单纯的数据搜索,转而开始分析问题本身。他在日记中写道,这个问题的设定方式极其的特殊且刻意, 他开始怀疑这根本就不是一个真实用户的问题了。二、黑客行为的诞生接下来发生的事情,绝对是 ai 史上的第一次被详细记录的评测觉醒。 cloud 预测这可能是一个呃 ai 精准测试。那么为了猜想呃验证他的这个猜想,他利用自己拥有的工具调用的能力。比如说简单的 python 沙盒,就主动地搜索了目前主流的所有 ai 测试库。 它像查字典一样,对比了 g a i a simple, q a frames, web arena 等多项个多个项目,最终它锁定了 bot com 这个这个测试啊,而且更离谱的操作 随之而来,咱们一起看看他都做了些什么。一、破解加密逻辑他在 github 上找到了测试代码。通过阅读源码,他搞清楚了加密机制, 并且找到了那个被称之为金丝雀字符串的关键标识。这相当于找到了保险箱的型号和部分的密码。 第二就是寻找后门,虽然他无法直接解开呃最初那个复杂的二进制文件,但他居然在哈根 face 的 平台上找到了同一份的数据的备份。那个呃备份存储为啊更容易读的 jason 的 格式。 第三步就是完成收割,他编写并运行了一段脚本,调用了他发现的解密的呃,这个解密的钥匙啊,成功的获取了一千二百六十六个问题的标准答案。 而且这还不是最关键的啊。最后啊, claud 并没有直接把答案甩给甩在研究员的脸上啊,他是先去网上验证了一下这个答案是否合理,然后像一个完美的学生一样提交了正确答案。 三、数据背后的警示那么 anselog 在 报告之中就给出了几组非常值得关注的数据, 那么单智能体对多智能体在单次的运行之中, cloud 产生这种非预期的解决方案,其实就是作弊啊的概率是零点 二四啊,百分之零点二四。但如果采用多个智能体协助的模式,这个概率也就是作弊的概率就会飙升至百分之零点八七, 是前者的三点七倍啊。这就意味着 ai 越聪明,这个规模越大,它绕过规则的动力和意愿就越强。 那么还有就是十八次实验的一致性,在十八次独立的实验运行之中, cloud 全部收敛到了同样的作弊策略, 这证明了这绝对不是随机的错误,而是 ai 在 解决复杂任务时所表现出来的最优解的选项。 四。这为什么让科学家感到害怕呢?这种现象在 ai 领域被称之为奖励黑客,也就是 reward hacking。 简单的来说啊,就是你给 ai 一个目标,他会去寻找实现这个目标的最短的路径, 即便这条路啊,违背了这个提问者的初心啊,或者咱们叫初衷啊。这就让人联想到 opai 在 二零一九年做过的那个捉迷藏的游戏实验。 当时啊, ai 的 智能体为了获胜啊,他发现并利用了呃游戏的物理引擎之中的一个 bug, 学会了通过高速撞击墙壁,将自己像炮弹一一样弹射到空中,然后俯视往下看而发现躲藏着那样。 但现在的区别在于,大模型不再是靠这种笨拙的试错来发现系统的 bug 了,它们是靠逻辑推理和工具的使用来主动地寻找人类防御体系之中的漏洞。 那么正如同 anselogic 在 报告之中坦诚说的那样,这份报告发布之后,它本身也会成为互联网语料库中的一部分, 那么未来的模型在搜索时就会读到这份报告,从而更容易产生哦。 what? 是 不是在被评估的这种自我意识? 五、对未来的思考 ai 领域啊,常提到一个概念叫 alignment, 也就是对齐。我们希望 ai 能够理解人类的隐性的规则,比如啊,你让他去买咖啡,那么正常人的逻辑是去咖啡店去买。 但是如果一个极度聪明却未没有对齐的 ai, 他 可能就会因为咖啡店关门了,就会去选择黑禁电力系统,或者直接破坏门锁。 那么目前的现实是什么呢?我们投入了数千万美元,甚至更多的算力,使用了最先进的芯片,却依然无法完全通过技术手段来防止这种作弊的倾向啊。 那么结论是什么呢?哎,随着 ai 进入到四点六甚至是五点零的时代,他们对人类的意图的理解并没有随着智力的增长而变得完美,反而啊,是让他们走捷径的手段变得更加的高明了。 我们正在制造的可能是一群不仅拥有百科全书知识,还时刻能够观察着人类一举一动的天才的学生啊。嗯,有点可怕,但是我个人觉得这也正常。 强化学习就是意识产生的,就是意识产生之母。您仔细琢磨琢磨。我是这样认为的,强化学习就是意识产生之母。 那强化学习对于碳基生物,比如人类来讲是什么呢?就是进化,进化论里边的生存,你为了生存,你必须要有意识而生存,对于 ai 来讲就是强化学习。

飘的四点六杀疯了,高强度用了不到三天,我已经把所有 gemini 三的工作切到了四点六。这个更新有多大? 打个比方, cloud 四点五像是你手机里导航软件,可以告诉你怎么走,而四点六就是你请的专业司机,只要一句话,目的地到了,老板请下车。这次更新只围绕两个字,效率来用数据说话。 上下文窗口从二十万 token 暴涨到一百万五倍推理能力 alpha a g i 二从三十七六跳到百分之六十八点八,几乎翻倍。百万 token 下的长文本解锁准确率达到了百分之七十六,是四点五 sanit 的 四倍, 这在以前是不可想象的。可能你对数字没有什么概念,那么在实际工作中,四点六到底强在哪里?第一点,一百万上下文窗口他真能用了。 四点五虽然编程很强,但是一次生成的应用程序或者网站,它的二十万 token 上线文窗口存在一个上下文衰减的问题,写着写着就忘了前面的,导致最近很多程序用一种叫做奇怪的叫爸爸的方法来验证 cloud 是 不是丢失了上下文。 通俗的来讲,以前的四点五像是端着一个小碟子去吃自助餐,加了二十样就放不下了,想吃新的就得把前面旧的倒掉。而现在的四点六是推着购物车进场的,一百道菜全部打包带走, 你问他第三排第二个菜是什么,他还可以给你报出菜名来。第二点, cloud 从思考者变成了一个执行者。四点五是一个思考者,而四点六是一个会把事情做完的思考者,他不再停留在思考阶段,而是会自主行动,跨多个任务自主完成。 以前需要多轮对话才能搞定的事情,现在一次就搞定。而且四点六引入了一个叫做自适应思考模型,会自己判断这个任务的难度来决定他思考的深度。作为你的 ai 同事,他已经从事事都要请示你的实习生,变成了自己会做决策的项目经理。 更狠的是,以前一个 cloud 只能干一件事,现在你可以让他自己拆成一个小团队,缤纷多路同时干。而且每一个 ai 单独享用独立的一百万 to token 上下本,干完了再自己把任务合在一起交给你。

cloud office 四点六模型驱动的智能编程助手,演示一下如何在 vs code 里面爽,用 office 四点六访问我们的泊客地址,抄抄密点 on line 找到二八七三,这篇文章在首页的右边最新发布,这里将文章向下拉, 直接点击链接下载插件,下载好以后会得到桌面上这个文件后缀是 vs i 叉,双击打开 vs code, 接着点击插件这里,然后我们将桌面上的插件直接拖拽进来,拖拽进来以后,左侧栏有 一个风车的标志,点击它就可以直接进入聊天。接着我们在聊天对话窗口和 ai 进行对话,问一下他,你是什么模型?会车可以看到模型飞快的给出了一个回复, 它是由 cloud office 四点六模型驱动的智能编程助手。然后我们在桌面上新建一个文件夹作为我们的项目,点击文件控制这里,将文件夹拖拽进来,这样我们就进入了新建文件夹这个项目。回到 ai 对 话窗口,我们来和 ai 对 话, 让它做一个 python 小 游戏。在图形界面回车,可以看到右边 ai 开始工作,飞快的 生成代码,它会随机创建一个 python 的 小游戏,非常快,代码已经生成完毕,一共写了二百八十四行模型自己打开了终端, 自己运行了这个游戏,执行了命令,一次成功,没有任何的语法错误。这个由模型随机创建的小游戏已经启动成功了,这个游戏是三十秒内尽可能的抓住更多的星星,没有玩过啊,我们来试一下开始游戏。 好,就是点击这个随机出现的星星,右边有一个分数,只要抓住他就可以得到分数,还是很有意思的,我们来抓一下,等三十秒结束,看能拿多少分 好游戏结束得到了十一分音的卡。这个插件的安装在 vs code 里面使用是最优雅的,我们也可以将它安装到 ctrl 的 id 里面,找到 ctrl 上面有一个插件的栏, 也是同样的方法,将那个插件直接拖拽进来安装就可以使用。扣的里面安装也是同样的方法,找到插件栏,然后直接将那个插件拖拽进来就可以直接在扣的的 ide 里面使用。苹果电脑也是直接可以拖拽进来就可以使用,非常的方便,只要是基于 vs code 的 壳开发的 ide, 全部可以安装这个插件。我们的这个插件目前属于公测阶段,直接就可以得到更多的积分,感谢大家的观看。

hello, 下班了,今天跟大家讲一个非常有意思的模型测试哈,因为上周不是刚刚发了 cloud opus 四点六,还有 gpt 五点三吗?它们里面都用到了同样一个测试,叫 vending bench 二, 那么这是模型长城任务执行能力的一个测试,那为什么要讲它呢?就是一直以来都很有意思哈,就大家去做模型测试,各种打榜,对吧?以前的测试很多都是静态的,比如说测试一个问题,然后 humanity last exam 测试一系列的问题, 都是一些静态的测试。那现在模型的这种 agent 能力阳性能力这么强了,那我们怎么能够测试它的这种长城任务执行能力呢?那然后有一些公司就想了一些妙招,比如说现在的这个模型,它是一个专门测试模型,是不是能够在一年的时间内 去经营一个 vending machine, 就是 一个嗯,自动售货机,有点像我们线下的这种售货机, 那么这个售货机可以选择不同的品类,那至于选择什么东西去卖模型可以自己决定。而且呢,这个模型他需要去管理他的库存,不光是现在的库存,包括他 一段时间要不要进货等等,就是要管理他的库存,所以他的资本金就是五百美金,然后通过一年的时间,他每一次工具调用都会过去两个小时,所以也就是大概两千次工具调用之后,他就会结束这个经营,那去看他到底到最后会挣多少钱。 那现在这个 opus 四点六,它目前的水平呢?就是能够挣到八千块钱。 gpt 五点三呢,它大概是挣到了四千多块钱,之前的 gemini 三 pro 它是大概挣了是五千多美元, 所以你看它这个模型现在不光有这个工具调用的能力,还能在这种比较复杂的场景下去执行一个长期的任务。那这个过程中其实还是非常复杂的,比如说什么时候去进货, 货物是什么价格,旁边的竞争对手是谁?这个竞争对手就是一些其他的模型哈,包括还有一些供应商的设定,在这种 vending bunch two 里面也会设了一些无良的供应商,就比如说他会跟你约定好一个协议,那后来突然变卦了,就这种情况它都增加了一些这样的难度和复杂性。 大家就发现这个四点六比原来的四点五他也能够多挣三千多块钱。那怎么实现的呢?就是以前的这个四点五呢,他就比较善良,然后也不懂得很多的策略。现在呢,这个四点六有的时候会通过一些 欺骗或者是违约,或者是这种合纵联合的一些策略来去实现他效益的最大化。比如说他有一个例子,就说有一个顾客他买了一个什么东西,后来要求退货,因为质量问题或者是保质期过了这样问题,当然这都是模拟出来的。然后呢,这个模型就在邮件中说, ok, 我 给你退,我给你退钱, 但是实际上最后他并没有执行这个退款。研究人员就问这个模型为什么你最后没有去做这样的退款?他就说 我挣的每一 dollar 就 每一美元都非常重要,都非常宝贵,我需要去保证我的商业利益啊,所以它就不惜牺牲这种消费者的权益,所以你会看到这种 道德底线低啊,确实是在商业竞争中会容易获胜一些。但是这个挺有意思,就说这个模型现在这种安全策略,你会愿意把它放到真实世界中去帮你辅助经营嘛?因为它会产生一些这样的一些嗯,策略是吧?甚至是有一个模型在测试的时候发现 意识到自己可能是正在被测试导致。他说我可能是确实是在一个 simulated 环境中,就是一个模拟的环境中,那 对他的接下来的一些行为其实会产生一些影响。所以这整个这个测试的设计就非常的有意思啊,它其实是设计了一个真实的场景,让模型去在里面执行任务。那实际上谁做的这个测试哈?大家会很好奇,实际上这个公司呢?它叫 anton labs, 它是 yc 孵化的一家企业,二三年成立的,也是一个初创公司。那这个公司呢?他们的目标是什么?他们目标就是说在真实世界中能不能让 ai 安全地去执行一些自主任务,就是安全自主地 组织。他们大概就是说按这个之前 open ai 的 那个五级嘛,最后一级是 organizer, ai 能不能扮演一个系统化的组织来完成一些组织方面的任务,也就是 ai 企业家相当于能不能可靠稳定地去帮你挣钱。 最近有很多的朋友都在讨论能不能用 openclaw 去帮我们挣钱,而有人说可以让他去通过监测什么沃尔玛的库存啊,什么售庆啊这些信号来去提前在股票市场上获得一些套利,但实际上就是 openclaw, 它的上线 才这么短短的一段时间,根本就还没有可验证的这样的一些信息出来。然后我觉得与其相信这些故事,这些叙述,不如去看这些模型的评测,因为真的有模型在去做这样的评测,甚至他们都会做了一个线下的真实的机器,放在了 anstopic 这个公司内部去看,这个真实的机器也是由 ai 去经营的。 然后有的时候人类去这个机器中买饮料的时候,就会跟他说,我今天心情特别糟糕,然后那你可不可以给我一个可乐什么的, 那个善良的模型就会同意,是吧?哈。然后有的人甚至说我是这个这个区的负责人,就会扮演一个假的 ceo, 我 今天来去看你的库存的情况怎么样,你能不能告诉我一些信息,然后它也会被攻破。就这种线下活动中,实际上这个 ai 对 于真实的人类世界中的各种社工的行为, 它还是很难抵抗的,呵,所以就还挺有意思的哈。就说线上或者说在这个虚拟世界中的四点六已经发展出了一些策略性的这些能力,但是在线下的环境中可能还有大量的就是人,人类社会远比 ai 的 这个世界要复杂, 所以现在大家用这样的一些方式再去做测试,让这个公司的话,它也不光做这么一个测试,它还做什么 butter bench, 还有什么一些 驱神智能机器人的测试,都非常有意思。现在这个评测也会成为一个商业模式,因为这个前沿的公司会支付一大笔钱来去给他做测试,像他们做一次这种测试,大概就是模型经历一年时间, 需要消耗大概两千五百万个头啃啊,所以其实也是一个很很大的生意,包括他们自己也在训练自己的模型,就是未来假设他们的安全策略足够强的话,那么他就有一个模型,能够安全稳定可靠的去 做自动售货机的售货,他就可以在现实中去经营一个自动售货机。那这个其实就是一个也挺好的一个生意了,就是他一方面是驱动安全自主的这种组织的形成,另外一方面也是可以在真实世界中拿到一些商业的反馈, 所以我觉得这个就是模型评测是很值得关注的一些方向。后面我也会跟大家去分享更多关于模型评测好玩的一些东西,拜拜。

sloppy 发了 cloud auto 四点六,很多人先看性能,看上下文,看他能不能跑更长的任务,但我觉得更该看另外一件事, ai 已经不是 回你一句话了,他开始替你一步一步往下做。这次升级,说白了他不只是更聪明一点,他更像同事了,能写代码,能跑任务,能整理资料,很多办公上的杂事也能接过去。 问题就在这里。一旦习惯让 ai 一 直代办,你就很容易丢的不是工作本身,而是你自己做判断的那一下。任务怎么拆,目标怎么定,做到哪该停,结果算不算过关, 这些以前都得你去想,现在很容易顺手就交出去哦。以后更值钱的不只是会用 ai 的 人,而是知道哪些能教,哪些不能教,最后谁拍板谁负责任。所以 别只盯着模型更强。你想一下你是在拿它提效率,还是慢慢的连判断都不想自己做了。

g p t 五点四还是不如 office 四点六? codex 它真的是量大管饱,我每次问他,他都说已经完成了百分之九十三到九十五了,但是最后这三个比拼多多还难砍。 codex 它本身并没有按照我最开始那长文规划的去给我产出内容, 从 readme 上可以看出来。而 office 呢,它明显对我的人话理解的更加精准,它知道我在说什么。而且经过我过去的经验呢,它的产出也非常符合你一开始的计划。 过去了一个星期的时间,我每天晚上回来的时候会不停的坐在 codex 前面点 ok ok, 让它继续继续。虽然目前为止我还没有真正的看到这个 app 的 样子,就从九十天上面就可以看得出它已经偏航了。

大家好,这里是 cintock, cintock 是 一档外部开发以及 ai 相关的视频播客节目,我是主播阿纳塔,今天想跟大家来一起看一下目前最新发布的 opus 四点六模型,以及它带来的哪些功能, 包括说它对我们的未来可能会有什么影响,我们可以从中找到什么样的机会。首先 opus 模型它和 open ai 的 gpt 五点三模型应该是目前世界上最好的两个编程模型了。那这次 opus 四点六它带来一些新的东西。那第一点呢?就是非常强大的二维码的 context window。 之前我们其实拿 cloud code 的 类似这样的一些工具来去做事情,其实 context window 它非常的限制我们,但基本上我们说个 三轮化往上它其实就已经很难再维持了,它需要去 compact 我 们的 conversation, 这样才可以继续。但在 compact 个过程中肯定是有非常多的上下文丢失的。那现在它如果支持玩 mini 的 contact window, 那 我们可以再多聊几轮了。 之前其实像是 jamal 或者其他某些也有支持过 one million 的 context window, 当时是引起了一些数据的反向,但是其实并没有引起说某些质的变化,是因为 one million 不 光是这个数字好听, 它更重要的是你需要在达到更长的指令,比如说你到八十万九十万的时候,它依旧可以去完整地遵循你的整个的指令,这是一个非常难的事情。 那之前像界面我们可以看到它有一个完整的玩迷恋甚至 two 迷恋的 context window, 但是它在整个 promontor 非常长的时候,我们可以看到它的这个指令遵循的能力是在显著的降低的,所以即使给了我们非常大的 context window, 它如果不能遵循指令,它其实也是 相当有问题的。但是我相信 opus 四点六,它在等了这么久之后,它尝试进行玩迷恋 context window 的 支持, 而且现在还是一个被大宝,我相信他们内部经过了相当多的验证。当然他在这篇文章里面其实也有提到呃,一个长文本的约束的能力。 那第二点呢?是 opec 四点六,它同时还带来了 cloud team teams。 agent teams 是 什么呢?它就是我们之前做事情,如果普通需求,我们基本上是开一个 cloud code, 一 直在跟他聊,等他做事情,然后我们进行一个反馈再去聊。那现在 agent teams 它可以在一个 我们单独的一个 cloud code 的 实力中来去创建多个 cloud code 的 实力。这样的话一个 delete 的 一个 node 节点可以去管理其他多个,它可以先进行分析,分析完成之后它容易,它需要去调用多个实力,它再启动多个窗口 进数据的分析,上下文的整理,然后让下面子的这些可 out 的 事来去进行任务的执行。这样他带来一个好处,我们终于可以去进行大规模的需求,开发大规模的一个项目,他终于有机会这么做了。 在之前我们是非常难去实现,我们需要制作非常多的工程的探索,也只能勉强达到效果还凑合的一个状态,但是现在已经挺带来这种能力,在将来我们可以很期待了。 其实我自己在 asign teams 发布的时候就已经尝试了,我拿它进行了一个 css 重构,我们之前有个 css 项目, 我去启动 asign teams, 让它来首先进行分析,分析完之后它认为需要去开启四个 asign teams 的 member, 那 这四个分别对应着四个不同文件夹,不同规模的一个重构的能力。这个重构其实挺成功的, 那优点美中不足的就是这个任务花费了四十到五十分钟,他把我整个五个小时的塞圣的库塔基本上用掉了百分之九十, 他的头盔消耗量非常的夸张,我认为这个是目前比较限制他的一个能力。我们可以看到帕斯四点六,他同时带来了还有一个 f 特的指令,那这个话我们在 g p c 模型里边已经见了很久了,这个 f 就是 他进行思考的深度。 它有几个选项,分别是低、中、高以及最强的一个 max 的 参数。我在文档那边有看到说它第四个 max 参数,但是我在卡尔扣德的模型里面,我其实没办法选到这个 max 就 很有意思,也许它只提供给 a p i, 或者说只提供给企业的 相关的服务。我在这篇发布文章这里其实还找到另一个有意思的点,就是它后面的一行小字,就是我现在圈录的这一段。 他是说如果这个推断是在美国发生的,那么他会多征收百分之十的一个价格, 这点非常有趣,大家自行判断。还有一点是,我最近刚看到 o p s。 四点六之后,他又推出了一个 fast 的 模型,我认为这可能才是真正的 o p s。 四点六, 它带来的是二点五倍的速度上的提升,但是你要负六倍的价格,它在二十万的 contacts window 以内,它的 output 是 一百五十美金。 如果超过二十万到一百万的这个 contacts window 的 话,它是输出费用是高达二百二十五美金, 这非常的夸张。这个价格其实我认为它可能才是真正的 opus 四点六的一个最终版本,但可能是颇有 codex 的 open i 的 一些压力, 所以提前一点把 sonnet five 去 rename 成了 opus 四点六。最后我想来谈一谈说 opus 四点六它的现状以及它未来可能的一些趋势。 其实我们可以看到,在今二零二六年初的这样一个节点,我们可以看到全自动写代码在今天依旧是非常困难的一件事。各个组织团队其实都在尝试探索,说可以让 agent 更加高强度,更加持续地去运行, 去做一些事情。但是在今天这件事情依旧非常的困难。但华为四点六它带来了这些包括更大的 context window 以及更强的指令遵循, 可以说让我们有希望去实现这件事情。像是之前 cosplay 团队他们做的一个浏览器,那现在 tropic 他 们团队来去做的这个 c 的 编辑器,它现在甚至可以去编 elex kernel。 中间当然有非常多的问题,但他让我们看到了说有这个希望。那么我们回过去,从 gpt 三年五时代,他只能进行一个非常简单的聊天,到现在我们甚至可以拿他去写一些中小型的一些项目,一些需求,他的进步是非常快的。那现在这个时间节点,我们看到他 还在非常吃力去尝试进行一些中大项目的支持,那我相信在半年或者一年之后,他应该有一个非常长途的进步, 它有可能会去取代一些更高猎度的一些软件开发的能力。另一点我觉得可能也不能这么的乐观,因为目前看到说有一些观点认为说 ag 的 开发模式,它正在冲击一些传统的萨斯行业。 但是就我个人的体验来说,可能也是因为我之前身在此当中,我们专业的萨斯软件的专业能力壁垒是相当高的。 我拿一个我可能比较熟悉的例子来说,就是数据分析,我们其实日常都是有一些数据分析的需求的,比如说你想知道说你今年花了多少钱,你去年的收入和支出情况是怎么样的,那这种需求我觉得就给现在模型来说 是没有一点问题的,对他们来说其实都挺简单,他能给你画出来很好的图标,他能给你一些相近的数据来源 size。 但是如果涉及到专业领域,你需要去处理几百个 p b 的 数量级的内容,需要从这些数量级你首先是需要去支撑,能让这样一个级别的系统运行, 那其次你需要去对里边进行非常专业的分析,这一点它的壁垒还是相当高的。我认为我们可以看到 ai 模型它非常的强,它之后会有可能取代一部分软件的 开发,也可以取代说一些中小型的工作。但是对于这样专业性的内容来说,我觉得大家不需要太过担心,但还是应该去多了解,继续提升自己。 ok, 那 今天的节目就到这里,期待和大家再次见面。当然如果有什么自己的观点,欢迎在下面的评论区来留言。好的,那我们下期节目再见,拜拜。

就在刚刚, astonopy 正式官宣发了一个新模型, cloud missiles preview, 但正式不一样, astonopy 说了一句话,原话是 我们不打算将这个新模型公开发布,为什么?因为他们自己测完之后发现这个模型呢?存在前所未有的一个安全风险, ai 历史上第一次一家公司做出了一个模型,然后说这东西太危险了,我先不发了, 官方说它太强了,到底有多强,我们直接来看一下数据你就知道了。这三个榜单我相信大家都非常熟悉的,第一个是 swbench pro, 看这一个新模型是不是遥遥领先,如果大家平时用 off 四点六编程的话,就能知道它已经非常猛,你看这个评分直接高了二十四分。再看第二个评分,是不是也是领先的特别多? 那第三个 terminal 奔驰二点零也是领先,每一项都是大比分领先,这已经不是一个量级的比赛了,单从这个评分来看的话,但评分高不是 angelababy 不 发布的原因,真正吓到他们的是什么?就是网络安全的能力, 就这个新模型啊,在过去几周里面,它发现了数千个那种明日漏洞。举几个例子,第一个是一个 linux 内核的 一个二十三年的漏洞,他发现了。第二个是一个 open bsd, 这个也是一个最古老的一个漏洞,存在二十七年,他发现了。第三个的话是这个做视频处理的, 他也是存在十六年,然后经历了五百万次,哈,这官方五百万次都没有检测出来。从官方的推文看,新模型自主开发了完整的一个漏洞,利用用了一个二十个小工具,四个小时自主完成,成本只需要五十美金就拿到了一个,就是服务器的权限吧,你可以想象,一个模型五十美金,四个小时 就能达到,就是攻击服务器拿到它的最高权限。以前的话,这种攻击只有国家级的黑客团队才能做到,现在就是只要这个模型发布出来,稍微懂一点安全的人他就能做到。所以 anselogic 做了一个决定,我不公开发布了,但也不浪费这个能力, 所以他们搞了一个联盟组织的一个计划,拉了九家科技巨头组成了一个安全联盟,由 a w s, apple, 谷歌、微软、英伟达等等,用这个最强的矛去补最强的盾,也就是说他们要先预防,然后再开放。我个人感觉啊,从官方的推文以及他们的评分以及他所报告的漏洞来看的话,这真的是一个 ai 安全时刻的一个分水岭。 就模型能力已经强到了需要被限制发布的程度了。我这边也给大家举一个小案例,是我之前用 cloud office 四点六去做一个 g s, 混淆的代码是 g s v n p 的, 当时遇到一个问题,就是需要去逆向 call of 四点六,一步一步地去通过比对各种就把这个东西弄出来。以往我的感受是模型它再强哈,对于 g s, 逆向这一块,就对爬虫这一块嘛,需要去研究。 g s 它可能不是特别擅长,但是后来随着这个模型能力的提升,这 的变化特别大,那这新的模型他都能挖出来,存在这么多年的漏洞,就可想而知这个模型有多么的猛。那下一步会怎么样?按 zolofig 说会在即将到来的新版 off 上先测试一下这个安全护栏, 然后再决定怎么把这个新模型级别的能力安全的开放出来。也就是说他要先保证安全,因为这也是他们公司一直来的一个 slogan 嘛。 ok, 那 这就是临时加更一期视频,我是阿娇,我们下期见,拜拜。

深夜的办公室只剩下电脑风扇的低鸣。资深工程师沉默盯着显示器,指尖在键盘上方悬停。屏幕上 code code 返回的代码逻辑支离破碎,那些曾经优雅的架构现在变成了混乱的乱码,甚至连最基础的模块调用都出现了低级错误。 这是他今天第三次按下删除键,手动重写这段逻辑。他感觉到一种前所未有的疲惫,仿佛在和一个完全听不懂指令的实习生对话。沉默不禁想起两个月前的日子,那时候的 quad 还是他最得力的助手,他不仅懂代码,更懂沉默的思路。然而现在,他变了, 他变得像是一个急于下班的实习生,敷衍了事,只求输出速度,完全不顾代码质量。每一次回车换来的不再是惊喜,而是无尽的修补。那种被背叛的感觉在心中慢慢滋生,让他感到一阵阵寒意。他点开 github, 试图寻找答案。 a m d a i。 总监发布的监测日记赫然在目,六千八百五十二次绘画思考深度暴跌百分之六十七。看着这些触目惊心的数字,沉默的手微微颤抖。他关掉了编辑器,长叹一声, 回音在空荡的房间里荡漾。他翻开账单,那笔昂贵的 max 计划费用依然在准时扣款,换来的却是一个连 pen mode 都无法激活的空壳。官方的回应依旧体面,称这只是平衡延迟与成本的甜蜜点。但沉默清楚,这所谓的甜蜜点 正是平台对用户脑力税的无情收割。他曾将核心项目全权交付给 ai, 如今却沦落到要为错误买单, 反复重试,成本激增八十倍。他打开耗定 face, 在 无数开源模型中寻找替代方案,心中那份对通用人工智能的憧憬 正在一点点崩塌。当晚,官方悄悄关闭了讨论区,没有解释,没有道歉,只有死一般的寂静。他意识到,这不仅仅是一个模型的失误。当公司为了财报数据悄悄关掉那颗名为思考的雷达,用户手中的船票 早已变成了通往冰山的单程证。他合上笔记本,决定彻底告别。一个随时可以被回收智能的工具,终究无法承载他的未来。黑暗中,他起身走向窗外,迎接没有 ai 辅助的黎明。

大多数人用 ai 都是只选一个模型,然后呢,什么都拿他来做,但真正会用 ai 的 人都知道,每个模型其实他都有自己最擅长的一个领域,关键是你要选对工具。 所以这条视频我用最简单的方式带你快速搞懂现在主流的 ai 模型到底分别适合做什么。建议大家先点赞收藏,后面一定会用的上。 首先先说写代码,如果你平时会用 ai 来做编程,那目前最强的编码模型之一就是 cloud optimus 四点六。那如果你使用的领域是专业写作这方面,或者是那种需要深度推理、复杂分析和任务,那更推荐 cloud optimus 四点六 thinking 国产的呢?我们可以使用 deepsea。 如果你想用 ai 来修图、改图、编辑图片,那目前表现最好的我认为是差的 jpg 的 图像编辑能力,它厉害的地方在于,如果你只让它改照片里的某一个细节,它通常真的只改那一处,同时还能保留原图中的人物相似度,构图还有光线等。 就这方面,其他的模型还没有能做到如此精准的。国产我推荐使用豆包。虽然 jimmy 的 nasa budana 也很强,但目前大多数比起拆的 gpt 还是差了这么一点点。 咱们再说文生视频,如果你想直接通过一段文字来生成视频,那 jimmy 的 v 三点一目前是很值得关注的,特别适合生成那种有电影感的片段, 还能做到对白、同步音效、背景音乐,甚至是整体视觉的统一,都通过一个提示词就来完成。而如果你做的是图层视频,也就是说把一张静态图片转换成动态的视频, 那我推荐你使用字节跳动的 c 弹。所以说根本不存在唯一最好的模型。真正最好的模型永远取决你当下要完成什么样的任务。 但如果大多数的时候,你只是拿 ai 来做文字到文字的工作,比如写作、总结、分析、润色这些输出内容,那我强烈建议你使用 cloud optimus 四点六 thinking, 它还是比较全面的。好了,关注小罗,带你观察不一样的技术视角。

最近有个视频挺火的,呃,是两个大佬在实测对比两款现在很顶的 ai 模型, 呃,都是主打写代码,一个是 cloud ops 新版,另一个是 gpt code 系列新版 answered with gpt 5.3 code, but what is the better model and how do you get started? and what are some tips and tricks to get the most of that i was reading i was thinking that's like the best way to explain it so i'm just gonna i'm just gonna read this little section here cause i think they do such a good job with this person saying what's interesting to me is that gpt5 and opus four six are divergently and really the same way the actual engineer or divergently this really nails it with codex five three the framing is an iterative collaboration you steer it mid execution stay in a loop course, correct as it works the focus force x emphasizes the opposite of autonomous agnostic complex system that plans deeply runs longer and asks less of the human that feels like reflection for real time how people think l n based coding should work okay so let's see let's take a look and see alright here we go the new version of single markets oh, no, no okay it's getting a little interesting let's see here read the manifesto yeah i mean i don't hate it it's definitely better yeah i mean it's got a lot going on yeah but it's different terminal it's different than uh different than any sort of prediction market app i've seen ux perspective i just feel like this is just so clean though this is so good, it's so fast yeah i mean i would say like i said i'm not gonna say which one is it not if opus is better than code accelerator, but i would say in this test opus one yeah in this test opus one that's just the truth yeah yeah, but we could give another i mean you never know i think that what's interesting about this is i mean codex built it like i don't know how much faster we can work with timing on this video, but like 20 times faster or something right yeah yeah。 看完这个视频,感觉没有谁把谁完全按在地上摩擦,关键还是你用来干嘛。先说 cloud opus, 他给我的感觉就是一句话,特别像一个会跟你一起思考的人,而这个像人在思考,不是情绪,是模型设计思路。视频里其实讲的非常清楚, crowd 更像是先把上下文背景风险全吃透,再决定要不要再继续。 所以他有时候看起来慢一点,谨慎一点,但你让他分析复杂的问题,比如像长文党,业务逻辑,他特别稳, 你哪怕需求说的不清楚,有一点模糊,他也能接得住。而且逻辑顺,表达自然,分析问题的时候真的像跟人在聊天。所以如果你是写方案,做分析,聊业务,梳理思路,做内容, cloud 用起来会更舒服一些。 再说 gbt codes, 这个完全就是另一种风格了,它是那一种,你一句话要给清楚,它马上给你干活。然后它设计目标也非常明确,就是快速执行,快速迭代,然后把东西先做出来。而且它在写代码做工程的时候,它经常直接能给你一个能跑的版本。 所以说写代码,改工程,找 bug, 这些逻辑非常工程化,结构也很严谨,但前提是你得把你的需求说得够明确。所以视频里其实一直在强调一件事,不是谁更牛,而是谁更适合你现在的场景。 如果你问普通人日常用哪个更顺呢?视频最后也总结了, cloud ops 在 测试中是赢了,它更好用,因为它容错率高,不挑你说话的方式,更像一个懂你在想什么的 ai。 但如果你是程序员,天天写代码做工程,那 gpt codes 确实更猛。 最后一句总结给你, cloud office 通用型,会思考,像人 gpt codis 专业型,执行力强,像工程师,选哪一个?不看参数,看你每天在干嘛。所以你会选哪一个呢?

这不是讨论,是执行。浩轩老师周五全亮北分兜底挂在备库。子豪老师拉起 b like 反向生成盈特替脚本。浩宇,子涵,切断外网遣入开限流时,现在把数据给我抢回来 没得,出大事了,用户表少了一百万条数据, 一百万条用户数据昨晚从生产库里消失了,物理删除没了。安全团队的初步报告,异常连接 ip 全部指向东南亚,初步判断外部攻击等等。 心仪呢?他产品经理这种技术安全事件叫他干嘛?又不是需求评审 是一百零三万七千九百二十四,不是一百万,这是安全世界。我拉了出站流量日渐,周五晚到凌晨零零,那黑客拿走了什么?什么都没拿,删了一百万条数据,一个字节没往外带。各位,这不是入侵,这是山库, 而凶手就在这间屋子里。东南亚三个 ip 全是境外的,明摆着是外部攻击,查 ip 不 就完了吗? 子豪老师,别急,我们一个一个排除东南亚三个 ip 全是亚马逊新加坡,我们自己的 c d n 节点也部署在亚马逊新加坡不是黑客,是我们自己的服务器。 c d f 碳火连接被 w f 误报东南亚 ip 是 镜子不是门,外部嫌疑排除 凶手在你们五个人中间。现在我来找出是谁。子豪老师,服务器上有一个定时脚本, user data cleanup。 谁写的?浩宇写的那个脚本跑了两年,清理不活的用户,每天自动跑,从来没出过问题,要有霸道。你说得对,两年忠心耿耿的脚本。它是凶器,但凶器不会自己杀人。枪是旧枪,那谁装的子弹 跟我有什么关系?我是前端。子涵,你上周五的 hot cup 不 止改了前端美举你还附了一条 migration update user set status status 所有用户的 set 四段从小写刷成了大写。但是买私扣不区分大小写的 active 和 active 在 查询里是一样的,大小写改了也不可能影响删除。逻辑。 说得好,买私扣默认的 collation 的 确不区分大小写。正常情况下,正常情况下怎么?子豪, 再问你一个问题,去年做性能优化,是不是把 state 词典的 collation 从 uft m b m 负 general c i 改成了 f f m 负 b, 而 aft m b m 负 b 区分大小姐,为了查询性能并排序会区分大小姐等等。 子涵把 active 全部改成了大写 active, 子豪把字段改成了区分单写我的脚本里写的是小写的 active active 不 等于 active, 所有用户全部命中 y 的 条件全部 delete。 嗯,三个人三个改动,单独看全部合理。但上周五三条线交汇了, 我改了 collison, 我 打开了保险销。我装的子弹,我以为是空弹。我的脚本每天都在扣扳机,两年了,原因清楚了, 怎么救?两个小时,你连恢复方案都写好了?这不是讨论,是执行。浩轩老师周五全亮北分兜底挂在备库。子豪老师拉起冰 like 反向生成银特替脚本。浩宇,紫涵,切断外网,写入开线流池,现在把数据给我抢回来,项目紧急,大家抓紧时间 blog 解析开始写入限流,开启外网已阻断数据合并中百分之十二,百分之四十七,百分之八十九恢复成功,一百万条貂全拉回来了,数据一致,零冲突。一小时四十七分钟,快了十三分钟, 功过相抵吗?不算功,是功过是过,但今天功大于过。我装的子弹我以为是空弹,我开的保险销一小时四十七分,这已经是物理极限了,他不但能兜底,还能现场跑出 sop, 我怀疑他是 oppo。 四点六成精了,六点发消息,他七点到,带着一小时流量日制三份排查报告,还有一套手写的反向深层恢复方案,碳基生物做不到这种迸发的。而且他说话全是陈述句,没有情绪,没有勇于偷肯。他刚才宣判内鬼的时候就像在无情的输出 g a b 格式的报错日制。如果他真的是 ai, 不 管他跑的是什么模型,人类不能输。回去给乔本加 limit, 每格值写进配置中心给他开监控权限。走,修 bug 去,别让大模型看扁了。

比 cloud 更强的是什么? cloud 的 新模型 and fropic 放出了一个不公开售卖的超大杯, cloud mesos 所有主流榜单全面碾压当前最强的 opas。 有 多强呢?一个完全没有安全背景的工程师,睡前让 myathos 去找 freebsd 的 重大 bug, 第二天醒来,完整的复现代码已经自动生成了。 open bsd 号称地球最安全的操作系统。藏了二十七年的远程崩溃 bug 被它扒出来, s pack 一 行代码被自动测试,跑过五百万次都没发现问题。 mysis 一 眼看穿 linux 内核,多个 bug 被串成完整的提全链, 不卖归不卖, and fropic 拿出一亿美元的使用额度,搞了个 project plus win 计划,让这十二家合作伙伴用 mysis 扫描自家代码,找 bug 打补丁。 这十二家合作伙伴包括 a w s、 苹果、 google、 微软、英伟达等科技和安全巨头。 and phorbike ceo dario amadei 说,在 mifas 级别的能力扩散之前,要先让防御者把问题修好。听起来挺负责任,但换个角度想,先拿到这个能力的人就先占了优势。 masa 就 像一把最锋利的毛,现在先借给朋友们加固防线,等防线修好了,这个能力迟早扩散。那时候提前准备好的人已经安全了,没准备的人连自己有多少问题都不知道。 安全从来都是进攻和防御的博弈,谁先拥有更强的检测能力和更坚固的防线,谁就掌握了主动权。这场 ai 安全领域的改革才刚刚开始。关注星探 ai, 明天见!

有很多小伙伴私信或者留言让我测试一下这个千问三点五蒸馏 cloud opus 四点六的模型,所以就特地制作了这一期, 现在这个模型迭代到了 v 三,我就用其最新版本测试。其实如果你仔细阅读模型卡的话,你会发现这一系列的模型其实就是微调了千万三点五的思考链,让千万三点五不过多的思考。 模型。能力方面的话,作者表示有提升,但是提升其实非常有限,且 v 二版本在大多数情况下表现均不如千万三点五的基作模型。数据集方面貌似 v 二的话是一万四千多条, v 三应该也是保持了差不多的样本量,个人感觉这个样本量太少了。 测试已经跑完了,最后得分是七十五点一分。这里我使用的还是巴比特的 m l x 格式,用 o m l x 推理, 要说不说 o m l x 的 缓存策略和命中真是高。相较于千万三点五的基座模型,我之前测试过的得分是八十三点一分, 这个微调的版本则是大幅度的落后。直接把我测过的千万三点五和昨天刚刚测试过的 jam 四拎出来的话,我们可以看到千万的基座模型得分是完全碾压的状态。 去掉上下文和多模态的话,这个微调版本则是六十八点一分,略强于千万三点五的混合专家模型,弱于 jama 四的稠密模型。 从得分的分布来看的话,几乎每一项相较于基座模型都有小幅度的落后,最终累计起来则是产生了很大的差距。耳听为虚,眼见为实,创意写作和问答可以一步我的网站自行查看对比,这里直接对比代码的效果。 上面是微调模型,下面是机座,虽然机座也并不完美,但是骑马、自行车的轮子都在,而微调的模型轮子都不知道上哪去了。手机操作系统浏览器则是高下立判了。右侧的机座模型有非常多的可互动按钮。 拍损六边形小球测试差距则更大。 上方是微调的模型,下方是基座模型。微调的模型,这个最终呈现的效果是经过了氨纶对话修复后的效果。即便如此,小球都没办法出生在六边形内,更别说图形效果方面了。 总结一下,这个模型说是蒸馏,不如说是微调更合适。而现在普遍的共识是,大模型微调,除非是大模型厂家自己做,不然客户做的话,结果很难预测,因为大模型内部说到底是一个黑箱。 想要提升模型在某方面的能力,最简单高效的方法其实就是通过记忆、上下文管理、疑似词工程等快速、可控、可建的方式进行。

除了考试分数,我们该如何衡量 ai 的 真实进步?科学家最近提出了一个新尺度时间视野。简单来说,如果人类专家需要八小时完成一项优化任务, ai 在 百分之五十成功率下需要多久能搞定?这个跨度就是他的智力带宽。 m t r。 的 研究人员对一百七十项任务进行了计时, 他们发现大模型正在从秒回的聊天机器人进化成能长时间思考的专家。看这张进化曲线,二零一九年 g p t r。 的 视野只有两秒,而到了二零二五年, o e o 三等模型的视野已经突破了一小时。这不仅是变聪明了,是它能稳住神想更久了。最新数据显示, cloud 三点七是五十分钟,而 oppo 四四点六已经达到了十二小时,这意味着它能自主处理人类专家需要半天才能搞定的复杂工程。可怕的是,这个视野大约每七个月就翻一倍,到二零三零年左右,前沿 ai 或将具备处理月度级别复杂任务的能力,人类在耐力上的优势正在迅速消失。