粉丝106.1万获赞1676.1万

我花了一千八百块钱买了克拉扣子最高会员,并且高强度扣子了一个月之后发现使用大模型的方式不是这个样子,而他应该看起来是 这个样子。很多时候我们觉得有一个全知全能的大模型就能够帮助我们完成工作了,但是其实真正能够高效帮助我们完成一个好的结果的工作 长的是这样,它是一个多个大模型串联在一起的一个工作流,那么能够支持多个大模型同步或者异步去处理信息的这一个基建叫做 pipeline 管道的意思就是我最近学的一个新词语。那么其实 pipeline 为什么能够帮助我们更加好地完成工作的原理就是它把原来的 一项工作的产出拆成了一二三四五六七八个步骤。然后呢,它能确保说每一个步骤上都能有一个独立的 ai 大 模型或者是智能体去赋能这个步骤。我们就拿日常大街用 ai 干的最多的事情写文案来 举例,你可以让 ai 直接给你生产一篇文案,你也可以把生产一篇文案拆成很多个可以被量化的步骤,比如说市场调研,比如说灵感收集, 比如说产品理解,比如说风格学习。到最后一步才是你把这所有的信息全部喂给最后一个 agent, 最后这个 agent 负责的工作叫做统一信息,他把前面拿到的所有的资料融合在一起, 然后才能给你产出一篇文案。多 agent 写作的一个好处就是说他这整一套系统是可以被附用的,大家为了达到旁边写一篇文案的这么一个产出,你可能会使用提示词,一篇一篇的提示词, 你但凡需求上有要改一下,你其实就会改,但是在你旁边有了这么一个 ajax flow, 基于这个 pipeline 的 ajax flow, 它的每一步信息会被非常流畅的传达,并且你甚至还可以给它加一层,叫做信息审核层,在这里会有一个 a 键去给它们的产出线打分,不行的话再给它 否了重新做,对吧?我一直觉得 ai 不 应该只被用在赋能最后一步产出的结果上,它应该被赋能在整个生产链路的每一个环节上,因为在每一个环节涨了百分之十之后,你的最后一个 这个结果的上升值就是一个指数性的上涨。那如果各位对如何在 cloud code 里面去打造一个多 a 阵协做的拍段感兴趣的话呢?在评论区留言,下期视频,我们着重讲一讲这个事情。

哈喽哈喽啊,今天来给大家做个国内主流大模型套餐从夯到拉的排名啊,那为什么会有这期视频呢?因为我发现还是有很多同学,不管是刚入门的啊,还是有一定经验的,对大模型套餐的一些细微差别还不是很清楚。 然后我本人也因为都是买过这七个大模型的套餐嘛,所以说我今天会从个人的使用心得、性价比对比和避坑指南来进行一个综合排名,并且我会对每一个模型都推荐一档我个人认为最适合大家的套餐。 ok, 首先是 cloud 会员,那他这边分为 pro 跟 max 两个等级啊,但实际上啊,不论你是哪一个付费等级,你都能使用到最新的一个模型。只是说你如果是 max 的 用户,你可能在刚发布的时候你就能够直接使用,那 pro 用户可能要等一等, 但是最终你都能用到最新的,就比如说前段时间新出的索尼腾和 opps 四点六,那现在 pro 的 用户也都能使用到, 所以我这边更推荐大家使用 pro 这一档的套餐。我自己用的也是这一个,目前用量也都是足够的啊,除非说你是啊,需要大量的研究,或者说有非常多复杂的任务是需要交给 ai 来做的,否则的话,像一些简单任务,你可以交给其他嗯,比较便宜的模型。 然后在使用难度上面, cloud 可能是最难的啊,但是这个不在我的评测范围内。那像其他的一些 啊,海外的模型可能用一些普通的魔法就可以,但是 cloud 可能用到一些啊,比较高级的魔法啊,那这边我就不再展开了,所以说综合下来啊, cloud 我 会把它排到一个 pound 的 级别。 然后就是我们的老朋友 gbt, 那 gbt 的 会员也是我见过不同等级区分度最大的。首先是购这个套餐你是用不了酷 max 的, 必须要升级到 plus, 也就是二十到一个月才能够使用啊。另外还有一点我个人不太能接受的,也就是 必须要升到这个两百到一个月才能够使用到目前 gbt 最好的一个模型 pro 这个模型啊,所以说,呃,综合下来看的话, 呃,我会推荐大家去购买这个 plus 的 会员啊,因为毕竟 codex 目前不存在一个降脂的问题啊。然后 gbt 会因为哪怕你有魔法,会因为不同地区会产生一些降脂的可能性 啊。所以说综合下来,我目前只能给到 gbt 一个人上人啊。这边也说一下,我曾经是 gbt 的 一个非常忠实的一个用户,用了也订阅了也快一年的时间啊,但是可能随着后面 top 的 跟 jimmy 的 一个出现啊,所以说啊,我已经有退订他的会员大概小半年的时间了吧。 接下来第三个就是国外御三家的新贵,谷歌的 jamie 啊, jamie 啊 ai 的 话也是分三个等级的会员, plus, pro 跟 ultra 啊,但是它这三个做的是要比 gpt 好 很多的,为什么呢啊,因为谷歌最强大的全家桶啊的一个能力在 ai 上面也体现出来了,它还有一款 非常强大的 ai 笔记本工具叫 notebook lm 啊,包括你自己的一些文章也都是可以放进去帮你统一整理的 啊。然后啊,像这样全家桶能力啊,那在最低档 plus 这一档,你就是能够直接使用到啊,然后你升级到 pro 这一档的优势是什么呢?你能够用到谷歌的 啊,编程相关的一些工具,像 anti gravity 就是 一款谷歌的 ai 啊,另外包括像谷歌的这个 ci 啊,它是对标 cloud code 的, 也是有一个命令行的 agent 啊,你在 pro 这一档也是能够使用到的 好吧,然后,呃,所以说这边我会推荐大家用 roj 档啊,如果你是有开发需求的,如果你没有的话,你就单纯的可能是一些啊整理类的工作,我觉得用 plus 啊就足够了,不然的话在这个笔记本工具里面你会每天会有限额啊 啊。并且谷歌还有个最大的优势,毕竟是大厂啊,他会给出非常多的优惠啊,包括前三个月的一些优惠啊啊,非常多的,比如说第一年的什么优惠啊,会有非常多啊,所以说我觉得谷歌在这方面啊,综合排名我肯定是会给到吭的。 ok, 那 聊完了国外的,我们再看一下国内的。首先是智浦啊,那我觉得智浦在魔性能力上面放在国内肯定是数一数二的 啊,但是它的缺点就在于它的稳定性,你就像我做视频的今天啊,是三月二十一号,我打开这个控制 plan 才发现啊,这三档竟然都会出现授信的一个情况啊,那也就证明它的算力是不够的 啊,并且我之前在三月初的时候有收到过啊,因为一些资源紧张的问题啊,这个 light 和 pro 套餐的入口会直接被关闭掉啊 啊,并且在 gm 刚出的时候,这个 light 套餐是用不了啊,当然我现在也不清楚,因为我用的是 pro 这一档套餐啊,所以说大家在购买的时候可以看一下,如果 light 这一档 啊,能够使用到最新的 glm 的 模型,那我觉得就买 light, 因为它的不稳定性,所以没必要买贵的。如果说没有的话,大家觉得 glm 是 国内最好的话,那肯定还是推荐 pro 这一档套餐啊。 然后啊,因为现在这个 open club 比较火嘛,啊,所以说 gm 也推出了专门龙虾的这个月卡,但是我看了一下,一个月才一亿托克,呃,就我自己用 open club 大 概一周的时间可能就已经用掉了, 就五到六亿吧,所以我觉得是不太够的。但是它这个 gm 的 这个 turbo 这个模型用在龙虾上面是非常好用的,这个我不得不承认。呃,但是 整个 gm 的 稳定性还是要打上一个非常大的问号的。所以说我这边综合排名啊,只能给智普 npc。 接下来就是国内的 mini max 啊, mini max 的 话,在魔性能力上面我觉得是不如呃, gim 的 啊,那它的优势在哪呢?第一是它的稳定性,第二的话就是它的量大管饱,大家可以看到它这边呃,有非常多的套餐种类。那 啊,大概归一下类的话,就是前三,上面三档是可以用到他的 m 二点七的,也就是前两天出的 m 二点七的高速模型。那下面三档就是普通的 m 二点七 啊。但实际使用下来,我觉得这两档并没有特别大的区别,就单纯的是一个耗时的快慢啊。那如果说你是什么 ai 从业人员对吧?我需要每天八个小时内去产出 一个固定的一个数,那我需要模型的返回非常快啊,那这个你可以去考虑用到 minimax 的 一个 high speed 的 模型,比如说这个极速版啊,如果说你只是呃玩玩,或者说你只是需要提效,不需要一个非常 啊快速的一个响应的话,那用下面的 plus 和 max 就 够用了。并且啊,同价位,比如说一百多价位的话啊, mini max 的 它这个 max 的 套餐量绝对是够用的,所以说,呃,我这边综合下来的话,会给到 mini max 一个顶级。 接下来就是 kimi 啊,那 kimi 的 话,呃,首先它的魔性能力,在年前它推出了这个 k 二点五啊,我当时也是买了这个九十九元这一档套餐去使用, 在当时它的模型能力是要比 g m 跟 mini max 好 的,但是后面随着春节前啊 g m 五, mini max 二点五,包括我现在最近的二点七啊的一个发布,那 一米二点五的这个模型啊,就被比下去了啊。另外它还有一点我觉得非常奇怪的,就是我同样的任务,我当时做过一个测评啊,用 cloud 啊,都用 cloud code 的, 然后国内的几个模型啊,什么 gim 啊, mini max 啊, kimi 啊,包括摆店啊啊,包括自己 cloud 的 那个套餐,我会发现 kimi 他 用的 token 啊,在相同的几日,相同的 需求的情况下啊,他竟然会用到最多的一个 token 啊,我也不知道他内部是怎么记呃怎么去算的啊。所以说 啊,如果说啊,硬要我推荐的话,我可能会推荐幺九九啊,如果你一定要用 kimi 这个套餐,因为九十九元是绝对不够用的啊,但是综合下来比的话,我只能给到 kimi 一个啊,拉完了好吧 啊,最后一个就是千问的百联套餐啊,那这个比较奇怪,我今天点开的时候发现它这里面只有一个 pro 的 高级套餐 啊,并且也是一个售庆的情况啊。我前面买的应该也是属于 light 那 一档四十多块钱的啊。然后它这个摆链的话,它的好处是什么呢?它除了可以用到啊,千万自家的一些模型之外,它可以也用到 啊,像 mini max 啊, gm 五啊, kimi 啊都能用啊,并且它也是能够用到 deepsea 的 啊,因为 deepsea 大家都知道官方是只有走量的嘛,是没有这种套餐的这种概念的, 所以说我觉得百联在这方面是做的比较好,但是我也没有。呃,在百联的套餐里面去用过 mini max 跟 glm 五,因为我觉得这种非官方的啊, 我之前也用过一些这种接口平台啊,一些啊三方的,我觉得在三方的接口里面,我觉得还是会出现一些降智的情况,所以说如果你要买百联这个套餐,我建议就是还是奔着去使用千问这个方向去买好吧。然后,呃, 但是他的综合能力是比较强的,所以说我这边会给到一个 n p c ok, 最后我再分享一下我自己的套餐组合吧。首先, club 的 我是啊必买的啊,每个月都会订阅他的 pro 这一档套餐啊,在一些复杂的任务啊,复杂的需求 啊,包括像一些方案设计啊,一些调研,我都会让 club 的 来做。那爵麦奶的话,我是直接买了一年的 pro 会员啊,因为首先他的权限能力很强,我会用到他非常多的产品 啊,其次的话,像一些琐碎的问题我都会问到 jimmy, 我 一些突发奇想的一些灵感啊都会给到他,他也能够帮我来汇总起来 啊。然后像国内的话我会去买到这个 mini max 啊,那像 kimi 跟百炼日普等我这些套餐都过期之后啊,会直接使用 mini max, 为什么呢?首先它的稳定性强,第二它量大管饱啊,我现在的 open club 小 龙虾 接的也都是 mini max, 他 每天都在跑,使用量我觉得也都是 ok 的 啊。当然现在 m 二点七出来之后会有一些限速的情况。那这个我只能说在观望吧。后面如果其他模型慢慢跟上的话,也可能会切换。 行,那本期视频的内容就先到这,希望能够对大家在模型套餐上面的选择提供一些帮助。我是不如我们下一期再见。

我之前 cloud code 订阅的是 pro, 一 不小心就把限额用超了,所以特别焦虑,隔一会儿就强迫症一样用 slash usage 去查限额,现在还剩多少。直到有一次我看到朋友的 cloud 终端底下直接显示了这些信息, 我立马就问他装了什么,拿过来就用上了。这个插件的名字叫 cloud hard, 是 一个澳洲的开发者叫 grog watts 写的, github 上已经现在有四千多个 star 了。装上以后, cloud 的 底部会多一条状态栏。 就拿刚才说的限额焦虑来说吧,用 pro 或者 max 的 人应该都被限速过对吧?写到一半突然告诉你,请稍等几分钟,节奏全断了。装完这个插件,状态栏会直接显示你限额还剩多少,然后什么时候刷新, 快到上线的时候,你可以缓一缓,也不至于直接被卡住了。所以再也不用强迫症一样切出去用 slash usage 了。限额的问题解决了,但还有一个更隐秘的坑,上下文窗口。你跟 cloud 的 所有对话,他读的文件,跑的命令,全都挤在一个上下文窗口里,满了大模型会自动压缩,但压缩是有损的,之前你们聊好的设计决定具体的文件路径, 报错信息都可能被模型直接丢掉。而且很多大佬测过 cloud 的 回答质量,其实从上下文用到百分之三十到四十的时候就开始下降了,不是等满了才出问题了。所以最好的做法是,当你看到这个进度条过半了, 那么做完手头这个功能,或者修完这个 bug, 直接用 slash clear 清空上下文,比主动压缩或者被动压缩都要好得多,因为你能挑一个干净的时间点来做状态栏,还会显示你现在用的是哪个模型。 这个为什么重要?我个人的工作流程是这样的,在一开始的项目规划阶段,我会无脑一直用 opus。 这个阶段目的就一个,把项目所有的需求落实到文档里面,比如产品的需求文档、技术架构文档、测试文档、部署文档等等。然后用其他的模型,比如 codex 或者 gemini, 让他们来评估文档里是不是有些不清楚的逻辑不通,或者不符合最佳实践的地方。然后继续让 opus 迭代, 直到这些文档里其他文模型提不出任何问题。那么继续到项目实施阶段,那么我会就用 slash model 切换到 sonet, 那 么它只要按照写好的文档去执行就行了,不需要考虑太复杂的情况和特别深的推理。状态栏上一眼就看到自己现在挂的模型是哪个。不用猜,这个插件的安装也非常简单,你只要跟着 github 上这个 install, 三步直接就装完了,我就不赘述了。所以总结一下,这个插件就干了三件事情,限额快到了,提前预订,上下文快满了,提前知道当前的模型,一眼就看到三条命令,装完零配置。 其实这期内容是因为之前好多粉丝在问我 cloud 底下那个状态栏是什么,所以我才想起来专门介绍一下。所以以后你们如果看到了我用什么东西,感兴趣的工具或者配置,直接留言告诉我,我都可以出一期讲一讲。

记住这个网站,它可以让你无障碍畅享 gpt、 gemini、 rock log 等热门顶尖 ai 模型。输入提示词即可生成热门手办图、科研图、形象照、高质量 ppt 生成、代码应用等等。

cloud 模型它有多贵啊?我现在才知道为什么好多业余的,他想搞开发,想做点东西,一花就是花几千块钱啊。 我昨天想调整一下我的页面,因为 cloud 的 这个模型它效果比较好,所以我就买了这个工具,因为这个工具它能充九块九美金,所以我充了九块九美金,花了将近七十块钱。 然后我用的是 cloudsonic 四点六,应该是新出来不久的模型啊。我调整了一下我的页面,然后有的地方加了一些滚动分页,结果花了百分之四十的 toc 啊!百分之四十的 toc 是 什么概念? 也就是我稍微让它改一改页面,我已经花掉了三四十块钱,真是太贵了,就毫无性价比可言。

上条视频有人问我 open core 里面不同 ai 模型到底有什么区别?先说结论, open core 不是 只有一种模型,它能接很多不同 provider 和模型。官方文档里常见的就包括 open ai anthropic、 open ai code、 google gemini、 moonshot ai qin model studio z dot i 本地模型等。你可以简单理解成三类, 第一类,偏内容和日常对话,像 kimi moonshot gemini, 部分 open ai 通用模型更适合聊天,写文案,改标题,做内容整理。第二类,偏代码和开发,像 open ai code 这类更适合写代码,改 bug, 补逻辑,做开发服务。 opencloud 官方把它单独列成一个 provider 分 类。第三类,偏稳定执行和高强度任务,像 antropic cloud, 很多人会拿来做更复杂的长上下的任务,结构化输出和多步骤执行。 opencloud 也支持把默认模型直接设成 cloud 的 系列。还有一类是本地模型,比如 alama, 适合想在自己电脑上跑开源模型的人。 opencloud 官方单独提供了欧里亚麻集成。

一分钟看完一周 ai 大 事! anthropic 内测下一代王炸模型内部代号,卡皮巴拉能力强到 anthropic 自己都害怕。编程的推理领先三傻一个段位,不仅是人类历史上最强大的模型,也是最贵的模型,能力太过逆天,分分钟攻破任何系统。 卡皮巴拉已开放给安全公司建立防守优势,几周后向公众开放 openai、 官亭、 sora app, 全部算力投入下一代模型 内部代号,马铃薯。奥特曼称马铃薯能真正改变生产力,带来商业价值,目前已完成预训练,数月后发布。卡皮巴拉和马铃薯都是由 ai 训练 ai, ai 已跨过自我进化的基点,二六年最强大模型之战正式开启, cloud 上线,电脑操作 全面进化最强龙虾,它能通过龙虾接口高效操作,适配的软件也能切换毒品模式操作所有软件 还支持通过手机派活。以后你在外面喝茶,数字牛马在工位自动搬砖。 google 升级最强语音对话模型,主打超低延迟和真人感,一边听你讲需求,一边实时爆改页面,还能角色扮演游戏陪玩。给龙虾接上 api, 你 就有了一个随叫随到的 ai 员工。 google 发布 ai 压缩算法,通过将向量坐标转为极坐标,再叠加量化和纠错,实现内存六倍压缩、八倍推理提速免训练零损耗,所有大模型都适用,内存价格赶快降下来吧!第三代 a g i 测试出炉,主要考验 ai 从陌生环境边探索边学习的能力。 人类得分一百三撒,全军覆没。 google 耳机同传登录 iphone, 任何耳机都能用别人说外语,你能直接听母语,保留说话的节奏和情绪,跨语言交流再无障碍。 figma 实时更新,全面适配龙虾。 ai 终于能像设计师一样按规范画 ui 页面了!最离谱的是, ai 写的网页能一键转成可编辑的 figma 图层,改完的 ui 又能同步回代码,设计和代码终于能双向同步, 开发者和设计师狠狠码住鲁玛发布最强开源图像模型,性能打平小香蕉研究员开源最强图像修复模型,能完美消除反光噪点,适合老照片修复。 研究员发布最强开源视频生成模型,原声音画同步,无安全围栏盲测,胜率碾压 ltx 研究员开源最强四 d 视频模型,给他二 d 视频能重建三 d 场景,还能通过补帧生成平滑且连贯的运动。研究员开源运动修复模型,专治 ai 视频,运动速度穿帮,一键修复成真实速率。 comfyui 上线动态显存管理,按需加载模型的某一部分,用完就释放,以前跑不动的模型也能正常运行了。 solo 音乐模型升级,上传一段干声就能复刻音色,人人都是歌星,上传几首歌曲就能复刻编曲风格,周杰伦再也不用自己编曲了! google 升级 ai 音乐模型,直出三分钟完整歌曲结构,编排能力堪比金牌制作人。 mister 发布最强开源语音合成模型,三秒样本就能克隆音色和说话风格,质量接近。 eleven laps cohere 发布最强开源语音识别模型,十四种主流语言准确率第一! 阿里开源最强音效模型,只需丢给他一段无声视频,他就能自动生成完美卡点的环境音效 开源人脑模拟器,它能精准预测人类在看视频、听声音或读文字时的大脑活动精度。反超磁共振脑科学迎来自己的 alpha fold, 科学家研发出首个能跟人脑直接交流的人造神经元,电压与人类一致。以后 ai 和机器人能秒懂你的想法增强,人类迈出了第一步。

上一期教大家了 cloud code 怎么安装和部署,那么这一期教大家怎么样去对接大模型,怎么样去付费使用?首先介绍一下 cloud code 的, 我现在使用方式有这几种,第一种呢,最基础的官方订阅了,你要去 cloud 官方注册一个账号,订阅它们的计划, 它有不同的这个付费的这个形式。是的, free 的 pro max 对 第一个门槛。好多评论区的人问怎么注册账号啊?有一个最简单的办法就是你去注册个谷歌账号, cloud 是 支持直接用谷歌账号登录的,就不会碰到什么用手机号的问题了。 ok, 然后呢,解释一下他们的这个 pro 和 max 账号, 他们这个账号有一个限制,比如说像 pro 账号,它是在五小时之内,你可以用到一定的 token 用量,然后在一周也有一个 token 上限,但是它有一个很坏的地方,就是你不知道它的 token 的 限制到底是多少。对,我们找了很多,没有一个官方的说明。对啊,它其实大家都是动态的,它会根据它们自己的用量实际 去调整。 ok, 我 去论坛找了一个大家使用反反馈,就是呢,有一个人大概估算了一下,像估计它是比较大量的那个 token, 消耗任务的话,可能两个任务就能用掉 pro 账号的百分之五十五的使用额度了, 大家可以感受一下,其实我之前在自己使用过程中也是差不多是个这样量的,比如说如果你的项目下内容比较多的话,可能五六个任务你五个小时的额度就用光了, 你就要再等等他解锁了那个五个小时,五个小时以后你再开始用。对,是的,所以呢,总结一下他官方订阅的,他的优点就是质量是肯定没保没问题的,用的是真正的 cloud 的 最顶尖的大模型。缺点是封号封快飞快,我已经给封了两个账号了。 还有就是 pro 账号是肯定是不够用的,大部分人的,就国外的那些专业开发者用的都是 max 账号, max 账号的话一个月折合人民币大概是一千四百块钱人民币,所以这个打呗打呗对这个专业的用户才会考虑。 ok, 如果你想要去解决不被封号,你需要去投入研究 更多的办法,这个隐形成本是很高的,建议如果你有本事折腾就是避免封号,你可以去考虑,你一定想搞的话,你可以考虑用组合配或者 apple pay, 这种方式会加收百分之二十五左右的费用,但是听说封号的时候 谷歌会或或者 apple 官方,他会帮你挡一刀,有时候会给你退钱或者帮你兜底,至少,但也只是听说啊,不负责任感觉下来就是大可不必。对新手小白不建议这个方式, ok, 第二个方式,官方 api 其实对于大家来说其实是不需要考虑的,因为质量没问题,但是缺点是死贵, 你们可以看一下奥普四点六,他的呃输入是每百万托肯是五到,也就是三十五块钱人民币,输出的话是二十五到每百万托肯非常非常贵。 正好我一个任务差不多就一个,一个多一点,任务差不多就结束了。哎,讲了这个正好呢,我们正好解答一下之前还有很多朋友关心的这个推算消耗的问题,我也给大家测算了一下,投入啊,真金白银的投入。测算了一下, 我有一个很复杂的一个自己的项目,就是那类似于今天老师之前的那个个人的工作台一样的,这里面有我我所有的工作的记录,包括记忆进度啊等等等等,这项目还是比较大的, 我让他全量的跑一遍我这个项目,把里面的每一件事的进展汇报一下,相当于他会把我整个文件夹全部读懂点。对,是的,我第一个是用的是卡的 pos 四点六模型,他耗时用了大概十四分钟,把我这个项目读完了, ok, 用了投,看多少呢?用了, 用了七万的投垦,这一个任务后面的两百是什么?其实两百是这个上下文窗口的上限,这次用的是七万的投投垦。给大家大概估算了一下,假设 大部分情况下,输入是占百分之七十,输出占百分之三十,所以折算下来,我本次绘画用了五块六毛钱人民币,做一个任务是相当于重量的, 也就是说大概你可以估算出来吧,可能对于你们这种办公工作者可能会少一点,不会五块钱,但是一次任务一块钱肯定是有的,我透露一下,有一天下午我一个人就用掉了人民币六十,对,是的是的,所以大家有数啊。很多人关心偷更消耗,但其实偷更消耗这个问题其实很难回答, 它基于的是,首先你的项目,你的复杂度,你的文档的多少,还有你这个用的模型,有的模型他的思考的程度高,那么他消耗的头可能就高。 还有基于的就是你用的软件,所以呢,为什么我在对比呢?我用的是 g p t 五点三 codex 思考度 high 的 那个模型,它的思考程度很高,所以可以看到我本次跑下来用了十三 万,刚刚是七万,现在是十四万,十四万,十四万的消耗翻一倍,对,同样的任务翻一倍,所以用不同的模型跑同样的项目,它的消耗不一样。是的,用同样的模型, 也是那个 gpt 三点五的模型,我在 opencloud 里面再跑了一遍,消耗就是七十七万。因为之前在 opencloud 里其实也有很多人关心这个 token 消耗的问题,所以呢,我给大家看一下,大概感受一下。相同的模型,不同的软件在 products 下跑的是十三万, 在 opencloud 底下跑的是七十七万,这也就是为什么大家说 opencloud 很 少 token 很 厉害的问题原因。但是这个东西在 bug 里面其实只有七万对,是的,其实只有七万对, 天呐,但这个里面有核心原因,影响因素很多啊,比如说 gbt 五点三扣带子 high 这个这模型它的思考度就高,所以呢,它耗,它耗,它消耗头很高,它本身它因为它的记忆体系,所以导致它它的消耗头很高,这也是影响因素,所以这个只是做个横向的,让大家感受一下, 点到为止。所以这个总结下来,如果你调用官方 vpi, 这个就对于新手来讲一定也不用考虑,大部分研发也不会做这种事,这种只会做产品的时候考虑。 还有一个办法就是我提一下,免得有人说我没提就是 antigravity, 反反贷把,有一个软件开发软件叫 antigravity, 就 谷歌推出来的,有的人有办法把它里面的 api 提出来,到扣子里面去用,当时它谷歌很大方,但现在已经开始对这样用的人进行封号处理了,所以今天就不去详细提了, 别搞了,能写到我们,我们咱们就是。然后最后一种办法就是通过第三方 api 来接入。第三方 api 的 话其实又分成三种方式, 第一种就是 open route, 国外最大的一个就是第三方 ip, 提供平台模型超市,对,是的,然后它们里面会有各种各样的模型的 ipi, 然后也有那个 cloud office 四点五的,但是它的价格和官方是一模一样的,呵呵, 所以呢,它是同样死贵的,花钱也是飞快的。它对于就是我们大陆的 ip 封禁没有那么不会,没有那么严啊,能用上,对,能用上,不像那个官方的一天你是几乎用,为了用还很费劲,还很花钱,所以你大部分情况下可以不用考虑,但是你可以去少充一点钱, 通过这个去感受一下奥克斯四点六的真正的能力。然后呢,还有一个就是大家常提的中转站,就国内的中转站, 它实惠,一定程度上你可以用到 off 四点六的顶级模型,但有很大的缺点就是首先它不稳定,时时时不时断线,那很多都是自营的,所以呢,大概率会跑路,有风险有风险,而且还可能会一次充好它。你说是在用 off 四点六,而背后说不定用的是别的模型,都有可能的,你也不知道它那个管子跟你插在哪个边了。是的是的, 所以建议就是啊,你可以用,但是不要一次性充过太多钱,少量多次的充,用多少用多充多少,也不要在我的评论区交流。对,我不会给大家推荐具体哪一个厂商,但是呢,会给大家推荐一个网站,叫做这个网站不读了,在这里面你可以看到各种各样的中转商以及他们的稳定性,可以 基于这个去选择你想用的中转商。不要交流啊,你看就行了,不要交流。好的三种方式呢,就是我大家比较推 推荐新手小白,先尝试的就是用国内的模型来代替,因为国内模型的话是最实惠的,也是最稳定的,而且其实在能力上的话也没有什么太大明显的差别。 然后讲到这呢,正好就是给大家推荐一个软件,是开源的,之前我也提到过叫 cc switch, 因为 cloud code 它本身理论上来说只能用它自家的模型,但通过这个软件是可以切换到别的任意一个模型的,包括了我前面提到的中转商提供的模型以及 国内的模型,它使用起来也很简单,你去 getapp 上面,或者到时候曾老师发一个。然后呢,我们打开这个软件以后,点击右上角的加号,你就可以看到它预设好了各种各样的模型厂商,包括了千问、 kimi, 然后你去他们那边注册订阅一下他们的 kimi 二点五去做我们的那个网站,也都是挺实惠的啊,包括上次我们其实用了那个 kimi 二点五去做我们的那个网站也都是啊, g r m 也都 支持的。好的,我推荐新手小白呢,最好的方式就是你订阅一个国内的模型,然后你再去 openroot 上稍微充一点点钱,你把 真正的 cloud office 四点六接入进来,然后也可以把国内的模型接入进来,两个去做同一个任务,去比较一下这个结果对于你来说差别是不是真的很大。如果差别不大的话,你就完全可以先用着国内模型,然后等到以后真的有一些业务需要了,你再去换。 你先看看你自己做的这点事,你配不配用这么贵的东西啊?有些写文档的工作,你自己思考一下你配不配用。 ok, 本期视频就这样,拜拜。拜拜。

昨晚,智普突然扔了个大招,距离 glm 负五发布才一个多月, glm 负五点一直接杀到编码能力暴涨百分之三十,得分从三十五点四直接跳到四十五点三。 cloud op 四四点六,才四十七点九,差距已经肉眼可见地在缩小。六个月前,这个差距还是十几分,现在只差二点六分,达到 cloud op 四四点六的百分之九十四点六。在实际编码场景中,这个差距几乎可以忽略, 有人甚至说应该直接叫 g l m 负五点五。还有用户测试发现, g p t 负五点三都没搞定的问题, g l m 负五点一直接解决了。看数据, s 大 愈减, bench verified 得分七十七点八,开元模型最高 turmnobench 二点零,得分五十六点二,超过詹姆奈三点零。 pro 擅长复杂系统工程和长城 agent 任务使用体感逼境 cloud opus 四点五,这是目前国产编程模型的天花板。说价格, cloud opus 按量计费每百万 token 大 概十五到七十五美元。 g l m 负五点一,通过 coding plan 使用 light 套餐,三美元起步,按量计费每百万 token 只要一元, 用 cloud 十分之一的价格,获得百分之九十四点六的体验。使用方式超级简单。如果你已经在用 g l m coding plan, 只需要找到配置文件,比如 cloud code 的 sighting store js, 把模型名改成 g l m 负五点一就行了。 一行配置无缝切换,支持 cloud code、 cursor、 open cloud 等主流。 coding agent 质朴也很坦诚,说了两个现实问题,第一,高峰期可能限流, 每天下午两点到六点,系统负债最高,编程任务会被优先保障,非编程场景可能会排队第二。高峰期消耗三倍额度,非高峰期只按一倍抵扣,建议错峰使用,体验会好很多。重点来了,现在到四月底, g l m 负五点一 在非高峰期只按一倍抵扣,这个福利期间用起来超级划算。三美元的 lite 套餐,日常开发完全够用。 pro 和 max 套餐适合重度用户,发布几小时内已经大量用户上手体验, x 上好评不断。 有人说稳定性比 g r m 负五好很多。有人说长链路 a 阵这任务终于不崩了,从三十五点四到四十五点三的百分之三十暴涨,不是吹的,是实打实的工程能力提升。如果你是国内开发者,不想翻墙用 cloud, 又想要接近 opus 的 编码能力, g l m 负五点一目前是最佳选择,尤其适合复杂工程任务和长城 a 阵开发。 g l m 负五点一国产编程模型的天花板编码能力直逼 cloud, opus 价格只要十分之一。邀请码在评论区点赞加关注,赛博杨千焕明天见!

不发背刺,可否和 gemini 同时开始大规模限流? cloud max 用户,二零零美元一个月, 一条提示词下去,额度从百分之二十一直接跳到百分之一百。 gemini pro 用户更惨,额度被砍了百分之九十七。充钱不一定是大爷, gpu 才是。三月二十三号开始,大量 crud max 用户报告额度异常消耗。 antropic 三天后才回应说工作日晚八点到凌晨二点限流,但消耗得更快。具体是多快 没说。 cloud code 写一天代码按 api 价格折算,大约两百美元,月费才二零零。 antropic 请不起自助餐了。谷歌更狠, jimmy pro 用户,二十美元一个月额度从每周三亿输入 token 直接砍到不足九百万,达到限额等最长七天 二五零美元的凹处。用户也一样,同样的工作流,九十分钟清零。谷歌开发者论坛高赞铁标题,暗砍配额信任崩盘,生产环境彻底废了。月付二零零美元,用出四千美元的算力,这种模式注定走不远。 osapic 先用双倍额度试探错峰意愿,再正式推出高峰限流,下一步可能就是更细的分层定价, 十天有七天都在出问题。两百五十万人逃离叉 gpt 投奔 cloud, 现在发现 gpu 不 够就是不够。如果你是国内开发者, cloud 随时可能封号,通过率只有百分之三点三。 gemini 额度砍了百分之九十七,基本废了。 你需要一个不翻墙不封号,额度管够,而且真正能写代码的替代方案啊。目前国内能打的编程大模型,我们横向对比,四个通用千问 queen 三点五 plus, 每百万 token 四元,综合能力强,但代码针对性一般。 kimi k 二点五,每百万 token 四元,长上下文是强项,但编程偏弱。 mini max m 二点七,每百万 token 一 元价格屠夫编程能力出人意料。 glm 五 turbo 每百万 turbo 一 元,编程能力最强,性价比之王。 glm 五 turbo 是 目前国内编程能力最强的大模型,实测 swe 减 bench 七十七点八分, mmu 减 pro 八十七点八分。价格每百万 turbo 只要一元, 用一个月按 cloud code 的 用量算,大概只要四十到八十块钱。而且智普是国内公司,不会封你的号,不会半夜限流,不会有各种花式背刺,我用了两周, 太香了。 mini max m 二点七是另一个惊喜价格,同样是每百万 token 一 元,虽然编程能力略逊于 glm 五,但在创意写作和多模态方面表现更好。 如果你除了写代码,还需要 ai 帮你写文档、做方案, mini max 可以 作为第二选择。如果你现在还在花二零零美元订阅 cloud max, 我 的建议是先用 g l m 五 turbo 替代日常编程 mini max m 二点七做备选。省下来的钱买个好键盘不香吗? 国内模型进步速度惊人,现在不用翻墙就能用出接近 cloud 的 效果。 ai 自助餐时代可能真的要结束了。聪明人已经开始找 plan b g r n 五 turbo 的 邀请码我放在评论区了,自取点赞加关注,赛博杨千焕,明天见!

兄弟们, antropic 出大事了!就在刚刚,全球 ai 圈直接炸锅, antropic 因为一次低级失误,把压箱底的王炸给泄露了。事情是这样的, fortune 率先爆料,在公开数据缓存里挖到了 antropic 还没发布的内部文档,里面曝光了一款从未公开的第四档模型, cloudmids, 内部代号 capipar 水豚,定位比现在最强的 opus 还要高一级。 antropic 目前的产品线里,海口最小最快 sonic 终端, opus 是 旗舰,而 capipar 比 opus 更强。 antropic 发言人也确认了,称这是阶梯式跨越,是它们目前最强模型, 正在小范围给早期客户测试。文档显示, mesos 在 编程、学术推理、网络安全等硬核能力上直接碾压 quadoise 四点六,尤其网络安全能力官方称远超其他任何 ai 模型,甚至可能引发 ai 漏洞利用浪潮,攻击速度远超防守方速。 所以 antropics 做出罕见决定,不公开发布,优先提供给网络安全防御机构使用,加上模型运行成本极高,还得大幅优化后才考虑大范围开放。这次泄露是外部 cms 工具配置失误导致,和模型本身无关。一同泄露的还有 antropics 针对 大企业客户的闭门 ceo 峰会相关信息。 ai 军备竞赛已经进入新阶段, antropics 这张底牌实力究竟有多恐怖?咱们拭目以待。

entrap 意外泄露了其迄今为止最强大模型的细节,并正因网络安全问题而被搁置。 open 人工智能也在筹备类似的计划。一家中国实验室刚刚推出了一款月费仅十美元性能毕竟 cloud opus 的 模型,而 open 人工智能则大幅更新了。 codex 已在云端代码领域保持竞争力。发生了很多事, 咱们这就开始吧。所以 anthropic 不 小心让一个未发布模型的细节留在了不安全的数据库中,而运气让它比任何人抢先一步获取了它。该模型名为 claude mise, 内部代号为 capoeira。 根据泄露的信息,这不仅仅是 opus 系列的下一个更新,而是一个完全全新的层级位于其之上。泄露页面开篇直白地写道,我们已完成新人工智能模型的训练。 quad method 是 我们迄今为止开发过的最强大的人工智能模型, 但是他们自己内部文档里的话日期是二零二六年三月。那么,这里的全新层级究竟意味着什么? missus 或 caprice 这个名字被描述为代表比 opus 系列更大、更智能的存在, 而后者此前一直是他们最强大的模型。他们特意选用 missus 这个名字,意在唤起他们所称的那种连接知识与思想的深层脉络。那是一种相当刻意的表述方式。 这并非精准分数的简单提升,这亦在表明这是一种在质上截然不同的模型类别。在与 cloud opus 四点六的性能对比中, mitos 软件编程、学术推理及网络安全方面据报取得了显著提升的分数。 这三类并非随机划分,编程和推理是标准衡量指标,但特别点出网络安全能力则是一个信号,表明该模型实际能做什么,以及为何它们如此谨慎的控制访问权限,这就引出了发布策略。这可能是最有趣的部分。 anthropocene 并未进行标准的公开发布,他们在泄露文件中陈述的理由是, midas 目前在网络能力上远超其他任何人工智能模型,而这是一波即将涌现的模型的预览。这些模型能以防御者目前无法应对的方式利用漏洞。 他们的话不是我的,所以他们的计划是先向网络防御组织发布,专门给予他们早期访问权限,以便在更大规模的模型浪潮让攻击变得对任何人来说都轻而易举。之前利用 missiles 发现自身代码库中的弱点, 其理念是先武装防御者,以免同样的能力落入不够谨慎的人手中。这里还有一个成本角度的考量。泄露的文件将 medis 描述为一个大型计算密集型模型,服务成本高,客户使用成本也高。 他们明确表示在全面发布前会致力于提高效率。因此,即便你今天就想获得访问权限,高昂的费用也将构成巨大障碍。 这并非定位为面向消费者的产品。从那里开始的扩展计划是通过云 api 在 未来几周内缓慢推出。其中,网络安全用力将是早期访问项目的初始优先级。所以如果你不在那个特定领域里,你可能得等上一阵子。 现在有一个更广泛的背景值得了解。据悉, antropic 瞄准了第三季度进行 ipo, 而拥有一个重新定义可能性的前沿模型, 显然会在进入这一阶段时成为一个值得重磅宣布的事项。无论这个时机是否刻意,你都能看出为何会有猜测称某些重大能力公告会在那段时间落地。率先报道此事的财富文章还指出, open 人工智能一直在其即将推出的代号为 spa 的 新模型 周围释放类似信号,该模型被认为是一次同样巨大的飞跃。同时, open 人工智能内部也将一个部门更名为 agi deployment, 这些是分属不同公司的独立决策,但这种模式值得注意。 多家实验室显然都掌握着前沿系统,如今对待他们比以往更加谨慎明确一点,一些流传的具体细节,比如参数数量达到数万亿的说法,都是未经证实的谣言。但这个故事的核心 模型已存在阶梯式跃进的定位,优先面向网络安全部署以及刻意放缓的发布节奏。这一切都已得到证实。泄露后, anthropic 直接向财富杂志承认了此事。你在 midos 身上看到的是一家实验室,它们训练出了某个东西,却真不确定该如何负责任地发布它, 这和它们此前的表现截然不同。随着更多细节浮出水面,这绝对值得关注。 所以你现在有两个全球资金最雄厚的人工智能实验室,它们都手握自称为划时代突破的模型,且都在计划今年上市,同时对已构建的内容表现出异乎寻常的小心谨慎。 antropylactic 拥有 mythos, 一 款堪称在网络安全领域能力如此强大,以至于他们在公开发布前就将其用于武装防御者的模型。 open 人工智能则有 spot 被描述为同样巨大的飞跃,而该公司现在甚至设立了一个名为 agi deployment 的 内部部门来推进此事。这些不是路线图换能片,这些模型已经存在正在接受测试 进入二零二六年余下时间的关键问题,并非这些系统是否真如声称的那样强大,关键在于哪家实验室率先让步,公开发布并设立新的基准线,以及当它真正落地现实世界时究竟呈现何种面貌。 因为无论谁赢了这场竞赛,他们赢下的不仅仅是一个精准测试成绩,更有可能围绕其新模型重塑整个行业。我们将实时报道所有动态,记得订阅,以免错过。 在继续之前,我们刚刚推出了人工智能宇宙通讯,如果你想随时掌握最新人工智能资讯而无需四处搜寻链接,在简介里 别错过。而就在 anthropic 这场大戏上演之际, the 人工智能悄悄退出了一款名为 g l m 五点一的新模型,现已对所有 g l m 编程计划订阅者开放,其精准测试数据着实令人关注。 在采用云代码作为测试框架的代码评估中, g l m 五点一得分为四十五点三,而云 opus 为四十七点九, 这大约是二点六分的差距,使其在编码任务上的表现约为 opus 的 百分之九十四。这本身就值得关注,但让此事更显眼的却是其背景。 g l m 也就是一个多月前发布的上一版在同一基准测试中得分为三十五点四, 所以 g l m 五点一在约一个月内实现了百分之二十八的提升,迭代周期真快啊。 g l m 五本身是一个拥有七四四零亿参数混合专家模型,其中四百亿为活跃参数,基于二十八点五万亿 token 训练而成。而他们也在此基础上推出了一项实质性的更新。 c d o t。 人工智能于二零二六年一月完成香港 ipo, 募资约五点五八亿美元,所以它们有足够的空间继续推进。而在开源方面, glm 五采用 mit 许可证发布,意味着任何人都可以运行它,微调它,并在此基础上构建 定价角度。也值得提一提, glm 编程计划促销价每月约三美元,标准价格为每月十美元。 对于一款能达到 opus 级别编程性能的模型来说,这个成本差异非常显著。不过 opus 仍有优势,比如更长的上下文窗口和更强的复杂多步推理能力,因此这并非直接的替代品。 但对于日常编码,用力差距正在迅速缩小。而这一突破来自一家完全基于华为硬件训练,不依赖英伟达的中国实验室,前沿已不再仅仅是大公司的专属。 g l f 五点一在克劳德神话泄露消息同一周发布,正是这一点的有力提醒。 而在我们讨论竞争激烈这个话题时, open 人工智能刚刚给 codex 带来了一次有意义的更新, 他们正在推出插件以及一整套全面的应用集成清单。 slack figma, notion, gmail, github, google drive, uli, linear, versal, netlify, cloud flare, hugging face 这些现在都在线了。核心理念在于 codex 能直接协同开发者已使用的工具,无需手动配置任何内容 认证。通过插件处理每个插件还捆绑了它们所称的技能。因此, codex 不 仅拥有工具访问权限,更是经过训练能熟练使用它。 它们展示着实际案例表明,你可以告诉 codex 处理我在 pr 上的最新评论并总结变更。它便能直接从 github 拉取数据,完成操作并反馈结果。或者它正在接入 fig 码,根据文字描述打磨一个设计概念。 这些可不是玩具演示。这就是那种目前需要开发者在四个不同标签页之间切换并进行大量复制粘贴的工作流。插件可在 codex 应用命令行界面以及集成开发环境扩展中通用。因此,无论你目前如何使用 codex, 都能在那里起用它们。 现在这里的框架很重要。 cloudco 一 直在构建其 mcp 生态系统,能够连接外部工具和服务,是让它在复杂工作流中真正变得有用的关键因素之一。 open 人工智能在 codex 插件上的决策显然是为了缩小这一差距。它们将集成打包成了开箱即用的形式,你无需自行配置 m c p 服务器,你只需起用一个插件。 对于那些希望无需设置开销就能让事情顺利运行的开发者来说,这确实是一个实实在在的可用性优势。但这同时也意味着你更加依赖 open 人工智能,决定构建和维护哪些插件,而非 cloud code 所采取的更为开放的路径。 两种方法各有优劣。更广泛的观点是,代码智能体领域发展迅速,两大主要玩家正从不同方向朝着相似的功能。 converge open 人工智能正让 codex 更容易接入现有工作流。 anthropic 正让云代码更具可扩展性和可定制性, 取决于你日常实际所需,其中一种理念会比另一种更适合你。无论哪种情况,竞争显然都在推动两款产品比各自独立发展时更快的前进。不过今天的视频就到这里了,记得订阅频道,关注我们的新通讯宇宙之 ai, 同时订阅主频道世界之 ai, 并在 x 上关注我们 universe of ai 机,支持我们,直到下次视频再见!

我发现现在的模型都偏科,所以说我基本上都是混着去用的,大家也可以做一个参考。像 cloud, 我 觉得它比较适合这种深度推理,写这种长的文章还有一些代码。那 gemini 呢?就适合多媒体,包括一些图片生成。 nano, nano 那 gbt 呢?比较擅长数学逻辑推理,还有一些创意的写作方面。 rock 呢?比较擅长实时的搜索引用。 timi, 比较擅长中文的 agent, 而且它免费额度比较大。

兄弟们,如果你需要本地制造 token, 看下加了 cloud 四点六 opus 的 这款模型。首先咱不说复杂参数,先提个关键一点,这个模型是 obliterate 消融版本, 简单说就是移除了大部分拒绝项链和安全护栏,平时用的时候不会轻易拒绝你的请求。再说说实际使用感受,加了 opus 的 这款代码,能力接近 cloud opus 水平,实测下来生成很丝滑。最后根据你的显卡选择参数。

cloud 藏了一个顶级大模型,因为手滑配错参数全曝光了。 cloud 最顶级的绝密模型 misos, 因为一次人为配置错误,直接全曝光了。它的代号叫 capibar 水豚,是 anastropica 真正的崖箱底型号。 这玩意儿比现在最强的 cloud opera 四点六还要猛一大截,不管是携带码还是逻辑推理,全面碾压 opera 四。更夸张的是,它还自带很强的网络攻防能力。内部测试很早就发现这模型风险极高, isopec 一 直都不敢放出来,就是怕这东西一出笼根本收不住。 这次一曝光,整个 ai 圈直接炸了。很多人都知道 cloud 分 散档, oppo、 sonya 和嗨酷,而 missus 是 独立于这散档之外的真正顶配,体量更大,能力更强,也更贵。说直白点, cloud 的 missus 是 astonropix 目前造出来最强也最危险的一代魔性。

这绝对是 ai 史上最疯狂的一周,因为昨天 astropica 那 边爆出了个大料,一款拥有十万亿参数的模型,号称是有史以来最强大的模型。 而今天这股热潮丝毫没停,因为 g m 五点一发布了迄今最先进的开源代理模型之一, google deepmind 推出了双子座三点一闪电实时版,让实时音频 ai 更进一步。 open ai 正将科迪克斯打造成完整插件生态,直接对标云端代码。 不仅如此, a r c g a gi 三更是为衡量 ai 系统智能树立了新标杆,而这还只是冰山一角,那我们就直奔主题。 我们先从或许是最重磅的消息说起。近日重大泄露显示, astonopic 即将推出两款新模型。首先是克劳德奥沃麦索斯,它处于一个全新的层级,此外还推出了一个新层级,叫做水豚。需要注意的是,据报道水豚的层级略低于麦索斯, 但它属于比奥普斯更高的一档,毕竟奥普斯已是它们的旗舰模型。所以这绝非小幅升级,而是开辟了一个全新的层级, 它在代码能力上有了新提升,学术推理更强。更令人惊讶的是,网络安全能力大幅跃升。接下来的消息更劲爆,甚至有早期测试者已经拿到了权限。 连财富杂志都报道说,这模型跟现在的奥普斯根本不在一个量级, 其能力强大到可能带来风险,这比起我们现在用的版本是巨大的飞跃,事实上,它太强了。据说 osorp 征集化放慢发布节奏,出于对滥用及安全风险的顾虑, 我个人觉得纯属个人看法,我认为白领岗位未来两年内就会被自动化取代, 这类模型正是推动这一趋势的关键。因为据报道, open ai 正在内部开发一款代号为 spot 的 模型。有内部人士透露,这或许是 ai 领域的重大突破,但回到 anselpik 这边,有传闻称 我们可能还会迎来过渡版本,很快,比如奥普斯五或索内特五。随后,或许能看到这两款刚刚由 anselpik 发布的新模型在数月内逐步上线。 说实话,这或许只是种战略布局,他们故意泄露可能是为了制造营销噱头,借此营造期待感与紧迫感,毓立在 ai 竞赛中的主导地位。这之所以关键,是因为说实话,两千零二十六年 将是 ai 界发生翻天覆地变化的一年。 open ai 已调整部分组织架构,以推进通用人工智能部署。随着今日发布推进,我们期待 g p t 五点五。 智浦 g l m 团队发布了 g l m 五点一,这是一款开源代理模型, 相比 g l m 五,它有显著提升。该模型着重强化代理行为, 即更擅长处理长周期任务,指令遵循能力更强,多步骤工作流中更可靠,且成本相当合理。代码精准测试得分为四十五点三,对比奥普斯四点六的四十七点九,该指标已非常接近地源模型水平, 这才是核心重点。这是一款迅速缩小与顶尖 ai 差距的开源模型,不过有一点要注意,它的速度极慢,但用它生成的网站界面却惊艳不已。比如看看这个落地页,我用五点一生成的, 不得不承认,其前端能力相当出色,动态效果处理得也相当到位,多样的排版和结构都已在这落地页中完整实现, 可以看出它非常干净,而且这次深层的结构也很清晰。接下来是 google deepmind 的 重磅更新, 他们刚推出了双子座三点一闪电实时版,这是一款全新的实时多模态模型,专为构建语音和视觉智能体打造。这可不是什么小升级,因为他们花了一年多时间打磨模型,基础设施及开发者体验。 我得承认,全方位的提升都令人印象深刻,质量和可能性都有质的飞跃,延迟也大幅降低,而这正是实时 ai 所必需的。来听听它实际运行的效果。 我们来修改这个应用的代码,先从把麦克风调大开始。我来帮您把麦克风图标调大。 我们在背景里加些黄色波点吧,我来往背景里加些黄色波点。接下来是重磅更新, openai 为柯蒂克斯引入插件, 这将彻底改变人们使用编码代理的方式。一直以来,大多数 ai 编程工具其实都很封闭,在柯蒂克斯里也就这样了。但现在有了插件,它将变为可完整执行呢。 实践方案,现在你可以浏览案例库,里面有真实工作流,比如开发 ios 应用、分析数据及生成报告和演示文稿。 最绝的是,这些工作流一键就能启动,直接在柯蒂克斯应用内操作,无需每次从零搭建,直接使用预制的可运行 ai 工作流,并能随时修改,还能进行扩展。这是巨大飞跃,让柯蒂克斯不再像单纯的工具, 而更像 ai 开发平台。我得说,这绝对是如今云端代码的直接对手 以及其他智能体工具,毕竟它如今已颇具神往。接下来介绍 a r c a g a c 三 目前顶尖模型,在此的得分甚至不到百分之一。拼起来似乎不妙,但其实是好事,因为这一次我们终于有了能真正衡量进步的精准与智能,而非单纯考察记忆, 关键在于它的不同之处。这是一个新机制,用于测试智能体在交互环境下的推理能力,要求首次尝试即完成任务,无需事前训练或指导。人类首次尝试的通过率可达百分之一百, 而 ai 目前仍基本卡在百分之一以下。显然,它们也在努力弥补过去的失误,因为这次它着重于防止过你核。这样模型就不能只靠死记硬背来假装拥有智能, 更疯狂的还在后面,一旦 a r c a g i 三被攻克,下一步就是真实的商业游戏场景。这意味着 ai 不 再只会推理, 它将能够行动适应,并在复杂的数字世界中像人类一样运作。各位,我们离通用人工智能确实越来越近了。云端代码最近也推出了一些新功能, 它们率先在云端引入了自动修复功能,它能在云端直接修复拉取请求、修复 c i, 构建失败处理代码审查意见,自动让你的 p r 保持绿色状态。该功能支持远程运行,提交代码后你就可以离开了,回来时 p r 已可直接合并。 接下来云端代码将暂时收紧五小时绘画时长限制,因需求高涨,免费 pro 及 max 用户高峰时段将受限,每周限额不变,但此限制仅在工作日生效, 这样一来,用户会比以前更快触及绘画上限。云代码也新推出了自动模式,不再频繁弹出权限提示了每次操作都会经过内置分类器的审查, 安全操作可及时执行,风险操作则会被拦截。总体而言,这既减少了摩擦,又能更好地实施管控。我个人觉得这是个非常棒的更新,尤其适合追求流畅、更自主、工作流的用户。 近期, miimo 二 pro 版本正式发布了,不少人对此模型很兴奋。而在 opencode 里,他们让 pro 和 omni 免费再延长一周。所以如果想多用点,现在正是时候。接下来是 eleven loves 更新, c l i 现全面转向代理优先 默认无需交互,这让代理和自动化工作流使用更顺畅。虽然基于 linky y 的 丰富交互体验,现在需通过人性化开关起用。 简单来说,它优先为 ai 系统设计,人类交互只是可选层。 mr ai 刚刚发布了 voxstra tts, 一 款全新的开放权重模型,正推动技术前沿。在自然表达与超快语音合成领域, 它能输出逼真且富有情感的语音,支持九种语言及多种方言,延迟极低,音频近乎计时,还能轻松适配新声音,这简直太不可思议了。接下来介绍 android 研发的 opera 新型智能体, 专为生物科研打造的云桌面智能体。它提供了一个私密环境,你可以在这里与 ai 写作,在项目里创建多个绘画 管理深层成果,并利用专业技能,可以把它想象成科学家的联合办公空间。这是 testing catalog 发现的。如果你还不知道的话, sora 应用其实很快就要关闭了,这意味着该应用将无法使用, 所有相关部署和社区活动都将停止。对于在 sora 上创作内容或开发项目的创作者,团队也承认着令人失望, 但他们计划很快公布更多细节,应用程序和 a p i 具体何时停止服务,以及如何保存或导出作品。简单来说, sora 即将下线,但他们尽量确保大家不会丢失已创建的内容。这确实有些遗憾,这说明他们正把所有算力都投入到 spa 的 进一步开发中。 最后收尾来聊聊 composer 二。它自称是前沿级大模型, 其编程能力极强,基于内部机准测试 cursor bench。 但有趣的是,有用户发现这其实就是 kimi k 二点五模型, 它是微调的,基于开源基座模型 kimi k 二点五, 但 cursor 对 此只字未提。这引发了关于 composer 二真实身份的轩然大波。这是挺有意思的,因为它们居然隐瞒 自己训练了模型。其实底牌是 kimi k 二点五。大致就是这样。各位,本周确实很有意思。 ai 领域新话题层出不穷, 我对云模型特别期待,是今年即将推出的,这绝对是颠覆性的改革。如果想了解更多,好了,各位,祝大家今天愉快,传递正能量,咱们很快见,各位回见!

难道说 ai 圈真的人手一张王炸吗? antropica 藏了半天的大招,结果因为一次低级失误,直接泄露了三千家的未发布资产以及一份博文草稿。在这份文稿里多了一个新的模型,名字叫做 kpibarra, 是 一个比 opus 更大更强的的模型。 k p baro 在 软件编码、学术推理和网络安全的测试中都获得了更高的分数。而且因为在网络安全上, k p baro 远超任何 ai 模型,它可以快速地发现漏洞。官方害怕会有人用这个模型去攻击别人,所以就先小规模开放给网络安全机构,让他们把堡垒加固之后再考虑大范围开放。 如果正如这篇文章所说的话,有关的从业者可能就要遭受冲击了。所以你觉得这真的是工作人员的失误导致泄露,还是 anfric 的 营销炒作呢?

分享一下最近国产大模型推出的 coding plan, 我 体验了阿里云、百联和火山方舟。先说一下直观感受,百联支持 glm 五,但是 max token 给的太小了。 火山给的 max token 很 大,但是没有 glm 五。火山我用的是 kimi k 二点五,阿里云我用的是 glm 五。 总体感受下来,在编程开发还是 g m 五更好,基本可以配合 cloud code 完成一些日常开发任务, 但是比较复杂任务还是得上 ops。 四点六。一般来讲, cloud code 配合国产的 coding plan 开发一些小的应用没有任何问题,所以还是要从自身需求出发,选择适合的模型来达到最高的一个开发效率。

一起来做个测试吧!你要不要每月花一百五十块来订阅 ai 模型? jamie jpt cloud 今天我们不做横屏,我会用三个真实场景带你亲手测出哪个 ai 最适合你。 测试一, ai 拿到你的需求后第一次回答的质量打开三个模型的网页或者客户端,准备一份你真实的工作或者学习的材料,然后按照我的这个结构来写提示词。注意哦,这里都选择最新的旗舰版模型来做。 为什么只看第一轮测试呢?因为你在真实的工作或者学习当中,你不可能每次都花十分钟反反复复的去调教 ai, 而且你在反复的等待的这个过程当中,是非常的浪费时间,浪费你自己的注意力的。 好,答案出来了,如果这是一个实习生交给你的作业,一到十分,你打几分?把三个模型的答案记下来吧。 测试二,能不能接住你的模糊表达?在第一轮提问的基础上,你再用一句模糊的话去追问,比如感觉还不够有策略感,你再想想,就像平常你领导对你说的话那样, 他改完之后,你觉得和第一轮相比好了多少?打个分吧。到这里,两轮纯文字的测试已经做完了,相信你对 jimmy 叉 jimmy 七, cloud 如何帮助你更好的工作学习已经有了一个简单的了解,接下来我会对比三个模型我个人认为最有亮点的几个功能。 先说 cloud, 如果让我用一个词来形容它,我觉得是优雅。它有三个我非常喜欢的点。首先是文字,同样的提示词, cloud 写出来的东西是三家里面 ai 的 味道最淡的, 它不会莫名其妙的就开始用比喻,或者用那种很小众的那种词语,然后我觉得它的讨好型人格比其他两个 ai 也稍微轻一点。 其次是界面,它的工作区跟它对话区完全是分开的,整个页面呢,非常的清爽。如果你也是做创意类的工作的话,我觉得 called 跟其他两家的体验是完全不一样的。 接下来 deep research 这是我自己使用频率非常高的一个功能。简单来说呢,就是你给 ai 去下一个收集资料的需求,它会自己像一个研究员一样 去全网搜索啊阅读界面,最终产出一份待引用来的报告。我以前做广告行业的时候呢,要经常搜集品牌资讯,行业动态,每次都是翻好几个这种公众号或者是软文,自己再去整理汇总。 deep research 相当于有人帮你把这个事情全干了。 语音功能这三家都有,但是 cloud 现在是目前是只支持英文的,而且它是只支持语音转文字的,它听不懂你语气里面的这种启程转盒。我起不来床的时候,我就会召唤 ai, 告诉它我要做什么。它就会让我先坐起来,然后掀被子, 然后一只脚伸到地上,再两只脚穿上鞋子往外面走。这个场景下,我自己是更加喜欢 check gbt 多一些。最后聊一下生态和性价比,那这一块呢,毋庸置疑就是 jamie 是 最强的深图深视频写代码做研究, 但是深图深视频哦,我说实话,我觉得国内豆包就足够了,所以 jamna 它性价比确实是很高,但至于你能不能用上你这个性价比,就看你自己的一个工作场景了,三轮全部结束,最后我们来做一道选择题,刚才哪个功能最让你心动?写作和文件整理选 cloud, 深度研究报告选 check gpt。 性价比或者推理类的工作选 jamna。 最后,不管你买不买,你都应该花一点点成本完整体验一次最顶尖的 ai。 我用 ai 赚到的第一笔钱是在二三年 meghan 刚出的时候,帮人画迪士尼风格头像,当时是三十块钱一个。 现在这种效果已经成为所有的修图软件里面的一键滤镜了。两年前的顶尖就是现在的标配。别用上一次的体验判断现在的 ai, 这里是进化。小河,保持好奇,下次见。