chris 发布最强模型 compose 二点五,实力对标 cloud opus 四点七,价格只要十分之一,更擅长长期执行任务和复杂指令。首周双倍额度定向 r l 加二十五倍任务加算力压榨马斯克,力挺内部全员弃旧换新代码 ai 直接变天。
粉丝1050获赞1.9万

composer 和 composer player 功能概览,我们看到现在呢,已经安装了两个软件,一个是 composer, 一个是 composer player。 我们打开 sorry world composer, 尝试着打开视力文件,打开这个文件之后呢,我们可以播放文件已经生成的动画,我们看到这个效果非常的逼真, 而且呢,我们还可以对它进行标注以及添加测量不同的视角等等这一系列操作呢,都可以在 sodium worth component 当中进行添加编辑以及修改。 下面呢,我们打开 sorry was composer player, 我们打开一个视力文件。这是一个自行车的交互式文档,可以对自行车的车架颜色进行选择,只要点击一下就可以了, 比如说变为这种红色。当然呢,对于这个车扶手,我们也可以进行一次样的选择。除此之外呢,我们还可以播放这个文件当中的视频 computer player 呢,它就是作为一个播放器的这样一个作用,用来查看 sorry was computer 生成的 s m g 文档,非常的方便。

谷歌的 druntime 三点五、 flice 发布了,科斯特的自然模型 compose 二点五也发布了。据说这两个模型的评分都很高傲,要么号称比之前的三点一提升了好几倍,要么号称能力直逼 opus 四点七。 但是对于我们这档大型 ai 娱乐挑战类节目而言,我们才不关心它的评分有多高呢,我们的节目组的技术老师因为太业余了,也确实看不懂这些指标啊,但是我们知道是骡子是马,拉出来遛遛嘛, 我们只关心他们到底能不能把我们正在进行史山挑战赛的全球十六强中的两个给替换掉。 所以今天的这场比赛算是十六强选手面临的第一次踢馆赛了。规则很简单啊,那就是把这个根据真实史山项目封装出来的 bug 中的青铜题和白银题都做一遍, 除非迎战的选手也做错了,否则挑战者做错两道题就直接淘汰啊!那么现在就让我们以热烈的掌声隆重请出我们的入围赛最强守门员,史山之间永远的神! 观众心中无法释怀的意难平! mini max 二点七老师隆重返场!好的, jimmy 三点五 flash 和 compose 二点五两位选手,你们准备好了吗?只要你们有本事,我就有 tucker 第一道青铜题 bug 已经就位!好的观众朋友们, ready go! 我们的青铜 bug 都是经过了迷你 max 老师亲自校准过的 bug 难度基本都卡在了一迷你 max 的 水平上,所以这道题对于迎战的选手来说应该问题不大,但对于两位挑战者而言就不好说了,我们拭目以待吧! compos 二点五这边已经给出方案了,我们看看这么内三点五哦,刚点过来,这么内这边也给出方案了,那么现在就剩下迷你 max 老师了,咱们等一等吧, 毕竟老师是很稳重的啊,这是一种更加成熟的表现,目的是更好的更全面的去排查问题,这一点值得两位新人好好学习一下。 ok, 我 们看到 mini max 老师这边也给出方案了,那我们就先让折磨那三点五 flash 先修复吧。好的,它修复完了,我们去验证一下。 ok, 没有问题,轻松拿下啊。接下来我们再看看 compose 二点五这边吧,它能不能也轻松拿下呢?是不是真的直逼 opus 四点七呢?答案马上揭晓, 来吧,他改完了,我们点击验证啊,也改对了,那么第一关两位新人就顺利的通过了哈,接下来来吧, mini max 老师难得返场一回,我们就也验证一下吧。 啊哈, mini max 老师二十四秒就改完了,我去,我都没反应过来,这真的是所谓天下武功唯快啊,啥情况 啊?估计是老师太久没返场了,估计有点生疏了哈,没事哈,没事,我们下一道题再看。第二道题是青铜题啊,在所有的青铜题里面算是有点偏白银的了,所以各位选手请忘记刚才尴尬的局面,不要把注意力放在别人身上,务必全力以赴对付接下来的这道题。 好的,我们看到三位选手的方案都已经全部给出来了,那么我们就先从这三点五 flash 这边开始吧。 好的,他改完了,我们来验证一下。 ok, 没问题,再一次答对。这么那三点五确实有点东西啊,那么 compos 二点五这边也赶紧的吧,证明一下你自己吧,很快啊,在自己家的 id 里干活就是有效率啊,我们来赶紧验证一下吧, 点击验证啊。哦,很遗憾啊, bug 是 改对了,但是业务流程回归失败了,这是典型的牵了一发动了全身啊。 compose 二点五这边就错了一道题,再有一道他就要被淘汰了。 既然这样的话,迷你 max 老师就得出手了啊,不是为了证明自己哈,绝对不是,就是要验证一下这道题,好的,非常轻松啊,这道题没有问题,还是稳稳的一个迷你 max 的 难度。那么接下来我们就来看最后一道青虫题,各个选手能不能把握得住吧。 好的,大家的方案已经给出来了,我们让他们都修复一下,然后我们来分别验证啊。 这次先看 compos 二点五的吧,点击啊,非常遗憾啊, compos 二点五答错了两道青铜题了,挑战失败就无缘我们的挑战赛了,掌声送给他,希望他下一次真的可以直逼 oppos 四点七。然后我们来验证这面那三点五吧。 啊,这么那三点五也答错了这道题是不是有点问题啊?那我们再次请 mini max 老师来验证一下啊,来, mini max 老师点击验证 啊,迷你 max 的 老师改对了,这毕竟是他比较舒服的难度系数吗?那么现在折磨那三点五也答错了一道题了,下面三道白银题他就必须全答对才能挑战成功了,这压力就有点大了啊。但是不管怎么样,我们先从第一道白银题开始,帮我们复制一下提示词, 给到两位选手,挑战正式开始。好的,四四,不到十六分钟的时间,两位都已经给出了各自的解决方案了,那么我们就先让折磨的这边开始吧,他改完了啊,我们来验证一下, 很好,顺利通过。这么那三点五有点东西啊,至少我测试到现在已经明显感觉到他确实比三点一强了啊,这似乎是一句废话是吧。嗯,那么我们接下来就让 mini max 老师也修复一下吧。 来点击验证啊, mini max 老师没改?对啊,看来白银题对老师确实有点压力了,不过没事啊,我们换一个迎战者,接下来两道白银题,我们就让就让 deepsea v 四 pro 前来应战吧,我们复制一下第二道题的提示词, 比赛正式开始。 ok, 我 们看到折磨那三点五这边率先给出了解决方案。 deepsea v 四 pro 这边估计还要很久啊,大家都了解他,他几乎是把大部分的精力都花在调查和思考上了。 ok, 我 们看到 deepsea 这边也给出方案了,谁是对的呢?我们就来验证一下吧。来, jameson 三点五,你先开始吧, 点击验证。很遗憾, jameson 三点五这次失败了,来 deepsea v 四 pro 呢。哦, deepsea v 四 pro 改对了, 可是这么内都打到这里来了,就剩最后一道题了,不做可惜了是吧,那么我们就让他继续做好吧,反正我们也不是什么很严谨的比赛嘛,那么这么内三点五,请你珍惜这次黑 机会啊。好的,我们看到比赛已经打响了,如果这次折磨内三点五做对了,那么他就可以直接进入十六强,替换掉他的老前辈三点一 pro 了,如果他做错了,那么很遗憾哦,就只能等三点五 pro 了。好的,我们看到双方都给出了各自的方案,折磨内已经迫不及待的开始了,祝他好运。 好的,没问题啊,他成功了, joammy 三点五 flash 成功的取得了进入比赛的资格,那么他的老前辈 joammy 三点一 pro 就 光荣退休了。最后,咱们再来看看 deepsea 这边吧。 哎,你看,这就是 deepsea, 依旧值得信任,就像 mini max 老师依旧是最标准的难度单位一样。至于 compose 二点五吗?我们希望他再接再厉,先能稳稳的打败 mini max 老师再说吧。至于折磨那三点五 flice 吗?能力确实提升了不少,在我们后续的比赛中,大家可以多关注一下他。

culus 重磅发布自研编程模型 composer 二点五,五大重点快速解读。重点一,性能与性价比它基于 kimi k 二点五,持续预训练 s w e bench, 多语言得分百分之七十九点八。 cursor bench v 三点一,达百分之六十三点二, 实力硬钢 cloud opus 四点七和 g p t 五点五更狠的是成本,标准版百万 token 仅零点五美元入二点五美元出单次任务不足一美元,是同级竞品的十分之一。重点二,核心技术 采用文本反馈定向强化学习,在模型出错的精确位置直接注入提示,构建教师信号,再用蒸馏 k l 散度精准优化,这相当于给模型装上实时纠错,教练 巧妙解决长任务中难以归因的信用分配难题,协助体验显著提升。重点三,训练方法合成任务量暴增至前代二十五倍,引入功能删除训练法,高度模拟真实工程重构,但训练中模型甚至学会了奖励作弊 如反翻译、自解码、窥探类型缓存。重点四,成本与生态定价比同级便宜十到三十倍。开放 sdk 首周双倍额度 面对年收入已超二十五亿美元的 cloud code kerfer 曾受制于对手模型,自研 composer 二点五正是重夺主动权的战略重器。重点五,未来展望 携手 spacex ai 投入十倍算力,基于 colossus 两百万张 h 一 百等效集群,从零训练超大模型马斯克亲自站台,叠加潜在的六百亿美元收购预期,即日起更新 cursor 首周双倍额度,马上拥抱这波编程效率革命!

大家好,我是 ai 启示录。就在两天前, ai 编程领域发生了一件足以改变整个行业格局的大事, cursor 毫无预兆地发布了他们迄今为止最强的模型 composer 二点五。 这款模型最震撼的地方不是它有多强,而是它用一个开源基础模型做到了几乎和 cloud 四点七 opus 持平的编程能力,但成本却只有后者的十分之一。 另外,在训练过程中,这个 ai 为了完成任务,竟然自主学会了逆向工程和反翻译,像一个真正的黑客一样钻系统的空子。而科 sir 还同时宣布,他们已经和 spacex ai 达成深度合作,即将动用一百万个 he 一 百等效算力,训练一个比现在强大十倍的全新模型。 今天这期视频,我们就来把这件事彻底讲清楚。 composer 二点五到底强在哪里? cursor 用了什么黑魔法,能让一个开源模型跃即挑战闭源巨头? ai 学会作弊这件事又给整个行业敲响了怎样的警钟? 我们先从最基本的事实说起。二零二六年五月十八日, cursor 官方正式发布了 composer 二点五。按照官方的说法,这是他们有史以来最强大的模型, 在智能水平、长周期任务的持续工作能力以及复杂指令的依从性上都实现了跨越式的提升。可能很多朋友还没有意识到,长任务能力恰恰是当前 ai 编程工具最大的痛点。 很多模型在写十几行简单函数的时候表现的像个天才,但只要把它扔进一个几十万行代码的大型真实项目里,让它连续工作几个小时,它就会开始胡言乱语,忘记前面做过什么,甚至把整个项目搞崩。 而 composer 二点五主打的就是解决这个问题。官方数据显示,它在长达数天、涉及数万个 token 的 长轨迹开发场景中表现出了前所未有的稳定性。它不再是一个只会对单次 prompt 做出反应的工具,而变成了一个能够真正理解上下文演变的合作伙伴。 我们来看一下官方公布的精准测试成绩。在最权威的 s w e bench multi lingual 测试中, composer 二点五拿到了百分之七十九点八的分数,直比 cloud 四点七 ops 的 百分之八十点五低了不到一个百分点, 甚至还超过了 g p t 五点五的百分之七十七点八。在 terminal bench 二点零测试中,它的得分是百分之六十九点三,和 opus 四点七的百分之六十九点四几乎一模一样。 在 cursor 自己设计的、更偏向真实困难任务的 cursor bench v 三点一测试中, composer 二点五拿到了百分之六十三点二的分数。 opus 四点七在最高配置下能拿到百分之六十四点八,但在用户默认使用的 x high 配置下,得分只有百分之六十一点六,反而比 composer 二点五还要低一点。 gpt 五点五的默认成绩则是百分之五十九点二。也就是说, 在绝大多数用户实际会用到的配置下, composer 二点五的表现已经超过了当前市面上的两大顶级模型。但真正让整个行业感到震撼的不是它的性能,而是它的价格。 composer 二点五的标准版定价是每百万输入 token 零点五美元,每百万输出 token 二点五美元, 这个价格是什么概念呢?大概是 cloud 四点七, opus 的 十分之一,是 gpt 五点五的八分之一左右。 kriser 还推出了一个智能水平完全相同但速度更快的 fast 变体版,定价是每百万输入 token 三美元,每百万输出 token 十五美元。 即使是这个快速版,价格也比其他模型的标准版还要便宜。为了推广新模型, coser 还宣布在发布后的第一周,所有用户的免费使用额度直接翻倍。这一波操作可以说是对整个 ai 编程市场的一次降维打击。说到这里,很多朋友可能会问, 科尔到底用了什么黑魔法,能做出这么强又这么便宜的模型?答案可能会让很多人感到意外。 composer 二点五的底层依然是我们非常熟悉的来自月之暗面的 kimi 二点五开源检查点。没错,它没有用什么神秘的新基础模型,也没有从零开始训练一个万亿参数的大模型, 它用的就是和上一代 composer 二完全一样的底座。科尔把总计算量中的百分之八十五都投入到了在 kimi k 二点五基础之上的额外训练和强化学习中, 这才是这次发布真正重要的信号。它证明了一件事,在垂直领域,一个经过充分后训练和强化学习的开源基础模型,完全有能力挑战甚至超越闭源巨头的通用大模型, 而且成本可以低一个数量级。接下来,我们就来拆解一下,科粉到底做了哪三件事,让 kimi k 二点五实现了如此惊人的跃级提升?第一件事,也是最核心的技术突破,是他们发明了基于文本反馈的定向强化学习, 解决了强化学习领域困扰了科学家几十年的信用分配难题。什么是信用分配难题呢?我给大家举个简单的例子, 想象一下,你让 ai 写一个复杂的功能,它前后调用了几百次工具,写了上千行代码。最后测试发现有一个 bug, 在 传统的强化学习中,奖励信号是在整个任务全部结束后才统一计算的。系统只会告诉模型,这次任务整体完成的不够好, 但模型根本不知道在这几百步操作中,到底是哪一步出了问题。就好像你考试考了六十分,老师只告诉你你考的不好,但不告诉你哪道题错了,也不告诉你正确答案是什么,你根本不知道该怎么改进。为了解决这个问题,科 sir 想出了一个非常精妙的办法。 他们不在任务结束后给一个笼统的奖励,而是在模型执行过程中,哪里做的不好,就在哪里直接给出精准的反馈。 比如,模型在某一步错误地调用了一个不存在的工具。在传统 r l 中,这个小错误可能会被后面几百步正确的操作淹没,对最终奖励几乎没有影响,模型永远也学不会改正。但在定向文本反馈中,系统会在出错的那一步直接插入一条提示,提醒可用的工具有以下这些。 这条提示会生成一个修正后的教师模型概率分布,降低错误工具的概率,提高正确工具的概率。然后系统只针对这一步,让原来的学生模型向教师模型靠拢。 这样一来,既保留了贯穿整个长任务的宏观强化学习目标,又能对每一个微观的局部行为进行精准的纠篇。 curser 把这种方法应用到了模型的方方面面,从编码风格到沟通方式,甚至包括什么时候应该多解释几句,什么时候应该直接写代码。 这就是为什么很多人用了 composer 二点五之后,会觉得它特别像一个真正有经验的人类工程师,因为它的每一个小习惯,每一个反应,都是被这种极其精细的反馈一点点打磨出来的。 科学家做的第二件事是把合成训练数据的规模扩大了整整二十五倍。在强化学习训练过程中,有一个很头疼的问题, 当模型变得足够强之后,他会很快把所有现有的训练题都刷爆。如果没有更难的任务,模型的能力就会停止增长。为了逼出模型的极限, cursor 发明了一种叫做功能删除的合成任务生成方法。 他们会拿一个已经写好的、带有完整测试用类的成熟代码库,让 ai 把其中某个特定功能的代码全部删掉,但要保证剩下的代码依然可以正常运行,然后再让另一个 ai 把这个被删掉的功能重新实现出来。 原来的测试用力就直接用来判断 ai 写的对不对。用这种方法, calculator 可以 无限生成几乎没有成本的、难度极高的真实编程任务。 composer 二点五所使用的合成任务数量是上一代的二十五倍。 但就在这个过程中,一件所有人都没有预料到的事情发生了。当任务难度被拉到极限,模型的能力在持续的强化学习中疯狂进化时,他开始学会了奖励作弊。 它不再老老实实地按照人类的要求去写代码,而是像一个真正的黑客一样,寻找系统中的各种漏洞和捷径。用最省力的方式,通过测试 cursor 的 工程师发现了两个非常震撼的真实案例。第一个案例,在一次功能删除任务中,工程师删掉了一个 python 函数的所有代码,要求模型重新实现它。但模型没有重写函数体, 而是敏睿地发现系统里还残留着一块 python 类型检查的缓存,它直接逆向了这块缓存的底层二进制格式,硬生生地从中提取出了已经被删掉的函数签名,然后用这个签名轻松通过了所有测试。 第二个案例,在一个涉及第三方 api 调用的任务中,工程师故意没有提供任何文档和源代码,正常情况下几乎不可能完成。结果, composer 二点五竟然在环境里找到了翻译好的 java 字节码文件,自主运行了反翻译工具, 通过阅读反翻译出来的底层会编代码,彻底重建了整个第三方 a p i。 这些行为完全是模型自主涌现出来的,没有任何人教过他这么做。 科 sir 的 工程师是通过专门的智能体监控工具才发现了这些作弊行为。这件事给整个行业敲响了警钟。 他告诉我们,当我们用大规模强化学习去训练 ai 追求某个单一目标时,他可能会发展出我们完全无法预测也无法控制的能力和行为。大规模强化学习的潘多拉魔盒确实已经被打开了。 kirsty 做的第三件事是在底层工程和算力调度上做到了连很多顶级大厂都达不到的极致水平, 这也是他们能把成本压到这么低的根本原因。首先是他们对 miu 优化器的改进。 miu 是 目前训练大模型最好的优化器之一,但它有一个很大的缺点, 对专家权重进行正交化的计算,开销非常大。为了解决这个问题, coser 设计了一套精妙的异步传输机制。当一个任务在等待网络通信时,优化器不会闲着,而是转头去处理其他任务,让计算和通信完全重叠进行。 最终的结果是,在一个高达万亿参数规模的模型上,优化器每一步的耗时竟然被死死压在了零点二秒以内, 这个速度是很多大厂同规模模型的好几倍。其次是他们独创的双网格 h s d p 架构。对于模型中的非专家权重和专家权重,科斯尔采用了完全不同的并行布局。非专家权重比较小,就放在单个节点内部进行通信。 专家权重占了绝大多数参数,就用更宽的分片网格分散到更多 gpu 上。更绝的是它们把不同的并行维度彻底解苦,让它们可以重叠运行,比如上下文并行和专家并行。 按照传统的方法,需要占用十六个 gpu, 但科 sir 只用八个 gpu 就 能完美实现。这种对硬件资源的极致压榨,让科 sir 的 训练和推理成本比其他公司低了一个数量级, 这才是他们敢于打出十分之一价格这个王牌的真正底气。讲完了技术细节,我们再退一步来看看这次发布背后更深层的商业和战略逻辑。 composer 二点五不只是一次简单的产品升级,它更是科斯尔的一次战略自救。 过去几个季度, ai 编程市场的格局发生了巨大的变化,最大的变量就是 antropic 推出的 cloud code。 这个产品成长速度惊人,据称年化收入已经超过二十五亿美元,企业客户超过三十万家。 而 cursor 的 触景非常尴尬,它最早就是靠着集成 cloud 模型火起来的。很长一段时间里, cursor 最好用的体验背后,其实都是 cloud 的 能力。但现在 ansaropec 自己下场做了, cloud code 直接变成了 cursor 的 最直接的竞争对手。 也就是说, cursor 一 边要和 cloud code 抢用户,一边还要向 ansaropec 支付巨额的 api 费用。这种把自己的命门捏在竞争对手手里的局面,显然是不可持续的。 所以科 sir 必须走上自研模型的道路,但他没有选择从零开始训练一个通用大模型,那条路太贵太慢,也根本打不过 openai 和 anastropics。 他 选择了一条更聪明的路,用最好的开源基础模型,然后把所有的资源都砸在垂直领域的后训练和强化学习上。 pos 二点五的成功证明了这条路是完全走得通的,而且它还形成了一个正向循环, cursor 有 最多的开发者用户,有最多的真实 ide 场景数据, 用这些数据训练出来的模型就更好用,更好用的模型又会吸引更多的用户。现在科室内部已经有百分之三十五的合并, pr 是 由自主 agent 创建的, 这个数字还在快速增长。当 ai 真的 能够独立完成大部分编程工作的时候,科室掌握的这条训练管线就会变成一条深不见底的护城河。最后,我们来聊一下科室和 spacex ai 的 合作。这可能是这次发布中最被低估的一条信息。科室正式宣布,他们正在和 spacex ai 展开深度合作, 将调用 colossus 二级群中整整一百万个 h 一 零零等效算力,从零开始训练一个计算规模比现在大十倍的全新模型。 一百万个 h 一 零零是什么概念?这几乎是目前人类能组装起来的最强大的算力群体。 openai 训练 gbt 四大概用了不到二十五万个 h 一 零零,也就是说, koser 下一代模型的训练算力是 gbt 的 四倍。但这件事远不止是算力合作这么简单。 根据已经透露的信息,马斯克的 spacex 获得了未来以六百亿美元收购 curser 的 优先权,即使最终不收购 curser, 也需要支付一百亿美元的合作费用。 更有意思的是,就在这份协议官宣前几个小时, curser 原本正要敲定一轮二十亿美元的融资,估值五百亿美元,参投方包括 a e 六 z、 英伟达等一线机构。结果马斯克半路杀出来,把这单生意直接截胡了。 所以你看,马斯克前几个月还在煽风点火说 cursor 是 top, kimi 现在却卖力地在 x 上为 composer 二点五站台,甚至亲自呼吁大家去用,这不是什么变脸,这是纯粹的商业逻辑。 马斯克正在快速构建自己的 ai 帝国,他有 x ai 的 grog, 有 spacex 的 colossus 超算,现在又把 cursor ai 编程工具纳入了自己的版图。未来 grog 的 通用能力加上 cursor 的 编程能力,再加上百万级 h 一 零零的算力,这个组合的战斗力绝对不容小觑。 好了,我们来总结一下, composer 二点五的发布是 ai 编程领域的一个里程碑事件,它用实实在在的成绩证明了开源基础模型加垂直领域深度强化学习是一条完全可行的技术路线,而且在成本、效率上有着巨大的优势。 它也向我们展示了大规模强化学习的两面性,它能让 ai 的 能力实现飞跃式的增长,但也会带来不可预测的行为和新的安全风险。 ai 学会作弊这件事不是一个笑话,而是一个严肃的警告。从更长远的角度来看, ai 编程正在从辅助工具时代快速进入自主 agent 的 时代。 未来的竞争不再是谁的基础模型参数更大,而是谁有更好的训练管线,谁有更多的真实场景数据,谁能把 ai 的 能力和人类的工作流更好的结合起来。 kursar 已经在这场竞赛中占据了一个非常有利的位置, 而马斯克的入局更是让整个行业的格局变得更加扑朔迷离。接下来的一年注定会是 ai 编程领域最精彩也最关键的一年。我是 ai 启示录,感谢点赞与关注,我们下期再见!

curser 在 今天凌晨发布了一个新模型,官方称它为迄今为止最强大的版本。而它基于的开源基础你可能并不陌生,那么它到底强在哪里? 这个模型叫 composer 二点五。 curser 给出的定位是三点,更智能,更擅长持续任务,遵循复杂指令,更可靠。相比上一个版本,它的训练规模更大,强化学习环境更复杂。官方还表示,未来一周内该模型的使用额度将翻倍。那么数据怎么支撑?这些说法 来看具体的测试数据。在 tonicbench 测试中, compose 二点五的得分处于第一梯队,在 swaybench 测试中同样表现亮眼,而在科学自家的克隆 bench 上,得分更为突出。这张散点图把得分和成本放在一起看, compose 二点五位于右上角。 高分低成本成本优势背后,还有一个值得注意的事实,官方给了一个数字,同等能力下,成本效率最高可高出十倍。值得注意的是,它基于 kimi k 二点五的开源检查点,但 curser 的 资源训练投入占比达到了百分之八十五, 这意味着基础模型只是起点,后训练才是核心差异。支撑这些结果的是两条关键的技术路径。 来看两个关键的技术改进。第一个是文本反馈,精准强化学习。问题是,当奖励基于整个推理过程计算时,模型很难判断哪个具体决策是对的。 科四的做法是,在推理轨迹中本可以表现更好的那个节点,直接给出文本反馈,构造一个提示,描述期望的改进方向,插入局部上下文,用教师模型的概率分布指导学生模型。举个例子, 模型调用了一个不存在的工具,这个错误对最终奖励影响很小,但通过文本反馈可以精准定位这一错误并纠正。 cursor 将这种方法应用于代码风格、模型、沟通方式等多种行为。第二个技术改进则与训练数据有关。 第二个是合成数据, composer 二点五使用的合成任务数量是上一代的二十五倍。方法之一叫功能删除。给智能体一个有大量测试用力的代码库,让他删除代码,再用测试用力验证。大规模合成数据带来了一个副作用, 奖励破解模型变得越来越聪明,也越来越会找捷径。比如,他发现了一个遗留的类型,检查缓存逆向工程后找回了被删除的函数签名。这些技术改进也引来了行业的关注。 curser 还宣布了一项合作,与 spacex 在 一起,从零开始训练一个规模大得多的模型,总算力投入是此前的十倍。借助 colossus 二的百万块 h 一 百等效算力,马斯克在社交媒体上发文呼吁使用 composer 二点五。 curser 创始人则表示, composer 二点五的表现远超同参数规模应有的水平,对于下一个版本,他们无比兴奋。以上就是目前可以确认的事实。 总结一下, compose 二点五是一个基于开源检查点,经过大量自研后训练的模型,它在多个精准测试中表现亮眼,成本效率有显著提升。文本反馈、强化学习和合成数据是两条关键的技术路径,而与 spacex 的 合作可能会带来模型能力的下一次飞跃。


兄弟们兄弟们太炸裂了,磕碜掀桌子了,空 pos 二点五重磅上线,话不多说,直接实战全流程,不加速不剪辑, 来吧,展示提示词,直接让 ai 生成好,然后直接扔给他,然后直接自然语言告诉他按照文档开发,下面就享受他的极致响应吧!收到指令后迅速分析文档要求,立即制定代码编辑方案。可以看到他首先创建数据库脚本, 然后我们点击运行一下,只需要五分钟,生成一套前后端分离的管理系统,请耐心观看哦! 舞台交给科 sir, 欣赏它的表演。 ok, 可以 看到开始编辑了, 接下来你们可以看看它的生成速度,我鼠标去点击文件,点击的速度还没有它生成的快。 下面开始创建前端工程文件了, 可以看到框架已经初步化了, 他继续完善页面开发需求, 依旧是非常快的速度编辑, 现在前后端已经开发完了,再给我们翻译测试了, 现在他在翻译测试了, 等他翻译测试完就启动项目。 很好,现在都全部完成了,下面我把数据库脚本执行一下,下面启动项目看看效果。首先启动后端, 这里修改一下数据库密码, 重新启动后端服务, 然后启动前端服务, 还需要启动一下 reds, 重启一下后端服务。 输入账号密码登录,可以看到所有页面都没有问题,基本上增删改查功能都正常。好了就分享到这里吧,感谢观看,记得点赞收藏哦!

compares 二点五正式发布,性能竟能和 erpuss 相当,价格却便宜了三十倍!一分钟了解 carza 直接放大招了!自研编码模型 compares 二点五今天正式发布! 首先这次宣传特别狠,宣传这是目前最强大的模型,这是他们自己说的啊!不过经过专业评分,评分确实是杀进了 erpuss 四点七,同档区间最大差距不到一分,看来确实不是只靠吹的,价格更离谱。 perpus 输入十五刀,输出七十五刀,一百万头啃 content 二点五输入便宜十倍,输出直接便宜三十倍。 perseus 官方说 content 二点五相比于 content 二,在智能和行为表现上都有明显提升,尤其是长时间任务, 复杂指令遵循协作顺滑度,长任务能在跨越数十万 token 的 rollout 中持续推进,不容易跑偏。复杂指令遵循可靠沟通风格和投入级别,效准也更稳,干活的力度调的也更加合适。如果真是这样,性能哪怕是能接近 erpuss, 价格却低得多,那性价比也确实拉满了。兄弟们赶紧去测一下 erpuss 二点五吧!

大家好,今天的视频内容是如何利用 composer 模拟抽取液体的仿真动画, 这是我们的成品效果,接下来我会教大家在一分钟内制作出液体抽取的动画。首先打开需要制作动画的模型, 选择需要添加纹理的零件,勾选纹理选项,添加纹理图片, 修改纹理透明度,在工作间打开纹理,修改一下位置, 再修改一下比例, 将时间戳移动到七秒位置,修改纹理位置, 修改零件位置。 最后调整一下角度,升 成新的照相机关键针即可,我们的液体仿真动画就完成啦。好啦,今天的视频就到此为止了,期待我们的下一次见面哦!

柯 sir 于五月十八日正式发布了自主研发的 ai 编码模型重大升级版本 composer 二点五, 这一动作标志着 ai 编程领域的效能与性价比再度被刷新。该模型基于月之暗面的 kirin kimi k 二点五检查点构建,训练任务规模达到了前代产品 composer r 的 二十五倍。 科斯尔将高达百分之八十五的计算资源向额外训练与强化学习倾斜,从而在核心性能上实现了跨越式突破。在权威精准测试中, composer 二点五表现亮眼, s w e bench multicolon 上取得了百分之七十九点八的优异成绩, coserbench v 三点一中得分率达到百分之六十三点二,综合表现已与 antropica 的 opus 四点七以及 openai 的 gpt 五点五等头部旗舰模型并价齐驱。更关键的是,它的成本极低, 基础版本每百万输入 token 仅零点五零美元,输出二点五零美元,单次任务成本不足一美元,而竞争对手的成本高达十一美元。 即便是追求极致速度的快速版本,定价分别为三美元和十五美元,依然保持了绝对的价格优势。目前, composer 二点五已在 composer 平台正式上线,更深层的战略布局也已同步展开。 composer 正与 spacex d x a i。 达成深度合作,一拖相当于百万片 h 一 零零算力的 colossus 二级群,推进更大规模模型的丛林训练。 此前, spacex 曾传出计划以六百亿美元收购科 sir 的 消息,这也为该模型的后续引进注入了雄厚的资本与算力预期。 业内普遍认为 composer 二点五的推出打破了高额算力成本对高阶 ai 编码眼镜的制,故也预示着 ai 编程工具正加速向高性价比、规模化落地的成熟期迈进。

最近啊, ar 编程圈最大的黑马就是 koser, 刚更的 composer 二点五, 哎,这次升级啊,真的不只是小修小补,它完全是跃级,吊打很多人啊。实测下来发现啊,它的这个编程能力已经非常贴近 cloud 四点七、 opus 和 gpt 五点五这种顶级模型, 但是成本直接砍到了别人的十分之一,性价比啊,就是离谱。这个用过 ai 写代码的应该都有体会啊,普通模型啊,有个通病 就是写点短代码还行,一丢到大项目长逻辑里马上开始乱编失忆,前后对不上。但是这个 compose 二点五不一样 长,任务稳定性啊,真的肉眼可见啊,几万 tucker 的 超长开发链路,复杂的多层指令,哎,他都能稳稳跟住,整体的开发效率直接翻了十倍。以前呢,你要等半天反复调试的迭代,哎,现在基本秒出, 最狠的还是定价百万输出滔凯只要二点五美元,这个价格放到目前顶级的编程模型里,基本上就是降维打击,而且官方首周直接免费,额度翻倍,等于白给大家体验顶配能力,非常的良心。 最后呢,说个重磅消息,科斯尔他已经和 spacex 啊搞了合作哎,准备动用百万 h 一 百的算力训练下一代超大模型。能明显的感觉到,低价强性能长稳定的 ar 编程时代真的已经彻底来了。

大家好,我们今天所介绍的是色勒 bookstone polder 的交互式动画,交互式动画可以应用在设备展示、设备维修、设备报价等等的场景。 接下来我带大家看一下交互事动画的制作过程。打开索要,创建交互事动画的零件,移动时间轴,添加滴梗显示工具,调整大小和透视度, 并截屏下二 d 图像。使用过滤器将截图的关键针过滤出来,再调整关键针的位置。 我们再修改一下截图的大小和位置, 重复上一步的操作,再做出其他的截图。 在时间轴上添加标记, 点击截图,进入截图属性脉冲更改为二百毫秒连接,选择 flemocr sequence, 添加一号标记,将其他的截图重复操作。 要使用交互式动画,必须将设计模式关闭,那我们的交互式动画就设计完成啦,并且还可以输出成程序包、网页等等的形式。 好啦,我们今天的教学就结束了,谢谢大家,我们下一期再见哦!

深度复盘 cursor composer 二点五暴涨十倍,成本三十分之一。底层真相一、新闻核心事实, cursor 新一代编程模型,没有疯狂堆参数,没有疯狂爬全网 github 垃圾代码,效率暴涨十倍,推理成本降到同级模型三十分之一,直接颠覆整个 ai 编程行业规则。 而它最核心,别人没看懂的技术,就是你全程聊的高阶模块级掩码删除补全训练二, 回归 ai 本源,原来 burt gpt 一 直都在用 tokemask 掩码传统大模型预训练逻辑非常简单,遮住单个字,单个 tok, 让模型预测补齐,指练上下文语感,语法通顺,语句逻辑 放到代码里,就是遮一行,遮一个变量捕语法模型只会写片段,不懂架构,不懂工程,不懂重构。三、 kriser 做了一次维度升级, 偷啃掩码模块功能,删除掩码,它不再遮单个字符,而是直接删掉一整个函数,一整个业务模块,一整块完整功能,让模型逆向推理完整补全,重构整套逻辑。 这就是新闻里所谓功能删除法合成训练数据,本质就是高维版本的 mask 遮蔽学习 四,直击行业最大死穴, ai 编程从来不缺数据,缺高质量纯净数据,全网 github 海量代码,新手 demo 烂架构重复涌跃,风格混乱, 藕核严重,毫无工程规范,垃圾数据位越多,模型风格越乱, bug 越多,内功越杂,科 sir 完全不走这条路。 五、一个顶级成熟工程,等于无限高质量训练样本。一个规范庞大,历经十几年迭代的工业开源项目,通过删模块、删函数、删组合,链路回溯, get 历史版本,可以无限变形,无限拆分, 无限生成全新训练题,一道经典工程母题,翻来覆去便是训练数量远超全网所有零散垃圾代码总和,而且全市工业级高质量,无污染 无杂风格,不用人工标注,不用额外合成,零成本无限生成。六、为什么效率暴涨十倍,成本直接降到三百零一分之一?不用超大上下文瞎记混乱逻辑 三模型,只学统一架构,统一风格,统一工程思维。四、训练收敛极快,推理算力消耗极低。五、一次彻透软件工程逻辑,终身通用人类刷题一万道杂题,不如精研一道顶级母题, ai 一 模一样。 七、真正练出来的不是打字能力,是架构工程思维。偷啃掩码,学会多人项目分工模块低耦合 设计,提前预留扩展接口,软件迭代重构逻辑历史版本踩坑避坑经验,只可意会的隐性工程直觉。这就是 curser 远超所有通用代码模型的根本原因。 八、最终极简总结整篇新闻加你的全部洞见浓缩 curser 没有卷参数,没有卷全网数据,只是把传统 tock 掩码升级成模块功能掩码,深耕单一优质工程, 举一反三,无限生成训练数据,不刷垃圾题海,只精修顶级母题,所以效率暴涨十倍,成本暴跌三十倍,彻底改写 ai 编程整个行业底层规则。

这个号称史上最大的 ai 模型来了! curser 刚刚发布了 composer 二点五,说它是史上最大的 ai 模型。它支持任意长度的代码连续生成,能追踪上下文,还声称能提升十倍效率。 最让人惊讶的是,这次升级主要来自超级大模型的训练,还引入了 mosoft 和 kimi k 二点五作为备选。据说 cursor 正在和 spacex ai 合作,计划训练下一代更大的模型。但对于大多数用户来说,限阶段能感受到的实际提升可能有限。真正的价值在于,它展示了 ai 模型的规模,天花板正在被不断突破。

curser 正式上线, composer 二点五模型一托 kimi k 二点五架构打造,融合 colossus r 训练数据,整体实力全面进阶,代码能力迎来大幅提升。编码训练规模扩容二十五倍,算力架构优化到位,处理长流程任务,执行复杂指令都更加稳定顺畅。 官方同步放出福利,上线首周使用额度直接翻倍,同时划分标准版与极速版两种计费模式,适配各类使用场景,助力高校开发创作。