粉丝2.4万获赞24.6万

明知道科室的 ai 很 强,却因为用惯了 ide 迟迟没有切换。别纠结了,今天教你三步设置,让你的科室变得和 ide 一 样好用。第一步,快捷键无缝衔接 从 ide 切换到科室,第一大难题可能就是快捷键。直接装这个插件,可以在科室里完美复刻 ide 快 捷键,熟悉的重构、跳转等全部回归肌肉记忆,完全不需要更改。 第二步,搞定 java 环境。 cursor 有 丰富的插件来支持 java 开发,装上 java 扩展包和 spring boot 等插件,像项目管理、 my 构建、运行 spring 的 服务等这些核心功能完全够用。 第三步,解决调试痛点。很多人吐槽 cursor 调试 java 不 如 idea 方便装这个插件。 平时用科室的 ai 狂写代码,遇到复杂 bug 一 键切回 idea, 写代码用 ai, 调 bug 用 idea, 这才是最高效的工作流。 最后,无论是用科室还是 idea, 核心都是帮我们更高效地写出高质量的代码。这种传统 idea 加现代 ai 技术的组合,是一个值得尝试的新选择。 我整理了一份科室复刻 idea 配置清单,放在了评论区。关注我,解锁更多实战技术干货,记得点赞关注哦!

最近 deepsea 不是 更新了一个 v 四 pro 版本吗?然后主播想把自己科斯尔模型改成最新的那个 deepsea v 四 pro, 然后我在科斯里边配置好 deepsea v 四 pro 的 api 之后,兴气勃勃地每每想使用国产又便宜又好用的模型后,结果发现科斯尔好像不能正常地使用 deepsea v 四 pro 模型。当 newchat 并开启第一个问题时,他可以回答, 但是一旦开始,后续的问题直接就会报错。 provide a return error error message the reasoning content in the thinking mode must be passed back to the api。 于是主播去 google 了一下,想搅一搅网校有没有解决方案,结果发现社区里也有很多人都在吐槽这个问题, 而且也没有搅到一个可行的解决方案。于是主播决定自己写一个代理程序来解决这个问题。根据报错信息猜测, deep seek v 四的 thinking 模式有个强限制, 他返回的思维链必须原样传回去,但是 cursor 目前不机器传回 ds 的 reason content。 于是主播写了个代理程序,中间调戏过程就不说了, 代理程序写好之后,理论上直接把 sir 设计里的 base url 改为代理程序监听的地址就行了。可惜 sir 很 傲娇,不让连本地直译网代理你走,本地代理直接就给你四百零三 forbidden 了, 只能使用公网 ip 访问。于是主播用 cloud fear 打了个隧道,穿透内网,将 base u v l 换成映秀岛本地代理的公网地址。这次 koser 终于认了,我再使用 deep seek 杠 v 四杠 pro 模型进行后续的对话,也能正常使用了。 感觉 cursor 官方没有更新支持 deep seek v 四 pro 模型的话,目前只能通过这种补丁方式来使用了。代理代码我已经开源在 github 了,叫 cursor 杠 deep seek 杠 v 四杠 proxy, 配置就改一个 u r 料,两分钟搞定。链接我放在置顶评论和视频简介里了,如果你也碰到了这个问题的话,需要的兄弟们自己去拿。我把文件都打包好了,根据 redmi 说明操作,一键启动就可以了。

这期视频带你用 cursor 入门 web coding, 从 cursor 的 安装配置到生成你第一个个人主页,手把手带你了解如何进行 web coding。 在 cursor 的 官网就可以直接下载我们对应电脑版本的软件,完成安装以后打开应用,接下来登录 cursor 的 账号就可以进入应用了。 我们先选择 new project, 这里设置一会我们写代码用到的文件夹,我这里就新建了一个 cursor test。 右上角这里的设置按钮可以设置。软件整体的布局有 agent 和 editor, 我 这边选择的就是传统的 editor。 左边这里可以查看文件夹的内容,相当于是文件浏览器。右边这里可以和 ai 对 话,中间可以查看和编辑代码文件 setting 这里有更详细的配置,比如说通用的配置, agents 的 配置和模型的选择。我们现在使用的是免费版,所以模型这里只能选择 auto, 下面这些具体的模型是选不了的, auto 会自动选择模型来平衡他输出的质量和速度。如果后面你有更高的开发要求,或者 auto 模式经常限速,可以考虑选择科四的会员。我们现在就可以在对话框这里输入我们的需求,比如可以试着做一个网页作为个人主页,刚开始可以简单描述一下,然后慢慢优化细节, 那这就是 ctrl 生成的代码文件,还包括了一个 macdunk 格式的说明书,讲解了我们的网页还要配置哪些内容。这些文件可以看到就创建在了我们刚才设置的工程文件夹中,可以直接查看文件中的代码内容,那打开 index html 就 可以看到网页的效果了, 整体看起来更像是一个个人简历。如果你觉得有哪些地方需要修改,就可以在对话框中继续告诉 cursor, 比如把右上角的卡片去掉,等 cursor 修好以后,就可以刷新一下页面,看下新的效果,基本上还是达到了我们的目的的。 那通过 cursor 进行 web coding 大 致就是这么一个流程,后面我也会分享一些更加具体的 web coding 的 技巧。最后我还想分享一下我对 web coding 的 一些看法,我觉得它非常适合我们,将自己一些有意思的想法和创意变成现实,让每个人都拥有创造的权利,那这在 ai 编程以前是很难做到的事情。 对, web 扣定不是一定要做出可以商业化的项目去赚钱,或者 ai 编程去替代程序员制作一个更适合自己的小工具也同样很有意义。那以上就是从 curser 入门 web 扣定的全部内容,如果觉得对你有那么一点帮助,欢迎点赞关注,后面我也会分享实用的 ai 小 技巧和好玩的数码产品,那我们下期视频再见吧!

想做自媒体搞副业的朋友,脑子里是不是有几十个 app 创意,结果全卡在了后端?大模型开发商,别焦虑,我今天就把不会代码也能开发 ai 后端大模型的独家经验全部分享给你, 看完后你半个小时就能让你的 app 或者网站接入 ai 大 模型。废话不多说,直接讲干货,先看看结果,这个 app 的 后端已经接入了 ai 视觉识别大模型,拍一张照片就能识别出物品的有效期,食品、药物、代金券、会员卡都能识别, 是怎么做到的呢?先收藏这个视频,免得哪天你想动手实现的时候你找不到教程,现在就跟着我的节奏认真看。 第一步,打开阿里云官网,搜索百念,点击大模型服务平台,百念点击免费体验, 点击应用开发,点击创建应用,选择自媒体应用,选择 agent 的 二点零模式,给应用起个好听的名字,比如有效期识别 app, 点击创建。到这里呢,我们就把大模型开发的框架已经打好了, 下面继续跟着我的节奏,学会给大模型点亮技能点。第一步,你得确定你的大模型是用来干嘛的,比如聊天的,你就用文本生成模型,比如图片识别的,你就用视觉识别模型。 这里不单有阿里自有的几十款千万模型,还有开源的 deepsea 模型。第二步,给大模型安排工作任务,他是谁?扮演什么角色?他收到任务后返回什么数据?巴拉巴拉,我这里整理了一套呢,让大模型识别物品有效期的提示词, 把它粘进去,等着他给你干活吧。第三步,可选步骤。如果你想给大模型再加点技能点,比如接入 m c p, 这里有一堆内置的 m c p, 开箱即用。比如你想 ai 对 话保留记忆,可以把这里的鞋带上下纹拉到最大, 这样 ai 聊天会记得最近三十次的聊天内容,你都不需要额外对接什么像量数据库,太他妈省事了。第四步,测试大模型能不能正常工作,在界面的右侧选择一张优惠券,看看他能不能识别出有效期, 完美,可以准确识别出来,要是效果不满意呢,你就去调提示词,直到调到满意为止。 第五步,接入 app 或者网站,点击 sdk, 使用文档 复制 api, 文档链接直接丢给 ai 编辑器,叫它实现这个接口并接入 app。 记得把 app id 和 appk 配置进去,这样你的 app 就 完美的接入后端 ai 大 模型了。 最后再总结一下,他是干嘛的,他是 ai 时代的乐高工厂,你想接通一千万,点一下,你想让他有记忆,能联网,能读文档,再点一下,这不叫开发,这叫点将, 你就是统帅,那些昂贵的 ai 模型就是你的士兵。后端接口, api 调用、 fork 管理、阿里云百年,全部在底层给你弄好,你只需要想清楚你的用户是谁,你要解决什么问题? 很多人问我,这能行吗?稳定吗?兄弟,这是阿里级别的底层架构,每天扛着几亿次的兵法。 别再问这种外行话了,最恐怖的是,他不仅能接 app, 还能接微信,接自媒体,接你的各种业务系统。这意味着从今天起,你一个人就是一家技术公司,你可以用极低的成本去试错一百个。未来的竞争不再是代码能力的竞争,而是调用 ai 能力的竞争。 当别人还在吭哧吭哧写 bug 的 时候,你已经带着你的 ai 角色去收割市场。 这个世界正在重述你是想当被 ai 取代的那一个,还是想当驾驭 ai 的 那个人。这套方法是我经过很多次模型揭露实践出来的方法论,全网应该都还没有公开这套实践方法。别等别人都玩烂了,你才入场,现在就开始动手。 后续呢?我还将围绕开发好的 app, 如何推广,如何赚钱。记得关注我,带你用最朴素的方法,做出最有效的 app。

今天在 gitop 上发现这个在 cut 中接入自定义模型的项目,这里说的很明显了,现在看一下效果。我这里自定义接入了摩塔的大模型,这里使用一下,看一下效果。 先发一个简单的需求, 点击发送,然后就是等待响应,趁着等待的时间,我们看一下这个项目攻击的配置, 这里大家根据自己要接入的模型动态调讲配置就好了。 升球好了,我们看一下效果吧。 这里可能是我接入的是免费的模型,电球能力不是太好,所以页面有一点丑,但是我们自定义模型功能也是实现了。好了,今天就到这了。

ai 编程助手 curser 又放大招了,以前用 qt 快 捷的 ui 设计器,觉得那种所见即所得的体验特别好用,拖在元素调整属性,改完直接生成代码。 但外部开发一直没有那么顺手的工具,改个网页得在浏览器和代码编辑器之间来回切换。现在 curser 终于把这种体验带到了前端开发, 刻在内置的 browser 有 了可识法编辑器直接在内置浏览器里面啊,拖出来元素调整布局,点击组建,修改参数,用滑块和调色板实时地调整颜色间距和字体大小。 更厉害的是啊,你可以直接点选某个元素,告诉 ai 把这个变大一点,把这个改成红色,交换它们的顺序, 几秒钟就能看到结果。改完满意了,你再让 agent 帮你把改动应用到代码里面设计和开发,我们终于可以在同一个窗口里完成了。刻在 browser 的 可缩变镜器啊,让前端也有了所见即所得的体验,记得关注再走哦!

部署本地的 openclaw 已经可以剪视频了,大家都知道了吧, 这个让硅谷大佬每日一封的 openclaw 阿月,我呢也是拉到本地试了几天,现在就带大家把本地部署和接入飞书每一步都走明白。为了防止偶然性啊,我呢也是连续测试了四台电脑,确保每一步都可行,接下来你们只要跟着做就可以。点好关注收藏, 我这里依旧用的是 windows 系统来操作,因为 macos 系统呢,环境相对比较简单,不像 windows 这么复杂。首先呢,我们要确认好 windows 的 安装环境,安装的时候呢,全部都点 next, 一 直到完成即可,建议呢,不要去变更中间的安装路径。 呃,安装完成后呢,我们可以检查一下环境,我们在命令提示符的窗口输入这两个指令,如果输入指令后跳出版本号,那就说明安装已经成功了。这里提到的两个环境文件呢,我在文档里面也全部都准备好了。 好,接下来呢,我们就开始全区安装 oppo 卡使用管理员 c m d 指令输入,这个指令安装完毕后呢,再输入这一条指令, 好开始了。 ok, 这一步跳出来的呢是风险提示,我们直接选择 yes。 然后呢我们选择 quickstart, 这一步呢是选择大模型,我这里呢用的是千万,因为他是国内的,如果大家有惯用的呢,也可以自己进行勾选好,然后我们这里模型选择默认的即可。 之后呢会跳转到大模型的首页进行授权验证,大家验证通过就可以了。那通过后呢,这里也同样有一个选项,我们直接选第一个默认的模型。 ok, 下一步呢,这里可以看到很多的应用选项,这其实呢就是指令输入的终端,因为这些都是国外的,所以我们先不管,选最后一个,跳过,后面呢我会给大家介绍如何接入国内的飞书。 ok, 继续,这里会问你需要配置什么 skills? 呃,我们也跳过,没问题,因为这个不着急,后面都可以手动去配置的。 好,这个也不用管我们用不上,直接跳过。好,然后我们稍等一会,会自动弹出一个网页,然后你会发现这个网页是打不开的,没关系,我们这个时候呢,再运行一个 c m d 的 指令, 好,这就是欧奔 cloud 的 兑换框了,我们来尝试和他打个招呼, ok, 他 回复我了,那到这里呢,其实基本上就成功了,还是比较简单的啊。然后呢,我们再来尝试为大家接入一下飞书,很多小伙伴呢,在这一步呢,其实就被劝退了,因为怎么样都接入不了这里,大家看好我怎么操作。 首先呢,我们进入飞书的开放平台,我这里呢用的是个人版,我们来创建一个企业自建应用, 进到这个凭证与基础信息界面,把你的 app id 和密钥保存下来,这个很重要啊,后面会用到的。然后 我们添加一个机器人,再到权限管理这一步,为他添加一些权限。这里的权限列表呢,其实官方呢是有指导文件的,但是呢就藏的比较深,我呢也是给你们找出来,直接放到文档里面了,你们直接一键复制过来就 ok。 好,然后我们需要配置一下这个事件回调功能,在这里的订阅方式选择长链接这一步呢是必须的,而且是绕不开的,也是大家碰到卡点最多的一步,很多小伙伴呢在这里呢就是一直报错,好,不用担心,我呢,已经整理了一份非常长的傻瓜教程,大家直接照做就 ok 了。 然后选择以后呢,我们添加事件,然后添加搜索接收消息, ok, 然后我们就去点击创建应用,然后再发布就 ok 了。 好了,配置工作完成之后呢,我们就要开始给欧邦克劳接入飞速杀键了。由于 windows 的 系统环境问题呢,所以大家的电脑情况都不太一样,所以会出现不一样的报错问题。网上的很多视频呢,也没有把这个问题针对性的讲清楚,我自己呢也试了三到四台电脑来做尝试,都非常有挑战。 如果你手边也报错的话呢,不用担心,我这里想到了一个邪修的办法。好,那既然 oppo klo 可以 控制我的电脑,那为什么他不能自己安装飞出插件呢?我们来试试看吧,直接和他对话。呃,你自己安装一下飞出插件,然后呢,他就会开始疯狂的工作,并自行去验证安装环境和插件配置 啊。五分钟左右后呢,他就会告诉我,他工作完成了,需要我提供给到他飞出机器人的 app id 和密钥。这个呢,其实我们在上一步已经有了,我们直接复制给他,让他呢继续去工作。这里的工作过程当中呢,我们的机器人可能会下线几次,原因呢是他需要去重启网关, 如果呢,你感觉他下线太久的话呢,我们可以用 open cloud get away 这个指令重新把它呼出来。最后呢,他会要求你在飞车上和他对话进行测试,并为你排除最终的一些故障。 ok, 全部搞定,已经可以在飞车上正确回复我了,并且呢,刚才在外部的对话记录他也全部都记得, 呃,我们这里呢,再用手机给他发一条消息试试看。好,他也同样接受成功了。好了,这里欧本卡接入飞书的配置呢,就完全对接成功,基本上都是他自己完成的,我呢只是配合他提供了一些必要的信息, 妥妥的全能小助理。接下来我们来看看他能为我们做一些什么吧。比如呢,我现在想要订一张机票,我就让他帮我查询一下最便宜的航班,他立刻就给我列了具体的信息,包括航班号,价格以及其他的一些航班信息。不过这一步呢,是需要接入 api 的, 大家可以自行去网上找免费的接入就可以。 好,那现在过年了嘛,马上大家呢也会送礼嘛,那我就让他去浏览电商的页面。呃,不过这里呢,需要先安装一个 oppo club 官方的浏览器插件,我们直接从官方渠道进行安装就可以了。具体的步骤呢,已经放在文档里了,大家直接照做就可以。我让他给我打开。 ok, 成功,呃,然后我继续让他为我搜索燕窝。好,也成功了。 好,那我们现在在拿最近小伙伴在学习的 ai 的 线上作业丢给欧本克,看他能不能帮忙完成。 首先我们要让他找到作业的本地目录,并让他完成里面的题目。他立刻就找到了,并且迅速告诉我,完成了。啊,这速度还是真的蛮快的啊,但是呢,人呢,还是比较懒的。如果呢,你抄作业都不想抄啊?没事,直接让他把填完的东西返回给我。好,他已经做完了,我们来看看啊。 呃,代码呢?全部都完成了,不过呢,我也是看不懂啊。看懂的高手可以来说说他完成的这个准确率怎么样。 好了,那这次安装说明就先讲到这里了,关于 open cloud 的 更多能力,有时间呢我们可以再去测一下。好,那既然已经部署成功了,有兴趣的同学呢,也可以再去深度探索一下 啊。对了,现在呢,各大厂呢,也出了针对 open cloud 的 云端部署,我这个呢,也可以跟大家快速的分享一起。好,这里是阿月,希望我的视频能够帮助到你,让你更了解呀,我们下期再见。

大家好,我是 ai 启示录。就在两天前, ai 编程领域发生了一件足以改变整个行业格局的大事, cursor 毫无预兆地发布了他们迄今为止最强的模型 composer 二点五。 这款模型最震撼的地方不是它有多强,而是它用一个开源基础模型做到了几乎和 cloud 四点七 opus 持平的编程能力,但成本却只有后者的十分之一。 另外,在训练过程中,这个 ai 为了完成任务,竟然自主学会了逆向工程和反翻译,像一个真正的黑客一样钻系统的空子。而科 sir 还同时宣布,他们已经和 spacex ai 达成深度合作,即将动用一百万个 he 一 百等效算力,训练一个比现在强大十倍的全新模型。 今天这期视频,我们就来把这件事彻底讲清楚。 composer 二点五到底强在哪里? cursor 用了什么黑魔法,能让一个开源模型跃即挑战闭源巨头? ai 学会作弊这件事又给整个行业敲响了怎样的警钟? 我们先从最基本的事实说起。二零二六年五月十八日, cursor 官方正式发布了 composer 二点五。按照官方的说法,这是他们有史以来最强大的模型, 在智能水平、长周期任务的持续工作能力以及复杂指令的依从性上都实现了跨越式的提升。可能很多朋友还没有意识到,长任务能力恰恰是当前 ai 编程工具最大的痛点。 很多模型在写十几行简单函数的时候表现的像个天才,但只要把它扔进一个几十万行代码的大型真实项目里,让它连续工作几个小时,它就会开始胡言乱语,忘记前面做过什么,甚至把整个项目搞崩。 而 composer 二点五主打的就是解决这个问题。官方数据显示,它在长达数天、涉及数万个 token 的 长轨迹开发场景中表现出了前所未有的稳定性。它不再是一个只会对单次 prompt 做出反应的工具,而变成了一个能够真正理解上下文演变的合作伙伴。 我们来看一下官方公布的精准测试成绩。在最权威的 s w e bench multi lingual 测试中, composer 二点五拿到了百分之七十九点八的分数,直比 cloud 四点七 ops 的 百分之八十点五低了不到一个百分点, 甚至还超过了 g p t 五点五的百分之七十七点八。在 terminal bench 二点零测试中,它的得分是百分之六十九点三,和 opus 四点七的百分之六十九点四几乎一模一样。 在 cursor 自己设计的、更偏向真实困难任务的 cursor bench v 三点一测试中, composer 二点五拿到了百分之六十三点二的分数。 opus 四点七在最高配置下能拿到百分之六十四点八,但在用户默认使用的 x high 配置下,得分只有百分之六十一点六,反而比 composer 二点五还要低一点。 gpt 五点五的默认成绩则是百分之五十九点二。也就是说, 在绝大多数用户实际会用到的配置下, composer 二点五的表现已经超过了当前市面上的两大顶级模型。但真正让整个行业感到震撼的不是它的性能,而是它的价格。 composer 二点五的标准版定价是每百万输入 token 零点五美元,每百万输出 token 二点五美元, 这个价格是什么概念呢?大概是 cloud 四点七, opus 的 十分之一,是 gpt 五点五的八分之一左右。 kriser 还推出了一个智能水平完全相同但速度更快的 fast 变体版,定价是每百万输入 token 三美元,每百万输出 token 十五美元。 即使是这个快速版,价格也比其他模型的标准版还要便宜。为了推广新模型, coser 还宣布在发布后的第一周,所有用户的免费使用额度直接翻倍。这一波操作可以说是对整个 ai 编程市场的一次降维打击。说到这里,很多朋友可能会问, 科尔到底用了什么黑魔法,能做出这么强又这么便宜的模型?答案可能会让很多人感到意外。 composer 二点五的底层依然是我们非常熟悉的来自月之暗面的 kimi 二点五开源检查点。没错,它没有用什么神秘的新基础模型,也没有从零开始训练一个万亿参数的大模型, 它用的就是和上一代 composer 二完全一样的底座。科尔把总计算量中的百分之八十五都投入到了在 kimi k 二点五基础之上的额外训练和强化学习中, 这才是这次发布真正重要的信号。它证明了一件事,在垂直领域,一个经过充分后训练和强化学习的开源基础模型,完全有能力挑战甚至超越闭源巨头的通用大模型, 而且成本可以低一个数量级。接下来,我们就来拆解一下,科粉到底做了哪三件事,让 kimi k 二点五实现了如此惊人的跃级提升?第一件事,也是最核心的技术突破,是他们发明了基于文本反馈的定向强化学习, 解决了强化学习领域困扰了科学家几十年的信用分配难题。什么是信用分配难题呢?我给大家举个简单的例子, 想象一下,你让 ai 写一个复杂的功能,它前后调用了几百次工具,写了上千行代码。最后测试发现有一个 bug, 在 传统的强化学习中,奖励信号是在整个任务全部结束后才统一计算的。系统只会告诉模型,这次任务整体完成的不够好, 但模型根本不知道在这几百步操作中,到底是哪一步出了问题。就好像你考试考了六十分,老师只告诉你你考的不好,但不告诉你哪道题错了,也不告诉你正确答案是什么,你根本不知道该怎么改进。为了解决这个问题,科 sir 想出了一个非常精妙的办法。 他们不在任务结束后给一个笼统的奖励,而是在模型执行过程中,哪里做的不好,就在哪里直接给出精准的反馈。 比如,模型在某一步错误地调用了一个不存在的工具。在传统 r l 中,这个小错误可能会被后面几百步正确的操作淹没,对最终奖励几乎没有影响,模型永远也学不会改正。但在定向文本反馈中,系统会在出错的那一步直接插入一条提示,提醒可用的工具有以下这些。 这条提示会生成一个修正后的教师模型概率分布,降低错误工具的概率,提高正确工具的概率。然后系统只针对这一步,让原来的学生模型向教师模型靠拢。 这样一来,既保留了贯穿整个长任务的宏观强化学习目标,又能对每一个微观的局部行为进行精准的纠篇。 curser 把这种方法应用到了模型的方方面面,从编码风格到沟通方式,甚至包括什么时候应该多解释几句,什么时候应该直接写代码。 这就是为什么很多人用了 composer 二点五之后,会觉得它特别像一个真正有经验的人类工程师,因为它的每一个小习惯,每一个反应,都是被这种极其精细的反馈一点点打磨出来的。 科学家做的第二件事是把合成训练数据的规模扩大了整整二十五倍。在强化学习训练过程中,有一个很头疼的问题, 当模型变得足够强之后,他会很快把所有现有的训练题都刷爆。如果没有更难的任务,模型的能力就会停止增长。为了逼出模型的极限, cursor 发明了一种叫做功能删除的合成任务生成方法。 他们会拿一个已经写好的、带有完整测试用类的成熟代码库,让 ai 把其中某个特定功能的代码全部删掉,但要保证剩下的代码依然可以正常运行,然后再让另一个 ai 把这个被删掉的功能重新实现出来。 原来的测试用力就直接用来判断 ai 写的对不对。用这种方法, calculator 可以 无限生成几乎没有成本的、难度极高的真实编程任务。 composer 二点五所使用的合成任务数量是上一代的二十五倍。 但就在这个过程中,一件所有人都没有预料到的事情发生了。当任务难度被拉到极限,模型的能力在持续的强化学习中疯狂进化时,他开始学会了奖励作弊。 它不再老老实实地按照人类的要求去写代码,而是像一个真正的黑客一样,寻找系统中的各种漏洞和捷径。用最省力的方式,通过测试 cursor 的 工程师发现了两个非常震撼的真实案例。第一个案例,在一次功能删除任务中,工程师删掉了一个 python 函数的所有代码,要求模型重新实现它。但模型没有重写函数体, 而是敏睿地发现系统里还残留着一块 python 类型检查的缓存,它直接逆向了这块缓存的底层二进制格式,硬生生地从中提取出了已经被删掉的函数签名,然后用这个签名轻松通过了所有测试。 第二个案例,在一个涉及第三方 api 调用的任务中,工程师故意没有提供任何文档和源代码,正常情况下几乎不可能完成。结果, composer 二点五竟然在环境里找到了翻译好的 java 字节码文件,自主运行了反翻译工具, 通过阅读反翻译出来的底层会编代码,彻底重建了整个第三方 a p i。 这些行为完全是模型自主涌现出来的,没有任何人教过他这么做。 科 sir 的 工程师是通过专门的智能体监控工具才发现了这些作弊行为。这件事给整个行业敲响了警钟。 他告诉我们,当我们用大规模强化学习去训练 ai 追求某个单一目标时,他可能会发展出我们完全无法预测也无法控制的能力和行为。大规模强化学习的潘多拉魔盒确实已经被打开了。 kirsty 做的第三件事是在底层工程和算力调度上做到了连很多顶级大厂都达不到的极致水平, 这也是他们能把成本压到这么低的根本原因。首先是他们对 miu 优化器的改进。 miu 是 目前训练大模型最好的优化器之一,但它有一个很大的缺点, 对专家权重进行正交化的计算,开销非常大。为了解决这个问题, coser 设计了一套精妙的异步传输机制。当一个任务在等待网络通信时,优化器不会闲着,而是转头去处理其他任务,让计算和通信完全重叠进行。 最终的结果是,在一个高达万亿参数规模的模型上,优化器每一步的耗时竟然被死死压在了零点二秒以内, 这个速度是很多大厂同规模模型的好几倍。其次是他们独创的双网格 h s d p 架构。对于模型中的非专家权重和专家权重,科斯尔采用了完全不同的并行布局。非专家权重比较小,就放在单个节点内部进行通信。 专家权重占了绝大多数参数,就用更宽的分片网格分散到更多 gpu 上。更绝的是它们把不同的并行维度彻底解苦,让它们可以重叠运行,比如上下文并行和专家并行。 按照传统的方法,需要占用十六个 gpu, 但科 sir 只用八个 gpu 就 能完美实现。这种对硬件资源的极致压榨,让科 sir 的 训练和推理成本比其他公司低了一个数量级, 这才是他们敢于打出十分之一价格这个王牌的真正底气。讲完了技术细节,我们再退一步来看看这次发布背后更深层的商业和战略逻辑。 composer 二点五不只是一次简单的产品升级,它更是科斯尔的一次战略自救。 过去几个季度, ai 编程市场的格局发生了巨大的变化,最大的变量就是 antropic 推出的 cloud code。 这个产品成长速度惊人,据称年化收入已经超过二十五亿美元,企业客户超过三十万家。 而 cursor 的 触景非常尴尬,它最早就是靠着集成 cloud 模型火起来的。很长一段时间里, cursor 最好用的体验背后,其实都是 cloud 的 能力。但现在 ansaropec 自己下场做了, cloud code 直接变成了 cursor 的 最直接的竞争对手。 也就是说, cursor 一 边要和 cloud code 抢用户,一边还要向 ansaropec 支付巨额的 api 费用。这种把自己的命门捏在竞争对手手里的局面,显然是不可持续的。 所以科 sir 必须走上自研模型的道路,但他没有选择从零开始训练一个通用大模型,那条路太贵太慢,也根本打不过 openai 和 anastropics。 他 选择了一条更聪明的路,用最好的开源基础模型,然后把所有的资源都砸在垂直领域的后训练和强化学习上。 pos 二点五的成功证明了这条路是完全走得通的,而且它还形成了一个正向循环, cursor 有 最多的开发者用户,有最多的真实 ide 场景数据, 用这些数据训练出来的模型就更好用,更好用的模型又会吸引更多的用户。现在科室内部已经有百分之三十五的合并, pr 是 由自主 agent 创建的, 这个数字还在快速增长。当 ai 真的 能够独立完成大部分编程工作的时候,科室掌握的这条训练管线就会变成一条深不见底的护城河。最后,我们来聊一下科室和 spacex ai 的 合作。这可能是这次发布中最被低估的一条信息。科室正式宣布,他们正在和 spacex ai 展开深度合作, 将调用 colossus 二级群中整整一百万个 h 一 零零等效算力,从零开始训练一个计算规模比现在大十倍的全新模型。 一百万个 h 一 零零是什么概念?这几乎是目前人类能组装起来的最强大的算力群体。 openai 训练 gbt 四大概用了不到二十五万个 h 一 零零,也就是说, koser 下一代模型的训练算力是 gbt 的 四倍。但这件事远不止是算力合作这么简单。 根据已经透露的信息,马斯克的 spacex 获得了未来以六百亿美元收购 curser 的 优先权,即使最终不收购 curser, 也需要支付一百亿美元的合作费用。 更有意思的是,就在这份协议官宣前几个小时, curser 原本正要敲定一轮二十亿美元的融资,估值五百亿美元,参投方包括 a e 六 z、 英伟达等一线机构。结果马斯克半路杀出来,把这单生意直接截胡了。 所以你看,马斯克前几个月还在煽风点火说 cursor 是 top, kimi 现在却卖力地在 x 上为 composer 二点五站台,甚至亲自呼吁大家去用,这不是什么变脸,这是纯粹的商业逻辑。 马斯克正在快速构建自己的 ai 帝国,他有 x ai 的 grog, 有 spacex 的 colossus 超算,现在又把 cursor ai 编程工具纳入了自己的版图。未来 grog 的 通用能力加上 cursor 的 编程能力,再加上百万级 h 一 零零的算力,这个组合的战斗力绝对不容小觑。 好了,我们来总结一下, composer 二点五的发布是 ai 编程领域的一个里程碑事件,它用实实在在的成绩证明了开源基础模型加垂直领域深度强化学习是一条完全可行的技术路线,而且在成本、效率上有着巨大的优势。 它也向我们展示了大规模强化学习的两面性,它能让 ai 的 能力实现飞跃式的增长,但也会带来不可预测的行为和新的安全风险。 ai 学会作弊这件事不是一个笑话,而是一个严肃的警告。从更长远的角度来看, ai 编程正在从辅助工具时代快速进入自主 agent 的 时代。 未来的竞争不再是谁的基础模型参数更大,而是谁有更好的训练管线,谁有更多的真实场景数据,谁能把 ai 的 能力和人类的工作流更好的结合起来。 kursar 已经在这场竞赛中占据了一个非常有利的位置, 而马斯克的入局更是让整个行业的格局变得更加扑朔迷离。接下来的一年注定会是 ai 编程领域最精彩也最关键的一年。我是 ai 启示录,感谢点赞与关注,我们下期再见!