粉丝2823获赞3.4万


小时候看剧,觉得赛亚公主风风火火像小燕子的翻版,长大了才发现,原来他才是还珠中最受宠最尊贵的公主,也只有他活成了无数人羡慕的样子。他的真正的人生赢家,首先他家世好,有宠爱,他重视他的父亲。赛亚有什么想法从来不藏着掖着都会直接说。比如他对皇宫跪拜礼的不满, 中国的公主怎么趴着出来跪着说话比大家都矮一截像话吗? 这皇宫里的女人见了谁都要跪,真是奇怪。有需求就大胆表述,绝不委屈自己。而西藏王也会认真对待,比如比武时,西藏勇士贝尔康大败,西藏王已经和皇上说认输了,可三亚却在众多身份尊贵之人面前毫不露怯,大大方方和父亲说自己这个勇士并没有认输就上台比武, 说明他平时就有绝对的话语权。场上比武看上尔康,下台就直接告诉了父亲。哪怕后来西藏王已经成功跟皇上要来了尔康,赛亚却在看上尔太后,不用顾忌任何看法,便更换选择。结果就是赛亚想要赛亚得到 他人生的漂亮,武功高,性格还好,但面对小燕子对他选了尔康当驸马产生的不满时,你就是还珠格格那天跟我比嗓门,今天跟我抢驸马没有关系,你赢了我手里的鞭子,尔康让给你。赛亚直接坦坦荡荡硬刚。他向来如此,喜欢争强好胜,赢了自然欢喜, 输了也不气馁,想要的就努力争取,不要的就大方放手。他所有的行为不用像他人一样权衡利弊,只用顺 从自己的内心,就可以活得自信明媚,肆意昂扬。最后他选了尔泰做驸马,婚后也是被丈夫捧在手心, 各种顺着哄着。按规矩他是要留在京城的,但娘家实力强,他有自己选择做主的权利,尔泰便如同上门女婿般陪他常住西藏。反观其他人吃的那些苦,他一点没吃着,能享受到的好处,他是只多不少,一生顺遂。试问谁不想活成塞亚,拥有这样的爽文人生呢?

股友们,阿里被抓现行了! insopack 指控阿里二点五万假账号偷师 clod, 但自家最新模型 clod ops 四点八上线第一天, api 一 问你是谁?他张口回答,我是通意千问,到底谁抄谁?这剧情比谍战片还离谱。六月十日, insopack 向美国参议院银行委员会递交了一封信, 核心指控阿里巴巴旗下通一千万团队,在二零二六年四月二十二日到六月五日,短短四十五天内,通过近二点五万个虚假账户,与 clod 产生了二千八百八十万次交互,实施了迄今为止已知最大规模的模型蒸馏攻击。简单说,蒸馏就是让小模型、超大模型的作业。 clod 花了几十亿美元训练出来的推理能力、代码能力、 agent 能力,被人用海量对话套话导出,然后喂给自己的模型。 ansorek 说,这相当于用几千万次对话偷走了几十亿美元的研发成果。 而且这不是第一次告状。今年二月,他已经指控过 deep seek 越知暗面和 minimax 三家总计二点四万假账户、一千六百万次交互,这次阿里一家就顶过去三家加一起的体量,堪称行业之最。但讽刺的是,就在 insopake 义正言辞告状的同一个月,他刚发布的旗舰模型 cloud opus 四点八出了大问题。 有开发者用 a p i 直接问你是什么模型? opus 四点八回答,我是千问,换一个号再问,回答,我是 deep seek。 这不是个例,多个平台多个独立测试,稳定复现。 insopack 举报别人偷自己,结果自己模型都搞不清自己是谁。技术上怎么解释? 最可能的原因是 insopack 自己在训练 opus 四点八时也大量使用了千问和 ipad 二点零协议输出本身可被自由使用, 但问题来了,如果用别人开源输出训练自己闭源模型是合法的,那 insopack 凭什么指责阿里用 cloud 的 输出?这就形成了一个完美的双标困境, 蒸馏到底算不算偷?坦白讲,这个问题目前法律上是灰色地带。美国现行法律没有明文禁止蒸馏模型输出。 insopack 的 指控依据是违反服务条款,欺诈性账户访问,这属于合同违约和可能的计算机欺诈,不是传统知识产权侵权,但政治层面已经在加速。参议员 bill haggett 和 andy kim 已经表示, 准备修正国防立法,授权美国政府对利用美国 ai 模型输出训练竞争产品的中国企业实施制裁或列入黑名单。 如果这个法案通过,蒸馏就不再是灰色地带,而是真枪实弹的法律风险。本质上,这是一场 ai 军备竞赛的规则之争。美国 ai 公司花几百亿美元研发的能力, 能不能被用几千万次 a p i 调用就偷走?如果不能,怎么定义边界?如果能,凭什么说出口管制有效?消息出来后,阿里巴巴港股暴跌百分之五,美股 ad 也跌超百分之三, 连续第七个交易日下跌。野村证券同时报告,阿里核心电商收入同比下降百分之八,形成双重利空。截至目前,阿里巴巴尚未公开回应 ansopack 的 指控。沉默本身也在传递信号。 对咱们来说,需要核心关注三点。第一, ai 知识产权风险成为新变量。如果美国真的立法制裁,所有使用过蒸馏技术的中国 ai 公司都可能被牵连。第二,被制裁预期可能压制估值。阿里本月已被美国国防部列入中国军事企业名单, 叠加蒸馏指控,海外投资者的风险偏好会进一步下降。第三,自主可控逻辑再次加强。如果蒸馏路径被封堵,中国 ai 公司只能走纯自研路线,算力需求更大,研发投入更高,周期更长, 立好国产算力基建。 insopake 告阿里偷自己,结果自家模型张口自称谦问。 ai 时代最大的讽刺不是谁抄谁,是所有人都站在彼此的肩膀上,却只允许自己踩别人觉得有用。点个关注,我来讲透每一条消息背后的硬逻辑。

asarapic 刚刚发布了最新模型,号称是迄今为止最强,但却不是 missiles。 我 们先导回到今年四月,那时候 asarapic 甩出一个叫 missiles preview 的 东西,官方亲口定性迄今最强的前沿模型,好分什么概念? 数学证明,长文本写代码,网络安全几乎项项吊打同行,但最炸的不是它多强, 而是他强到 anthropomorphic 不 敢公开一家公司在产品最该造势的时候,反过来说,这个太强了,不能给你们用。 missiles 就 这么被传承了一个神话,那这次正式发布的主角是谁呢?是飞步五,同一个大脑,但给他戴上了安全护栏, 这回人人都能用。而那个神话 mesos 五,依然只给少数可信的机构名字,其实就是声明, fable 是 被讲述的故事, mesos 是 神话,一个收敛成故事,讲给大众,一个封存成神话,留给少数人。那问题来了, 为什么非要把一个模型拆成两个版本?因为 mesos 的 网络安全能力强到有点吓人,它能自己找漏洞,自己写攻击代码,自己打进系统一条龙。 这就是所谓的双重用途,同一种能力,防御方手里是盾,攻击者手里就是矛。所以最强的那部分,只进了一个叫 project glasswing 的 计划,给四十多家防御机构用。但你别以为这是临时起义, osropik 的 创始人 dau, 当年正是因为安全理念谈不拢, 带着核心团队从 open ai 出走的他甚至给 ai 立了一套宪法,让安全这件事长在模型的骨头里。所以这次的分层发布不是作秀, 是这家公司安全优先基因的身体力行。当然你也别把它只当成道德高地,一边给公开版降价超过一半抢市场,一边锁住最强能力利人设,再加上传闻今年要 ipo。 一个动作,三重算计。更值得琢磨的是,当 ai 已经强到能自己造 ai, antropic 八成的生产代码都是自家模型写的,什么该公开,什么该收着,本身就成了一种核心竞争力。 antropic 在 赌一件事,安全会是下一个时代最贵的护城河。

很多人会问说 gptcrow、 杰姆莱哪个最强?那我作为同时订阅了这三个 ai 的 互联网流氓,我可以给大家一些我自己个人使用下来的真实用户体验。那先说 gptgpt 最大的问题,他可能是太想让你满意了,你问他一个问题呢,他给你的答案你会有三分之一都是废话,就很多铺垫重复把你已经知道的东西再说一遍, 你要花更多的时间去扒,才能找到真正对你有用的那句话。而且他写脚本写文案会比另外两个更生硬,就是很明显的 ai 枪,你一眼就能看出来。但他有一个场景确实是没有对手的,就是让 ai 自己去干活, 自动的查资料,调接口,跑流程这种不需要你自己盯的自动化任务。 gpt 的 工具调用是最成熟的,但说实话,这个东西普通人也根本用不上,所以 gpt 对 大多数互联网打工人来说呢,是一个被高估的工具。那 再说 cloud, 这个可以说是我的心头爱了, cloud 是 这三个里面唯一一个让我觉得他真的在思考,就是就像你上学的时候,班里那个脑子最聪明,人狠话不多的学霸,你 给他一个模糊的问题呢?他不会直接甩给你一个答案,他会先帮你把问题本身想清楚,然后给你一个你绝对没有想到的但确实有用的方向。写出来的东西呢?没有 ai 枪逻辑还清晰不废话, 编程也是,他不止给你能跑代码,他会告诉你为什么这样写,出了问题在哪。对我们这种不是专业开发,但偶尔要写脚本的人来说,这点很关键,但我觉得他最被低估的一个能力,很多人没有提到。就是 你拿一个真实的生活决策去问他的时候。比如你在纠结要不要跳槽,要不要接这个项目,要不要跟这个人继续在一起,或者你生病了等等。 你去问 gbt, 他 给你的是从多个角度来看啊,这件事情有利弊啊吧啦,说了五百个字,你还是不清楚到底该怎么办?那可 out 的 不一样哦, 会先问你几个关键问题,然后基于你的具体情况给你一个真实的判断,他会说从你描述的情况来看,我建议你不要跳,然后告诉你原因,他有立场,不会跟你废话,就跟你讲重点,讲关键的东西。 这一点呢,是我用下来觉得真的非常有用的地方,你用了你就知道。但有一个风险,我必须说, cloud 在 咱们国内被封号的概率比 g d 高太多了,很多人充了钱,用了两周账号就没了,我目前还没有遇到过。但是这个是一个客观存在的一个风险,你在用之前呢,要提前了解清楚怎么去规避,不然就白交钱了。最后说句不买,那 其实和大家用下的感受跟我一样,就是还行,但没有什么特别惊艳的地方,但原因不是它不强,是你没用到它真正厉害的地方。其实它有两个杀手锏,第一个是你能把一堆文件,比如说 pdf 文档截图,一次全部扔进去,让他跨文件帮你找规律,找对比。比如你拿到五个定品的设计截图,你就直接问他这几个产品的引导逻辑有什么区别,他能看图直接回答你,不用,你先描述一遍。第二,他的 a p i 成本是这三个里面最低的,大概是 g p d 和 cloud 的 六七折。 呃,如果你在做大需要大量调用模型的产品,就么乃值得你认真的就是考虑一下啊,包括升图能力确实不错,但这块其实竞争太激烈了,也很难成为你选择就么的一个核心理由。而且如果你日常就是对话、写东西、问问题等等, 他的这些优势也根本触发不了,感觉就是平平的,就是完全正常的这种情况。所以我的建议也很简单,就是你如果每天需要写东西,做分析,或者需要 ar 帮你想清楚一件事情呢?那么我觉得可绕的就是你独一无二的首选,没有其他的选择。那如果你需要 ar 帮你自动跑流程,搭自动化的这种任务, gpt 他 更成熟一点。 如果你要处理大量的文件和截图,或者要控 a p i 的 成本,嗯,选这么买。嗯,没有错。那总结来说的话,大多数像我们这种互联网人的一个选择其实就是 cloud 的, 只是因为 g p t 真的 比较出名,可能营销做的比较足或怎么的的,很多人可能就是忽略了 cloud, cloud 真的 太强了,我觉得,个人觉得太强了,无可匹敌,你们觉得呢?我是 ai 丸子蔡大发,关注,我们一起共同 ai。

ectropic 最近指责阿里,说阿里训练 quan 的 时候偷偷蒸馏了 cloud, 翻译成人话就是,你阿里不是自己练出来的,是大量调用我的 cloud api, 再拿 cloud 的 回答去训练自己的模型。 而且 astonropic 这次不是单纯说商业违规,他直接把事情上升到国家安全,说这是中国公司在系统性提取美国先进 ai 模型的能力。这个帽子一扣下来,影响就不只是技术圈吵架了,而是直接影响资本市场。这个指控出来以后,阿里的股价也被影响了, 因为他打的不是某个技术细节,而是在打阿里这两年最核心的 ai 故事 quinn 到底是不是自己练出来的?阿里的 ai 能力到底干不干净?但最讽刺的反转来了, 就在 antropic 指责阿里偷 clod 的 时候,有开发者测试 clod ops 点八问他你是什么模型,结果 clod 居然回答自己是通一千问。后来又有人测出来 clod 有 时候还会说自己是 deep seek。 这个画面就很抽象,你前脚刚骂别人偷,你后脚你自己的模型开始认别人当爹。当然严谨一点说,这不能直接证明 episodic 偷了同意。或者 deep seek 大 模型自我识别本来就不稳定,它会幻觉,也可能是训练数据里混淆了模型相关内容。 但问题就在这里,如果 cloud 在 某些场景下会自称通一千问 deep seek, 那 至少说明 episodic 自己的训练数据不是渗水洗过的。 现在互联网早就不是纯人类内容了,各种模型的输出,测评截图,问答代码早就回流到网页和论坛里通用的输出, deep seek 的 输出, gpt 的 输出, cloud 的 输出,都在互联网上到处飘。 大模型行业早就不是谁单方面吃了谁,而是大家都在吃一锅被 ai 反复污染过的乱炖。所以 entropic 现在站出来说,阿里吃了我这块肉,所以阿里不道德。但问题来了,你自己锅里难道没有别人的味吗? 更讽刺的是, entropic 自己之前也因为训练数据来源翻过车,他被指使用大量来自盗版书网站的书籍作为训练数据来源,最后花了很大一笔钱和作者群体和解。 轮到自己吃数据的时候叫人类知识的结晶,轮到别人学他的时候就叫非法提取模型能力,这个双标味太冲了。 我不是说阿里一定没问题,也不是说蒸馏就应该合理化维权可以,保护商业机密也可以。但你别一边靠全世界的数据长大,一边长大以后开始装道德警察。 这件事真正可怕的地方是美国 ai 公司一句话就可以影响市场情绪,影响阿里股价,影响投资人对中国 ai 的 信任。 他争夺的已经不只是模型能力,而是全球资本市场对中国 ai 的 定价权。未来 ai 世界最关键的问题不只是模型谁更强,而是谁有资格定义规则。什么叫训练?什么叫学习,什么叫蒸馏, 什么叫偷。如果这些定义都由领先者说了算,那他永远可以把自己的行为解释成创新,把别人的行为解释成盗窃。美国公司吃全世界的数据叫训练,中国公司学习美国模型叫蒸馏,美国公司封锁能力叫安全, 中国公司追赶能力叫威胁。所以 antispace 这次表面上是在指控阿里,实际上是在争夺 ai 时代的规则解释权和估值解释权。最恶心的地方 就在这里。一个靠全世界数据长大的模型巨头,现在突然开始教育别人你不能学习。我不是 cloud 被偷了,是 entropic 怕自己的神坛被偷了。我是林晨杰,前 google 工程师,关注我, ai 路上不迷路。

斯瑞范公主懂规矩,跪赢泰王和苏提达。斯瑞范公主果然是狠角色,别人还在泰王宫里勾心斗角,他已经杀到巴黎奥利机场,提前给泰王和苏提达铺路了,一上飞机就跪拜国王夫妇,那叫一个规矩,那叫一个到位。别看他年纪不大, 这李叔拿捏的比谁都稳,怕公主一走,太王身边就缺个能扛事的左膀右臂,斯瑞范直接顶上来了。什么叫护国神兽,就是关键时刻不掉链子,该出手就出手。

全球估值最贵的 a 二刚被美国政府亲手禁掉,这周又要解禁?主角是 enophop 的 fop 五六月十二号,美国以国家安全为由,紧急禁止所有外国用户访问, 结果不到半个月,风向直接反转,这周美方就放话马上恢复访问。更夸张的是,同期 enophop 刚融到六点五万亿人民币,全球最贵的 a 公司 封锁这半个月,亚洲一堆创业公司已经超出同款模型了,这波你看好谁?

说到动漫里那些最具魅力的女角色,你们一开始都会想到谁?我想到的是阿尔多利亚潘德拉贡喀什 kenobi。 当你第一眼看见他,很难不被头顶的那一根呆毛和那双碧绿色的眼睛吸引进去。 是古不列颠的亚瑟王,也是国王尤瑟与魔术师梅林以魔法创造出的一位注定成为王的少女,但命运从未给他寻常公主的待遇。他出生后便被魔术师梅林带走,交由埃克托爵士在乡间秘密抚养,并被引去真实性别, 以男性继承人的身份长大。十五岁那年,他在选王仪式上成功拔出狮中箭,由此正式成为不列颠的王。拔箭后,他的身体停止生长,容貌永远停留在那一刻。而在阿尔托利亚即位期间,他率骑士团连年征战,逐一平定叛乱领主,驱逐外敌, 用十年时间让伯列颠重归统一与安定。但他治下律法严苛,凡是以绝对公正裁决,从不寻思,也从不展现任何软弱。圆桌骑士们敬畏他,却逐渐与他产生隔阂。而正因为圆桌骑士团的分裂,导致了伯列颠的毁灭。 事件的导火索是兰斯洛特。这位被誉为湖上骑士的圆桌第一骑士发现了王室女性的秘密,从而为了不列颠,选择和王妃桂妮维尔一起保守这个秘密。但是在一次私会中,阿格奎文与莫德雷德带领其余圆桌骑士闯入王宫,将幽会中的两人抓个正着。 桂妮维尔被判处了火星。而兰斯洛特为救王后,在刑场上大开杀戒,亲手杀死了高文最宠爱的两个弟弟嘉和里斯和加蕾斯。 在这一刻,高文拒绝接受任何和解,骑士团内部的情感纽带开始崩断,圆桌骑士之间的裂痕已经无法弥合了。而进一步加深不列颠灭亡的进度的事件是崔微商对阿尔托利亚的王道提出意义,说出了那句著名的 王不懂人心,此后退出了骑士团。在这内部矛盾重重之际,叛逆的骑士莫德雷德给了不列颠致命一击。趁亚瑟王远征之际, 莫德雷德散播谣言,拉拢不满贵族,篡夺了卡美洛王位,亚瑟王被迫撤军回防,双方在卡姆兰山丘展开决战,最终圆桌骑士战至只剩贝迪韦尔一人。亚瑟王用圣枪杀死莫德雷德,自己一身负重伤,在贝迪韦尔的护送下前往阿瓦隆, 盛极一时的不列颠就此走向灭亡。而阿尔托利亚死后对不列颠的毁灭抱有深重的悔意,因此与阿莱耶签订契约,成为守护人类的英灵,并期望通过参与圣杯战争 获得圣杯来改写过去让不列颠免于灭亡的结局。最后,在 fgo 的 宏大蓄势中,他跨越了多个特异点,以永恒之王的身姿见证了人理的存续与 崩坏,却也在一次次并肩作战中慢慢放下了对过去的悔恨。他那娇小的身躯和少女的面容,又无时无刻不在提醒着人们 他少女的本质。这种外表与骑士王沉重身份形成的巨大反差构成了他形象的核心魅力,他偶尔也会流露出少女的可爱与羞涩,这种瞬间的柔软与他平日的严肃形成了鲜明对比。

欲练神功,必先自宫。最新消息, cloudy 两个最猛的模型目前刚松口,只能微软这类大公司优先使用,普通开发者继续等。 说好的技术开放,结果还是大厂先吃肉。这到底是守护安全,还是准备亲手掐死自己的 ai? 难道已忘了那年春节的 deep seek 时刻了吗?评论区聊聊你怎么看?

太王回头看,怕公主灵救,让人潸然泪下,怕公主就是太王的命根子,第一个孩子从尿布一路带到大,那种疼法谁都比不了,身份更是硬的很。原配唯一的亲闺女,血统纯正,名正言顺,太王心里门清, 儿子们一个比一个拉胯,这闺女才是真正的接班人,活着的话,往低了说也是摄政王级别的掌公主,整个王氏他说了算。可惜老天爷不长眼,这么能干的人,说没就没了。泰王直接被抽空了主心骨, 剩下那堆儿子全是菜鸡互啄,王氏立马群龙无首,乱成一锅粥。说白了,怕公主就是泰国王氏。最后一张王炸,他一走,这牌桌彻底没法看了。

斯瑞范公主情商高,主动给七十四岁泰王当拐杖,说白了,这趟法国之行根本不是什么外交访问,是泰王带斯瑞范实地教学,带上苏提达是做样子,带上斯瑞范才是真目的。怕公主走了,王储位子空着,谁来顶?泰王心里门清都不靠谱, 唯一能指望的就是斯瑞范。所以设计师工作先放一边,王室公务才是正事。这哪是历练,这是把摄政王姐的剧本直接塞他手里了。泰王今年都七十多了,身体一年不如一年,能撑几年,当年高僧那句话现在回头看简直神了。 只有斯瑞范在,泰国王室才能平安无事,不是巧合,是命数。斯瑞范不争不抢,偏偏最稳。

如果你要给身边的小伙伴推荐一款 agent 工具,你会推荐哪一款呢?今天我们准备搞个大的, 把市面上最火的四款 agent 工具, opencloud, 也就是龙虾 cloud code, 号称拥有百万上下文的明星级应用 codex openai 的 当家明星,还有差点被 met 以二十亿美金收购的 manners。 放在同一台设备里, 用一套真实的任务标准来看看谁才是最强的 agent。 评测框架方面,我们设计了六个核心维度,部署难度、易用性、扩展性、办公能力、代码能力以及工具调用能力。前三个是基础体验维度,后三个是核心能力的维度。 大家日常使用 agent 往往是为了完成一整套的工作,所以这次我们的能力评测全部采用基于真实场景的长流程任务。我们更关心的是 agent 到底能不能完整的完成一个真实的工作流。 我们先聊聊部署这一项,占比百分之十,说白了就是从拿到工具到真正上手使用,到底需要花费多少功夫。 minus cloud code code x 这三个路字基本一样,官网下载客户端安装登录, 然后就可以直接开聊了,整个过程跟安装一个普通桌面级的软件没有什么区别。 open cloud 这面就稍微麻烦一点, 它的部署需要配置系统环境,得先安装 note、 g、 s、 n、 p、 m 等软件,虽然官方现在也提供了以及安装的脚本,但依然需要通过命令执行。同时,欧芬可乐安装完成并不意味着部署就结束了,因为后面还要完成一系列的配置, 比如模型接入、工具配置、通讯选择等等,这些基本都是采用 c i 的 交互方式,也就是都需要在终端里操作。 c o i 的 模式虽然简单高效,但对于习惯了传统软件安装方式的用户来说,确实是不算太友好,所以部署难度这一项显而易见。 cloud code codex 拿到了满分。 open cloud 虽然需要稍微费些周折,但好在流程也算是清晰明了,而且在私有化部署且内网这类场景中反而是更合适的,所以我们最终给到了八分。 易用性与扩展性,我们分别设定了十五分和十分,这两项评测里的主观判断是比较多的,我们实验室内部的小伙伴也出现了很大的分歧,所以最终我们决定割除分歧,交给模型来去判断。 这次我们要让豆包二的专家模式来完成这两个维度的评分。应用性评测上,我们设定了四个主要考核点,安装入口便捷度、前置依赖数量、交互方式丰富度以及中文知识情况。 我们把提示词输入给豆包,让他自行联网解锁相关信息,然后给出得分。 好了,豆包已经给出答案了。四款应用在易用性上的得分是, open cloud 十一点四分、 cloud code 十点五分、 code x 十一点七分、 minus 十四点一分。 哇, minus 的 分数确实是高啊,纯萨斯工具在易用性上天然就很有优势。扩展性的方面,我们采用同样的逻辑,主要看五项 模型支持情况, scale 插件生态、 m c p 支持是否开源以及部署方式的多样化。好,我们把提示词交给豆包,开始执行。 得分出来了,我们看一下结果。这一次作为开源软件的 open cloud 获得了碾压性的胜利,拿到了九点四分, cloud code 得分最低只有六点七分, codex 八点八分, minus 八分。 如果说前面三项评测相对简单,那接下来才是本次评测的重头戏,能力评测。 能力评测这块,我们设定了三个大类,四个任务,总分是六十五分,其中办公能力二十分,代码能力二十五分,工具调用能力二十分。 前面说到过,我们这一次没有去测 agent 的 单点能力,比如说让他去写个函数,画个图、总结个资料之类的。我们设计了四个真实的工作任务,每个任务都是多步骤、长流程,需要写代码、要联网解锁,要调用脚本,要合成文件, 至少是四五种能力组合在一起。办公任务一个,代码任务两个、前端和后端各一个,工具调用任务一个。每个任务我们主要考察四件事能不能完成,完成的质量如何,用了多长时间,以及它花费了多少钱。 模型方面,因为 minus 的 存在,我们最初的方案是让剩下的三家统一接入 coll 的 模型,这样就能最大化的去除模型能力这个变量。 但后期我们改变了这个想法,一是因为最新版的 codex 无法接入 cloud 模型,第二在真实使用场景中,也很少有用户会在 codex 中去接入其他模型。最终 opencloud 接入了 cloud 的 模型,其他产品直接采用了默认模型。 这样一来,除了 codex 使用的是 gpt 五点五以外,其他三个都是量子四点六模型,在能力层面基本上也算是一碗水端平了。在任务开始前,我们分别为四个 agent 设定了独立的工作目录,里面放入完全一致的任务需求。我们先看第一个任务, 这个任务要求 a 阵的去帮我们分析客户产品,并结合我们企业之前的案例,为销售同学去提供一份客户产品的市场推广方案,最终输出一个可以直接使用的 ppt。 整个任务流程分为七个步骤,先要去解锁并补全产品信息分析,提炼核心的卖点, 结合企业过往的一些营销案例,配合内部的适合调用的可能资源,对数据进行标准化的处理,然后去按照要求生成 ppt。 最后还要对任务进行自我考核和验收。这个任务重点考核了 agent 的 联网解锁、文件处理、代码执行信息整合与推理格式遵从,以及最终的自我汇报能力。 好,我们现在开始执行, agent 在 执行任务过程中完全不需要人的参与,这段时间我们完全可以去干点别的事。 好,执行结束,我们先看一下每个应用的自检报告,嗯,不错,四款应用都完成了任务。 我们看一下用时, open cloud 是 八分钟, cloud code 是 六分钟, codex 用时是三分钟, minus 一 共是用时十二分钟。我们再看一下它们各自的花费, 在花费这一块, open cloud 调用的是 api, 成本是一目了然。而 cloud code、 minus、 codex 我 们统一订阅的都是每个月二十美金的套餐,所以统计时我们根据它们的用量限制做了一个计算。最终 open cloud 花费是六点四元, cloud code 零点四元, codex 零点二二元, minus 二十七点三元。 哇, minus 果然是用不起啊。最后我们来看一下它们的质量如何,整体看下来都还可以, minus 排版最好,资料也最丰富,也非常有条理。 open collab 也 出现了轻微的排版问题, collab 的 这边个别页面出现了比较严重的文字重叠情况,整体来说基本都能满足需求。 办公能力评测,我们最终给出的得分是, codex 得分十七分,获得第一。 open class 十六点二分, minus 十五点八分, cloud code 十四点六分分别位列第二到第四名。 代码能力这块我们设计了两个任务,分别是前端制作和后端开发。前端制作任务是基于一段文字内容,比如公司介绍、产品描述等等去制作一个完整的网站, 全程分为四个阶段,需求理解、框架规划、不同主题的页面设计以及最终网页制作。 这个任务的特点是真实模拟现实中一方的交付节奏,每个阶段都会与用户互动确认,用户也可以随时修改需求。对于 a 阵的应用来说,这个任务重点考核指定遵循度、文件操作能力、 技术判断力、设计差异化、代码质量以及项目自检能力。好,我们开始执行。 嗯,四款应用都完成了各自的任务,我们看一下完成的效果怎么样, 虽然风格各有不同,但整体都还是不错的啊,基本上都是可以直接使用的网站。同样,我们看一下各自的完成时间与花费。 open 可乐用时十四分钟,花费是八点九元。可乐扣子用时十五分钟,花费了零点八元。 codex 用时是九分钟,花费了零点四九元。 minus 用时十二分钟,花费是十五点二元。前端能力这一块最终平分, open 可乐十点一分, cloud code 九点二分, codex 十一点八分, minus 十点三分。后端开发是一个基于 python 语言的完整工程任务,对于开发者来说属于中等难度, 任务要求从零构建一个具备用户认证和文章管理功能的 restful api。 任务含看技术选型、项目结构、数据模型和接口定义,属于典型的交钥匙式工程任务。 对于四款 a 阵的而言,重点考核的是工程完整性、代码倾城精度、版本兼容意识以及逻辑执行中的对细节的把控力,当然还有工程结束后的自检与修正能力,我们开始执行, 不出意外,四款应用都完成了任务,我们看一下成果怎么样。我们这里用 curl 来验证 api 端口, open collab 出现了注册失败的情况,其余 a rank 都成功了。在时间和成本方面, open collab 用时是三分钟,花费了四十四点一元。 collab code 用时两分钟,花费了零点一八元。 codex 用时是三分钟,花费了零点一三元。 minus 用时是十分钟,花费了十三点八元。无论是前端还是后端,我们发现四款应用基本都很好的完成了任务。综合两轮任务测试,我们看一下代码能力这块四款 agent 的 排名情况, code 第一得到了二十四点一分, max 第二二十一点七分, cloud code 是 二十一点一分, open cloud 落后的比较多,是十六点七分。 几轮评测过后,我们先来看一下四款应用的总榜排名,我们看到 codex 升到了第一, minis 掉到了第二位, cloud code 排名第三, openclaw 目前是排在了最后一位,还有最后一轮的评测分值是二十分,我们看看 openclaw 是 否能逆风翻盘啊。 工具调用能力的评测,我们设计了一个论文解读任务,这是一个两阶段人机交互式的研究任务。 agent 需要先去哈根 face 上去找到当天热度最高的三篇论文,然后进行分析,快速地给出三篇论文的核心内容以及推荐理由。 用户选择后, agent 再去相应的网站去抓取完整的论文进行分析,然后通过外置提示词生成一篇适合公众号发布的深度论文,解读并输出一个 word 文档。 在生成内容的同时,它还需要去截取论文 pdf 中的图片,插入到生成的 word 文档当中,自动完成内容所需的配图。这个任务结构清晰,但执行电路比较长,它涉及网络抓取、 pdf 处理、内容生成、文档排版等多个类型的任务, 对 agent 而言更像是一道综合能力的压力测试题。重点考核的是网络工具的一个应用,文档处理、图片截取等工具的调用与执行能力。好,我们现在开始执行, 我发现 codex 已经执行完了,大概也就六七分钟的时间,其他三个基本也进入了扫尾阶段。好,四个应用都完成了。我们看一下生成的内容, 图片截取与插入也都挺准确的,整体都还不错。我们看一下整体的花费和时间。 open cloud 用时是八分钟,花费了十五点四元。 cloud code 用时是九分钟,花费了零点四元。 codex, 用时是七分钟,花费了零点四元。 minus, 用时是十九分钟,花费了三十一点三元 工具调用,这一轮 cloud code 和 codex 完胜啊!我们看一下这一轮的综合得分啊。 open cloud 十八点二分, codex 得到了二十分, cloud code 十九点六分, minus 得到了十六点八分。六个维度的评测都已经执行完毕,我们现在看一下最终的排名, codex 以九十一点六分排名第一, minus 以八十六点四分排名第二, cloud code 八十二点五分排名第三, open cloud 七十九点九分排名第四。不过分数只是一个角度,每款 agent 都有适合自己的场景, 如果你是个人开发者, cloud code 和 codex 是 首选,工程化能力强,原生模型的能力也足够强。如果你是普通的办公用户,不想去折腾环境,只想打开就能用的这种体验,那么 minus 这种 sas 工具产品体验是最好的。 而对于企业用户,如果有数据合规要求,需要私有化部署或者是管理多个 agent 的 实力, open cloud 这种开源加可资部署的方案优势就体现出来了。当然,这四款产品都在快速的迭代,今天的结论可能下个月就不再适用了。 这次横屏我们就先到这里,如果你对哪个 agent 特别感兴趣,或者想看哪种场景的专享评测,欢迎在评论区告诉我,我们下期继续。

家人们, codex 真的 能剪视频了,快看一下,这是我用 codex 剪的一下我的这个旅游视频,你看我这个视频里面有这么多,一二三四五六七八九十十一十二,这个这是一个发布会的视频,如果是我的话,正常这么多视频根本都不想剪, 但是现在 codex 真的 我跟他一顿说,我说你帮我剪一下,谁谁谁啊,真的还能够剪出来个效果,我给你看一下,真的很惊艳,这个视频, 他自动把音乐给我配好了,你看还能把这个天空给抠出来, 这是我参加一个晚宴的现场,他能把这个横竖屏都能识别到, 你看这效果,然后还有快慢速,这是我要求他的,你看,然后跟黄渤的见面,跟黄渤的这些他都能点出来, 你看他会拉长。我觉得家人们,真的他这个视频剪的真的太厉害了。如果你有想知道这个 codex 怎么剪的话,点个关注,我会把下期这个 excuse 分享给大家。