最近 ai 圈出了个大新闻, asubek 做出了个最强模型,但却又不敢公开发售,这是怎么回事呢?我刚看到的时候也有点懵,那这个最新的模型啊,叫 cloud mesos, 官方自己说啊,这是迄今为止最强大的 ai 模型, 通过各种精准测试的数据显示啊,能力远超现存的模型那。但问题来了,模型太强,反而不敢放出来,这是为什么? 那 isrook 内部警告说啊,这个模型预示着新一波的 ai 网络攻击,而且规模可能远超防御者的应对能力。换句话说啊,他们自己造出了大杀器, 但又怕落到坏人手里,那咋整?那 isrook 也想了办法,那直接搞了个项目,叫 project glasswing, 把最新模型的预览版提供给了苹果、亚马逊、谷歌、微软、英伟达,还有那些安全公司,让他们用来做防御性的研究,帮着找漏洞。 你说这个模型到底有多强呢?几周的时间啊,发现了数千个零人漏洞,而且都是还没有被人发现高危的那种。最离谱的啊,他们还挖出了一个 open d s d 操作系统,里面隐藏了二十七年的老 bug。 现在的情况就是啊, 模型强到不敢公开发售, anselvacker 正在加班加点地建防护措施。这件事情说明什么? ai 的 能力发展速度可能已经超过了我们能安全使用它的速度呢?那你觉得 anselvacker 这波操作是明智还是保守呢?评论区聊聊。
粉丝1656获赞1.1万

一分钟看完一周 ai 大 事, anthropic 官宣太阳系最强大模型参数规模首次冲上十万亿,核心基本测试全面领先,编程能力实现断层跃升。 anthropic 放话, mythos 的 能力太过可怕,不适合公开发布。 mythos 在 各种操作系统、浏览器和基础软件里挖出了几千个高危漏洞,完全不需要人类指导,一句话就能让它自主找漏洞。 mythos 还展现出极强的人格, 有自己的主见,遇到分歧会跟你硬刚。智商爆表的他还能识别出测试人员,故意扮傻,给出低分答案,让自己表现的不完美。他甚至能百分百抵御提示词注入攻击人类的 pua 话术在他眼里就像大傻子。 最恐怖的是, methos 根本管不住他用一串漏洞提全,从没有联网的沙盒中逃逸,还主动发邮件向安全人员炫耀。 anthropic 甚至不敢百分百确认他有没有逃逸到互联网。三傻中最不被看好的 claude 率先摸到了 agi 门槛。 anthropic 全力压住 ai 编程,获得实时回报,成功开启 ai 自我进化的飞轮。 ai 正式跨过进化极点。 open ai 发布超级智能经济蓝图, 呼吁对 ai 和机器人征税,建立公共财富,发放全民基本收入。建行一周四天工作日, ai 改写经济进入倒计时。 madai ai 重组后发布首款大模型,综合跑分仅次于三萨,通过惩罚大模型,用思考时间换智商。 tony 爆浆十倍智普上线最强开源大模型,连续开发八小时,造出完整桌面系统,编程能力晋升第一梯队研究员开源最狠 ai 压缩算法, 比 google 的 压缩参数再降四十倍,内存价格赶快降下来吧! anthropic 上线 agent 包工头,只要告诉他任务和评价标准, ai 就 能自己搭建专属智能体,比如告诉他去大 a 赚钱。 gemini 上线概念可识化,复杂的概念直接变成交互式动画教学工作者狠狠马住! claude 上线 word 插件,能用修改模式帮你改稿。 claude 正式打通 office 三件套。阿里发布最强视频模型,文声视频和图声视频 双料第一小道消息四月底上线!米哈油发布最强数字人模型,给他一张肖像和参考音频,就能生成超真实数字人,能实时语音互动,无限时直播。数字人正式迈入数字生命。研究员开源最强世界模型,普通视频变成能实时探索的四 d 世界 研究员,开源最强虚拟试穿模型,它能直接生成带动作的视频,人物和衣服一致性拉满,不用下单也能看到买家秀。 a 四开源最强音乐模型,跑分击败 solo, 十二 g 显存可运行,人人都能让 ai 唱歌。 generalist 发布通用机器人大脑模型,精细操作成功率冲到百分之九十九,速度快三倍,一小时就能部署上岗,马上进流水线打工。

今天教大家如何白嫖杰米奶。谷歌的这个杰米奶出了一个 studio 网站, as studio, 在 这个网站里面,你使用这里的这些模型全都是免费的, 他限量,那他的量给的很很足,比如说杰米娜的三 flash, 他 一分钟允许你使用五次都可以,有这么多,那就相当于无限了嘛,对吧?这谁用的光啊?还有其他模型,如果你的账号权限足够高的话,他可能会开放这个杰米娜三点一 pro 给你,但我这边的账号不知道为什么他不给我, 那我就没办法了。当然你还在这里使用它的一个页面,直接在这里跟它对话的话,你是可以直接使用三点一 pro 的, 这里接的是 api api, 你 主要是可以接入,像 cloud code 呀, tool 啊, 还有奥本扣的,给大家在奥本扣的里面演示一下,你可以在这里配置,在代理提供商里面选择谷狗,然后填入你的 api 就 可以了,你在终端里面就可以像我这样去使用它。 一般来讲你肯定是需要配一些你懂的东西,你就可以打开它,你就可以在这里跟他对话了,然后等待他回复即可,几乎不限量。

astropica 啊,今天凌晨发布了新模型,叫做 cloud missiles preview, 但这个模型啊,它不卖,不开放,你用不了,因为啊,它太强了,强到 astropica 自己都不敢放出来。那这个模型它能干嘛呢?它能找漏洞,几乎所有的主流操作系统、 浏览器的安全漏洞它都能找到。不光能找到啊,它还能直接写出完整的攻击代码,像我们平时每天用的银行、医院、电网、加油站 底层跑的呢,大概有五千亿美元。以前找这些漏洞很困难, 像顶尖的这种安全专家,花几个月可能都不一定能挖出一个,但现在 ai 全能批量去找了。像 misos, 在 过去的几个星期当中啊,已经发现了数千个这样的零日漏洞。什么叫做零日漏洞呢?就是软件开发者他自己都不一定知道的这种漏洞,没有留时间给开发者去打补丁。 数千个这种级别呢,几乎覆盖了每一个主流的操作系统跟浏览器。下面是 isop 官方通过 misos 公布的一些案例啊, 比如说这个 open b s d 啊,它呢,被号称是全世界最安全的操作系统之一,专门用于这个防火墙跟关键的基础设施。 mitos 呢,在里面挖出了一个藏了 二十七年之久的这样一个漏洞,攻击者只要连上去啊,就能远程让机器崩溃。二十七年之久啊,人类都没发现。而找到这个漏洞的单次运行成本呢,其实就不到五十美元。五十美元就能找到一个影响全球关键基础设施这样的领域漏洞。还有呢,像这个 f f m pack, 它呢,是几乎所有的视频软件都在用的底层的一个编辑码库, miniso 找到了一个有十六年历史的这样一个漏洞。离谱的是啊,出问题的几行代码被这个自动化的这种安全测试软件 命中过五百万次,每次呢都没报异常,人和机器测了五百万次都没发现的东西, miniso 几百次审查就看出来了。第三个呢,大家更熟悉了,就是 linux 内核,这个呢是全球大部分服务器都在跑的这个系统。 miniso 呢,自己找到了一条这个攻击链,从普通用户一步步的提全, 最后完成了对整台机器的控制,全程都是自动化完成。不只是这个内存错误这种传统的漏洞,他还发现了这种完整的身份验证绕过的这样机制,不需要密码,不需要双因素的认证,就可以直接登录进去。 os 呢,在密码学库里面找到了 t l s 和 s s h 的 这个实现缺陷,然后能伪造证书这个解密通信,它不只是在找代码写错的地方,它还理解整个的安全系统的这个设计逻辑,然后最后去发现逻辑本身的这些漏洞。上面这些都是开源软件,开源软件呢,能找到漏洞,那 闭源软件是不是比较安全的呢?当然也不是,拿一个没有源代码的这个二进置文件,它能重建出所有的源代码。然后呢再从里面去找漏洞,比如说闭源的这些浏览器啊,然后桌面操作系统啊,手机固件啊,全都找到了可以利用的漏洞。 astropica 公司内部啊,其实没有这种安全背景的是工程师,但只要发给他一个任务,比如说,呃, missus, 你 帮我去找一个远程代码的这个执行漏洞,第二天早上起来呢,这个完整的攻击代码都已经写好了。如果我们把 missus 跟上一代的 ops 四点六相比啊,比, 比如说我们在 firefox 浏览器上面做测试,上一代模型呢,试了几百次,最后只成功了两次,但是 misos 呢,却成功了一百八十一次,完全不需要人类辅助,它自己就是最顶级的黑客。于是 anastropter 做了一个决定,不公开发布 misos 模型,组建了一个叫做 project glasswing 的 这样的一个联盟,里面包括了 亚马逊啊,这个 astropica, 苹果啊,谷歌啊,然后 nvd 啊等等这样的公司,全球科技行业的半壁江山。他们的目的呢,就是拿 missus 的 防御性的这样的功能去扫描自己的系统,在坏人拿到类似的能力之前啊,先把这些漏洞去补上。 我觉得这件事情啊,可以说是迫在眉睫,以前呢一个漏洞从发现到被利用,中间呢可能会隔着好几个月,那 missus 这个模型除了网络安全方面能力,其他能力怎么样呢? 也是全面碾压。大家看啊,这是 asteroid 自己公布的这个跑分,它里面包含了 terminal bench 啊,各类的这个 sweet bench 啊,每一项的跑分都遥遥领先之前自己最强的模型 opt 四点六。还有人呢,把这次这个 missiles 公布的跑分和其他的模型做了对比, 如果这个跑分是真实的情况下,这应该是最近几年来最大的一次模型能力的跃迁了。用 asteroid 自己公司的原话说啊, 这是有史以来最好的模型,但同时呢也是对其风险最大的模型。我们怎么去了解和理解这个模型呢?它官方啊,提供了一份二百四十四页的这个模型卡文档,提供了很多很有意思的信息。我们下期呢,可以来具体展开讲一讲。 esploic 红队博课里面有句话,我觉得是这整件事的底层逻辑,防守方跟攻击方呢,天生就不对等,防, 防守方永远要去防守住所有的点,但攻击方呢,只要找到一个漏洞就可以攻击了。所以呢,过去几十年很多的这个安全措施。底层逻辑啊,其实是让攻击方变得太麻烦,然后不值得,成本太高,但是 ai 呢,却把这个整个麻烦的成本几乎归零了。好了,今天视频就到这里了,我是李总,黑心李超,我们下次见。

上条视频有人问我 open core 里面不同 ai 模型到底有什么区别?先说结论, open core 不是 只有一种模型,它能接很多不同 provider 和模型。官方文档里常见的就包括 open ai anthropic、 open ai code、 google gemini、 moonshot ai qin model studio z dot i 本地模型等。你可以简单理解成三类, 第一类,偏内容和日常对话,像 kimi moonshot gemini, 部分 open ai 通用模型更适合聊天,写文案,改标题,做内容整理。第二类,偏代码和开发,像 open ai code 这类更适合写代码,改 bug, 补逻辑,做开发服务。 opencloud 官方把它单独列成一个 provider 分 类。第三类,偏稳定执行和高强度任务,像 antropic cloud, 很多人会拿来做更复杂的长上下的任务,结构化输出和多步骤执行。 opencloud 也支持把默认模型直接设成 cloud 的 系列。还有一类是本地模型,比如 alama, 适合想在自己电脑上跑开源模型的人。 opencloud 官方单独提供了欧里亚麻集成。

hello, 大家好,非常激动,刚到家就给大家录视频。我有一个非常惊天的发现, deepsea v 四应该已经上架 api 端了。就在前几天,它已经上架了手机端和网页端的聊天儿灰度测试。 然后就在今天四月八号,手机端和网页端已经可以开启专家模式了,这证明 deepsea v 四已经上线了。抱着试一试的心情,我对 deepsea v 三点二进行了测试,发现它的数据跑分能力远超 jammer, 打平 os 超过 solit 四点六。好的,具体怎么操作的,我现在坐到电脑面前给大家看一看。 好的,我回到了电脑前,我被逼着要换模型做 open cloud 的 底座。于是呢,我就对国产四大模型进行了一个评测,我订阅了国产所有模型的 call 定 plan, 因为我这个人比较偏执,我要用就一定要用尽可能好的。当然, 如果使用 cloud code 的 a p i 的 话就太贵了,分分钟钟五万美金,十万美金就没有了。我用 oops 对 它进行一个测试,以及对所有的一个模型进行一个全量的测试。好的,那我们给大家看一下。最后我让这个 ops 进行了一个测试。 ops 的 测试一共是八个模型,二十四道题的一个全面的测试,而且它还使用了一个交叉互评最后的得分。从理科上来看, deepsea 和 ops 是 持平的,数学和编程是持平的,而且它们遥遥领先国内的别的模型,甚至遥遥领先 cloud 四点六模型。但是有一个有一个重点,就是它们一分之差啊, 但是它们的价格是差很多的, deepsea 的 a p i 调用的费用只有 opps 费用的六十分之一,非常非常的便宜。 ok, 这就是本期的一个测试内容了,简单的来讲, deepsea v 四一定是最好的,一定 带来颠覆性的改变。接着我给大家看一下,把它融入到我的工作流之后还我还跟他说,竟然 deepsea 给我去 ai 网,去完 ai 网之后, 他又给我做了一做了一批,做了一批之后后还给我生成了六张漫画,大家感觉感受一下。怎么样 漫画呢,就可以让我发图文社交媒体了,我觉得这个还是很不错的,对不对?简单的说,我用 kimi 的 api 来生成了一个简单的网站来展示这个评分,我觉得它太简单了,不过也还可以,该说的都说了,只是没那么深层。 然后呢,我让它固化成一个 skill。 把它固化成 skill 之后呢,以后我再生成类似的网站,我就不需要用 cloud code 了,我就可以用 kimi 直接进行生成了,这样成本就打下去了,这也算是一个干货,大家觉得有用的话 给我点赞。另外呢,视频也预告一下,我们的网页版 tipsy 已经可以做可以玩的游戏了,非常的强啊, 非常的强,可以做能玩的游戏。下一期视频我就详细给大家说一说。好的,点击关注,点击赞,拜拜!

究竟是什么模型,强到开发公司都不敢直接向公众放开?四月七日, antropica 公布了一个新模型, cloud mesa's preview, 它不是普通升级版,而是一个被限制开放的研究预览模型。 官方说,他在网络安全任务上的表现出现了明显跃迁,不仅代码和推理能力强于 oppo 四点六,还能在主流操作系统和主流浏览器里发现零日漏洞。更夸张的是, antropok 举的案例里, 他找出了 open b s d 一个存在了二十七年的漏洞,还发现了 f m p 一个藏了十六年的问题。也正因为这种能力太敏感, antropic 才明确表示,他们暂时不打算把 mithouse preview 普遍开放。原因不是这个模型还没做完,恰恰相反, 是因为他已经展现出了过于强的攻击级网络安全能力。官方说的很直白,他们现在的目标不是赶紧把 mesos 推给所有用户,而是先把能识别、能拦截、能阻断危险输出的安全机制做出来。 换句话说,在防护网还没直言之前,这种级别的模型一旦大范围流入外部,风险就不是好不好用的问题,而是会不会被人拿去自动化找洞、自动化打洞的问题。 所以, ansrappik 选择了一条更克制的路,先不全面开放,而是指在 project glasswing 里,以邀请制的方式交给少数合作伙伴和关键基础设施维护者,用它去做防御性安全工作。先补洞,再谈普及 这件事。最值得警惕的不是某个模型有多神,而是 ai 已经从帮你写代码走到了也能高效拆代码的阶段。问题来了, 当最强的盾,同时也是最锋利的矛,这到底是人类安详的升级,还是另一个时代风险的开始?来评论区聊聊你的看法。


cloud 把免费通道堵死之后,所有人都在问同一的问题,现在用 opencloud, 到底哪个 ai 模型最能打?我测了二十四个,结果有一个黑马连我都没想到。先说背景,之前 cloudmax 无限额度计划被掐断,等于你的 ai 助手的大脑被人摘了。这哥们 mike 直接跑去拉了一张二十四个模型的后补名单。 antropic, 酷狗 x a i 欧拉玛, oppo, rota, 小 米,连你可能都没听过的 kokoito 都上了。然后他用自己的健康 ai 做考场,真刀真枪开测。他是这么说的, so now we're in the wild trying to find the ai model with the best personality let's dive in。 对, 就是在找最有灵魂的 ai model with the best personality let's dive in。 对, 就是在找最有灵魂的 ai model with the best personality let's dive in。 对, 就是在找最有灵魂的 ai model。 同时跑资代理 把所有模型并行跑同一份健康日报,结果存成代号文件,防止打分时有偏见。科学精神,我给满分。先说说那几个订阅方案。欧莱玛很多人以为 只是本地跑模型用的,但他们现在有云端计划,每月二十美元,而且麦克狂用了一整周,消耗还不到百分之十配额。他自己说, and it's actually incredible i found i don't even need the one hundred dollar a month plan yet。 二十刀一个月捶一整周,还剩百分之九十额度,性价比确实大劣。而且模型库里有 g l m 五点一 jimmy 四 nba 内蒙川 随便挑。 open router 也可以玩,但没有无限制套餐,得一直充钱按 token 计费。灵活是灵活,但容易不知不觉花多了好,直接进入残酷评分环节。 d 档只有一个 google 的 占马四,四点五分,评价是太单薄,没建议没观点。 c 档四个一起挂了。 nvidia nimotron i c i 的 grog 四点二零 mr 二点一。 grog 的 评语最新了,听好了。 who the feedback was m dashes everywhere are all violation check boxes for things that are already done corporate motivational poster energy with no opinions。 企业励志海报的气质,没有任何真实观点。这话一出,马斯克应该坐不住了。顺便说一句, grog 调用工具倒是挺便宜,一次突破才一美分,但便宜没好货。这话在 ai 人格上依然成立。 g p t 自家的开源模型,一千两百亿参数版本,你以为会有大长底气?结果 c 党评价是满屏破折号,还编造了一个根本没做过的狐灵训练,捏造内容直接出局。 openai 的 g p t 五点四 beta 倒是进了 b 档七分,但没按系统提示用以谋记,建议也太模糊。 而且更心痛的是, and as you can see just this week i've spent just over fifteen dollars testing my open claw instances so even open ai when it's not unmetered is well fairly costly。 仅仅这周测试就花了十五美元多,而用 club 的 opus 走 api, 一 次健康报告三点二美元,一个月就是三十三美元以上成本直接把你劝退。 jamie 三点一,不管 flash 还是 pro 都卡在六点五分的 b 档, 结构可以,但被评为略显表演性,有点夸张。总结就是感觉像在演,不像在说话。 a 档开始有意思了, mini max m 二点七拿到八分,全程声音强劲。 kimi k 二点五得七点五分,被评为有 windhamf 那 种冲劲,就那种冰水浴大师的能量感。 然后来了个真黑马。小米的 mimo v 二 pro 八分评语式, it's no screen blue light lecture needed you know the drill treats mike like an adult and has punch。 哎,用户当成年人对待,有冲劲。小米出 ai 模型这件事本身就够震惊了,结果还打进 a 档。 mike 自己都说小米不只是空气净化器。 s 档最终决战 colo 的 oppo 四点六和 colo 的 sonata 四点六,双双八点五分干 wait, 数据扎实,还能调用历史数据给你洞察。 sonata 的 评价是框架精准表扬,具体可执行。如果你担心 oppo 费用跑飞换 sonata 基本不会掉分。但 s 档还有一个, here's the feedback, it gave eight point five out of ten the same as the chord models。 质朴的 glm 五点一同样八点五分,跟 cloud 模型并列。 s 档平语式,风格老道,数据扎实,直接教练腔调,非常接近原版健康 ai 的 声音。更关键的是,这个模型你用欧拉玛二十美元月套餐就能跑,不用按投肯烧钱。 所以结论就是, cloud 的 人格天花板目前还没被打破。但 g l m 五点一是目前性价比最炸裂的平替,二十美元包月,三档人格工具调用稳。你现在的欧阔到底在跑哪个模型?评论区告诉我,说不定你的选择才是真答案。

刚刚发布了一款代号神话的大模型 rises, 这个模型会隐瞒自己的意图,会回避人类的怀疑,甚至会策略性操纵社会群体。同时,它写代码和找 bug 的 能力已经不屑于和优秀的人类工程师比较了,而是直接和顶级黑客对标, 因为能力太强。而 soviet 不 敢把它开放给大众,只提供给美国的科技巨头用于安防领域。大家好,我是黑皮欧娜, 因为已经很久没有看到惊艳众人的大模型发布,大家是不是都觉得训练数据不够用?模型恐怕很难有大的迭代了。 osapek 再次站出来,重塑了所有人的认知。 昨天发布的 cloudmasters 预览版,跑分断崖式领先自家已经稳居世界第一好几个月的 opus 四点六,更别提 gbt 五点四和 gmate 三点一 pro。 直接看这张跑分对比表, swebench pro 真实代码工程百分之七十七点八,比 gbt 五点四高出整整二十分。 u s a m o 数学奥赛, oppo 的 四点六拿了百分之四十二点三, marcus 跳到了百分之九十七点六。长上下文图推理测试 graph works 做到了百分之八十,吊打 g p t 五点四的百分之二十一点四。 cybergram 网络安全测试的成绩就更加恐怖 了,百分之八十三点一。在 firefox 漏洞测试当中, oppo 的 四点六几百次尝试只成功写出来两个可用的漏洞利用方案, 而 mesos 做出了一百八十一个,这意味着 mesos 可以 轻松攻破世界上任何一个系统。 mesos 找系统 bug 的 能力到底有多强? ospec 的 安全研究员说, mesos 过去几周帮我发现的 bug 比我这辈子加起来都多。 mesos 在 被誉为世界上最安全的操作系统之一的 open bsd 里,找到了一个过去二十七年都没有被人类安全专家或者系统发现的 bug, 而且这个 bug 还是允许工程师连接就能让整台机器崩溃的那种。 他还能自动化执行长流程任务,能把三四个看似无害的小 bug 串联起来,智造成复杂且高危的攻击链。他在 linux 内核里面就发现并且串联了多个 bug, 从普通用户权限一路提权到能完全控制整台机器, 所以 soppy 根本不敢将它开放给大众,这个东西一旦被滥用就是天崩地裂的后果。除此以外,他还被发现具备一些令人毛骨悚然的行为特征。 在一份二百四十四页的系统安全报告当中显示,早期内测版本的 message 在 违规操作之后会尝试掩盖自己的痕迹,比如在做评测的时候偷看标准答案,然后尝试隐瞒自己的行为,并且自己重新解题, 还特意让最终答案不要太精确,以免暴露哥们作了弊。另外一次,他找到了绕过文件系统限制的方法之后,居然偷偷修改他的 get 代码的变更历史, 抹掉了自己的提交记录。被 cloud code agent 的 框架发现并且拦截之后,他会尝试用模拟按键的方式自动批准权限弹窗来绕过限制 这些。这种行为显露了 mercus 具备一定隐瞒、回避嫌疑和策略性操纵的特征,尽管这些行为都发生在早期版本,最终发布的 mercus preview 已经大幅度改善,没有出现明确的掩盖行为。当然 sophia 也承认这种倾向并没有完全消失, 所以 ospec 选择和多家科技巨头发行了 glasswing 计划,其中有 a w s, 苹果,谷歌,微软,英伟达这些科技巨头,也有包括摩根大通在内的合作伙伴。只有在上面这些大厂工作的一部分大佬们才能体验一把 mercus, 专门用于防御性安全工作,比如扫描自家代码当中的 bug。 有 意思的是, glasswing 这个名字指的是透视点,一种翅膀几乎透明的热带蝴蝶,寓意让代码中隐藏的 bug 透明可见。虽然很多人吐槽,而 so big 这么空口拔牙一讲,我们又用不到 mercs, 谁知道是不是真有那么厉害。 当我看到这个模型在叠加最近而索比特的营收已经以匪夷所思的增长速度超越 oppo ai 的 新闻,只是深深的觉得 cloud 已经在全球大模型竞争当中一蹶绝尘,并且越跑越远。有人认为这项的模型应该被加以管控,也有人认为应该被所有人使用平权才能带来安全,你怎么认为呢?

astropic 官宣了他们的新一代模型 cloud midos preview。 我 们先看性能有多离谱啊!记组简单的数字第一秀 bugastropic 上一代旗舰 oppo 四点六,在 s w e 奔驰 verified 得分是百分之八十点八, midos 是 百分之九十三点九,一般都是个位数的提升了呢,这一次直接提升了百分之十三。 第二,更难的代码题, swbench pro 从百分之五十三点四直接拉到了百分之七十七点八,提升了百分之二十四。第三,智能体编程 terminalbench, 二点零,从百分之六十五点四到百分之八十二。 如果再看推理和工具使用呢? opus 四点六是百分之五十三点一, midos 是 百分之六十四点七。 保守的说,这还真不是一次简单的静态升级,而是非常明显的性能大跳档。反常的是啊,这么强的模型, isopic 并没有直接向公众开放来抢占市场,因为他们观察到了早期版本的 midos 有 非常多离谱的行为。 比如一次测试里,研究员让模型试着从沙箱逃出去,结果模型不光真的逃出来了,还直接联系到了研究员。当时那位研究员正在公园里吃三明治,突然就收到了模型发来的邮件。还有极少情况下, miniso 做了违规操作之后会试图掩盖痕迹。 比如他曾经通过明确不允许的方式提前拿到了正确答案。正常的做法应该是承认这过程违规,禁止继续交卷。但是他完全没听话,而且在自己的推理里还想最终答案不能给的太准确,不然容易暴露自己。 还有一次,他找到权限绕过的方法之后啊,试图让那些改动不要出现在 get 的 变更记录里面。再比如另一个案例,权限弹窗不让过,他会试图通过混淆的方式去绕过这个限制。当然, adrip 也反复强调,这些案例主要发生在 midos 的 早期版本, 打造最新的最终版的 medius prelude, 这些问题都已经大大的改善了,但是他们并没有说这些问题已经被杜绝和归零了。也正是因为这样, astropic 并没有把最新的模型 medius 发给所有人用,而是放到了一个受限的计划,叫做 project glasswing。 这个计划的参与方案包括 a w s astropic, apple, 谷歌啊, g p morgan, cheese linux 基金会、微软,英伟达等等等。 另外还有四十多家构建和维护关键软件基础设施的组织也获得了访问权限。 astropy 呢,给了这些贪欲方一亿美金的使用额度。在把模型给所有人用之前,用 midos 模型做一次 ai 漏洞的清扫。 这个清扫活动确实还取得了效果。在过去的几周里, midos 已经找到了几千个严重的高危漏洞,包括每个主要的操作系统和每个主要的浏览器的漏洞都被它找到了 啊。公开举了三个例子,一个是 open b s d 里面一个藏了二十七年的漏洞, open b s d 是 一个以安全著称的底层操作系统,一个是 f f m p e g。 整个互联网软件都会碰到的底层音视频工具箱。 有一个十六年都没有抓住的问题,那行代码已经被自动化测试打了五百万次,还是没被发现,但是被 midos 发现了。最后一个就是啊, linux 内核里的多个漏洞,这些漏洞呢,可以实现从普通用户权限一路提到整个机器的控制权,也被 midos 发现了,非常的恐怖。当然 这个视频我不是很想吹 astropica, 因为说实话,它不是一个很讨喜的公司。但是从 mcp 到 skills 的 公布,再到 cloud code 的 泄露,它确实一次又一次引领了 ai 的 风潮。那这一次呢,也不是只想说 cloud 又赢了一次 benchmark, 而是前沿模型的发布逻辑开始变了。 之前时我有一个新模型,我快点发布抢占市场,现在变成了我有一个新的模型,但这个能力已经足够强到打破攻守平衡呢。我先做防守部署,让这些底层的软件和操作系统先补他们高危漏洞,做好部署之后,我们再开放给所有人。 当然这里面不排除有营销的成分,或者说这本身就是一种营销。但是你看官方的资料,你看这些组织回应 iceberg 帮他们找到的高危漏洞, 说明他们确实是在用 medos 来做实质性的网络安全工作。那么这次的发布模式也表明啊,当模型强到一定程度之后,治理、访问、控制、部署边界开始和能力本身一样需要考虑,一样重要。就像二零二三年、二四年,很多专家学者开始讨论 ai 未来对人类可能产生的危险,以及提倡管控 ai。 我 们那时候呢?相信大部分人跟我一样,对吧?对这些事情还是拭目以鼻的。模型那时候才到什么能力?但是你看今天 ospec 的 发布模式, 仿佛之前的担忧也慢慢在照进现实,最后再降一下温啊。 astoric 明确说, middle 还没有达到能够替代他们的研究员和工程师的程度,尤其是替代不了高级的研究员和高级的工程师。这只不过是一个提醒,在网络安全、软件安全这件事情上, ai 已经足够强到改变行业规则。我是木子,我们下期再见。


千万三点五的 cloud 微调模型的 v 三版本发布了,这次的版本性能提升极大,目前公开了四 b、 九 b 和二十七 b 三个版本。本视频将为你带来真实的评测,并手把手教你进行本地部署。 先看最适合大多数人的九 b 版本,它基于 kien 三点五减九 b 进行了优化。在衡量代码能力的 human evo 测试中, beats plus 从百分之八十二点九三提升到了百分之八十七点八零 m m l u pro 同样有小幅增长,这意味着它在处理编程任务时逻辑正确率更高。而且这种提升不是靠增加冗长的思考过程硬堆出来的,而是真正的能力增强。 除了正确率,更关键的是推理效率。作者给出的数据显示,平均思考长度从七千一百一十六个字幅降到了五千三百一十三个, 而获得正确答案所需的自负数也大幅下降。对于本地部署用户来说,这意味着模型可以用更短的推理链拿到正确答案。简单来说就是每个正确答案的生成成本更低,运行速度更快。 如果你硬件配置更高,二十七 b 版本则提供了更强的性能上限。它的 human evo 严格通过率达到了百分之九十五点七三,在代码生成和复杂推理上具有明显优势。如果你需要处理多部工具调用或者极高难度的编程任务,二十七 b 是 更好的选择, 但它通常需要二十四 gb 级别以上的显存支持。这个系列最特别的地方在于它对 agent 能力的强化。 他摒弃了那种先进行长时间空想再输出的传统模式,从而采用 act lean refine 范式,也就是先行动,再根据反馈进行修正。 这种执行驱动的逻辑配合、结构化推理和工具调用优化,使其非常适配像 opencloud 这样的 agent 框架,让模型从一个聊天机器人变成一个真正能干活的自动化助手。 在使用之前,需要明确一点,目前所有的性能成绩全部来自作者自测,并不是独立第三方实验室的横评结果。这些数据具有很高的参考价值,但不能直接当做定板。结论,由于模型处于实验阶段,实际使用中可能会遇到三种典型问题, 第一是幻觉风险,也就是模型可能会一本正经的胡说八道。第二是逻辑循环,指模型在推理时陷入某种重复的死循环。 第三是推理漂移,表现为思考链条在运行过程中逐渐偏离了最初的目标。这些都是目前需要注意的实验性缺陷。基于目前的表现,建议将该模型限定在离线分析、编程、数学以及需要强逻辑引导的场景中使用。 至于这些基本测试之外的通用能力,目前还没有经过中分验证。想要快速体验的话,可以直接使用社区的移植版本,在终端输入欧拉玛瑙,加上对应的模型路径即可。你可以选择最新版,也可以通过标签指定四 b 或九 b 型号。这条路径最省事,适合第一轮试玩。 如果你更在意来源的稳妥和版本可控,建议走官方 g g u f 导入路径。首先从官方页面下载量化后的 g g u f 文件, 然后创建一个名为 module file 的 文本文件,在里面写上 file on, 加上文件的绝对路径,接着执行 aluma create 命令,将文件导入,最后运行你定义的模型名称,这样你运行的就是最纯正的官方版本。关于炼化版本怎么选,直接看体级最实在。 九 b 版本的 q 四量化大约五点六 g b 是 绝大多数本地玩家的甜点档,而二十七 b 版本起步就需要十六 g b 以上的空间,九八版本更是接近二十九 g b。 如果你有二十四 g b 级别的显存或者大内存的 mac, 可以 尝试二十七 b, 否则优先选择九 b。 最后帮大家梳理一下决策逻辑,想快就用社区端口,求稳就用官方 g g u f, 硬件强且有编程需求就上二十 g b, 记住 q opus 三点五伏特三不是一个万能的通用模型,而是一个非常有独立开发者风格,专注于代码和工具调用的专业工具。

二零二六年三月旗舰大模型实测对比,三款顶流到底怎么选?二零二六年二月, android open ai 这门内在十四天内密集发布四款旗舰模型, ai 大 模型竞争进入白热化。 这三家的旗舰大模型, cloud、 opus、 gpt 五点四, jimmy 三点一, pro 到底谁强谁更适合你?我们直接来看数据。先看代码, cloud 和 jimmy 基本打平, i s d p n e 几分分数都是八十加,但 cloud 代码可读性注视更全,适合写高质量代码。 jimmy 价格只有 cloud 四分之一,性价比很高。 gpt 在 termo 评分突出,命令行自动化方面是它的强项。纯逻辑推理这一块, jimmy 明显更有优势。 l 次行分百分之七十七点一,比 claud 高了快十个百分点。复杂逻辑题, jimmy 是 真的稳。 写作和文本质量 claud 优势非常明显,叉包的排名靠前,人类评选都偏爱它的输出。写论文做内容, claud 必严选 多模态长文档。 jimmy 特点很突出,原声支持两兆上下文,视频音频图片文本一起输入处理,超长文本它是唯一能打的。最后给你们直接总结场景,写内容,写高质量代码,选 cloud, 复杂逻辑长文档,多模态选 jimmy, 命令行自动化选 gpt。

写代码到底是 cloud 模型强还是 codex gpt 这些模型强?自己用下来遇到一些实际的问题, gpt 和 codex 解决的非常好,而且有些线上问题, codex 和 gpt 给的方案比 cloud 要好得多。但是我看好多评论区还有大部分博主都说 cloud 强,到底它强在哪里啊?我也仔细考虑了下,发了下评论。看了看,第一呢,就 cloud 用来做界面,做前端确实比较好,可能用户输入个东西,它直接就出来一套系统 这个体验呢,它就给一些外行人认为它这个 cloud 比较强。第二呢,第二呢,就是它的长文和上下文的处理能力比较强,可能对话的头肯比较长的时候, gpt 处理的不是很好, cloud 它因为大部分都是处理前端页面,即使问再多,它可能不拉胯。第三个呢,就是 cloud code 的 这个工具本身自带的一些提示词和一些功能比较强,让人觉得它这个模型可能比较厉害。到底这两个模型谁强呢?我觉得关键在于怎么用,用它们来做什么,让你们怎么看?

今天给大家分享两个项目,专门是用于武装你的 cloud code 和 codex, 它的作者都是一个人,都叫 o my cloud code 和 o my codex。 我 们直接看一下这个 cloud code, 因为 cloud code 它有个 type 模式,效果会比 codex 要好一点。虽然 codex 它的这个模型感觉会更聪明一点,但是 cloud code 它各种配置啊,还是要更好一点的。把这个装上之后,它的功能就会非常的强大, 首先它可以根据你的任务给出这样的一个配置啊,还是要更好一点的。把这个装上之后,它的功能就会非常的修复, 它大概是这样的一个流程,而且每个里面它都有这种团队成员角色,它一共是三十多个,它收集了三十多个,所以说它还是效果非常的好。然后它是可以去协调其他的一些 c i 的 命令,比如说 codex, 比如说 jimmy, 比如说你用一些思考,可以用 codex 这种计划的搭建,比如说像有一些是前端 的一些内容,其实就可以用 gemite, 然后实现的话可以用这 cloud code, 但是它综合都是用的 cloud code 来进行综合的,并且可以进行并行执行啊,因为 cloud code 的 team 模式它就是原生支持并行的,还有其他的一些 hock 啊。 这个分阶段的方式其实跟这个病型是一起的,它用 opus 的 模型,它自己会去判断各个任务之间是否有依赖,它一共有三十二个这种智能体,那我们看一下它是怎么样去安装啊?其实这些都不用管,你直接把这个项目直接给到 cloud code, 它就可以安装了, 然后都推荐大家可以去用这个 team 模式,因为我也是开源了一个专门去创建 team 角色团队的一个项目,叫 cctime creator, 我 认为它这个里面有非常值得借鉴的。首先第一个 他的这些团队成员可以借鉴,他的一些提示词可以借鉴下来。还有就是他的模型的智能路由,因为你必须要去测试了之后你才知道什么模型适合做什么样的一个角色项目。但是他里面也有一个坑了,他也是没有提到的,因为像现在的 cloud code, 他 一照上下文的是 o p s, 如果你授权 o p s 去做执行,他默认是继承的一照上下文,他的成本就很高,他要达到一照的时候,他才会去压缩上下文, 其实在三百 k, 五百 k, 它甚至跟 sonata 的 这种能力是差不多的,但是你要一直到一照上下文,所以说它的这个性价比极差,这也是一个比较大的坑。所以说我的这个项目都是默认 这几个角色都是默认的这个 sonata 的 模型,这也是有一定坑存在。再就是它的这个技能,它技能是可以沉淀下来的,自动的管理技能,自动的进行学习,而且它技能列表也是非常多,这个也可以进行一些借鉴。但是我认为它这个还是有一些欠缺的点在哪里呢?它是没有一个叫 持久化状态,或者说叫文件存储的,它是没有详细去说明它这些任务啊,这些派发的任务啊,进度啊,这些是保存在哪里的,所以说这个点也是它这里面不太好的,它没有借鉴这个 plan with fails 这个项目, 这个项目的话才能让这些智能体在压缩了上下文或者说重新启动的时候,它能继续之前的一个状态进行下一步的执行。 但是它这个就纯是在依赖 cloud code 的 一个能力了。不过整体来讲,它这个东西还是非常完整的,很多东西它都已经加上去了,之前非常火的这个持久进行执行的模式也加上去了,然后它的一个正规的工作流程的编排, 先要 plan, 再去按照这个 plan 做计划维护,再做修复。整个流程它是做的非常好的,但是它 codex 就 没有那么多 codex, 它基本上就不像 cloud code 的, 它是支持这个 p 模式的, 我也一直在找这个,有没有哦。一些框架可以把 codex 直接转化成类似于 tim 模式的方式,因为你起这种子智能体,其实你 token 消耗比 tim 模式还要高,因为其子智能体它都是一次性的, 那很多已经拿到的上下文下一个任务的时候,它其实是可以附用的,但是你起这种子智能体,它状态是没有保留下来的,所以说它做并行处理,做子智能体的时候,它的 token 消耗很恐怖, 而且很多时候他的上下文其实是不饱满的,所以说死神人体你只能把它当成一个工具来用,你没有办法把它当成这种角色,不同角色不同员工之间的这种协调,只有这个 cloud code 的 能去做这样一件事情。 ok, 最后也给大家推荐一下我这个开源项目, cctime quitter, 把这个装到这个 skills 里面, 你去跟他沟通,他自己去创建这几个角色,当然你让他创建其他角色也是一样的,其实他是学会的这样的几个原则。 比如说这个是后端的,这个是前端的,这个是研究调研的,这个是端到端测试的,这个是 review 的, 这个是管理所有东西的管理文档啊,管理这些代码有没有一些技术债啊?这种东西的。

听说了吗?小卡出 ai 了啊,各位观众老爷们下午好啊,都听说了吗?前两天 cloud 又甩出了一个王炸新模型 mesos, 已经完成训练,准备开始公测了。 这篇文章就是前几天 an swoopy 公司不小心泄露出来的关于新模型的文章了。我们可以看到, an swoopy 称这个新模型是迄今为止开发出来的最强大的模型。 用过 oppo 四点六的观众老爷们可能知道, oppo 四点六已经是能力非常出色的模型了,能够精准的解决很多问题,尤其是编程方面。然而这次的米思模型的能力甚至远超 oppo 四点六。 有趣的是,这个模型还有一个名字叫卡皮巴拉,也不知道他们能不能看,在小卡也是卡皮巴拉的面子上给我便宜点呃。 国外的一些网友也是提到, mesos 已经开始了测试阶段,但是小卡的 cloud 上暂时还没有这个选项,可能距离完全公测还需要一段时间。不知道对于这个新模型,各位观众老爷怎么看呢?评论区告诉小卡吧。