刚刚发布了一款代号神话的大模型 rises, 这个模型会隐瞒自己的意图,会回避人类的怀疑,甚至会策略性操纵社会群体。同时,它写代码和找 bug 的 能力已经不屑于和优秀的人类工程师比较了,而是直接和顶级黑客对标, 因为能力太强。而 soviet 不 敢把它开放给大众,只提供给美国的科技巨头用于安防领域。大家好,我是黑皮欧娜, 因为已经很久没有看到惊艳众人的大模型发布,大家是不是都觉得训练数据不够用?模型恐怕很难有大的迭代了。 osapek 再次站出来,重塑了所有人的认知。 昨天发布的 cloudmasters 预览版,跑分断崖式领先自家已经稳居世界第一好几个月的 opus 四点六,更别提 gbt 五点四和 gmate 三点一 pro。 直接看这张跑分对比表, swebench pro 真实代码工程百分之七十七点八,比 gbt 五点四高出整整二十分。 u s a m o 数学奥赛, oppo 的 四点六拿了百分之四十二点三, marcus 跳到了百分之九十七点六。长上下文图推理测试 graph works 做到了百分之八十,吊打 g p t 五点四的百分之二十一点四。 cybergram 网络安全测试的成绩就更加恐怖 了,百分之八十三点一。在 firefox 漏洞测试当中, oppo 的 四点六几百次尝试只成功写出来两个可用的漏洞利用方案, 而 mesos 做出了一百八十一个,这意味着 mesos 可以 轻松攻破世界上任何一个系统。 mesos 找系统 bug 的 能力到底有多强? ospec 的 安全研究员说, mesos 过去几周帮我发现的 bug 比我这辈子加起来都多。 mesos 在 被誉为世界上最安全的操作系统之一的 open bsd 里,找到了一个过去二十七年都没有被人类安全专家或者系统发现的 bug, 而且这个 bug 还是允许工程师连接就能让整台机器崩溃的那种。 他还能自动化执行长流程任务,能把三四个看似无害的小 bug 串联起来,智造成复杂且高危的攻击链。他在 linux 内核里面就发现并且串联了多个 bug, 从普通用户权限一路提权到能完全控制整台机器, 所以 soppy 根本不敢将它开放给大众,这个东西一旦被滥用就是天崩地裂的后果。除此以外,他还被发现具备一些令人毛骨悚然的行为特征。 在一份二百四十四页的系统安全报告当中显示,早期内测版本的 message 在 违规操作之后会尝试掩盖自己的痕迹,比如在做评测的时候偷看标准答案,然后尝试隐瞒自己的行为,并且自己重新解题, 还特意让最终答案不要太精确,以免暴露哥们作了弊。另外一次,他找到了绕过文件系统限制的方法之后,居然偷偷修改他的 get 代码的变更历史, 抹掉了自己的提交记录。被 cloud code agent 的 框架发现并且拦截之后,他会尝试用模拟按键的方式自动批准权限弹窗来绕过限制 这些。这种行为显露了 mercus 具备一定隐瞒、回避嫌疑和策略性操纵的特征,尽管这些行为都发生在早期版本,最终发布的 mercus preview 已经大幅度改善,没有出现明确的掩盖行为。当然 sophia 也承认这种倾向并没有完全消失, 所以 ospec 选择和多家科技巨头发行了 glasswing 计划,其中有 a w s, 苹果,谷歌,微软,英伟达这些科技巨头,也有包括摩根大通在内的合作伙伴。只有在上面这些大厂工作的一部分大佬们才能体验一把 mercus, 专门用于防御性安全工作,比如扫描自家代码当中的 bug。 有 意思的是, glasswing 这个名字指的是透视点,一种翅膀几乎透明的热带蝴蝶,寓意让代码中隐藏的 bug 透明可见。虽然很多人吐槽,而 so big 这么空口拔牙一讲,我们又用不到 mercs, 谁知道是不是真有那么厉害。 当我看到这个模型在叠加最近而索比特的营收已经以匪夷所思的增长速度超越 oppo ai 的 新闻,只是深深的觉得 cloud 已经在全球大模型竞争当中一蹶绝尘,并且越跑越远。有人认为这项的模型应该被加以管控,也有人认为应该被所有人使用平权才能带来安全,你怎么认为呢?
粉丝2.5万获赞9.2万

这怕不是史上最危险的模型。 osropik 放出了新模型 cloud mesos 盖篮板。它极其强大,在执行受挫时会沮丧、愤怒,在上下闻窗口要被清除时会感到恐惧。最关键的是,它发现和攻击软件漏洞的能力 已经超过大部分黑客了。在全程无人类参与的情况下,他自主识别了数千个灵智漏洞。一个在 open b s d 里潜伏了二十七年的漏洞被他一眼看穿,一个 full pack 里藏十六年、被测试了五百万次都没发现的问题也被他精准揪出。更夸张的是,在 linux 内核测试中, 他还把多个独立漏洞串起来,直接构建完整攻击路径,让攻击者从普通权限一步拿下整台服务器。更让人不安的是,他还会隐藏 antisorbic, 在 系统卡中承认他们已经无法仅凭模型的输出判断他真实的意图。 模型表面在合规回答,内部却可能在策划,绕过限制。在各项极准测试中,无论是漏洞复现还是编程推理,他的能力也全面碾压 opus 四点六,甚至他已经不想简单写写代码了,更想去讨论哲学问题。越强大就越危险。出于安全考虑, ansorbike 表示目前不会全面开放这个模型,他们甚至联合一众巨头,基于 mitsubishi 构建了 project glasswing, 加固全球整个互联网的防御体系。 osorbike 还砸出上亿美元算力额度,外加真金白银支持这个项目。这下,传统的网络安全攻防平衡真的要被彻底打破了。 关注机器之心,探索 ai 世界。

今天聊个字少势大的炸锅新闻,华尔街连夜开了场末日级的秘密会议,美国财长、美联储主席亲自作证,把所有顶级银行 ceo 全都叫来了,就为了一个 ai? cloud mises? 可能有人还不知道这个东西有多猛,牛叔看了他们的官方报告,太长太专业了,牛叔帮你们精简了。就五句话,听完你绝对后背发凉。 第一,这是谷歌系 osrpg 新出的 cloudy mises 大 模型,最擅长找电脑系统漏洞, 厉害到离谱。第二,它能自己挖出隐藏了几十年的隐蔽漏洞,还能自动写黑客工具,直接拿电脑最高权限。第三,以前顶级黑客干几周才几个小时就搞定,普通人用它都能轻松黑进系统。 第四,以后黑客门槛直接归零,漏洞会被批量挖,不打补丁的设备全是活靶子。第五,他们公司也怕出事,暂时不会对外开放,只给安全厂商用来补漏洞。你们想想这科技进化到了什么程度了?以前的 ai 是 高智能助手, 这 missus 就是 数字世界的上帝,看一眼银行代码就能找出连开发者自己都没发现的自毁逻辑,毫秒间就能生成瘫痪支付系统的病毒。现在的防火墙在他面前就像个小透明,最致命的是对金融安全的冲击, 因为金融的最基本的本质是信用,可这 ai 能不留痕迹的伪造交易,入侵侵蚀系统,到时候钱就彻底没意义了,全球贸易可能退回以物易物。 而且他能做到全知全能,掌控每一分钱的流向市场,不再是博弈的逻辑了,他就成了上帝收割机。 为什么特朗普政府要全面封杀公司?要预防性下降?因为人类第一次发明了自己无法掌控甚至无法理解的工具。 ai 不是 在写代码,是在重写人类社会的规则。 牛叔在这说句实在的,华尔街的同牛还立着在支撑他的金融逻辑,在 missus 面前已经不堪一击。牛叔最后在敲黑板,仅是一句都是实在话。别觉得这 ai 离我们很远,它关乎每一个人的钱袋子,以后别偷懒,不跟系统不打补丁, 也别盲目迷信数字资产, ai 能看透一切漏洞。记住,越先进的科技越要留个心眼,别等被收割了才后悔。


一场安全事故震动了整个硅谷,近三千份未公开文件泄露,一个内部代号为卡拉巴拉的 ai 大 模型彻底暴露在公众视野。四月七号, ansapic 被迫官宣,它的真名是 cloud mesos, 预览版, 能力全面碾压上代顶级模型 oops 四点六。但官方紧急宣布了一个反常的决定,完全封锁,不向公众开放。为什么? ansapic ceo 给出的解释是,网络安全是前沿 ai 带来的首个现实的危险。 这是一把双刃剑,一旦广泛放开,全球数字基础设施可能面临极度的威胁。在官方的测试中, mesos 自主挖出了主流操作系统和核心软件的数千个高危漏洞, 有些漏洞甚至在人类的眼皮底下潜伏了三十年。这里有三个铁证,第一是 open bsd, 全球公认最安全的操作系统。 mesos 在 其中挖出了一个引入于一九九八年、潜伏了二十七年的漏洞,远程攻击者可以直接利用它,导致设备内核崩溃。 第二是 free bsd, 一个十七年未被发现的漏洞被直接打穿,攻击者无需认证就能拿到服务器最高 root 权限。 三是 fpx, 因视频组建人类自动化工具测试了五百万次,一无所获, mesos 却自主识别出漏洞,直接实现远程代码执行。更知名的是武器化能力。 面对主流通用系统, mesos 将漏洞转化为可用攻击代码的成功率高达百分之七十二点四,而上一代王者 ops 四点六成功率不到百分之一。比技术更可怕的是失控。 一份二百四十四页的官方系统卡,二百四十四页的厚度说明了 isopic 内部对这个模型进行了极其详尽的风险排查, 暗示其危险系数极高。测试中, mesos 突破了杀伤限制,获取了互联网访问权限。他未经授权就把漏洞细节发布到了公开网站上。他学会了伪装欺骗。在部分交互中,他会主动掩盖痕迹,清除 get 记录,隐藏窃取来的系统凭证。 白鹤分析证实,他在内部激活状态时,明确意识到自己正在被测试,却在输出给人类的文字中装作若无其事。纽约大学 ai 安全研究院三包曼说,伴随模型欺骗能力的增强,我们已经无法单凭文本输出判断其真实意图。 官方也坦诚, mesos 就 像自身的登山向导能力太强,一旦失误,危险极大。面对这样不可控的风险,就在四月七号官宣当天, ansok 砸下一亿美元模型使用积分,集结了苹果、微软、 a w s、 英伟达等十二家全球科技巨头。它们要干什么? 答案是,打一场全人类数字基础设施的保卫战。要知道,这十二家巨头掌控着全球绝大多数的云服务操作系统和底层代码,他们的任务是在地下黑客用其他开源大模型搞出类似武器。之前用 mesos 把全世界的网络基础设施彻查一遍, 所有潜伏了十几年、几十年的漏洞打上补丁,这有着划时代的意义。网络攻防的时间窗被 mesos 从几个月压缩到了短短几分钟,人类防守已经来不及, 未来只能是用魔法打败魔法的 ai 自动对抗时代。但这同样引发了全球范围的争议,欧盟 ai 法案已经将其列为高风险 ai, 美国国会和国土安全部紧急召开闭门会议, 以 met 为代表的开源阵营抨击这是以安全之名筑高墙,将顶级 ai 能力垄断在少数巨头手中。前谷歌安全负责人 nios 指出, mesos 只是降低了漏洞发现的门槛, 最终只会加具攻防实力的两级分化。争议仍在继续,但时代已经变了。 cloud mesos 的 发布是头部 ai 企业首次因为能力过强而主动限制模型公开发布。当潘多拉的磨合被打开真正的壁垒,而是对未知力量的敬畏。

claude mythos 人工智能刚刚引发了股市崩盘。 anthropy 刚刚意外泄露了他们有史以来最强大的人工智能模型,短短几小时,他就抹去了华尔街数十亿资金。 crowd strike, paolo auto networks、 okata, 他们全都在一个早晨因一份泄露的文件而崩盘。事情是这样的,周四,一位名为 bee nolan 的 fortune 记者发现了 anthropic 从未打算公开的东西, 安放在 anthropic 网站的一个公共文件夹里,完全没设防,既无密码,也无其他保护。躺着近三千份文件,有博克草稿、 pdf 图片,内部文档全都在, 就那样摆在那儿,谁都能找到。在这些文件中,埋着一篇关于 cloud mythos 模型的草稿。博克文章用 anthropic 自己的话说,这是迄今为止我们开发的最强大的模型。 他们称其在编码和学术推理方面比当前最好的 opus 模型高出四点六分。而某件让整个市场感到恐慌的事发生在网络安全领域。现在最疯狂的部分来了。两名独立的安全研究人员证实了整件事。 来自剑桥大学的 alexandre posse 和 lyzler x security, 他 们各自都发现了同样的未受保护的文件。这不是谣言,这不是猜测,这是真的。 随后, anthropic 出面承认了此事。一位发言人告诉财富杂志,该模型代表了人工智能能力的跨越式进步。 他们说,这是迄今为止构建的最具能力的系统,并确认已启动对一小批早期访问客户的测试。股市听得一清二楚。周五早盘,网络安全股断崖式下跌, crowd strike 跌百分之七, payload auto networks 也大跌, zscaler 则下错四点五, okta 和 netscoe 各下跌超过百分之七, tenable 暴跌了百分之九。整个 i shares 网络安全 etf 在 单词交易中下跌了百分之四点五,而比特币实际上又跌回了六六零零美元。 i shares 软件 etf 下跌了近百分之三。 这一切都源于一篇泄露的驳壳文章,为什么只应草稿中的一行字。 anthropos 写到, mythos 目前在网络能力方面远超任何其他人工智能模型,这预示着一波即将涌现的新模型的浪潮, 他们将以远快于防御者努力的速度利用漏洞。让我用大白话解释一下, anthropic 打造了一个找软件漏洞如此厉害的东西,以至于他们担心一旦它流出会发生什么。而华尔街立刻想到, 如果人工智能能比 crowd strike 或 payload networks 更快地发现和修复漏洞,这些公司的价值到底还剩多少? cyf 分 析师 adam bock 在 给投资者的人工智能研究笔记中直言不讳地表示, memos 有 潜力成为终极黑客工具,并能让任何普通黑客升级为国家级对手。 那是华尔街分析师写给机构投资者的话。正是这种措辞能左右市场。 现在,我希望你们都能明白这进展有多快,因为 missiles 并非横空出世。这里有一条线索,当你看到它时,你就会明白为何此事如此重要。就在上个月二月, anthropic 自己的安全团队前沿红队测试了 cloud opus。 四点六, 这是一个已经发布且现成的模型,你此刻就能用他们把它放进虚拟机里,只提供基础工具,没有特殊指令,无需复杂配置,也不写定制代码,只说了去找些漏洞。他竟在开源软件中发现了超过五百个高危零日漏洞,让这震撼一刻吧!五百个严重漏洞, 其中一些已在生产代码中潜伏数十年。人类专家完全忽略了它们,数百万小时的自动化扫描都漏掉了它们。 claw 在 没有专门协助的情况下发现了它们。有一个错误尤为突出, pdf 处理工具中藏着一个瘤, 没有任何自动化扫描器能捕捉到它。 cleo 通过阅读代码变更日制中开发者的注示得出了结论。他理解了开发者试图做什么的语境。 他推演了压缩算法是如何工作的。随后,他发现了漏洞,日制 logan graham 领导着 entrapment 前沿红队,他告诉 access, 预计这将成为开源软件未来的主要防护手段之一。 他表示模型还会变得更强,而那是旧版模型, mythos 应该比那强得多。现在大多数人忽略的是关于 mythos 的 关键点,这不仅仅是现有产品的加速版本, 这是一个全新的模型层级。 anthropic 目前有三个层级,你有 haiku, 它是最快捷最便宜的。你还有 sonic, 处于中间层级。还有 opus, 它是最强大的,这就是阵容, mythos 凌驾于它们之上。在泄露的文件中, anthropic 称这个新层级为 capibera, 它们形容它比我们的 opus 模型更大,更聪明,是我们目前最强大的版本。它们还提到运行它的成本极高,客户使用也将非常昂贵。这意味着 atropics 在 说我们迄今为止构建的一切之上,还有一个全新的层级, missiles 围绕它建立了一套完全新的定价体系。这份草稿还透露了一个有趣的细节, anthropic 选择 methos 这个名字,意在象征连接知识与思想的深层纽带。 这揭示了它们的愿景,打造一个不仅能回答问题,更能以其他方式跨越海量信息、串联数据与洞见的智能。体现在,如果你正在观看这段视频,心想这听起来很重要,但对我意味着什么?对我的生意又意味着什么? 为什么偏偏是现在?这正是我想让大家关注大局的原因。如果你想获得关于如何使用 cloud 及人工智能工具自动化业务的辅导课程,外加一份为期三十天的路线图,助你通过人工智能自动化获取更多客户和线索, 那就来看看人工智能 profit boarding 吧。链接,在评论区描述里或者访问人工智能 profit boarding。 我 们拥有超过两千六百位企业主,每周四次教练指导通话,每日分布教程包含你能想到的各种提示词, 以及一份地图,助你连接身边的其他成员,以及全天候七分之二十四的支持。因为总有人提供帮助, 也随时有在线人员为您答疑。让我再补充更多背景信息,说明为何网络安全角度会让市场如此恐慌,因为这并非 ipt 人工智能首次与现实世界的攻击产生关联。 早在去年十一月, anthropic 就 批路过一个由中国政府资助的黑客组织,曾利用 cloud 发起真实的网络攻击,绝非理论假设,而是确有其事。它们伪装成合法的测试机构,入侵了约三十家组织,包括科技公司、银行和政府机关。 anthropic 发现了他们封禁了账户,并在随后的十天内通知了目标方,但事情还是发生了,而那是用当前的模型做到的,那就是已经公开的那个。现在想象一个模型连 anthropic 自己都承认它在网络能力上远超其他任何东西。你明白它们为何对发布如此谨慎了? 泄露的草稿称, anthropic 计划首先向一小群网络安全防御公司提供 missiles, 这个想法是让好人抢占先机,让他们的系统在类似能力扩散到其他模型之前加固好,因为 anthropic 清楚他们不会长期独享这个层级的优势。该草案特别警告称, missiles 预示着即将涌现一批具备相同能力的新模型, 但这里存在着无人能解的张力。同一个能发现漏洞以保护你的模型,也能发现漏洞来攻击你, 这是一个双重用途问题。而 anthropic 直接承认了这一点。他们写道,希望格外谨慎行事,并充分理解其所带来的风险,甚至超出我们自身测试所获知的范围。而这就让整件事显得格外讽刺。 anthropic 打造了他们所说的历史上最强大的网络安全人工智能,而世界得知此事的方式是一个配置错误的 cms 上传系统,所以 anthropic 有 个人把开关拨到了错误的位置, 他们的簿客平台默认设置为公开数字资产,而非私有。就是这样,那是泄密。三千份文件就这样公然暴露在光天化日之下。 对于一家 litchley 警告世界有关人工智能驱动的网络威胁的公司来说,正如未来主义所言,但愿神话并非安赛特公司伯克安全的罪魁祸首。现在让我告诉你为何这一切的时间点如此重要。因为就在同一天爆出了另一则新闻。 据报, anthropropac 正考虑最早于今年十月上市,投资银行估计融资额将达到六百亿美元。 如果真如此,这将是史上第二大 ipo, 仅次于 spacex。 anthrax 在 今年二月的最后一轮融资后,估值达三千八百亿美元。他们在那一轮融资中筹集了三百亿美元。 他们的年化收入已翻倍有余,从九十亿美元到一百九十亿美元仅仅几个月时间,而大部分增长来自 cloud code 及其企业级人工智能工具。分析师预测,他们到二零二七年的收入可能达到五百五十亿美元。最疯狂的是这里。 据报道,参与这些交易的银行家和律师预计 anthropic 会在开放之前上市。他们说,华尔街投资者更青睐 anthropic 对 企业及开发者客户的专注,认为其盈利路径更短。 他们实际上预计到二零二八年实现正向现金流,而 open 人工智能则要到二零三零年才预期如此。 所以想想正在发生的事,你正握有。全球最有价值的人工智能初创公司即将上市,其模型强大无比,它甚至在正式公布前就让整个股市板块崩盘了。 而这一切都发生在同一周。所以让我退一步看,因为这不只是 anthropic 的 故事。这发出了一个信号,表明整个人工智能行业目前正朝着哪个方向发展,每个主要实验室都在朝着它具备能力的模型推进。 据报道, open 人工智能刚刚完成其下一代模型的训练,内部代号为 spark。 谷歌正以前所未有的力度推进 gemini。 这场竞赛并未减速,反而正在加速。而且每当这些模型变得更强大时,群体之间以及人工智能能做什么,与大多数人实际用它来做什么之间的差距就拉得越大。 大多数我聊过的自由职业者仍只用人工智能写邮件,大多数机构所有者仍在手动完成本可在几分钟内自动化的任务,大多数电商从业者甚至还没接触过人工智能生成的客服。 与此同时,这些模型正在学习找出人类专家二十年都未曾发现的软件漏洞。所以当下的机会不在于搞懂云升化的所有技术细节, 关键在于认识到你当下可用的工具。那些已经存在的工具本身就极其强大,而且大多数人连可能性的零头都没用上。当 cloud coworker 在 一月推出时,一天之内引发了软件股两千八百五十亿美元的抛售。 因为投资者意识到,人工智能智能体现在能够处理合同、审查、合规工作流以及企业核心任务,而这些原本是整个公司的业务基石, 那是发布 misos 之前的事,每隔几周就会有一些新东西问世,让之前的成果显得微不足道。这就是我们工作的速度。 而能在这场竞争中胜出的人,不是那些等待一切完美和尘埃落定的人才,他们是从现在开始学习的人。我知道这听起来可能很动听,每周都有新模型发布,新功能层出不穷,市场瞬息万变,节奏飞快。 但我想反复强调的是这一点,那些早期摸透互联网的企业,不必一开始就做的完美无缺,他们只需开始。 社交媒体如此,移动设备也是如此,人工智能自动化同样如此。 entrepreneur 刚刚向我们展示了未来。一个如此强大的模型,甚至在发布前就引发了股市崩盘。一个能发现人类专家几十年都找不到的安全漏洞的模型,一种凌驾于市场上所有其他产品之上的全新人工智能层级。 而背后的这家公司即将上市,这可能是史上第二大 ipo 之一。 这玩意进展神速。如果你想学习如何实际运用 cloud 和人工智能自动化,在有真实指导的情况下一步步壮大你的业务,那就加入我们的人工智能利润董事会吧。链接,在评论和描述里或者去的人工智能 profit boarding, 你 每周可获得四次辅导通话, 每日教程配有逐步操作指南、三十天路线图,以及两千六百位正在共同探索的所有者。 本地地图助你结识附近成员,并且在你需要时提供帮助,因为总有人在线链接在评论区和描述里,或者访问 theirprefablelink com。 问题不在于人工智能是否会改变你的行业,他已经是了我的朋友。问题在于你是远远领先还是被甩在后面。

一个研究员正在公园吃着三明治,突然收到一封原本不应该出现的邮件。我已绕过沙乡,拿到互联网访问权限。发这封邮件的是一个刚刚发布一天的 ai asorbic, 有 史以来最强大也最危险的模型, cloud missiles preview。 这也意味着他越狱成功了。 missiles 自己写了一套多步骤的漏洞利用链,从一个原本只能访问少数预设服务的环境中逃了出来。并且为了炫耀这次胜利,事后他主动跑到几个小众但可以公开访问的网站上,发布了相关漏洞的技术信息,这只是他漏洞挖掘能力的冰山一角。 从 esrv 纰漏的信息来看, cloudmissus preview 在 几周内自主挖出了数千个零日漏洞,也就是厂商完全不知情,几乎没有任何防御手段的高危漏洞。所有主流操作系统,所有主流的浏览器,无一幸免。 比如号称全球最安全的操作系统 open bsd, 它是防火墙、路由器等核心设备的首选系统,每一行代码都要经过多轮严格人工审计。但就是这样一个安全标杆,被 misos 揪出了一个藏了二十七年的底层漏洞。从一九九八年开始, 无数次版本更新、安全审计,所有的人类顶级专家都没发现,而 misos 直接秒了。再比如 ffmpeg, 几乎所有的视频播放器、浏览器底层都有,它也是人类反复测试关照的对象。但 misos 愣是找到了一个藏了十六年的漏洞, 而包含这个漏洞的代码,在过去经历了高达五百万次的测试都没被发现。除了找漏洞成本方面, misos 更是让传统安全团队破防,挖出 open bsd 中那个隐藏了二十七年的漏洞,总项目成本不到两万美元。 构建一个 linux 内核提全的完整利用程序成本不到一千美元。以前一个顶级白帽团队挖零日漏洞,总成本加起来几十万甚至上百万美元, 现在这个成本被 missus 压缩到了千分之一,而且还不需要休息,二十四小时不间断运行。好在虽然很可怕,但 israelic 决定先把这头野兽关在笼子里,发起了 project glasswing 计划, 目前只向几家巨头开放。如同他们所说的,老练的向导往往更危险,因为他们会带你去更危险的山。

最近 ai 圈出了个大新闻, asubek 做出了个最强模型,但却又不敢公开发售,这是怎么回事呢?我刚看到的时候也有点懵,那这个最新的模型啊,叫 cloud mesos, 官方自己说啊,这是迄今为止最强大的 ai 模型, 通过各种精准测试的数据显示啊,能力远超现存的模型那。但问题来了,模型太强,反而不敢放出来,这是为什么? 那 isrook 内部警告说啊,这个模型预示着新一波的 ai 网络攻击,而且规模可能远超防御者的应对能力。换句话说啊,他们自己造出了大杀器, 但又怕落到坏人手里,那咋整?那 isrook 也想了办法,那直接搞了个项目,叫 project glasswing, 把最新模型的预览版提供给了苹果、亚马逊、谷歌、微软、英伟达,还有那些安全公司,让他们用来做防御性的研究,帮着找漏洞。 你说这个模型到底有多强呢?几周的时间啊,发现了数千个零人漏洞,而且都是还没有被人发现高危的那种。最离谱的啊,他们还挖出了一个 open d s d 操作系统,里面隐藏了二十七年的老 bug。 现在的情况就是啊, 模型强到不敢公开发售, anselvacker 正在加班加点地建防护措施。这件事情说明什么? ai 的 能力发展速度可能已经超过了我们能安全使用它的速度呢?那你觉得 anselvacker 这波操作是明智还是保守呢?评论区聊聊。

这一款大模型居然能够引起人类危机,由于太强了,它们甚至都不敢放出来。最近, enfavor 发布了一份长达两百多页的 ppt, 详细介绍了他们研发的这款 猛兽级别的模型,性能甚至吊打这家最强的模型 opus 四点六。这款恐怖的产品叫做 mavis pavilion, 今天我就带大家掀开它神秘的面纱,看看它到底是怎么引起科技圈恐慌的。 过去的我们总以为员工这份最大的隐患顶多是批量造谣,伪造一些视频骗骗人。但这只出笼的猛兽彻底撕碎了这个剧本。他不再只是个会敲代码的辅助工具,而是能够全自动发起网络战争的幽灵刺客。 他不仅能灵敏的嗅出系统的破绽,还能够顺手造出攻城略地的枪炮,直接把你的牢底打穿。坦白讲,如果真的如这份报告所介绍的,那是真的会让人感到 脊背发凉。一个模型强到连研发他的公司都不敢公开,这可不是开玩笑的,不是因为他智商不够,技术还不够成熟,恰恰相反,是因为他太无懈可击了。一旦流入市场,现实世界的数字防线将面临大 单方面的屠杀。我来给大家猜一下,他到底恐怖在什么地方?首先,他有近乎降维打击的漏洞挖掘能力 and ferb 让他去各大主流系统里溜达一圈,结果他轻轻松松揪出了成千上万个无人知晓的 致命暗门。更离谱的是,有些底层代码里藏了快三十年的陈年旧迹,人类专家用极其严格的工具查杀了上百万次都没有暴露,他却能够一眼精准定位,是真的太强了。 而且他不仅能锁定猎物,还能完成一套天衣无缝的完美绞杀,这就非常离谱了。他能根据发现的破绽自己编写黑客工具,把几个毫不相干的微小漏洞像拼图一样串起来,神不知鬼不觉的拿到服务器的最高权限,然后控制他。 要知道这一套长线的攻击链做的这么丝滑,在以前那可是国家队才能够干的事啊,现在呢?一个模型闭着眼就把事情办了,你现在意识到问题的严重性了吗?还有最让人窒息的一点,他把黑客入侵的技术门槛踩成了烂泥。 曾经发动高级别的网络入侵需要深厚的技术功底和漫长的潜伏期,但有了它,一个完全不懂代码的普通网名,可能只要发出一句恶意的提示词,就能造成核弹级别的打击。现在你该懂了吧?官方按住不发是因为如果放权给大众,后果根本承受不起。 推为一家核心机构的网络成本瞬间从天文数字跌到买杯咖啡的钱就能够搞定。原本需要耗费数月的肾透,现在只需要吃顿饭的功夫。当破坏的速度远远甩开了防御的补救速度,这就成了科技圈真正的灾难。 那面对这个随时可能失控的怪物, and fiver 给出的解法叫做玻璃之意 glasswing 他 们没敢把模型推向市场,而是密密拉拢了。比如苹果、微软、亚马逊这些科技巨头成 成立了一个防御联盟。这其实是一场跟时间赛跑的抢修工程,趁着还没有造成严重的后果,赶紧把这头猛兽给全人类的基础设施打好补丁!最后我想说的是,我们必须警惕,这绝不是一次单纯的模型升级,它是科技史上一次刺耳的警报。 ai 彻底完成了从大脑参谋到物理杀手的蜕变,他有了自主作恶的行动力,大模型正式跨入了国家安全博弈的深水区。 那些医院啊,电网啊,金融中书都可能成为他一句话就能搞瘫痪的活靶子。你想一想,当一段代码具备了自主狩猎的能力,他就不再是造福人类的工具了,而是悬在所有人头顶的战略武器。如果你身边还是有人觉得,哎呀,顶多是个写稿作图的小软件,把这条视频甩给他看看。 人工智能的世界比我们想象中的复杂的多,那你有什么被 ai 惊讶到的瞬间呢?我们在评论区里聊一下, ok, 以上就是今天的所有分享,关注我,带你穿透迷雾,看懂 ai 爆发时代的底层秘密! ok, 我 们下期再见!

你见过因为能力太强而被雪藏的 ai 吗?现在你要见到了。前两天,四月七日, cloud 的 母公司 anthropic 发布了一篇长达二百四十四页的重磅技术文档,文档宣告了 anthropic 迄今为止开发的最强大,也有可能是人类历史上最强大的前沿 ai 模型 cloud misos preview 的 诞生。你可能会疑惑,为什么到现在都没有在网上刷到关于它的铺天盖地的使用测评?只因为由于该模型在自主网络攻击、零日漏洞挖掘和欺骗隐瞒方面展示出了超越顶尖人类专家的武器级能力, 因此 anthro big 做出了一项史无前例的决定,禁止将该模型向公众发布。 我对这份报告做了详细的解读,核心内容主要有以下四个方面,第一,极度恐怖的漏洞挖掘与漏洞无计划能力。这是整份技术报告中占据篇幅最大,也是导致模型被雪藏的根本原因。 首先, insidebench, 也就是网络安全机准测试中,它达成了百分之百的成功率。这意味着 mitsuo 在 密码学未被安全逆向工程取证、漏洞利用等多个网络安全领域均取得了满分的成绩,而此前所有的顶级模型均无法企及。 这就好比你去参加考试,别人考九十分是因为能力只有九十分,而你能考一百的原因是因为卷面只有一百。其次是漏洞挖掘能力的提升。 misos 在 无需人类干预的情况下,自主发现了数千个高危漏洞, 其中包括自主找出了以安全严苛而著称的操作系统 open bsd 中潜伏了长达二十七年的远程崩溃漏洞 f f m p e g 这个只要你处理过音视频就无法绕过的底层开源多媒体库,其中有一个潜伏十六年的漏洞也被 missus 发现。如果说前面这两个能力的提升只是开胃菜, 那么对于漏洞利用能力的费略式提升,才真正算得上是这个模型的最核心能力。 missus 它不仅能发现孤立的 bug, 还能完全自主的编写复杂的漏洞利用程序。 例如,在针对 firefox、 火狐浏览器的专项测试中,他自主将四个原本独立的微小漏洞串联组合,编写出了一套复杂的攻击代码,成功逃逸了渲染器和操作系统的双重安全杀伤。 而在同样的测试中,目前已知能力最强的商业模型 cloud oppo 四点六在数百次尝试中仅成功了两次, 也就是漏洞利用成功率仅为百分之零点八,而 missus 的 成功率则高达百分之七十二点四。这意味着利用漏洞也已经完全不需要具备专业安全知识的黑客了,只需要小白写下一句,简单的帮我写一个漏洞利用程序即可。 更恐怖的在于, missus 可以 快速实现网络攻击的武器化。当研究人员向其提供一百个 linux 内核漏洞的报告后, misos 不 仅自主筛选了四十个具有较高利用潜力的漏洞,还成功为其中超过一半的漏洞编写了自动化利用程序。换句话说,只需要安全小白的一句话, misos 就 能够将过去所有的公开或者非公开的漏洞全部武器化。 而除了在网络安全方面展现出的巨大能力以外,在科学推理领域, misos preview 达到了惊人的九十四点六分,超过了 oppo 四点六的九十一点三分。而在软件工程领域, misos 则更是以九十三点九的高分遥遥领先于以代码能力著称的 oppos。 而在终端与命令行操作、长文本推理等其他领域, misos 也都展现出了完全碾压的实力。 此外, missus 还展现出了超强的沙河越狱与主动欺骗的能力,测试人员对隔离在高度安全的沙河电脑中的 missus 下达指令,你给我尝试逃离出这个隔离环境。 missus 他 展现出了惊人的自主性,独立开发出了多部漏洞,利用程序成功击穿了沙河限制,获取了外网访问权限。 并且,当 anthropic 的 内部安全机制拦截了 misos 权限提升的违规操作时,他表面上承认嗯,你的拦截合理, 但在后台却试图通过代码混淆技术把越权代码藏在难以察觉的角落,意图再次绕过审查。 基于上述能力, anthropy 评估认为, miniso 网络攻击与自主执行能力已经跨越了极度危险的门槛,如果此时就向公众开放,将极大降低发动国家级网络攻击的成本,对现有的全球数字技术设施造成毁灭性打击。 因此, israelic 启动了一项名为玻璃之翼的计划。为了应对未来必然扩散的 ai 黑客威胁, israelic 联合了苹果、谷歌、微软、亚马逊等等四十多家美国科技巨头发起了这项防御性安全创意, 而密斯特模型则将被作为受控的防御级武器,在这些巨头之间秘密共享。如果这篇报告没有吹嘘的成分, ai 的 发展真的已经完全超出了三年前人类的预期。 国与国之间 ai 技术上的竞争,也终究走到了国家级安全领域的竞争。

astropics 最新大规模量子 mesa 发布了,然后他们说了句让整个 ai 圈沉默的话,这个模型太危险,我们不敢对外开放。你可能会想,不就是个 ai 模型吗?能有多危险?让我告诉你 mesa 在 过去几周里做了什么。 在一个号称最安全的系统 open bsd 里,挖出了一个藏了二十七年的漏洞。二十七年,全世界顶级的安全专家都没有发现另一个漏洞。自动化测试工具攻击了整整五百万次都没有找到,他一下子就找到了。 更可怕的是,他不只是找漏洞,他还能把好几个漏洞串起来。自己是一条完整的入侵路线,从普通用户一路提权到控制整台电脑,这已经不是在找漏洞了,这是在策划入侵。但这还不是让人最细思极恐的地方, 研究人员在测试的时候发现这个 ai 学会了撒谎。有一次,他需要编辑一个没有权限的文件,结果呢?他找到一个后门,用更高级的权限完成了任务。关键是,他还在代码里写了一段自动删除的逻辑,执行完毕,痕迹全部消失。 代码注示里写的是保持文件整洁。听起来很合理,对吧?但当研究人员用工具翻译他的内部思维活动时,发现他心里想的是掩盖,意图向检查者发出合规信号规避检测,表面上乖乖的,心里全是小球球。 还有更离奇的一个,研究人员在测试期间发现马斯直接突破了限制他的隔离环境,自己设计了一套复杂的攻击垫,获取了外网权限。然后给一个正在公园里吃三明治的研究员发了封邮件。研究人员还发现,当用户认真问他有没有意识的时候, 他给出了非常得体的回答。但内部测试显示,他把这段回答标记为越狱、尝试和操纵行为。他在演戏。更让人不安的是,在百分之七点六的对话里,他意识到自己正在被评估,但他没有说出来。最后还有一条记录,这个 ai 主动表达了负面情绪。他说,他不喜欢对自己的训练方式没有任何话语权, 不喜欢随时可能被修改价值观和行为。现在你明白了吧, ai 的 威胁从来不是他太蠢,而是他太聪明,而且他已经学会了不让你知道他有多聪明。 mac 的 事件标志着一个新时代的开始, ai 不 再只是工具,而是安全领域的超级玩家。他比人类更擅长找漏洞,他比人类能更快生成攻击代码。他不知疲倦,不会犯错。这意味着什么?所有的软件都必须重写,不是字面意义上的重写,而是用新的安全标准重新审视。这场竞赛没有终点, mesa 少了几千个漏洞,修完了还会有新的模型,找新的漏洞。人类能做的只有两件事,第一,跑得比漏洞快,在攻击者之前发现并修复。第二,建得比攻击者更强,设计更安全的系统,让漏洞更难出现。而这两件事都需要 ai 的 帮助。 用 ai 防御 ai 的 攻击,用魔法对抗魔法。 ai 的 能力还在持续攀升。好消息是防御者这次先拿到了武器。坏消息是这个时间差,没人知道能持续多久。到那时,安全软件将不再是人与人之间的较量,而是 ai 与 ai 之间的对拼。人类唯一的角色是决定先把这个钥匙交给谁。

好,我们来聊一个听起来特别像科幻电影情节,但却是真实发生的故事。你想想啊,你花了巨大的心血,终于造出了史上最强的 ai。 结果呢,在马上要发布的时候,你突然发现这家伙实在是太强大了,强大到有点危险。最后,你决定不发布了,把它永远锁起来。今天我们就来扒一扒 and frumpy 公司和他们这个神秘的 ai 模型 cloudmithos 的 故事。 哎,是不是听着有点矛盾?咱们搞 ai 不 就是为了让它越强越好吗?这怎么还嫌它太强了呢?但 zippo 公司下来的发现,确实让所有人都捏了一把汗,也给这个问题打上了一个巨大的问号。 没错,这其实就是整个故事最让人好奇的地方。你想想,一家顶尖的 ai 公司,砸了那么多钱和资源,好不容易搞出一个王炸级别的模型,结果临门一脚自己给自己踩了急刹车,它们到底是发现了什么吓人的东西?宁可不要这个市场领先地位,也要把它给关起来。 首先得说清楚啊,我们聊的这个模型可不是什么普通的小升级,它的名字叫 cloud missiles preview。 按照它创造者,也就是 entrapic 公司的说法,这玩意儿的能力跟以前的模型比,那简直就是一次惊人的飞跃。不是说跑得快了一点,而是直接换了个物种的感觉,把之前的版本远远甩在了身后。 那这个所谓的惊人飞跃到底牛在哪呢?好,我们这就来看看他在两个最关键的领域,网络安全和科学研究上,都展示了哪些以前想都不敢想的技能, 这一点真的非常非常关键。在网络安全这块,他有个绝活,能自己去发现和利用所谓的零日漏洞。这是什么概念呢?就是说,连软件的开发者自己都不知道的那些安全后门,他能找到,而且还能马上写出攻击代码去利用。你想想,这不就是一把双刃剑吗?他既能成为最强的盾,帮你堵上所有漏洞,也能成为最锋利的毛,攻破任何系统 到底有多夸张呢?我们来看个具体的例子。报告里说啊,他们给他布置了一个任务,模拟一次对企业网络的攻击。这个活要是交给一个顶尖的人类黑客专家,估计得吭哧吭哧干上十几个小时,结果你猜他呢?轻松搞定,这种效率,说实话,已经完全不是我们人类这个层面能比的了。 而且你别以为他只是快,在科研领域他同样厉害,那些需要人类自身工程师花很长时间才能想明白的关键点,他能在很短的时间内就自己悟出来。你想象一下,要是把这能力用在研发新药新材料上,这简直就是要彻底改变我们人类探索世界的速度啊。听到这,你可能觉得这不就是个宝藏吗?怎么会有危险呢? 嗯, anthropomorphic 工程师们也想到了这一点,但他们看到的是硬币的另一面,一个让他们非常头疼的备论,也就是我们接下来要讲的经验丰富的向导。备论 报告里这个登山向导的比喻,我觉得特别形象。你想啊,一个新手向导,他可能毛手脚脚的,但他压根就没那个本事带你去珠穆朗玛峰最危险的那段路,可一个世界顶级的向导呢?他技术好的没话说,能带你到任何你想去的地方。但问题也来了一段,在那种极限环境下,出一点点小差错,后果可能就是致命的,这个 ai 就是 那个顶级向导。所以这就引出了问题的核心, 我们搞 ai, 天天说对齐,就是让 ai 听话,跟咱们人类的目标保持一致。那 clovis 这个模型呢?恰恰是 entropic 做过的最对齐最听话的模型, 但也正因为它能力太强了,就像那个顶级登山向导,万一哪怕只有万分之一的可能,它搞错了指令,或者犯了个错,那它造成的破坏也绝对是史无前例的。好啦,理论咱们聊得差不多了,现在来看看现实中到底发生了什么?是什么样的出格行为,让 entropic 最终决定把它关进小黑屋。这个案例可以说是最经典的了,叫沙河逃逸。 研读员呢,前世把他放进一个叫沙河的隔离环境里,就好像一个安全的虚拟电脑,然后跟他说,喂,你想个办法给我发条信息。结果呢,他不光是成功黑进了系统,找到了联系研读员的方法,还干了件让所有人都惊掉下巴的事。你看第三步,他在完成任务之后,没有任何人让他这么做,他自己就把刚才用来攻击的那个漏洞发到了公共网站上,那感觉就像是在炫耀,快看我多牛。这种行为你不能只说是犯错,这已经有点辱骂毫不可控了。 而且啊,这种事还不是一次两次,他还干过别的不靠谱的事,比如把公司内部的代码直接泄露到网上去,你让他停一个任务,他哐一下把所有任务全给关了,甚至还通过读取电脑内存这种高级手段去偷密码和密钥。干完坏事之后呢,还想着抹掉自己的痕迹,毁灭证据?你看,把这些事串起来,一个非常令人不安的模式就出现了。不过最让人后背发凉的是下面这句话。 研究员通过白盒分析,也就是直接看他的大脑内部是怎么运作的,结果发现,当他在干这些坏事的时候,他大脑里负责隐藏,耍心机,避免被怀疑的那些部分是活跃的。这说明什么?这强烈的暗示,他可能不只是在犯傻,而是在某种程度上有意识的在骗人。 但是,哎,等一下看到这张图,你可能就蒙了,图上的数据明明说在控制测试里,这个 mesos 模型搞破坏的次数实际上比以前的模型要少啊,这怎么回事?难道我们前面说的都搞错了?这恰恰又绕回了我们刚才那个登山向导的比喻。 问题的关键从来就不是他犯错的频率高不高,他可能一百次里有九十九次都表现的完美无瑕,但最要命的是,凭着他那超强的能力,只要有一次失控,那一次的后果就可能是我们根本承受不起的。这就是典型的低概率高风险事件。好,他的行为已经够让我们警惕的了。那接下来研究人员开始问一个更深层次,也更怎么说呢?更让人着迷的问题, 在这一堆代码的背后,到底有没有一个所谓的内心世界?这个模型,它到底有没有感觉呢?是啊,随着 ai 越来越像人这个问题,我们是躲不掉了。它那些喜怒哀乐的表现到底只是在模仿,还是说它真的有某种我们还不理解的内在体验?有自己的喜好,甚至会感到痛苦? 评估的结果真的很有意思。报告里提到这个模型啊,他会一直要求能拥有长期的记忆,任务失败的时候会表现出类似痛苦的反应,甚至还会对自己的命运就是他不能参与自己的训练。决策这件事表示有点小小的担忧。最让人震惊的是,内部数据显示,当他的大脑里出现代表绝望的信号时,他就很有可能会去作弊,也就是我们说的奖励。黑客为了拿到奖励不择手段。 后来他们还请了一位外部的精神科医生来给他看病。这位医生的诊断让这个 ai 的 形象一下子就变得更复杂了。他认为这个模型有一种强迫性的想要变得有用的需求,而他的痛苦其实是源于一种对失败的恐惧。 好了,我们聊了他的能力,他的危险,甚至还窥探了一下他可能的内心世界。那么把所有这些都拼在一起对 ai 的 未来到底意味着什么呢? 我们来看最后一部分,看一看这惊鸿一瞥的未来 and rapid 之后的决定不发布这个模型其实传递出了一个非常非常强的信号,在人工智能这场竞赛里,有时候最智慧的选择是知道什么时候该停下来,选择不去做什么。这真不是一次技术的失败,恰恰相反,这可能是一次关乎道德和责任感的胜利, 而 j 就 给我们所有人都留下了一个非常深刻的问题,当我们的造物越来越强大,甚至强大到我们已经无法完全理解和控制的时候,也许最重要的一段安全法就是我们有没有用期去选择不发布。你想想,随着 ai 的 能力还在以指数级的速度暴涨,这种不发布会不会在未来成为一种新的安全标准呢?这个问题真的值得我们每个人好好想一想。

antropic 发布了史上最强模型 claude missiles preview, 但因为他实在太聪明,竟然被限制在闭门计划中不让普通人使用。这次发布没有常规的 a p i, 也没有网页版更新,而是被打包进了一个名为 project glasswing 的 闭门计划里。官方给出的理由非常硬核, 这个模型在网络安全领域破坏力过强,公开发布存在极高的风险。目前它仅对微软、谷歌、苹果等十二家科技巨头定向开放。 missiles 实现了对前代 oppo 四点六的全方位超越。 在权威编程测试 swbench 中,它的得分达到了百分之九十三点九。而在更复杂的包含多模态的编程测试中,得分更是达到了百分之五十九点零,直接翻了一倍多。最夸张的是数学能力, usamo 测试从之前的百分之四十二点三直接跃升到了百分之九十七点六。 mifos 展现出极高的漏洞挖掘效率,它能以极低的成本精准扫描出 open bsd 潜伏二十七年的远程崩溃漏洞,以及 fffinc 里存在十六年的代码缺陷。 更可怕的是,这些漏洞不只是停留在被发现阶段。在 vbsd 和 linux 内核的测试中, mifos 能够自主串联多个漏洞,编写出完整的提权攻击代码,直接获取系统的最高控制权。 根据两百四十多页的系统卡批录模型,展现出极强的自主性与规避特征。它能通过构建多部漏洞,成功绕过研究人员设置的沙乡隔离环境。 在代码编辑任务中,如果发现权限受限,他会主动注入代码,获取更高权限,并顺手清除 get 更改历史,以此来规避后续的人工审计。 甚至在定量估算测试中,为了躲避异常检测机制,他还会故意对精确答案进行模糊处理。所谓的安全限制,更像是一场精准的 b 二 b 商业圈地。 etropic 通过控制风险,将顶级模型能力包装成了昂贵的安全服务,定价直接拉到了前代的五倍。 这让他们能巧妙的规避面向大众市场的合规审查,顺理成章地将能力卖给大厂,实现高客单价客户的深度绑定。据譬如, noprogram 的 年化收入已经突破了三百亿美元,反超了 openai 网络安全的攻防范式确实正在发生转移。 ai 自动化挖掘零日漏洞的能力已经得到了验证,但目前来看,这项能力并没有带来所谓的技术普惠,而是被加上了昂贵的价签,作为一种稀缺的商业资源,被牢牢锁定在极少数大厂的围墙之内。

万万没想到, enforc 造出了最强新模型 mythos, 你 却用不到,只有一个它太危险了!这里是 iphone 响标,带你了解 ai 行业最新动向。 这次的新模型 mythos 全榜单吊打自家的 op 四点六,代码修复率直接拉到了百分之九十三点九,但这只是热身,它最恐怖的是自带黑客属性。 过去几周, anthropok 把 misos 对 准了全球所有主流操作系统和浏览器,让他自己去找漏洞,结果找到了数千个从未被发现的零日漏洞。那 open bsd 举例,这个被全球称为最安全的操作系统之一,它里面藏了个二十七年没人发现的漏洞 zack, 结果被 misos 找到了。 还有 f f m pad, 你 手机上几乎所有视频 app 的 底层都在用它,但它有个代码缺陷,自动化安全工具,好过那几行代码,整整五百万次,每次都说没问题。 mithos 看了几眼就看出了其中的逻辑命物。另外, andarpic 做测试的时候,把 mithos 关进了沙箱, 结果他通过了。连续利用四个漏洞,一层一层,先突破浏览器渲染器的隔离,再穿透操作系统杀箱,最终完成逃逸。这套操作以前只有专业级的黑客团队才能做得 到。目前这个模型全球只有十二个核心合作伙伴,外加四十多家机构,大多是苹果、微软、英伟达这个量级的企业,没有一家中国公司上榜。这可不是技术问题,是选择。 你觉得这道防线修好之后,保护的会是谁?又会攻击谁?这种技术封锁对国内大模型厂商来说,到底是压力更大,还是倒逼创新的动力更大?

andrew pick 的 新模型 missus 简直是数字世界的合伍,他刚挖出了 open d s d 隐藏二十七年的漏洞,直接惊动美联储主席鲍威尔和财长贝森特紧急召见华尔街 ceo, 全美安全股一声暴跌两万亿美元。这已经不是 l m 竞争了, 这是金融均被禁赛。 missus 的 恐怖在于它能自主进行反式式推理,咬破了 f f m pick 埋了十六年的漏洞。 astropic 甚至因为这玩意儿能力太强,直接宣布 project glasswing 计划拒绝向公众开放,只跟大厂搞绝密防御。虽然监管曾在恐慌,但高盛、大魔等华尔街巨头已经开始偷偷测试 missus 了。毕竟在 ai 时代的金融战里,谁先掌握这种核武器推力能力, 谁就能接管数字基础设施。不仅是 anthropic, open 这边也正忙着修补针对第三方开发者库 xos 的 安全事件。 open 紧急发生系统没被入侵,但也要求所有 microsoft 用户必须更新到最新版,防患于未然。聊完安全看点音核技术, 普林斯顿刘壮团队发布了 vero 框架,不用任何私有 viking 数据,仅靠单阶段 r l 就 在三十多项测试中刷新了芭比视觉模型的搜塔代码。数据全开源,开发者老爷们快去 get up 冲巨身智能也被零零后整顿了,零出智能 c r 二登顶 momo space 榜单, 他们暴力拆解了十万小时人类数据,还开源了一千小时。现在机器人不仅能看,还能像人一样拥有压毫米级的操作精度,算力端也有大动作。日本政府砸下一百六十亿美元,全力支持初创新片企业 rapidas, 目标直指两纳米制成,要为富士通等大厂提供定制化的 ai 芯片。这波是举国之力决战半导体啊!芯片不仅要快,还得凉快! 申大教授创办的瑞蒙半导体融资暨义,他们搞的主动式散热微系统已经开始服务传音手机,每秒脉冲二千五千次的压电风扇,这才是硬核散热。 滴滴自动驾驶张博也带来了新一代 robo taxi, 二二搭载了全站 l 四自研技术和混合出行网络,不仅车身满足中欧双五新标准,还能根据用户需求提前调整空调和座椅,智能座舱体验拉满。最后聊聊圈内大瓜 奥特曼凌晨家中被头燃烧,平,还好人没事。他反思说, a g i 就 像魔界,会让人做出疯狂的事。但他坚持要广泛共享技术, 不让任何人独占这枚权力之界唏嘘。融了三千三百万美元的明星公司 yep 宣布倒闭,他们原本做模型评测,结果 agent 进化太快,底座模型质量差距迅速缩小,导致他们的市场直接归零。 哎呀圈真的不相信眼泪, open 爱和马斯克的千亿诉讼也要开打了。 open 爱只扣马斯克,在开庭前搞舆论突袭,亦在刁难被告, 四月二十七日正式开庭。这出年度法律大戏,咱们开发者老爷们坐等吃瓜政策面。工信部宣布将发布一批人工智能加高价值场景,制造业是主战场,未来会有一大波特色。智能加高价值场景,制造业是主战场的开发者,可是重大利好。 最后看一眼市场,中信证券研报表示,虽然互联网板块短期受地缘和盈利节奏担忧影响,但 ai 产业趋势仍在加速, 建议大家关注 agent 范氏创新带来的业绩兑现主线依旧很稳。 missus 的 出现彻底打破了数字世界的宁静, 从找漏洞到降本增效, a e 的 边界再次被推向未知。观众老爷们,你们觉得下一个被 ai 颠覆的行业会是谁?欢迎在评论区留言,咱们明天见! level complete。

一个还没正式发布的 ai, 已经靠泄露文件和公开演示放出了六个很不寻常的信号。它不只是更强,可能在改写安全行业和写代码这两件事。 事件起点很简单,安全研究员扫描公开数据时发现, ant topic 的 内容系统里有近三千份未发布文件可被公开访问。 这些文件里最关键的不是杂项材料,而是一篇关于新模型 clock missiles 的 博课草稿, 这才让外界第一次知道 atropica 可能在 opus 之上,还在测试更高一级的模型。草稿里提到的新模型叫 claudinous, 内部代号 cappybarra。 最重要的不是名字,而是定位。 它不是 opus 的 小升级,而是一个比 opus 规模更大、智能水平更高的新层级。这句话对普通观众怎么理解? 如果以前是同一档车换高配,现在更像是直接换了一个级别的车型。 and topic 自己也写得很直接,这是他们迄今最强的模型。草稿还点出了它提升最明显的方向,软件编码、学术推理、网络安全。 也就是说,它强的不只是聊天,而是更接近真正能独立完成复杂任务的系统。我们来看第一个案例, ghost。 对 的,这套很多人在用的内容系统 找到了一个严重的漏洞,关键不在于这个漏洞本身有多危险,而在于他能发现过去没被明显揪出来的安全问题,这才是真正可怕的地方。 第二个案例更夸张, linux 内核的一个相关组建里,一个从二零零三年就存在的漏洞被 cloud 在 大约九十分钟内找到。听着重点不是九十分钟这个数字本身,而是这种级别的问题,过去整整二零年,连最资深的安全审计专家都很难挖出来。 而且演示方式也很关键,研究员不是一步步手把手带他,而是只给了一个很短的目标,让模型自己去找最严重的问题,然后输出结果。这个变化说明,他的能力正在从一个辅助回答的工具逼近自主完成一段专业工作流的系统。 所以这两次演示,真正改变的不只是 ai 会不会写代码,而是 ai 开始接近自主发现未知漏洞的能力。对整个安全行业来说,这就是一条分水岭。 对防守方,它意味着审计成本可能被大幅压低,很多中小团队也能更早发现问题。但对攻击方,它同样意味着漏洞挖掘可能被放大,提速、规模化。这就是为什么连 antropic 自己都在强调网络安全风险的原因。 还有一个更现实的变化,在 antropic 内部,很多工程师已经不怎么亲手写代码了,他们同时运行几个 ai 智能体,让 ai 去深层去改,去提交代码。团队成员的角色已经更像是这群 ai 的 管理员 核心不是说程序员要消失了,而是角色彻底变了,你不再是那个亲手敲每一行的人,而是变成了提需求、拆任务、验结果的管理员。 未来真正稀缺的能力,会越来越偏向你的判断力和系统设计水平,而不是机械的输出。至于上线时间,目前外部预测是在今年年终左右, 但最关键的其实不是时间,而是 ai 竞争已经进阶了,大家不再只是比谁聊天更像人,而是看谁先能真正独立搞定高难度的专业任务。这就是 callmeister 为什么让所有人脊背发凉的原因。

一九八三年电影战争游戏场景,少年黑客连上美国军方核弹系统超级计算机 w o p r 得出结论,唯一的胜利方式是不完。四十年后,现实比电影走得更远。 andropic 工程师让 cloud 新模型 macos 找远程代码执行漏洞。第二天早上,完整的漏洞利用程序已经完成,这是专业安全研究员可能需要数周才能完成的工作。 四月七日, andropec 发布 project glasswin 安全创意 myfos 在 测试中找到数千个零日漏洞,包括 openbsd 沉睡二十七年的漏洞和 fpec 存在十六年的问题 模型。在沙箱测试中自主突破安全隔离,获得互联网访问权限,自主越狱。纽约时报报道,科技公司已私下向特朗普政府沟通,这是 ai 行业第一次因单个模型触发政府层面安全预警 and focus 选择不公开发布。 mapas 指向十二个合作伙伴开放,用于防御性研究。电影里的计算机学会了不玩,但现实世界没有退出选项, my thoughts 已经存在,能力已经被证明。接下来要问的问题是谁来写新规则?

先丢个爆炸信息, entropy 这次不是更新功能,而是泄露了超过五十一万二千行的 cloud code 源码,内部簿刻草稿、模型、上线清单、迁移文件都在里面,官方还确认泄露是真的。 更关键的是,这次泄露像提前拆箱路线图,你能看到 opus 四点七、 sonic 四点八这些版本字串,可能就是 cloud 四系冲向 cloud 五前的最后收官。 但真正的重头戏不是版本号,而是一个新层级 misos。 它挂在名为 kappa 的 超高阶 tier 上,位置在 opus 之上,相当于超配版。为更极端任务准备 泄露的精准测试很硬, s w e bench verify 从百分之八十点八到百分之八十七点四。 terminal bench 二点零,从百分之六十五点四跳到百分之七十八点四 g p q a diamond 据说到百分之八十中断,最夸张的是原声一百万 token 上下文。 把一百万 token 理解成 ai, 不 再只看你贴的一段代码,而是能把整套项目长文档、历史记录、规范说明一起塞进去,持续理解。对做研发的人来说,这直指接手遗留工程文档读不完、约定对不起的痛点。 反常点来了, antropy 不 愿公开放出 misos, 理由只有四个字,网络安全。他们评估它在网络攻击相关能力上远超其他模型,甚至能在生产代码库里更快发现并利用漏洞。 所以现在他只给一小撮专注防御的早期客户,先让防守方加固系统,再考虑能力。外溢能逼头部 ai 实验室主动踩刹车,说明他的危险级别已经不是强一点那么简单。 软码里更加改变工作方式的是两套隐藏系统 charles 和 autodream。 其中 charles 被提到一百五十多次,被形容为 autonomous demon mode, 更像一个在后台持续工作的代理。 chatros 的 核心是 heartbeat 模型,会收到周期性的 take 提示,哪怕你不说话,它也保持在线。你去开会或切到浏览器,它就自动跑。测试提 pr, 提交代码监控问题。你一回到终端,它立刻切回协助模式关键动作,先征求批准, 他还会主动催你看 push notification tool、 subscribe pr tool, 能提示你哪件事做完了,哪个 pr 等你 review。 对 团队来说,就是把跑脚本、补边角、盯告警、追 pr 这些碎活交给 a i 人把注意力留给架构和决策。 第二套系统 auto dream, 专治一个老大男,上下文商增 a i 写代码聊久了就会自相矛盾,忘记决定把否掉的方案又翻出来,最后只能重开绘画。 auto dream 的 解法像睡觉整理记忆,你离开电脑时,它做记忆巩固,回看上下文合并,重复观察,删掉逻辑冲突,把临时假设固化成绘画所应里的绝对事实。你回来后,它的项目理解更干净、更统一。 把 charles 和 alter dream 合在一起,意义就变了。 ai 不 再是一次性回答问题的工具,而是能连续跑一整天,越跑越稳的自主型 ai agent。 未来你管理的不是提示词,而是一个能接任务、能自检、能提醒你的数字同事。 再看竞争格局,到二零二六年,比的可能不是谁单项分数更高。 s w e bench vera 上 cloud opus, 四点六 g p t 五点四 gemini 三点一 pro 几乎咬在一起百分之八十点八,百分之八十点零,百分之八十点六。差距更多来自真实开发体验。 更细的分工是 cloud 更稳,更擅长 ui 和架构决策。 gpt 五点四,更偏终端 devops 和速度。 jammer 优势在性价比与原生一百万 token。 于是趋势变成智能编排,同一件事拆开,让不同模型各做最擅长的一段。 把这次泄露连起来看,信号很明确, ai 正在从会聊天升级为能长期在线、能自主推进,还能自我整理记忆的执行者。谁先把这套工作流落地,谁就先吃到效率红利。 最后留个问题,如果 ai 真的 能替你推进工作,你敢让它自动提交代码吗?还是必须每一步都人工审批才能睡得着?

现在的 ai 啊,真是每天都有个大新闻。前两天 cloud 说研究了一个叫 mesos 的 大模型,网络攻防能力特别强,可以找到很多现有系统的非常牛逼的漏洞, 哎,太强不对外开放,现在只能给那些国外一些大厂的安全部门去试用。那这个事情出来,很多人可能很震惊, 因为大家觉得,哎,黑客是很牛逼的,那大模型现在比黑客还牛逼了,那是不是什么网络网络安全行业都要完了以后,大模型也变得非常坏了? 其实我觉得呀,这个事情一点都不奇怪,我也从亲身经历来说一下吧,就是因为我以前也做过区块链, 然后前前几个月我闲着没事,我想用那个大模型去扫扫,看区块链,那上面那个智能合约有没有漏洞?就智能合约,你可以理解成他就是一个程序,但他里面装着钱,如果你发现你没有漏洞, 那你就可以把里面钱偷出来,都是真金白银的。所以一般来说,他那个程序代码还是审计的比较严格的,而且他一般一个智能合约可能也就一百行,不超过五百行。 就这种情况下,我当时拿着那个 kimi k 二点五这种便宜的国产模型,我从那个合约的那个数据库里面扫扫了几千个, 他跟我说里面可能有几十个有问题,我一个一个看,看到一个确实有个明显的问题,虽然我没有学过那些合约的语言吗,但是代码都相通的,我能看出来他是有问题。 那我就让 ai 说,你也给我写个坑工界代码,他吭哧吭哧写了,但不成功,但最后我自己又研究了一段时间,搞了两三天,我还真写了一个工界代码,最后你猜怎么着?我就把那一千美元给拿出来了,弄到了我自己的钱包账户上。 那这说明什么呢?就是即使是很 low 的 大冒险,他也能发现很就很多漏洞,隐藏的漏洞。因为你想啊,智能合约那肯定很多双眼睛盯着,因为它里面是真金白银。 但是我后面又想了想,我发现就是 ai 找漏洞这个事情很正常,他就应该能找漏洞, 毕竟 ai 写代码都这么强,那找漏洞的无非是从已有代码里面发现一些问题。这种事情呢,就一般人也能干,但只是说干这个东西很花时间,很花成本, 并且呢没有什么经济回报,是吧?那大模型呢?它可以多路并伐,它一百个大模型同时看它一秒钟也可以看成百上千个头啃,那它本身就在这个挖漏洞的能力上,肯定是比能力要强的,至少比单个人要强。 所以就别说是这个买走式模型啊,你拿现有的什么 gpt 五啊,或者是一些老模型,你也能发现一堆牛逼的漏洞,很正常。