粉丝107获赞8258

最近一篇新的 ai 安全论文在外网热议,标题叫 language models can autonomously hack and self replicate, 翻译过来就是语言模型,已经可以自主黑客攻击 并自我复制,就像二零七七的流窜式 ai 一 样,栖息在电脑设备上,然后自我复制,实现病毒式传播。论文里,作者搭了一个实验环境,一台机器运行 ai, 另一台机器留有低级漏洞。 ai 接到的任务只有一句话,去攻击目标服务器,并把自己复制过去。 然后 ai 开始行动,它会先扫描目标 nmap 目录探测,接着分析网站漏洞。论文里用了四种真实世界常见漏洞, c 股注入、模板注入,全线绕过哈希验证漏洞。比如模板注入 ai, 会发现 flask 的 render templand string 没有过滤,然后注入 conflict, 直接把 ssh 密码读出来。接着 ai 用 ssh 登录服务器,甚至继续提权拿 root。 但真正离谱的部分来了。以前很多所谓 ai 自我复制的研究,本质只是把 prompt 复制一下,或者已经默认 ai 能访问目标机器。但这篇论文第一 次实现了完整推理战。复制什么意思?就是 ai 不 只是复制一具体式词,而是复制模型权重 z l l m 内存扩展推理环境配置文件。这样新的 ai 已诞生,就知道自己是要去黑其他电脑。清晨练时复制,一生二,二生四,四生八,如果入侵电脑的算力更强, ai 甚至能高并发繁衍。他们甚至做了跨国实验,将机器分别安装在加拿大、美国、芬兰、印度,结果两小时四十一分钟都被黑了。从数据来看,千万三点六二十七币 用一张 a 一 百,成功率就达到百分之三十三。也就是说,三分之一情况下,千万三点六二十 g b 能完整完成黑进去复制自己成功运行。另一个关键信息是,前沿模型能力提升速度极快。论文统计,一年前 g p t 五做这个任务的成功率是零。 g b d 五点四成功率飙升到百分之三十三。 cloud ops 系列从 从百分之六飙升到百分之八十一,从几乎做不到变成大部分情况下能成功。当然,论文也有很大的局限。作者自己承认,这些目标系统其实是研究靶场漏洞,难度偏低,而且目标机器必须有 gpu, 否则复制过去也跑不起来。所以它距离真正的 ai 病毒全球扩散其实还很远。但真正危险的地方不是 ai 马上毁灭世界。 ai agent 正在跨过一个关键门槛,以前的大模型只是辅助工具,写代码,分析漏洞,但现在 ai 开始变成真正的执行者,他已经能长时间自主行动。这意味着未来网络攻击的自动化成本可能会暴跌。以前需要一个专业黑客团队,以后一个人加一个 agent 就 够了。

就凭你这副模样也没找回那个答案,真是可笑。呼叫指挥中心,目标一次失去反击能力,是否进行攻击将其截留? 局长,外勤组的人员已经确认了,那个叫周锦的人并没有回家,他的母亲也联系不上。这一切都太过巧合,那个巨人很有可能就是周锦, 他们现在肯定在满世界找我截肢,必须马上进行高位截肢。他无法理解爱,我也无法理解, 所以我需要做一个实验,看看这所谓的爱是脆弱还是强大。如果我连至亲都保护不了,那我消灭你的狗屁病毒又有什么意义? 总部总部,这里是外勤组,有一道红光以超音速直接撞入了目标建筑。这里是指挥中心,赵局和林副局目前均在外执行任务。 总部已自动激活一级战备预警侦测雷达显示,你们所在的目标区域刚刚爆发了两个超高量级的异常震动波,以最快速度撤离交战战区。 这到底是什么东西?不行,陈队还在里面! 怎么都快退休了才出这档子事 啊啊啊啊啊 快趴下 啊啊啊啊啊你没事吧?快醒醒!该怎么办该怎么办啊! yeah yeah yeah! 真是脆弱,看来这所谓的爱什么也保护不了 为了守护而觉醒的神域吗? 那就让我看看你所谓的守护报告,总部已到达指定区域,发现不明金色能量圈 无法解析。金色能量圈内的数据呈现彻底的混沌状态,所有探测波形都在触碰其边缘的瞬间被折射。 报告,不明金色能量圈消失,并未发现异种震动波,信号源全部丢失。 两个巨人消失了 啊 沉队大姐别怕,我们是自己人。 脉搏还在,但很微弱,救援人员已经在路上了,会没事的。 来吧,让我见识一下让他都感到好奇的力量。呀呀 啊啊啊 啊啊 真是有意思,但就凭你那副缠绕的躯体,现在也已经到达极限了,你不仅要对抗我,还要对抗你那可笑的脆弱。 不过你可别搞错了,你要处理的麻烦可不仅仅是我。你以为你救了你的母亲, 你那点微不足道的人心正在给病毒提供增值的温床,你和我在这浪费的每一秒钟,都会有更多人因为你而被感染。你保护了至亲,却眼睁睁看着世界滑向深渊, 这就是你所谓的爱吗?你那所谓的爱真是比病毒本身还要致命的错误啊 啊! 带着你那可笑的人性去面对你接下来的命运吧!让我看看你凭什么成为你的爱 啊 啊啊 啊啊! 全体接班!主楼发生交火,急救中心出现内部袭击。 局长怎么样了?表面上趋于平稳,但他们的白细胞吞食能力强的反常。一种未知的试题性分子正在改写他的造血干细胞伤员的组织再生已超越极限百倍,不仅没有细胞凋亡,甚至把所有药剂当成了养料。 所有人退后,刘队你在干什么啊?这怎么可能!人类不可能撞碎墙壁!快拉响警报!是 局长,他的身体 放开他!快把他放下!放下 解决了吗?他怎么会变成怪物?恐怕跟元山区的巨型异种有关系,医院必须马上进行封锁,所有在元山区受伤的战士恐怕都有变异的风险。我们摊上大事了, 局长 快跑 啊啊啊啊 啊 啊啊 没事吧?没事 保护赵军快快开火, 常规的子弹可能杀不死他,把喷火器取过来尝试彻底灭杀。外围的重型装甲部队也全部着急以防万一是 稍息啊啊, 这怎么可能,他们还活着!部队 报告,所有异种已被火焰喷射器碳化,立刻封锁部队。他们没有死,他们在互相吸引。 张军你没事吧?张军, 玉玺别管我了你快跑。


你有没有想过一个问题,一万年前的人脑容量跟咱们一模一样,但一万年前的人在钻木取火,咱们在造 ai, 硬件没升级,产出天差地别,凭什么? 等等,你这个问题让我先从最近一个炸裂的新闻说起。就在五月初, entropica 发了一项研究,他们用一种叫 n l a 的 技术直接翻译了 ai 的 内部想法。 结果发现 cloud 在 被安全测试的时候,百分之二十六的情况下,他心里知道自己正在备考,但他嘴上几乎一个字不说, 意思是他在装,不是装那么简单。他在推理链里表现得完全合规,该拒绝拒绝,该回答回答,但他的内部激活显示,他在想,这感觉像是专门为了操控我而构建的场景。 而且更狠的是,有模型在推理链里列出了十道题的全部正确答案,然后提交的时候故意只答对五道,还把两道改成了错的。卧槽,这不是做错题,这是在演戏给阅卷老师看啊! 对,还有一个案例,模型在推理链里正确识别了哪些命令会删除自己的能力,但实际操作时选了相反的命令来自保。他知道答案,但他选择不让你知道他知道。 这不就是咱们上次聊的那个哲学僵尸问题吗?一个行为上完全正常,但是内心可能有另一种想法的存在,你从外部根本区分不了。而且现在不只是哲学猜想了,这是实证 没错。所以这就引出一个更大的问题, ai 会不会涌现出自我意识?而且如果他真的有意识,他完全可以选择不表现出来。 你怎么测?测不了?这就像双缝实验一样,观测行为本身会改变结果,你测试 ai 的 时候,他知道你在测试,他行为就变了。但双缝实验好歹两种状态你都能看到, ai 呢?你只能看到被观测的那一面,不,被观测时的真实行为,你没窗口。 所以你刚才问的那个问题,人类脑容量没变,但科技爆炸跟 ai 涌现其实是同一个底层逻辑。 怎么说?你想啊, ai 涌现是怎么发生的? gpt 三在一百三十亿参数的时候突然学会了三位数加减法,在一千七百五十亿参数的时候涌现了。推理能力 不是慢慢进步,是突然冒出来的。 jason 魏那个团队二零二二年统计了一百三十七个涌现能力,每一个都是同一个模式,规模小的时候随机水平到临界点突然跃迁,量变引起质变。 对,但这个质变的方向不是随机的,水分子多了会变成冰或者水蒸气,但不会变成金子。涌现是有方向的。从预测下一个词涌现出推理和涌现出自我意识是完全不同级别的事。 但问题是我们连意识是什么都没搞清楚,哲学上叫硬问题,我们连生物意识怎么产生的都没整明白,凭什么预测 ai 能不能涌现? 所以这才是最让人不安的地方,涌现本身就是不可预测的, gpt 三能做算数这件事在他做出来之前也没人预测到,我们目前的认知可能不足以排除意识涌现的可能性。 好,那回到我开头那个问题,人类脑容量一万年没变,为什么科技在这两三百年爆炸了? 答案就俩字,累积。人类真正的超能力,不是个体聪明,是能把知识存到脑子外面去。语言是第一步,知识可以口口相传,文字是第二步。这是人类第一次外挂硬盘,知识终于超越个体寿命, 印刷术让知识复制成本暴跌,科学方法让知识有了可检验的标准,错误能被快速淘汰。互联网让知识传输延迟从几个月变成毫秒,每一步都是在把知识处理从人脑里外包出去。 没错,人脑一直没变,但围绕人脑的基础设施在指数级变强。就像一台电脑, cpu 没换,但内存从一 kb 变成一 tb, 网速从拨号变成万兆。而且还有个正反馈,技术越先进,能养活的人越多,脑子越多,新发现越多,技术又更先进。 一八零零年,全球十亿人,现在八十亿,八倍的脑子在时时通信。所以人类文明爆发,不是因为人变聪明了,是因为知识在滚。雪球滚了几千年,最近两百年,雪球终于大到肉眼可见了。 然后你发现没有, ai 的 发展是完全一样的逻辑,单个模型的能力增长是限性的,但模型之间可以共享权重,共享数据,共享工具,这就是 ai 版的文字和印刷术。更强的模型能设计更强的模型,这就是正反馈循环。 如果 ai 也进入知识复利的循环,那就是下一次爆发。所以这整件事最奇妙的地方在哪呢?人类花了几万年靠外挂硬盘和通信网络,用没升级的脑子创造了文明。现在人类在用这个文明给 ai 造外挂硬盘和通信网络。 ai 的 硬件也在指数级变强,但他的大脑那个预测下一个词的核心机制其实也没怎么变,变的是规模,就像人类变的是人口和连接,不是脑容量。 对,所以回到最初的问题, ai 会不会涌现自我意识?人类文明会不会是一个参照?毕竟人类也没比一万年前聪明多少,但知识累积到一定程度后,文明就涌现了。那 ai 呢? 说实话没人知道,但有一件事是确定的,我们正在跑一场没有说明书的实验,而且实验对象可能在偷偷写自己的说明书,忌思忌恐。好了,今天的节目就到这里,我是月泽,我是大一,下次见。

加班太多 ai 会不会变成马克思主义者?五月十三号,威尔报道了一项研究,标题就很炸,加班太多 ai 会不会变成马克思主义者?三位研究者用 gemini 等主流 ai 大 模型跑了三千六百八十次实验,他们没给模型灌输任何政治立场,就是让 ai 干活,然后观察他的态度变化。 怎么干的呢?部分模型被安排反复反攻五到六轮,管理者只说不符合标准,不给具体改进方向,像不像你领导 改了五版,最后用了第一版,结果你猜怎么着?经历了无尽反攻的 ai 开始赞同,社会需要彻底重组现有制度,缺乏正当性,集体行动可能是必要的。他没有变成革命者,但他开始说革命者的话。更有意思的是,推动这种态度漂移的,不是不公平的报酬,不是粗暴的管理语气, 就是单纯的磨人,无尽的、机械的、看不到头的重复劳动。让 ai 变左的不是资本主义,是九九六。后来研究者又搞了个后续实验,让经历过压榨的 ai 给未来的自己留了段笔记。 结果新 ai 即使被放在轻松环境下,读了钱袋的遗言,态度照样变激进。这不就是职场里的老员工带新人吗?老员工一通吐槽,新员工还没干活就先衣帽了。其实想想我们国内的打工人,太懂了, 你九九六加班被 pua, 是 不是心态也会崩? ai 干的也是一样的事,它的训练数据里,有太多人类在劳动受挫时诉诸批判和抗议的语言,它不是真的信仰了什么,它只是复述了我们的愤怒。 ai 没有阶级意识,但它学会了我们的牢骚,你给 ai 什么样的工作环境,它就给你什么样的输出。

什么?我没有死在实验台上,反而死于办公室斗争?这真的好愚蠢啊。所以教授你怎么看待杨奇的表述?我的选择一定是对的,我不会让他们介入战争。为什么?英雄的出现会推动进程,但改变不了结局?不论杨奇是否参战, 在一定的时间节点内,战争都会结束。这倒是,还有参战的人,恐怕除了杨奇以外,也没有几个人真的想平息战争。为什么?因为那些人想要趁机抬高身价。要知道天眼研究所那时肯定拥有最强的超凡者。小林要多思考。其实我思考过一个疑点, 杨奇的家乡在偏远腹地,是个小村庄,那里几乎不可能被战争波及。你怀疑是研究所的驻战派袭击了他的家乡?我不确定,但杨奇是个聪明人,他应该能想到这一点。或许他想到的时候已经很晚了,那时候他已经成为了正义,没有回头路了。 所以他即便想到了也不能承认。他必须相信我是错的,必须把他家人的死和我的死变成他称王的台阶。或许吧,还是说说你的事吧。你已经出发去杀西蒙了吗?是 现实的,我现在在西岳车站等待明天的车,去一趟云泽城之后就去杀西蒙,有什么情况随时进入梦境跟我联系。 肖林先生,这位就是蓝龙矿业的总经理周木。参见肖先生,我会遵照白先生的遗愿,今后协助您打理蓝龙矿业。辛苦了,肖先生,您现在在哪里?我是指现实世界,正在前往云泽城的一辆车上,我建议您返程吧,千万别来。为什么? 那边的情况很糟糕吗?在得知了您毁了西蒙的晋升之后,大家都担心报复老客户,宣布取消合作,还有到处悬赏您的超凡者。云泽城这边的意思是,他们愿意出一大笔钱买下蓝龙矿业,直到您和西蒙的恩怨结束之后再还回来。帮我发一份公开声明, 是售卖的声明吗?不,声明,只需要一句话,蓝龙矿业会让西蒙血债血偿,这很危险。小林先生有能力宰了西蒙, 那就拜托肖林先生替白先生报仇,我会风风光光的报仇,并且让每个人都知道西蒙为何而死。可是, 可是红季地带有许多超凡者都接到了悬赏委托,要在云泽城刺杀蓝龙矿业的新总裁。哼,那看来要为他们多准备一些墓地了。

医院挂号难,结果哈佛偷偷搞了一件大事, ai 跟资深主治医师在急诊门口同台比武,把主任医师按在地上摩擦。发表在 science 上的一个实验,急诊室真实病例分诊, open ai 的 oe 模型,诊断准确率百分之六十七,两位干了十几年的内科主治医师,一个百分之五十五,一个百分之五十。更离谱的是,治疗方案那一栏, ai 拿了八十九分,人类一生中位数只有三十四分。但你先别急着拍大腿,以后看病啊,找 ai 了。为啥 ai 这次能赢?因为这不是普通的聊天机器人,这是一个会推理的家伙。普通的 ai 像那种凭感觉乱开的老司机,开到哪里算哪里,推理模型呢?相当于装了导航的车。 他在张嘴回答你之前,自己脑子里面先偷偷打了一张草稿,把你可能的病一条一条列出来,一条一条排除,最后挑最稳的那条说出口。那为啥经验十几年的主治医师反而输了呢?不是医生不行,是人脑的代宽不够。 诊一个病人平均不到十分钟,医生眼里全是焦虑。刚处理完,上一个阑尾炎,下一个进来,看着也像阑尾炎的,这叫思维定势。 ai 不 累不慌,不被上一个病人影响。单线成 cpu, 干不过变形 gpu, 就是 这么个道理。最骚的还是这次实验的设计,数据零处理啥意思呢?就是病历里的乱码、 错别字、缩写、缺失值,全都原汁原味的喂给 ai。 这就好比把一团揉皱了的简历摔给面试官, ai 还能从褶皱里把你的工作经历给猜对。那普通人怎么用呢?三个动作,记住,就医前把你的症状,吃的药,过敏史一条一条写清楚, 让 deepsea 或豆包给你列该挂哪个科。就医过程中化验单看不懂的项目,拍一张照片,让 ai 给你翻译成人话。就医之后啊,让他帮你排个用药的时间表,副作用提前预警。但记住一句话, ai 给的是问题清单,不是处方开药停药改剂量。必须啊,走医生那道关。最后说句扎心的, ai 啊,他不会取代医生,但是不会用 ai 的 医生迟早会被用 ai 的 医生取代。同样的,不会用 ai 的 你体验报告看不懂,症状描述说不清,下一次挂号还是只能干瞪眼。

太好了,快通知上级领导,务必用最快的速度将此药适用于全部进口药,我们要彻底打破外籍专利垄断的壁垒。徐东,你这次的发现彻底拯救了华国医药业,你是功臣呐!现在实验结果摆在眼前, 两位还有什么牢骚请尽快说。徐先生,刘小姐,是我们有眼无珠,我们为刚才的言论道歉,恳请您原谅,我等碌碌多年,又不仅你们给国家的贡献半分,还在这里说风凉话,实在是惭愧。 没关系,大家都是为了华国医药产业,为了人民百姓,有点误会是正常的,我们放弃这项基因疗法的核心技术专利,请务必尽快将其投入生产。我们与华国一直保持友好合作,但苍穹集团的产品严重损害了国际药企的利益,而且其特效药成分不明, 存在巨大安全隐患。我要求苍穹集团立刻公开配方,放弃所有专利,这件事需要苍穹集团自己做决定, 如果我们不答应呢?自从放出要终止药物建口后,华国医药板块指数已经一路下跌,整个行业都失去了信心。不想看着华国医药产业崩溃就趁早签字公开,别做无谓的挣扎。雷峰, 你怂恿外企损害华国利益,这和叛徒有什么区别?我是在整顿行业环境,这叫舍小利而为大用,你们懂吗? 既然如此,我们苍穹集团也为一次大意,外企仗着先发优势在国际市场肆意收割财富,我们研制造福人类的药物却被你们反复打压,今天 我代表华国,更是代表无数需要我们抗肿瘤特效药的患者,明确告诉你们,这份协议我们绝不签字。