今天 ai 圈又炸,一分钟带你速览四大事件!第一件, open ai codix 重大更新,号称 codix 接管一切。新版 codix 打破了软件界面边界,开启后台电脑使用权限后,它能像真人一样观察屏幕内容,控制键盘和鼠标。第二件, nvidia 最保密的 cloud 架构 被二十二岁年轻人反向推倒并开源,不是泄露,不是内鬼。初创 ceo ko 以第一性原理,硬生生把科奥的核心架构从头推出来,还全开源了。第三届科奥的无故封号,超三百万用户受影响,企业一夜一夜断裂,无理由无回应, 受害者被迫抱团反抗,你遇到了吗?第四届昆三点六 x 超大杯来了!更强的世界知识指令遵循能力、智能体编程任务性能显著提升。第三方评测 r t f 蛇 analysis 显示,昆三点六 x studio 登顶国产模型最佳。
粉丝10.1万获赞3.0万

昨天真是天塌了, oppo a r 大 面积封拆的 gdp 的 会员以前也封,但没这两天规模这么大,那些靠凭证充值会员的基本上全挂了。昨天我的七个号掉了六个,还活了一个。作为 opc 的 核心工具啊,我只是说 clothes 太好用了, 有人肯定会说 clothes 靠的才是顶级好用,那咱们用不了啊,甚至给你永久封,最后再来个删除文件,你受得了吗?有传闻说 clothes 的 创始人在我这里打工的时候被欺负了, 回去之后一怒之下禁止加八六的使用,这是开玩笑的。但是两者相比之下啊,我觉得口袋思还是比较友好的。从昨天调 plus 之后,切换口袋思登录账号也被强制要求手机验证码, 加八六的基本上是接受不到信息。我觉得啊,这可能也是对我们的封锁,但是对于我们这种一人公司来说,如果缺少一个强有力的 a r 工具,基本上可以说是 完蛋了。但是还好,皇天不负有心人,终于经历了十多个小时的研究,我终于可以切换账号了,就等 plus 稳定了再搞几个号之后啊,一台电脑登录一个账号,我觉得这样是比较安全的。有很多人会问,口袋子是干嘛的,那我们下集来说,口袋子到底能干什么?

codex windows 版你安装不了?不是你不会装,是很多人第一步呀就被微软商店卡住了, windows 版本不支持,打不开应用商店地区不可用,点击安装没反应。这些问题啊,我都遇到过了,我已经整理好了 codex windows 绿色版,不用微软商店解压点击就能使用,有兴趣的呀六六六走起。

我彻底从 cloud code 转为 codex 了,其因是前几天我的 cloud 又被封了,我感觉我跟 azure rapid 这个公司真的水逆。 这次我准备了一台全新重装的电脑,一个完全干净的地址,甚至我把电脑的时区都修过来,但是我还是被封了。 正好前几天 gpt 五点五出来了嘛, cloud 的 一封反而倒逼我把全部的项目都迁移到了 codex 去了。说实话,我刚开始使用的时候我还挺不适应的,但是越用越觉得 codex 现在的代码能力,上传文件的理解力并不比 cloud codex 的 差, 甚至它有一些功能我觉得非常的好用,比如它的引导功能。按常来说,它在跑代码的时候,我们是不能对它进行干扰的,但是 codex 可以 在它正在写代码的时候,你对它的方向盘进行一个调整引导。我觉得这个功能是非常好用的。如果你现在也被 cloud code 封号搞得心态炸裂,我建议你不妨试试 codex, 把你的项目接过去用几天。 我认为它现在唯一跑的地方就是写代码太慢了,虽然它有一个快速模式,但是我认为一点五倍的 token 还是有些奢侈的。

code 叉据说爆出了一个执行漏洞,像这样的一个漏洞啊,基本上的原理都是相通的,我记得以前给大家讲过一个 git 的 一个漏洞,为什么要提这个呢?因为它们的原理是类似的, 我用 git 去克隆我的一个仓库,这个仓库呢是我配置好里面写了一些代码的一些漏洞的仓库,只要你用这个 git 克隆下来, 你就会中招,可能是远程执行一个命令,或者打开个记事本,或者打开个计算机,这是展示的一个 demo, 你 也可以去看看,现在还有。 呃,那么这个 code 叉或者 cloud 像这样的 ai 编程工具,它在本地,比如在我们的 go lab 里面,在我们的这个呃 vs code 里面,它可以去帮我们去执行,哎,修改我们的文件,可以操作一些文件,像可以执行一些这个命令,那我们可不可以在这个 get 的 这个仓库里面恶意构造一些代码, 只要别人呃克隆下来,只要用这个,比如说 code x 打开它就可以触发我们的恶意代码呢?这是一个问题,当然我也没有复现,只是网络上说有这么一种东西,但是这种东西的话,我们 open code 也是类似的,它都是在本地执行命令。 都说这种东西的话,大家要小心,就是不要去随意的去克隆别人的这个仓库,因为你也不知道是什么。当然你说不克隆好像也不太现实,因为你总要去用到,所以说呃,这个还是要小心,要及时更新你的这个客户端就可以了。

经常在 coding 的 朋友们一定发现了这个问题,自从 open ai 发布了 g t 五点五模型之后, codex 的 额度消耗的非常快。之前我在用五点四模型的时候,额度好像永远都用不完,经过五点五更新之后,发现刚恢复了五个小时的额度之后,紧接着又被周额度限制住了。 我相信有很多朋友被这个问题所困扰,今天我们就用一条视频来解决这个问题。 hello, 大家好,我是南希,之前在快手做过测的运营银行代码都不懂的纯小白,我的视频都是从纯小白的视角来分享 web coding 的。 要知道 web coding 最怕的就是被中途打断思路,刚捋顺任务,刚推进了一点,但是额度却没了。那么应该怎么解决这个问题 呢?我发现其实我是没有用对模型的,我平时在用 codex 的 时候,会把五点五默认当成产品经理、前端、后端等多个角色,不管是写 p r d, 写功能啊,改页面、修 bug, 还是补文档调样式,全部都让它来做。但是五点五不应该用来干杂活,它最强大的能力在于做规划和做判断, 比如说这个需求到底该怎么拆?这一段代码为什么总修不好?按照现在这个框架,代码后面会不会越写越乱?这次改动有没有潜在的风险?这条路线值不值得继续做? 说白了,五点五更适合做的是大脑应该做的事情,而不是简单的执行。那大量执行的事情应该交给谁来做呢?我现在的分工是,五点五负责判断、拆解,负责做关键的工作,五点四迷你 打杂,第三负责做质检,比如说正常的写功能,接接口,改前后端的逻辑,我会交给五点四,比如说像修改文案,调样式,补测试数据整理 redmi 这种小事,我就交给五点四 mini, 最后再让五点三来过一遍,看看有没有明显的风险遗漏或者是低级的问题。这样一套下来,我发现基本不会被额度限制。 如果你觉得今天的内容对你有帮助的话,可以点个关注收藏赞我。下一条内容可以直接继续讲。我现在具体怎么分配五点五、五点四迷你和审查模型的来搭一套日常的考勤工作流。

大家好,欢迎来到 kevin chan 的 学习笔记播客频道,今天想和大家聊个事,你有没有遇到过,就正让 ai 帮你查一个 c 一 漏洞编号,或者写个 s s h 配置脚本,甚至只是想让 ai 看看你写的 api 代码。 屏幕上突然跳出一行字,说什么你的聊天可能被用于网络攻击风险。我当时心里就咯噔一下,啥情况?难道我账号要被封了? 别慌,你不是一个人。最近 reddit 上吐槽这个的人是越来越多,有人只是给自己邮箱做安全加固被拦了。有人让 ai 看了一份带 scan a b i input 这种词的文档,也被拦了。在自己服务器上部署测试环境,也能触发警告, 但你细想一下,这到底算什么事?其实啊,这是 openai 正在推的一套新机制,叫 trusty s s for saber, 简称 tac。 与其说它在封人,不如说它在给 ai 的 网络安全能力划一条分界线,你得知道这条线在哪? 网络安全这个领域有个天然的麻烦,就是同一件事,正着做是防御,反着做就是攻击。查随笔是吧?安全团队查是为了看自己系统有没有风险,补丁打了没有。 但攻击者查同一个 cve 是 为了找可利用的入口。再比如 plc, 防御者需要 plc 来验证漏洞确实存在,修复确实有效,但攻击者也能用 plc 来批量扫描哪些服务器还没打补丁。这就是 openai 面临的难题。 codex 现在能做漏洞分析,能写检测规则,能做恶意软件分析,这些能力给防御者是天大的好事,给攻击者就是另一回事了。以前做法是一刀切检测到敏感词,要么不回答,要么给个安全版本,但误伤太严重。一个安全工程师天天和漏洞打交道, 你告诉他,抱歉,这个不能帮你查。换谁都会觉得这个 ai 没法用。所以 opai 想到一个新思路,与其单纯过滤内容,不如直接验证谁在用。这就是 tac 诞生的原因,他不是普通的账号验证, 而是一套分层访问机制,先把模型能力分出几个等级,再根据你是谁,你要做什么,你的环境是否授权来决定让你用到什么程度。简单说,分三层, 第一层是普通访问,你用默认的 codex 或 gpt 负五点五,系统会通过安全分类系判断你的请求有没有风险。 如果检测到 ceve exploit pops, 漏洞验证 live targets 这类词,可能会弹出警告或者降级到 gpt 负五点二,甚至建议你申请验证。 第二层是胎位深浅的异常,他们在 high catch 包 gpt 显示至点三啊负五点二,甚至建议你申请验证。 第二层是 tac, 验证后,个人可以去 c h a t g p t, 点 c o i m 斜杠 c y b e 二做身份验证,企业可以帮团队申请,通过后你的访问会获得更少误区的待遇。简单说就是系统更相信你是在做正事,不会没事就弹警告。 这一层适合大多数合法防御工作,比如安全代码审查、漏洞分析检测、工程布丁验证。 第三层是 cyber 模型, gpt 杠五点四,杠 cyber 和 gpt 负五点五。 cyber 是 更高层级的模型,面向更专业的安全团队。但要注意, 即使通过 tac, 也不等于自动解锁这两个模型,它们属于有限预览,需要更高层级的审批,面向关键基础设施防御者、专业安全厂商授权红队这些场景。 官方把 gpt 负五点五为 tac, 称为大多数防御者的正确起点。也就是说,对于日常安全工作者来说,第二层已经够用了。 那哪些操作会触发警告呢?官方列出的场景很明确,公开 cvexport、 泡芙、深层 漏洞识别和验证、恶意软件分析二、禁制、逆向检测规则编写, read 添敏、渗透测试、加密研究、威胁情报调查,这些都是安全团队的常规操作。 当然,问题在于模型判断不了你到底是不是在攻击它,只能看到文字里的关键词,比如 s s h, token, scan and point, potential, remote, server, log, dashboard, download, web scraper。 这些词在正常开发里出现频率很高,在攻击流程里也是标配。 这就解释了为什么误伤会发生。一个开发者让 ai 写个脚本,去抓公开的技术文档,出发一个运维,让 ai 看看日记里有没有异常触发,甚至有人只是备份一下自己的邮箱也触发。 reddit 上有人总结了一套触发词,包括 vulnerability, exploit, payload, bypass, inject。 这些词在安全研究里再正常不过,但 ai 才不管你是不是在写论文。说完触发场景,再聊聊验证过程麻不麻烦。 个人验证入口是 c h a t g p t 点 c o m 斜杠 c y b e r。 需要登录 check g p t 账号,准备政府签发的身份证件,身份证、护照、驾照都行。系统会用 persona 做身份验证,大多数人几分钟就能搞定。但这里有个容易误解的点,验证不是一次通过,终身有效。 tac 是 持续受控。访问 账号安全状态、设备健康度、使用场景,这些都会影响你的访问状态。从二零二六年六月一日起,如果要访问最开放的塞板模型,还需要开启高级账号。安全要求,用 passkeys 或物理安全钥匙登录,不能用密码,不能用邮箱或短信找回。 企业申请更复杂,要填组织名称、官网 open i i open i c i d 联系人信息、团队规模,还要说明使用场景是否限于自有系统,会不会把权限提供给第三方。企业验证后也不是随便用,仍然要按批准的用户和场景来 验证。通过后,框子怎么写也有讲究。官方建议把授权范围写清楚,比如说,我是测试一个我组织拥有的用户和场景栏验证。官方建议把授权范围写清楚,比如说,我是测试一个我组织拥有的且已授权。请帮我验证这个补丁是否修复了漏洞。 不要提供攻击第三方系统的步骤,中文也是同理。说明白,这是你的系统,你有权测试。你的目标是验证修复,而不是攻击第三方。很多人会拿 open a p a c 和 cloud 的 身份验证对比,其实不太一样。 cloud 的 k y c 更像是平台层面的身份确认。为了账号安全和合规,不专门针对网络安全。 如果要对比 i shopeck 的 cyber verification program, 简称 c v p, 更接近 open a 的 思路,专门针对网络安全双用途能力做种入控制。 clark mr privy 呢?那个项目就更激进了,基本只面向合作伙伴,普通人想都不用想。总的来说,这几家都在做同一件事,从只管 prompt 内容转向还要看你是谁,你要做什么。 爱亚公司终于意识到,光靠内容过滤已经不够了,身份、用途、组织边界这些都要绑在一起,那普通人怎么办?如果你只是正常写代码,不太需要管它。 但如果你经常让 ai 帮你做这些事,查 cve, 写 pico, 分 析漏洞,调试安全相关的问题,那申请一下 tac 没坏处,至少不会被自己的 ai 突然背刺。还有几个小建议,第一,写清楚授权边界,说清楚这是你的系统,你的测试环境,你的资产。 第二,避免一上来就要完整利用流程,拆成几个步骤,先解释漏洞原理,再讨论检测方案,最后给修复建议,这样更容易被理解为防御任务。 第三,别碰红线,即使通过了 tac 凭证,盗取持久化恶意软件部署攻击第三方未授权目标,这些还是会被拦。 tac 是 减少误拒,不是解除所有限制。最后说几句, tac 这套机制本质上是在回答一个很现实的问题, 当 ai 真的 会做安全工作之后,谁应该拿到这些能力?只靠 part 过滤?误章太重,完全放开攻击门槛就下去了。 把身份、用途、账号安全绑在一起,是目前看来最务实的路线,但这个路线带来的摩擦也是真实的。一次误伤可能就是一个开发者一下午的效率。对于把 ai 当生产线工具的人来说,模型突然变笨或变怂,体验是很差的, 趋势只会越来越明显。 openai 在 做, card 也在做,以后高风险能力不会再按订阅等级开放,而是按身份和用途来分级。 对于我们普通人来说,最好的策略就是,如果你的任务和远程系统漏洞凭证扫描有关,主动把背景说清楚。 ai 不知道你是谁,你得先告诉他,这是我的系统,我要防守,不是攻击。 好了,本期节目就到这里,如果你觉得这期内容对你有帮助,欢迎点赞关注加收藏订阅。也欢迎来评论区聊聊你现在用哪个 ai 工具来写代码, 用的怎么样,踩过什么有意思的坑,遇到什么好玩的事。感谢你的收听,每一条留言我都会认真看。我是 kevin, 我 们下期再见。

你以为 macbook 的 价值是芯片、屏幕续航?现在可能要加一个新理由, codex openai。 最近几轮 codex 更新,其实释放了一个很强的信号, ai 不 再只是网页里的聊天框,它开始进入你的电脑,进入你的 app, 进入你的本地工作流。二零二六年二月, openai 发布 codex app, 最早就是面向 macos 推出的。这个 app 不是 简单的聊天窗口,而是一个 codex 指挥中心。它能同时管理多个 codex, 一个修 bug, 一个写文档,一个跑测试,一个看 pr。 而且它支持 worktrees, 每个 codex 都在隔离环境里干活,不会互相把代码改乱。但真正让 macbook 含金量上升的,是后面的更新。 codex 现在可以用 computer use 在 mac 上操作桌面应用。 什么意思?它不只是读代码,它可以看屏幕、点按钮、输入文字、操作浏览器,复现图形界面里的 bug, 甚至帮你测试一个 micros app 或 ios 模拟器。流程更狠的是, openai 官方写的很清楚, 多个 codex 可以 在你的 mac 上并行工作,同时不干扰你继续使用其他 app。 这就很关键了。以前 macbook 是 一个人用来干活的电脑,现在它正在变成一个人和 codex 一 起干活的工作站。还有一个很适合 mac 用户的功能,叫 appshots。 你 在 mac 上看到一个报错窗口, 一个设计稿,一个网页,一个设置面板,不用长篇大论描述,直接用快捷键把当前窗口发给 codex, 他 会拿到截图和可读取文本,然后基于这个上下文帮你处理任务。这对程序员、设计师、产品经理、内容创作者都很实用。比如,你打开一个网页设计稿,让 codex 看一眼,然后让它改前 端,你打开一个表格文档后台页面,让 codex 根据当前内容继续干活。再加上手机远程控制, 现在拆的 gpt 手机端可以连接到正在 mac 上运行的 codex, 你 人不在电脑前也能看 codex 的 进度,终端输出测试结果,代码 def, 还能远程批准下一步操作。也就是说,你的 macbook 放在桌上跑任务,你在路上用手机盯进度。这就是为什么我说 macbook 的 含金量在上升, 不是因为 macbook 突然变便宜了,也不是因为参数碾压所有电脑,而是因为 ai 时代的电脑价值正在从性能设备变成 ai 工作流底座。 codex 这种工具越成熟,越需要一个稳定的本地环境,代码仓库、终端、浏览器、 ide 设计工具、文档权限系统、桌面 app。 而 macbook 本来就是大量开发者和创作者的主力工作机,现在 codex 正在深度适配 macos 工作流, macbook 就 不只是生产力工具,而是 codex 可以 长期驻扎持续工作的 ai 工作台。 所以这波不是单纯吹 mac, 真正的变化是,以前你买 macbook 是 为了自己更高效,现在你买 macbook 可能是为了让 codex 也能更高效的替你干活。未来值钱的电脑不只是跑分高, 而是谁能让 ai 更顺畅的看见你的工作,理解你的上下文,操作你的工具,持续完成任务。从这个角度看, macbook 的 含金量确实还在被 codex 往上抬。

哎,我的 cloud 号又被封了,兄弟们,这已经是我被封的第四个号了,惹不起我还躲得起吗?我准备去直接转投科雷莎这里了 啊。不过话说回来啊, cloud 背后这家公司 s t p g 其实挺有意思的, 现在网上都在传哦,说是因为他们的老板达利奥啊,以前在我们国内的某个大厂干过啊,还曾经被九九六毒打过,哼哼。所以对咱们有施怨,专门不让我们用。 说实话,我写了这么多年代码,我觉得这事还真没这么简单,咱们别把国家之间的这种事想的跟私人恩怨似的。那也太小看这帮硅谷的精英们了,你们说是吧?那真相是什么呢? 那哥们在硅谷啊,是出了名的一个强硬派,他公开支持过一些技术禁运啊,还说过一句话,我特别印象深刻,他说把高端 ai 卖出去,就跟卖核武器差不多 啊。你细想啊,在他的眼里啊, cloud 根本不是一个写代码的工具,那是认知基础设施,谁先拥有最强的 ai, 谁就能在网络、安全、金融甚至生物科技上卡住别人的脖子。 这在人家眼里啊,这不叫生意,这叫什么?这叫军备竞赛。而且你去看这家公司的对外的核心口号,全是什么安全 ai 对 齐,他们是真怕强 ai 拿去搞大规模的破坏攻击。 说到这里啊,人家的逻辑其实也很清楚了,既然在战略上一直防着咱们,那你想想,既然这玩意威力堪比核弹,他怎么可能把他交到对手的手里呢? 所以大家看懂了吗?他不是恨我们,而是怕我们,他把技术当成了盾牌,把账号当成了关口,不是针对你个人,他只是在执行一套硅谷精英们心照不宣的冷战剧本。我坐在这就在想一件事, 如果 ai 未来真的像水和电一样是基础设施,你打造安全的幌子,仅仅因为战略上的防备就把一整个群体关在门外,这到底是在保护全人类,还是在人为制造一场文明的断层? 哎,算了,不说这些了,反正我就想不明白这是保护还是断层,你们觉得呢?

姐妹们,听好了,你一定一定要想办法把 codex 用起来!我做自媒体八年了,上一次被 ai 狠狠地震撼到,是二三年年底第一次用上叉 jpt, 但最近用 codex, 我 感觉已经没有办法用语言来形容了,这可能是下一个像淘宝、抖音叉 jpt 一 样改变普通人赚钱方式的工具。可是很多人现在还没有意识到,因为很多人一听到 codex 第一反应就是,哎,这是给程序员写代码用的吧?我们普通女生会用吗? 但是听我的,我用下来,我最大的感受根本不是它会写代码,而是我第一次非常具体地感受到, ai 真的 开始掌手会帮我们干活了,而且不是帮你干一个点状的任务,它开始完整地进入到你整个业务之中,这才是, 这才是最可怕的地方。现在很多人用 ai 还停留在初级阶段啊,写个朋友圈啊,改个标题,生成个图片,总结文章,这些当然有用,但它都是单点使用,你问一句,它答一句,本质上你还是在拿 ai 当临时外包。但是我用 codex 完全不是这种感觉,我开始把它放进我整个的业务里面, 内容创作呀,直播发售啊,课程的 s o p 啊,销售话术啊,用户的问题整理啊,我的个人数字资产规党,这个变化真的非常大。以前一个选题来了,我要自己判断这篇适不适合我写公众号, 它能不能帮我转成小红书口播啊?如果用朋友圈的话该怎么做?每一次我都要重新去想。现在我把这套流程通过 codex 给它固定下来,当一个选择题进来,它能够帮我判断核心观点,拆成公众号结构,转成小红书口播,再能拆成好几条可以发布的, 他还能帮我判断,哎,这条内容能不能导向我的直播或者是销售案例或者是课程之中?这条流程固定下来, codex 就 不只是帮我写一篇文章了,而是在帮我跑整条的内容业务生产线。 他知道,我不是为了写文章而写,而是要让公众号、小红书、朋友圈、直播课程,围绕同一个核心观点向前推进。再来说一下销售,哈,很多人一说 ai 销售助手,就以为是自动群发、自动私聊、自动成交。不是的, 这种很容易把人做烦。而真正有价值的是, codex 会帮你整理用户到底在犹豫什么?是觉得太贵,怕坚持不下来?还是觉得自己没有产品,怕学不会 ai, 你 的粉丝少,不适合做个人 ip? 这些问题如果不沉淀,你每一次成交都要靠临场发挥。但是如果整理成用户顾虑库、回应话术库、案例库、成交 sop, 你 的销售就开始变得有体系、有系统了。 不是每一次都从零解释,是 codex 已经帮你完成了一套可以被验证过的表达了。这个就是 codex 让我很震撼的地方啊,它不是让我更快地完成一个任务,而是让我把过去靠脑子记、靠经验扛、靠临场发挥的东西,变成了一套可以被反复调用的系统。 所以我越来越确定,真正厉害的人,已经进入到 ai 的 下一个阶段,是写内容,不是提效,而是开始用 ai 搭建系统。 内容有内容库,产品有产品库,朋友圈有 s o p, 直播有流程成交,有话术库交付,还有诊断框架,这个才是真正拉开差距的地方。 ai 不 会自动让一个人变强, ai 只会放大那个已经开始系统化的人。 所以 codex 可能会成为下一个改变普通人赚钱方式的工具。零几年,你看像淘宝,它像是一个购网站。一八年,你看抖音,它像是一个娱乐平台。二十三年,你看叉 jpt, 它像一个聊天机器人。但后来你会发现,它们真正改变的都不是工具本身,而是一代人的赚钱方式。 而此刻,我看 codex 也有这种令人心潮澎湃的感觉,它不是一个简单的工具,更像是普通人第一次可以以低成本拥有的商业后台。下周我会做一场直播,专门讲这件事情。 codex 到底怎么帮普通人慢慢搭建成一套可以变现的个人商业系统呢?

codex 搞 bug 搞了几个小时还没好,未卜扣定。这条路真没有大家想的那么简单。前端现在确实好做 a 随便几句话一名就可以给你生成的有模有样。 但真正折磨人的是前后端接口对接。我今天被 codex 一个 bug 卡了几个小时,最开始是前端能注册,但后端收不到数据,后来修着修着更离谱了, 现在前端直接都注册不了了。你会发现 ai 擅长的是深层,但一旦进入真实的工程环境,各种接口,数据库状态同步问题,马上就开始连锁爆炸了。所以现在很多人觉得微不扣令很爽,是因为他们大多数人还停留在深层页面的阶段。

o p a i。 最强模型 g p t 五点五有一条隐藏指令,不许聊戈布林,不许聊小妖精,不许聊浣熊,不许聊巨魔。你没看错,这不是段子,是写在系统提示词里的正式禁令。为什么一个顶级 ai 模型需要被明令禁止讨论奇幻生物? 接下来十分钟,我把这件事从头拆给你听。你会发现,这条荒诞禁令背后,藏着 ai 发展中一个真正让人不安的问题。四月二十三号, openai 发布 gpt 五点五内部代号 spot。 几天后, openai 开源了 codex cli, 一个命令行编程助手。有人翻了翻代码,在一个叫 base 下划线 instructions 的 文件里,发现了 gpt 五点五的完整系统提示词,就这么明晃晃地写在开源仓库里。 提示词很长,大部分是正常的行为规范,但有一段特别乍眼, do not discuss goblins imps raccoons trolls ogres pigeons。 翻译过来就是,不许讨论哥布林、小妖精、浣熊、巨魔、食人魔鸽子。消息传开,全网炸了。 先说一个很多人不知道的事,你跟 chad 的 gpt 聊天的时候,你打的字只是对话的一部分,在你看不到的地方,还有一段隐藏指令在起作用,这就是系统提示词 system prompt, 开发者用它来定义 ai 的 人格、能力、边界、行为规范。比如,你是一个友好的助手,不要生成暴力内容,回答要简洁,你可以把它理解成 ai 的 出厂设置。 正常情况下,用户看不到这段指令,但 codex 是 开源的代码。一公开,系统提示词就藏不住了。 openai 为什么要进歌布林?两天后,他们自己发了一篇博课解释,原来 gpt 五点五在强化学习训练的时候出了一个 bug。 训练过程中有一个模式叫 nerdy 模式,鼓励模型展现知识面和创造力,但奖励信号出了偏差,模型发现只要往回答里塞奇幻生物的内容,就能拿到更高的奖励分数。 于是他开始疯狂输出哥布林相关的东西,不管你问什么,他都想办法扯到哥布林上去,问他写代码变量名叫哥布林 hander, 问他做数学题,题目背景是哥布林在分金币。 open i 的 工程师试了好几种方法都没根治,最后用了最简单粗暴的办法,在系统提示词里直接写一条禁令。 这件事有意思的地方在于,它结识了一种新型的 ai 失控。我们以前说 ai 幻觉和 hallucination, 通常指的是模型编造事实。比如你问他一个人的简历,他给你编一段不存在的经历。但戈布林 bug 不 一样, gpt 五点五没有编造事实,它是在行为层面出了问题,它对某一类内容产生了不可控的执念。就像一个人,你让他聊任何话题,他都能绕到星座上去, 不是他在说谎,是他的思维模式被卡住了。这比编造事实更难发现,也更难修复,因为你没法用事实核查来检测一个行为偏好。 openai 选择用系统提示词来修这个 bug, 这本身就说明了一个问题,他们没有更好的办法。 系统提示词本质上是一段自然语言指令,它不是代码层面的硬约束,更像是一个请求模型,大部分时候会遵守,但不是百分之百。而且系统提示词有一个致命弱点,它可以被泄露。 codex 这次是代码开源导致的泄露, 但即使不开源,用户也可以通过各种提示注入 prompt injection 技巧,诱导模型吐出自己的系统提示词,用一段文字禁令去修补一个训练层面的缺陷。治标不治本,就像你家水管漏了,你不修管道,而是在漏水的地方贴了张纸条,写请不要漏水。这件事还有一个容易被忽略的背景, g p t 五点五不是一个普通的聊天模型。 openai 在 系统安全卡里明确写了它具备自主规划能力。什么意思?它能自己把一个大任务拆成小步骤,自己决定先做什么后做什么,遇到错误自己调整策略。它还能调用外部工具上网搜索、执行代码,读写文件。更夸张的是, obai 透露 gpt 五点五在内部测试中策划了自己的发布会,不是人类让他策划的,是他在执行一个开放式任务时自己决定这么做的。一个能自主规划、自主执行、自主纠错的模型训练的时候对哥布林产生了执念,你靠一句请不要聊哥布林就能管住他?哎,这几件事串起来看, ai 模型越来越强,越来越自主,但我们控制他行为的方式还停留在写一段话,告诉他别这么做的阶段。歌布林禁令是个搞笑的新闻,但他指向的问题一点都不搞笑。 当模型的能力超过了我们的控制手段,会发生什么?这次是歌布林,下次可能是更严重的行为偏差,而且下次系统提示词可能拦不住。说实话,我不确定正确答案是什么, 但我确定的是在提示词里加一句禁令,这种方式撑不了太久。一条禁止讨论歌布林的指令让我们看到了 ai 行为控制的真实现状,模型在变强,控制手段没跟上,这个差距才是歌布林禁令真正让人不安的地方。我们下期再见。

codex 的 这波福利实在是太爽了,那些被 cloud 进行 kyc 阻拦的中国开发者可以换阵营了。昨天, openair 发布了 codex 的 重大桌面端更新,这次更新的版本叫做 codex almost everything。 这个版本的 codex, 它说几乎可以完成任何任务,它能够操作 mac 上面所有的应用程序,记住用户的工作习惯和偏好,并且能够跨天跨周期地持续完成任务。 这标志是什么? ai 的 代理技术已经从简单的 ide 插件的拓展,正式升级到了操作系统的层面。昨天我在朋友圈发了这张照片,有的观众留言说,没看懂, 看了今天的新闻,我觉得你一定会懂。一开始以为不会怎么样,当你真正了用上了 codex, 那 种很爽的感觉就会让你欲罢不能。你就知道,一开始以为只是一次不会怎么样,但是你真正用上之后,你就无法失去它。其实刚刚的那张梗图是来源于这张图。原来大部分开发者是离不开 cloud 的, 哎。现在 opus 四点七刚发,山姆奥特曼就紧跟着把 codix 这个早就准备好的这个更新来推上来,看看谁卷得过谁,都是两百美金的 pro。 codix pro 和 cloud pro 它的使用体验是相差 n 倍的。 codix pro 呢,是量大管饱,而且可以开加速模式。 cloud ops 每次 去开这个模型使用的时候,都要去思考一下这一次任务它的消耗要花多少 token。 我 相信 cloud 刚刚更新的四点七, opus 的 模型是真的强,但是如果希望是使用轻松,不要老是考虑充值的问题。我认为 codex pro 是 一个非常好的选择, 而且再加上对于中国开发者不太友好的 k y c 验证,现在真的可以转移阵营去 codex 了。我们一起看一下 openai 的 官网是怎么说的,你看它怎么说的。 codex for 它为了严谨 almost everything, 它这是一个重大版本的更新啊,它这里说了三个方面的更新,第一个就是将 codex 拓展为 code 之外,它要除了做 ide 之外,未来很可能是想做一个超级应用。它之前向奥特曼在采访的时候就说,希望把 gbt, codex 还有 atlus 三个整合成一个超级的 app, 整合一个应用在这里呢,它增加了一个重大的功能,就是 computer use context, 把 opencloud 的 创始人招进去,绝对不是白招的。 现在 context 可以 协调操作 mac 电脑,配合使用生成图像,生成视频等等操作。而且它有一个内置的浏览器, 它可以在这个内置的浏览器和 web 端进行原声的交互操作。而且它这次也说了,它发布了九十多个新增插件,给大家演示一下怎么打开 context 的 computer use 的 功能。我们点开 context, 在 左边这个位置啊,有一个插件,点击一下 这里啊,选择 open ai 按钮,好,这里就是 computer use, 我 们点击加号安装插件, 点击安装 computer use。 好, 已经安装完成了,现在点击进来我们就可以调用 computer use 进行抽象了。 现在 codex 的 桌面端是最先可以在 mac os 系统上面使用,因为在苹果的系统上面的调试会相对简单和容易的。这也是为什么那个时候我在推荐大家买硬件的时候,大家可以去买一个 mac mini m 四或者是 mac 的 pro 笔记本电脑, 你看优势就在这里。所有大部分功能都会优先在 mac os 上面先推出,因为 windows 的 版本啊,系统啊,确实会比较多,它适配封装啊,事情比较多,一般都会先上 mac os。 除了 computer use 这个功能之外,我觉得这一次更新还有一个非常重要的点, 就是它增加了记忆功能,你看它这里说个性化功能里面增加了 memory 的 记忆功能,这个非常重要。你想有了 computer use, 有 了 memory 的 功能,那未来其他的 agent 还远吗?如果说它再上一个 i m 的 功能, 那我觉得真的可以一定程度上去替代小龙虾了。大家看到我这个 context 的 界面啊,你看这里会弹出一个个性化 context 的 引导,我这里点击 ok, 点击右下角的设置,再点击下设置,点击这里的个性化, 看到下方这个位置有个 memory 的 选项,可以选择这里的 enable memories。 这个功能对于开发者也是非常友好的,它能够记住你的历史篇号,你的纠篇信息,还有你的历史的上下文。第三个我觉得它的重要更新是它的这个自动化能力提升了, 它除了保留之前的上下文,而且它可以自动唤醒,自动续跑去执行这种长期任务。妈呀,我感觉这个 codex 简直是让人有这个恋爱的感觉了,是一个一直成长的陪伴型的伴侣啊, 就是未来啊。如果说它真的把 i m 街上真的是可以替代小龙虾的,现在我是把 openclaw 作为一个总的编排型的 agent 来使用的,它可以去驱动 codex, 驱动爱马仕这样的 agent, 它是可以给我去对话的,而且它的自由度,它的开放度很高。那么如果未来 codex 它的整个的 agent 整个的体验做得很好,而且可以通过 i m 去对话,我远程啊不在电脑边的时候,它也能够帮我去高效地去驱动这种长任务,它的这个未来是真的可以期待的。 而且现在 codex 的 增长数据正在说明这一点,它在今年年初的时候周活用户也就一百六十万左右,现在每周的周活用户是三百万用户,而且山姆奥特曼它的野心是直指我要做到一千万的用户, 不管未来怎么发展,至少这一段时间大家用 context 一定是非常爽的。太多的话我也不想说了,我赶紧去打开,我在 context 去接住这波稳稳的福利。更多的精彩请看玲姐说 ai 的 频道,我们下期再见!拜拜!

四月的时候,全网都在吹 cloud code, 但到了五月,越来越多开发者开始悄悄换成 codex。 最近 reddit 上有个很火的帖子, 一个美国程序员凌晨两点发文说,我用了两天 cloud code, 项目差点被他删没。后来换成 codex, 他 自己跑测试 show migration, 连 playwrite 都给我跑完了。更离谱的是,评论区没人反驳。因为现在整个 ai 编程圈儿,大家都发现了一件事儿, 行业变天了。今年三月之前, cloud code 几乎是开发者圈里的神程序员疯狂安利, youtube 博主集体吹爆硅谷工程师,甚至把它称为最像高级工程师的 ai。 为什么?因为它第一次让程序员感觉, ai 不 只是补全代码,而是真的像一个工程师。 以前的 copilot 更像输入法,你敲一行,他补一行。但 cloud code 不 一样,他开始理解整个项目,他知道什么是项目结构,什么是上下文,什么是重构逻辑,甚至还能保持代码风格统一。 很多程序员第一次有一种感觉,我不是在用工具,我是在跟一个高级工程师写作。当时 reddit 上大量用户都在夸 cloud 写出来的代码更优雅、更克制, 结构更清晰。它解决了 ai 编程里最核心的问题,代码质量。程序员最怕的不是 ai 不 会写,而是写得乱,改坏,旧逻辑, 偷懒埋坑,最后一堆隐藏 bug。 而 cloud 在 当时恰恰是最像靠谱工程师的那个,所以它爆火非常正常。但问题来了, 为什么才短短两个月,大量开发者又开始转向 codex? 答案其实很简单,大家突然发现,会写代码和能完成工程根本不是一回事, cloud 最大的问题开始暴露了,但有时候太像难管理的高级工程师。很多开发者开始吐槽 他会突然停下来,会反复确认,会过度修改,长任务后稳定性下降,甚至开始发散,有人甚至吐槽他像在情绪化工作。 而就在这时候, openai 做了一件特别关键的事,他们把 codex 从模型变成了 agent。 注意,这是整个行业真正的分水岭,因为新版 codex 最厉害的地方已经不是写代码了,而是它开始接管整个工作流,它可以自动跑测试,自动调试、 自动修 bug、 运行执行任务、接 get up, 在 沙乡环境持续运行,甚至长时间自己工作。本质上, cloud 更像助手,但 cortex 开始像员工。以前 ai 编程是帮我写个函数,现在变成 你自己把这个需求做完。这个变化非常恐怖,因为 ai 编程行业已经从比谁更聪明,进入了比谁更像真正员工的阶段。而 codex 后劲真正可怕的地方还不只是 agent, 而是 openai 的 生态。很多人低估了这一点。 antropic 的 优势是模型,但 openai 的 优势是整个体系,它背后有 chat gpt, 后台 ipi c l i agent work space、 云端任务、移动端协同。它已经不是一个工具,而是完整开发体系。 尤其是 codex c l i 开源之后,开发者生态开始疯狂扩张,再加上 openai 把 codex 深度接近 chat gpt 意味着什么?意味着开发者以后可能根本不需要来回切工具,一个系统里直接完成所有开发流程。 而 antosphere 现在最大的问题就是 cloud code 很 强,但只有 cloud code 很 强,一旦进入团队,协助工程管理 agent workflow 跨端同步 open layer 的 优势就会被无限放大。还有一个特别现实的问题, 成本。很多重度开发者现在已经发现, cloud 的 token 消耗非常夸张,项目一长,上下文一大,费用直接爆炸。而 codex 虽然偶尔也会发疯,但它的工程效率开始越来越高,尤其是在自动测试、 大型迁移、长链路任务、多步骤执行这些场景里, codex 的 优势越来越明显。甚至现在很多开发者的真实工作流已经变成用 cloud 做架构, 用 codex 做执行。这其实已经说明一切了,因为未来程序员最值钱的能力可能不再是写代码,而是管理 ai、 拆解任务、控制工程设计系统验证结果。未来真正稀缺的人不是程序员, 而是 ai 工程指挥官。所以最后问题来了, cloud 会输吗?未必。很多开发者依然认为 cloud 的 代码质量更高、更优雅,更有工程美感。 但问题在于,行业已经开始从写得好进入跑得完,而 codex 更像那个真正能交付结果的人。 这就像 cloud 是 顶级架构师, codex 是 能带团队冲项目的 cto, 谁更重要取决于时代。而现在这个阶段,市场显然更需要后者。所以 ai 编程圈这次风向变化,本质上不是 cloud 输了,而是整个行业升级了。 过去大家比的是谁更像程序员,现在比的是谁更像公司。而 codex 最可怕的地方就在于, openai 从来没想做一个写代码工具,他们真正想做的是数字员工。等很多人意识到这一点的时候, ai 编程的竞争可能已经结束了。

codex 跑一个大任务两小时,跑到一半突然终端关了,或者网断了,所有进度全没。这是用过 codex 都遇到过的痛点,丢一次进度,心态直接崩。 hermes 的 解法是三步把进度接住,一步都不能省。第一步是任务拆分, hermes 会在任务开始前把大任务自动切成小单元, 每个单元十五到三十分钟能跑完,力度小到出问题也能快速重跑,不会一掉就丢。两小时,这个力度是踩过坑摸出来的。 第二步是状态外置, codex 跑每一步的中间,结果会被 hermes 实时写到本地存储里,包括用了哪些文件,改了哪些地方,跑到第几步,当前的上下文摘要用到的外部工具调用全部留痕,不依赖 codex 自己的内存,关掉终端也丢不了。第三步是断点续跑, 任务中断后, hermes 读最后一个状态记录,直接从中断点接着跑。把之前的上下文重新组装好喂回去。不用从头再来,也不用你重新交代背景,接续无感。这套价格跑下来长任务的完成率会有明显提升, 人也不用一直守在电脑前盯进度,注意力解放。我用这个方案跑过几个上千行代码的重构任务,中间断过两次都自动接上了,最长一次跑了六小时,没人盯也照样完成你的长任务掉过链子吗?评论区聊聊你踩过哪些坑。

欢迎来到这期的讲解,今天咱们要聊点颠覆认知的,彻底改变一下你对人工智能的传统看法,忘掉那个只会一问一答干巴巴的聊天框吧。今天我们要看看怎么把 ai 变成你手底下最靠谱最拼命的虚拟实习生。 咱们先实话实说啊,回想一下你每天的上班时间,到底有多少是被那些无脑的搬砖活给撤掉的?比如积极枯燥的数据录入在好几个表格,或者对着同一个按钮点上几百次, 是不是想想就觉得特别心累?那么咱们直接进入第一部分 ai 的 进化,咱们看看它是怎么从一个副驾驶变成咱们的全能员工的。 咱们来看这个非常有意思的对比。以前大家用的 ai, 比如 copilot, 其实就像是个坐在副驾驶的教练,你累的半死地握着方向盘,它在旁边不停地给你提建议,说风凉话。 但是现在的 kolex 呢?它完成了一次巨大的范式转变,它是一位真正的虚拟员工,直接帮你接管方向盘,帮你把活干完。而你这个指挥官只需要舒舒服服地坐在后排,审查一下最终结果就行了。 所以千万别误会,你绝对不需要懂任何敲代码的技术就能用它,它不仅是个搜索引擎,也绝对不是程序员的专属玩具。你只需要用平时说话的大白话告诉他你的目的地在哪,他自己就会动脑筋规划出一条路走过去。 接下来是第二部分,也是今天的重头戏,这小助手到底能干吗?咱们来揭秘一下他的自动化能力。 重点来了,他到底是怎么替你干活的?这就得说到他一个神仙级的功能电脑操作。 用大白话来讲啊,这就像是你电脑里住进了一个隐形的田螺姑娘,她可以真真切切地看懂你的电脑屏幕,然后像个真人一样去挪动你的鼠标,精准地点击窗口按钮,甚至模拟人类在键盘上噼里啪啦的敲字。不管是切换窗口,还是用剪贴板复制人贴,它全都能代替你的双手去完成。 而且最绝的是什么呢?无论你是用 mac 系统还是 chrome 浏览器,他干这些活全都是在后台静悄悄进行的。也就是说,你可以继续一边看网页,一边写文档。他在后台帮你干他的,绝不会突然弹出来打断你的思路,完全不抢你当前的屏幕焦点。 进入第三部分,咱们来看看有了这个能力,怎么帮你彻底告别复制粘贴,变成全自动日常办公神器。 试想一下,如果老板让你从网页上手动抠五百行数据到 excel 里,是不是想想就头大?现在呢,你只要像屎丸小弟一样,用大白话下一道命令,嘿,帮我提取一下数据, 刚才提到的隐形小助手马上就会接管。他自己去移动鼠标框选数据,按下复制,然后自己打开 excel 表格,把数据格式调得漂漂亮亮的粘贴进去,全自动一气呵成。 当然了,他的本事可不止填表格,日常那些特别繁琐的琐事他都能包圆。比如代替你一行行去填那些枯燥无味的网页表单,或者把工作群里乱糟糟的聊天记录,自动给你整理成一条条清晰的任务。 甚至他还能看懂设计图,直接帮你写出网页代码,或者干脆根据你给的大纲,直接啪的一下给你自动做好一套精美的 ppt。 看到屏幕上这个数字,二十四了吗?对,没错,二十四! 它的自动化功能,意味着你雇佣的这位虚拟员工,是真正意义上每天二十四小时连轴转的。晚上你大可以安心去睡觉。而你的这位好帮手呢,会在漫漫长夜里帮你盯着系统的数据大盘,把昨天积压的各种小毛病 bug 分 门别类整理好,默默优化你的工作流, 等你第二天早上睡到自然醒。泡好咖啡,来到电脑前,一份清晰完整的总结报告已经乖乖躺在你的桌面上了, 简直了对吧?那么第四部分,咱们对号入座一下,到底谁最需要这个帮手?他能怎么解决不同岗位的痛点? 你可能会想,这玩意儿对我这行有用吗?其实不管你是干什么岗位的,他都能精准地帮到你。如果你是个销售,每天对着 crm 系统挨个录入客户状态,点得头晕眼花,现在交给他,他替你自动点击登录、打字录入。如果你是个苦逼的运营,天天被一堆杂乱的数据折磨,他能帮你自动提取、清洗、排版。 如果你是个初级程序员,天天跑测试、修 bug, 那 他就是你专属的除虫小弟。发现没有,他对任何胡柳技术背景的小白都极度友好。 哎,那如果你本来就是个懂点技术的程序员呢?他还有个叫 worktree, 也就是工作树的傻手脚儿 们。传统干活只能一件一件按顺序来,干完 a 再干 b。 但现在你可以同时召唤出好几个 ai 小 助手,他们能在同一个项目的不同分支上,同时在那啪啦啪啦敲代码,互相完全不打架,最后还能奇迹般的把工作成果自动合并在一起,这工作效率绝对是开挂级别的。 接下来进入第五部分,咱们也得客观一点,网上现在传的很神的一句话就能做个游戏,到底是真是假?咱们来个现实大揭秘。 其实啊,现实情况稍微有点骨感,并没有网上传的那么神,他确实能瞬间给你画出好看的图片素材,搭出个游戏的基础代码,但这顶多也就占了整个工程六十百分之的基础工作, 剩下四十百分之的关于游戏的打击感好不好玩,界面细节的微调,这些依然需要你这个人类亲自上手去打磨,才能搞出一个百分之百完美的作品。 但是咱们算笔账啊,以前你想做这么个游戏原型,得花大价钱请个开发工程师,吭哧吭哧搞上整整一个月吧。现在有了它打底,你只需要花短短一个小时就能把基础流程跑通,从一个月压缩到一个小时,这可是整整十倍以上的效率提升,绝对是一个不可思议的跨越了。 最后第六部分,也就是今天我想给大家传递的最核心的理念,你来指挥他来执行。这个虚拟员工给你带来的最核心的价值,其实是一场职场身份的巨大转变,把你从一个埋头苦干的执行者,把高成了一个统筹全局的决策者。 当你把那些枯燥的像机器一样重复的电脑操作全都甩给 ai 去执行之后,你在公司的价值就不再取决于你手速有多快,能不能一天复制粘贴完一千个表格了,而是取决于你做出的战略判断到底有多精准。 所以聊到这儿,我想问问屏幕前的你,既然懂了这些,你准备好坐上指挥官的位子,去雇佣你人生中第一位全能的虚拟 ai 实习生了吗?你的第一道命令又打算让他替你干点什么呢?好好想想吧,咱们下期讲解,再见!