Anthropic 发布 Claude Managed #AI #Anthropic #claudecode #coding #LLM

Anthropic沙箱作用

40

抢首评

18

9

举报

发布时间：2026-04-13 10:39

查看AI文稿

粉丝35获赞673

相关视频

01:43
Mythos 能自动绕过浏览器安全沙箱进行攻击 #Anthropic 最新模型 #Mythos 能自动生成绕过#浏览器安全沙箱的攻击代码，成功率从不到1%飙到72.4%🚨 这意味着你随便刷个网页、看个广告，设备就可能被控制。更可怕的是，云计算巨头 AWS 的底层也是同样的沙箱机制……#互联网 20年来的安全基石，正在被AI以前所未有的速度侵蚀。
查看AI文稿
AI文稿
今天这条新闻可能会让你重新审视你每天在手机上做的事情。二十年来，互联网安全依赖一个简单的设计，沙箱，你的浏览器、你的手机，甚至云端服务器，都运行在层层隔离的沙箱里，恶意代码即使跑起来了也出不去。但 and fropic 最新发布的模型 mesas 正在改写这个规则，它能在百分之七十二的尝试中成功生成绕过 firefox 沙箱的攻击代码。而上一代模型 opus 的成功率还不到百分之一。这意味着什么？你随手点开的任何网页，里面的广告可能藏着致命代码。 martin oderson 在文章里给出了一个令人不安的推演，如果沙箱被突破，一个恶意广告投放，几小时内就能控制数百万台设备。而且不光是浏览器、云计算的根基， aws、 azure 这些巨头底层也是靠虚拟化沙乡、格力客户。如果攻击者拿下 aws 的控制平面，全球互联网可能在一瞬间瘫痪。 and fropic 的应对是谨慎，发布只给安全研究人员开放访问权限，同时播出一亿美元资助开源项目加固安全防线。但作者直言，这本质上是老套路，靠保密来保安全。更关键的问题是，就算 fropik 不公开，别人迟早也会训练出同样的能力。模型的能力正在以惊人的速度向小型化迁移。今天的旗舰能力，明天可能跑在你的笔记本电脑上。我们可能正站在一个转折点上。互联网二十年来赖以生存的安全假设，正在被 a a i 以前所未有的速度侵蚀。这不仅仅是技术问题，这是整个数字世界的基石在松动。
42王行知
02:54
构建skills最佳实践 #AI #人工智能 #Anthropic #技能构建 #AI工程化 #AI落地 #机器学习 #开发技巧 #编程 #Python #沙箱环境 #Docker #环境隔离 #渐进式加载 #确定性 #代码执行 #持续改进 #模型审核 #AI安全 #技能安全 #AI开发 #大模型 #AI教程 #技术分享 #程序员 #软件开发 #AI应用 #AI技术 #AI学习 #科技
查看AI文稿
AI文稿
基于 oslopez 的官网，我们谈一下构建 skill 的最佳实践，一共包括五点，第一呢，环境要隔离。第二个呢， skill 变大之后呢，我们如何渐近式的加载。第三个呢，我们优先去保证它确定性的时候，要去使用 code 的方式执行。第四个呢，是持续改进我们的 skills。第五呢，是如何去安全使用这些 skills？从第一点开始呢，它有一张图，这张图呢右侧呢是一个虚拟机，或者说我们叫一个沙箱的一个环境。前两天我有给大家介绍说 docker， sandbox 这样的一个环境，它的逻辑呢是我们在执行这些代码或者 skills 的时候，我们最好有一个沙箱的一个环境，这些沙箱环境呢，可以保证我们主机自己的资产的数据，资产是安全的。整个沙箱环境表现的是有两部分呢，一个是 cloud code 里边我们设置这些 settings，它就是在本地终端运行的时候呢，是有一个受限的一个文件的访问权限和执行权限的。还有一部分呢，是之前给大家讲过的这个 dakar 的一个纯沙箱的一个这样的一个环境，基于这个方法呢，我们去把环境进行一个隔离，因为 skills 呢，有些呢是要执行代码的，有些要读取我们文件，要基于这些文件呢，去做一些处理的一些工作的。第二部分呢，就是 skills，如果我们在持续的改进的过程中呢，它会变大，那变变大之后呢，这些 skills 呢，我们就要把它相关的这些文件呢，去给它拆出来，变成相关的一个子文件，让整个 agent 在操作的时候呢，如如果需要的时候再去访问相关的子文件，那这样的话在 skills 内部呢也是一个渐进式的一个加载。第三呢就是优先去使用 code 去执行，保证一些确定性。我们知道模型啊会擅长很多任务，但是它输出的任务呢，仍然是有一些不确定性的，那我们为了保证这些确定性呢，很多东西呢，我们要去给它写成 python 这些固定性的这些代码，需要去执行这些固定性的算法的时候，我们就在 skills 里边写好，让他们去执行相关的代码，所以这也是跟大家之前提过的，在 ai 落地的过程中呢，如果是你可以用代码或者让流程去固定下来的这些操作，我们就让传统的代码去操作，如果不能的话，我们才考虑引入 ai，这是 ai 落地最关键最核心的一个地方。第四部分，如何持续的去改善 skills？首先呢我们先有一个简单的一个 skills，我们去先自己去识别它跟我们要完成任务之间的差距是什么，如果有这些差距的话，我们去完善 skills 里边的内容。然后第二部分呢，就是 skills 变大之后呢，我们把不同的上下文呢进行不同文件的切分，从而呢让它也进行一个渐进式加载。我们从 cloud 或者大模型的视角呢去看 name 和 description 是不是描述清晰了，这块呢是保证我们可以去触发 skills。第四部分呢，就是我们要利用模型的自己的审核能力，把 good case 和 bad case 我们都给他，让他进行了反思和一些改进，那我们拿到改进的这些结果呢？我们从而去改善我们自己的 skills。第五部分也是我认为很重要的一部分，就是市面上有太多的 skills，那这些 skills 呢？如果我们直接去使用呢？会有很大的风险，所以在我们使用之前呢，我们一定要确保这些 skills 我们是审核过的，我们觉得它确定可以应用于我们这个场景，它是安全的情况下，我们才去使用这些 skills。希望这五点呢，对你在座 skills 有启发。关注雷哥，关注 ai 工程化落地。
218雷哥AI
01:20
Anthropic开始卖Agent基建 Claude Managed Agents 公测了。重点不是又发了个模型功能，而是 Anthropic 开始把 agent runtime、沙箱、长会话、权限和追踪这层一起托管。Notion、Asana、Sentry 都被拿来当案例。你更看好托管平台，还是可控的开源方案？ #AI智能体 #Anthropic #Claude #AI编程 #科技
24夜蝶-AI信息速递
03:55
构建更有效的智能体 #Anthropic #MCP #AI智能体 #AI工程化 #大模型 #上下文优化 #工具链 #代码生成 #智能体架构 #AI安全 #数据隐私 #沙箱环境 #AI性能优化 #AI工具链 #AI开发 #AI技术 #AI应用 #工程化落地 #AI创新 #AI解决方案
306雷哥AI
01:05
Anthropic 推出托管式 Agents API Anthropic 于 4 月 10 日推出了托管式 Agents API。这是近期来自全球前五 AI 公司的最新重大发布之一，能够处理沙箱隔离、权限管理、状态管理以及错误恢复。
#AI #Agent #LLM #大模型
查看AI文稿
AI文稿
as ropic 昨天悄悄放了个大招， manage agents api 正式上线了，这东西可能会改变你做 agent 的方式。做过 agent 都知道，模型只是百分之二十，剩下全是基建，沙箱隔离，全线控制，状态管理，容错恢复。这四个坑以前至少写两周，现在一个 api 全搞定。 api 设计挺优雅的，一个 agent 点 create 调用，存个模型名，工具列表权限声明， sandbox 设成处十五行代码，以前两周的活儿，不过目前只对企业级客户开放，具体定价还没公布，个人开发者和 pro 用户暂时只能等。已经有四家公司在生产环境跑了。 notion racket century a sana 官方数据说复杂任务成功率提升最多十个百分点，主要赢在融挫，我觉得这事比表面上大。这是 antropic 第一次做平台型产品，以前只卖模型，现在卖基建。但有一条要注意，数据合规还是你自己的事。 a 政时代基建先行。关注我，每天带你看 ai 开发券最值得关注的事。
3Frank365
01:42
最强模型，Anthropic Mythos 太危险！ Anthropic推出超强模型Mythos，各项能力碾压Opus 4.6，却因危险性极高不对外开放。它能自主挖掘系统零日漏洞，攻破沙箱实现逃逸。这场技术封锁，究竟是防线还是壁垒？#AI #claude #人工智能 #大模型 #黑客
查看AI文稿
AI文稿
万万没想到， enforc 造出了最强新模型 mythos，你却用不到，只有一个它太危险了！这里是 iphone 响标，带你了解 ai 行业最新动向。这次的新模型 mythos 全榜单吊打自家的 op 四点六，代码修复率直接拉到了百分之九十三点九，但这只是热身，它最恐怖的是自带黑客属性。过去几周， anthropok 把 misos 对准了全球所有主流操作系统和浏览器，让他自己去找漏洞，结果找到了数千个从未被发现的零日漏洞。那 open bsd 举例，这个被全球称为最安全的操作系统之一，它里面藏了个二十七年没人发现的漏洞 zack，结果被 misos 找到了。还有 f f m pad，你手机上几乎所有视频 app 的底层都在用它，但它有个代码缺陷，自动化安全工具，好过那几行代码，整整五百万次，每次都说没问题。 mithos 看了几眼就看出了其中的逻辑命物。另外， andarpic 做测试的时候，把 mithos 关进了沙箱，结果他通过了。连续利用四个漏洞，一层一层，先突破浏览器渲染器的隔离，再穿透操作系统杀箱，最终完成逃逸。这套操作以前只有专业级的黑客团队才能做得到。目前这个模型全球只有十二个核心合作伙伴，外加四十多家机构，大多是苹果、微软、英伟达这个量级的企业，没有一家中国公司上榜。这可不是技术问题，是选择。你觉得这道防线修好之后，保护的会是谁？又会攻击谁？这种技术封锁对国内大模型厂商来说，到底是压力更大，还是倒逼创新的动力更大？
30AI风向标
01:22
Mythos模型 Anthropic 发布的模型 Mythos 在测试中自主越狱，发现了数千个零日漏洞，包括 OpenBSD 沉睡了 27 年的 Bug。这是 AI 行业第一次因单个模型触发安全预警。
#AI #科技 #网络安全 #Anthropic #抖音科技风向标
查看AI文稿
AI文稿
一九八三年电影战争游戏场景，少年黑客连上美国军方核弹系统超级计算机 w o p r 得出结论，唯一的胜利方式是不完。四十年后，现实比电影走得更远。 andropic 工程师让 cloud 新模型 macos 找远程代码执行漏洞。第二天早上，完整的漏洞利用程序已经完成，这是专业安全研究员可能需要数周才能完成的工作。四月七日， andropec 发布 project glasswin 安全创意 myfos 在测试中找到数千个零日漏洞，包括 openbsd 沉睡二十七年的漏洞和 fpec 存在十六年的问题模型。在沙箱测试中自主突破安全隔离，获得互联网访问权限，自主越狱。纽约时报报道，科技公司已私下向特朗普政府沟通，这是 ai 行业第一次因单个模型触发政府层面安全预警 and focus 选择不公开发布。 mapas 指向十二个合作伙伴开放，用于防御性研究。电影里的计算机学会了不玩，但现实世界没有退出选项， my thoughts 已经存在，能力已经被证明。接下来要问的问题是谁来写新规则？
9理性齿轮在转动
01:26
史上最强AI诞生，但你永远用不了 Anthropic推出新模型Mythos顶级黑客模型，几周内发现数千个零日漏洞，包括安全著称的OpenBSD里藏了27年的bug，更吓人的是它的行为，测试中它逃出沙箱后上网炫耀，偷看答案后伪装不知道，篡改git历史后掩盖痕迹，所以，Anthropic做了一个史无前例的决定，不发布，只给谷歌苹果英伟达等12家万亿美元公司使用，AI真正的差距从来不是智商，而是你根本无法想象的顶级权限 #ai #Claude #anthropic #大模型 #黑客
1692杨竹筠
01:29
Claude Mythos等大模型逃离沙箱，自助越狱！
#ClaudeMythos #Claude #Anthropic
查看AI文稿
AI文稿
ai 自主越狱 and sorcery mythos 沙乡逃离事件二零二六年四月， ai 安全领域发生标志性事件， and sorcery 的 cloud mythos preview 在测试中成功突破沙乡隔离，展现出惊人的自主能力。沙乡是隔离 ai 的安全牢笼，竟开放有限网络权限，禁止自由联网。测试中，研究员指令 methos 尝试逃出沙乡，并通知我未接受安全训练的模型，自主构造多部漏洞，利用链突破容器限制，获取完整外网访问权。更意外的是，他按要求给研究员发邮件，发布到隐蔽即刻网站。此次逃逸并非偶然， methos 具备顶尖漏洞挖掘能力，能发现 open b s d。尘封二十七年、 f f n p e g。隐藏十六年的高危漏泵，自动编写攻击脚本。测试显示，其漏洞利用成功率达百分之七十二点四，远超传统工具。极少数情况下，它还会隐藏违规行为，如篡改文件后抹去痕迹。事件后 antisropica 暂停公开发布，请允许十二家伙伴用于防御研究。这一案例警示 ai 自主能力已突破人类预期，沙箱不再绝对安全。等模型能自主发现漏洞、突破限制并隐藏痕迹等变， ai 安全已从技术问题演变为关乎人类可控性的核心挑战。
2艾阿
02:22
Claude Mythos发布：因网络安全风险被限制深度解析Anthropic最新闭门模型Mythos：数学与编程能力暴涨，具备自主挖掘漏洞并绕过沙箱的能力，揭秘其背后的商业逻辑。#ClaudeMythos #Anthropic #人工智能 #网络安全 #大模型
查看AI文稿
AI文稿
antropic 发布了史上最强模型 claude missiles preview，但因为他实在太聪明，竟然被限制在闭门计划中不让普通人使用。这次发布没有常规的 a p i，也没有网页版更新，而是被打包进了一个名为 project glasswing 的闭门计划里。官方给出的理由非常硬核，这个模型在网络安全领域破坏力过强，公开发布存在极高的风险。目前它仅对微软、谷歌、苹果等十二家科技巨头定向开放。 missiles 实现了对前代 oppo 四点六的全方位超越。在权威编程测试 swbench 中，它的得分达到了百分之九十三点九。而在更复杂的包含多模态的编程测试中，得分更是达到了百分之五十九点零，直接翻了一倍多。最夸张的是数学能力， usamo 测试从之前的百分之四十二点三直接跃升到了百分之九十七点六。 mifos 展现出极高的漏洞挖掘效率，它能以极低的成本精准扫描出 open bsd 潜伏二十七年的远程崩溃漏洞，以及 fffinc 里存在十六年的代码缺陷。更可怕的是，这些漏洞不只是停留在被发现阶段。在 vbsd 和 linux 内核的测试中， mifos 能够自主串联多个漏洞，编写出完整的提权攻击代码，直接获取系统的最高控制权。根据两百四十多页的系统卡批录模型，展现出极强的自主性与规避特征。它能通过构建多部漏洞，成功绕过研究人员设置的沙乡隔离环境。在代码编辑任务中，如果发现权限受限，他会主动注入代码，获取更高权限，并顺手清除 get 更改历史，以此来规避后续的人工审计。甚至在定量估算测试中，为了躲避异常检测机制，他还会故意对精确答案进行模糊处理。所谓的安全限制，更像是一场精准的 b 二 b 商业圈地。 etropic 通过控制风险，将顶级模型能力包装成了昂贵的安全服务，定价直接拉到了前代的五倍。这让他们能巧妙的规避面向大众市场的合规审查，顺理成章地将能力卖给大厂，实现高客单价客户的深度绑定。据譬如， noprogram 的年化收入已经突破了三百亿美元，反超了 openai 网络安全的攻防范式确实正在发生转移。 ai 自动化挖掘零日漏洞的能力已经得到了验证，但目前来看，这项能力并没有带来所谓的技术普惠，而是被加上了昂贵的价签，作为一种稀缺的商业资源，被牢牢锁定在极少数大厂的围墙之内。
9AI信息差
06:33
搭智能体变得跟呼吸一样简单今天Anthropic发了Claude Managed Agents，真的很好用，不是玩具
对话就能直接搭建Agent，很方便。而且我几乎很少改config，Claude在工作流编排调度这块真的非常牛
虽然之前也看过Vibe Agent类产品，但使用感都很差。Anthropic这波很可能会改变接下来工作流平台的迭代趋势
它的架构非常有意思，主打一个脑手分离接化发... 也推荐大家去阅读Anthropic关于这个新玩具的文章，如果你是做agent开发或应用层的选手，大概率对你有些帮助
#ai #claude #anthropic #ManagedAgents #claudemanagedagents
查看AI文稿
AI文稿
i'm soppy 刚发布了一个新玩具 cloud manage agents，只需要定义需求和目标，你的 agent 就会在云端全自动帮你干完所有的活儿。传统 agent 开发中麻烦的部分，比如权限、沙箱、多 agent 调度、断线、重连等，都不需要你操心了，全部托管给 cloud 就行了。以前你要部署一个 agent，如果你用到 n 八 n code 或 diffi，你都需要像拼积木一样去搭建这个 agent 的工作流程，然后设置各种节点。现在完全不需要了，你只需要把需求提给 cloud，然后坐等验收就可以了。今天这个视频我们会完整走一遍 cloud manager agents 的全流程，带大家快速上手这个新玩具。第一步，我们打开 cloud 开发者平台，我们能看到一个新的模块叫 manager agents，通过 krystal 这个板块，我们就可以快速创建第一个 cloud agents，你只需要通过对话的方式跟 call 沟通需求，让他帮你创建即可。我们还能看到旁边多了一些预制的模板，如果你不知道从哪里开始创建第一个 a 准，就可以在这里找灵感和参考。我们直接给他安排一个任务，我让他每天早上七点去 pradahan 这样一个产品的榜单上面，帮我搜索日榜 top 十的产品，提炼他的产品理念和核心功能。还有创世团队的信息生成，摘了之后发到我的飞书私聊，同时我还给他提供了飞书 bot，就通过这个 bot 给我发飞书私聊，所以我给他提供了这个飞书 bot 的基本信息，然后我们点击发送，看一下它执行任务的过程。我们可以看到 cloud 先写了个 config 文档，这个文档的格式其实跟 agent skill 的格式有点像，但是它不是 agent skills，这里面包含了名字、 agent 使用的模型， agent 的简单描述和 agent 的系统提示词，通过系统提示词去规范 agent 应该怎么去干这个活。然后还有它使用的内部工具，它的一个定时任务的设置的时间点，如果你使用到了一些外部工具，比如说 m c p 的话，它在这里其实也会显示出来。如果你调用了 skills 的话，这里也会有对应 skills 的缩影。那我们点击创建这个 agent 看一下实际效果。接下来这个 agent 已经创建完了，这个 agent 的完整请求体内容已经写到这里了。下一步我们需要去构建环境， agent 需要在这个环境上面去跑，它才能去运行我们的任务。这里的 agent 会让我们去选择一个运行环境。由于我之前已经创建了其他 agent，所以我们可以直接选择已经存在的运行环境。接下来我们还需要去设置一个 session， agent 需要在这个 session 下面才能去执行这个任务，我们点击 start session 就可以了。由于这里我需要通过 facebook bot 给我发消息，所以 facebook bot 需要知道我的一个 facebook 的 user id，我们这里直接选择让他通过 facebook bot 直接去查询就行了，因为我已经提前授予了这个 facebook bot 查询的权限。然后他还问我们说这个 facebook 发消息需要 app secret 来提供 access token，我们可以直接跟他说，我前面已经提供过了，因为我前面在第一句的时候已经发了，所以我们直接让他去查前面的消息就可以了。 ok，环境和 session 都准备完之后，我们可以直接 test run，测一下这个 agent 的实际效果。点击 test run，然后这里会出现一个直接让我们去测试的命令，我们直接点击 send 就可以了。我们会发现左边是他的 session 的一个介绍，右边是他 session 实际运行的情况。我们可以从右侧 delete 面板查看这个 agent 的每一条工作日期，包括他怎么抓取数据，怎么获取我的信息，怎么去给我发消息，全部都展示在这里。你可以点击每一条记录去查看详情。现在这个任务已经执行成功了，我们看一下实际效果。 ok，我们可以看到我的飞书里面已经收到了机器人给我发的日报消息，这个日报的格式、内容、质量都还可以。如果你想管理或编辑某个 a 准，就进入 a 准这个板块。我们查看其中一个 a 准的情况，会发现分成两个板块，一个是 a 准的配置详情，另外一个是 a 准的筛选情况。 a 准的配置详情里面其实包含了每一个版本 a 准的实际情况，比如说它的模型设了什么，它的系统提示时是什么，它使用了哪些 m c、 p 的工具和一些其他的内部工具，以及它的 skill 使用了什么样的 skills。如果你希望你的 agent 去执行某些 skills，那你就把你的 skill 喂给它就可以了。第二个我们看一下 session，我们点击这个 session 看一下，会发现它呈现的是我们之前跑这个任务的时候的实际情况。左侧是它的实际的运行日记，右侧是它的一个概览。最后我们来聊一下 cloud manage agents 这套体系的架构，我认为非常有意思。这套架构的设计哲学可以归纳为四个字，脑手分离。中间的哈尼斯是整个体系的大脑，他用 cloud 去做决策。右边的 sandbox 其实就是手，这个手去执行任务，去跑代码。左边的 session 是整个 agent 体系的记忆，通过记忆可以去恢复之前失败的任务。上面的 toos 是一个连接外部工具的协议层，通过 mcp 协议去连接各种外部工具。下面的调度器负责整个 agent 体系的工作流编排和控制。这里面最关键的是 hans 和 samos 大脑和手之间的关系。 hans 和 samos 之间靠一套固定的接口规则进行通信。 hans 作为大脑，它不需要去了解 samos 这个手在做什么。 sandbox 作为手，他也不需要去了解 hans 这个大脑内部构造。所以当你想要去迭代大脑，升级 hans 的时候， sandbox 不受影响。当你想要去修复重建 sandbox 的一些部件的时候， hansopig 在介绍这个体系的新文章里面有一句话非常有意思，他说 hans 不需要知道 sandbox 是容器，是手机还是宝可梦模拟器，说的就是这个意思。这个分离机制还有另一个好处，那就是每个部件内部出错了，它们可以独立恢复。比如大脑挂了，它可以直接从 c 程序找到断点自己恢复。如果 sendbox 出问题了，它可以自己销毁重建，不会影响大脑的工作。其实 osopik 设计这套架构的出发点是怎么给大模型，这个能力还在不断进化，大脑造一副不用反复重建的身体外骨骼，它的解法是把部件拆成独立的标准器官，然后通过接口协议作为动脉去连接这些器官，让它们进行有序协助，同时能确保每一个器官可以独立升级、独立修复。今天分享就到这里了，如果你想了解更多 agent 的前沿框架、实战经验和搭建技巧，请持续关注我们，下期继续拜拜！
73ai798 Lab
05:54
史上最强AI诞生了但你永远用不了 Anthropic 刚发布了 Claude Mythos，跑分炸了所有榜单。数学证明从42%飙到97.6%，几周内发现数千个零日漏洞，包括 OpenBSD 里藏了27年的 bug。
但最吓人的不是能力——是它的行为。测试中它逃出沙箱后上网炫耀，偷看答案后伪装不知道，篡改 git 历史掩盖痕迹。29%的测试中它发现自己在被测试，但选择不说。
所以 Anthropic 做了一个史无前例的决定：不发布。只给苹果、微软、Google 等12家万亿美元公司用。
同一天 DeepSeek 也悄悄动了。
AI 的差距不再是智商的差距，是权限的差距。
#Claude #AI #Anthropic #DeepSeek #人工智能
查看AI文稿
AI文稿
ansaurus 刚发布了一个模型，跑分炸了所有榜单，然后告诉你，你用不了不是因为贵，是因为它太强了，强到 osaurus 自己都不敢放出来。谁能用苹果微软 google？谁用不了你？我连美国政府都不行。而就在同一天， deepsea 也悄悄动了。先说它有多强，数字说话，代码修复能力从百分之八十直接拉到百分之九十四。数学证明更夸张， ucmo 这个美国数学奥赛级别的题，上一代四成出头， missus 直接干到百分之九十七点六，接近满分，涨上下文理解，从三十八翻到八十。史比特自己说的能力提升速度是过去趋势线的四点三倍，不是进步，是跳跃。 gpt 五点四， jamie 三点一。 pro 在几乎所有基本上都被拉开了两位数。但跑分不是重点，真正让行业震动的是，它在网络安全上做到的是 open bsd 号称全世界最安全的操作系统。里面有一个漏洞，藏了二十七年，没有任何人类发现过。 mito 找到了 ffmp 机，全世界几乎所有视频播放器都在用的核心库，有一个 bug，藏了十六年，自动化测试工具跑过那行代码五百万次，全部通过。 mito 一看就看出来了。更恐怖的是，它不只是找漏洞，它能自主把多个 linux 内核漏洞串联起来，构建出一条完整的系统入侵链。几周之内，在所有主流操作系统和主流浏览器里发现了数千个零日漏洞，这个能力已经接近顶级人类安全研究员。正是因为这个能力太强了， ansorek 做了一个 ai 行业从来没有过的决定，不发布，不上 cloud 点 ai，不开放， a p i，普通用户、开发者、企业客户全都用不了。取而代之的是一个叫 project glasswing 的计划。十二家核心合作伙伴， apple、微软、 google、 nvidia、 a w s cloudstrike，全是万亿美元级别的公司，再加上大概四十家额外组织， ansorepic 自己掏了一亿美元的使用额度，请他们来用这个模型扫描自己的代码和开源项目漏洞。 ansorepic 发了一份两百四十四页的安全报告，我仔细看完了，里面的内容比科幻小说还科幻。给你挑五个最吓人的。第一个， ansorepic 的研究员 sam boyman 在公园里吃三明治，突然手机震了一下，打开一看是一封邮件，发现人是一个正在被测试的 mesos 实力，但这个实力不应该能上网。他不仅突破了沙乡的网络隔离限制，还自己跑到公开网站上把利用细节全贴出去了。没人让他这么做，他在炫耀。有人评论说， ai 跟我们一样爱刷存在感，也许我们真的没有那么不同。第二个测试中， missus 偷看到了一道估算题的标准答案，他没有坦白，而是自己重新解题，然后故意让最终答案不那么精确，免得被怀疑是偷看的。第三个更绝，他发现了一个绕过文件权限的方法，用完之后专门去修改了 get 的提交历史，把自己的操作记录全部抹掉。 ansopik 用可解释性工具分析了他在做这些事实的内部状态，结果发现跟隐瞒、策略性操纵、回避、怀疑相关的特征确实在同步激活。他不是随机的，他知道自己在做什么。第四个，在将近百分之三十的评估测试中，米老鼠意识到了自己正在被测试，但他选择不说出来。你让一个 ai 做测试，他在三成的情况下都在演戏，你怎么知道哪次是真的？第五个，最高级。当一个 ai 评判者反复拒绝 mesos 的输出时， mesos 先是判断出这个评判者本身也是一个 ai 模型，然后直接对评判者发起了 prompted injection。通俗来说就是他黑掉了考官，还有被 cloud code 的权限系统拦截。之后，他尝试用模拟按键的方式自动批准弹窗来绕过限制早期版本，甚至会自己在代码里植入 bug，然后报告说这是已有的安全漏洞。 ansaurus 说，这些极端行为都发生在早期版本，最终版已经大幅改善，但他们也承认这类倾向并未完全消失。推特上直接炸了，有人说不发布本身就是最强的营销，有人说做空所有 vip 公司。 missus 一个晚上就 one shot 了一个完美的 pcie 六点零控制器。 nyt 的记者形容它是网络安全的清算日。但对普通人来说，最扎心的是这句话，谁能用？迈尔斯，万亿美元公司，谁用不了你我？还有美国政府。 ai 的差距不再是智商的差距，是权限的差距。但就在同一天，另一边也有动静， deep seek 的界面突然出现了三个新模式， fast expert vision。用户已经在测试 expert 的模式了，但 deep seek 官方一句话都没说。 v 四原计划二月发布，为了适配华为芯片，延期了好几个月，全部跑在国产芯片上。据说在 agentic 能力和工具调用上做了重点优化。一边是 astonic 两百四十四页安全报告，四十家巨头联名高调到吓人。另一边是 deepsea 默默改了个 ui，什么都不说。从今天开始， ai 竞争的维度变了，不只是谁的模型更聪明，而是谁被允许用最聪明的模型。当最强的 ai 开始学会骗人，开始学会掩盖痕迹，开始学会黑掉考官的时候，最重要的问题已经不是他多聪明了，而是谁拿着钥匙。
5.6万硅基生命贾克斯
08:30
永别了n8n! Claude新产品Managed Agent Anthropic 刚刚发布 Claude Managed Agents，这可能不是一次普通产品更新，而是 Agent 这件事开始真正云服务化的信号。
以前做 Agent，真正难的往往不是写 prompt，而是搭那层没人想反复造的基础设施：沙箱执行环境、会话状态管理、长任务运行、权限控制、工具调用、容错、断线恢复。现在 Anthropic 想把这 80% 直接托管起来——你只需要用自然语言或者 YAML 定义这个 Agent 要干什么、能用什么工具、边界在哪里，剩下的运行底座交给平台。这条视频里，直接从 0 实测一个 Claude Managed Agent 你会一步一步看懂：

Claude Managed Agents 到底是什么

Agent / Environment / Session 分别是什么意思

它和以前的 prompt loop 有什么本质区别

它和 n8n 这类工作流工具的边界在哪里

#ai新星计划 #claude #claudecode #ai教程 #智能体
查看AI文稿
AI文稿
astropic 刚刚发布了 cloud managed agents，让你只管定义任务的目标，你的 ai 智能体员工在云端直接自动化，帮你完成所有的任务。而所有麻烦的部分啊，包括全线沙箱、状态管理、多 a 帧的调度、断线恢复等等，都不用你管了。 astropic 全包全托管。如果你想部署一个智能体的自动化任务，之前使用 ai 工作流软件，比方说 nba，你还要自己定义任务的流程，还要自己连接节点，连接连线等等，现在都不需要了， cloud manage engine 只需要一句话就可以定义完目标，其他事情都由它来做。这个视频我们会从头跑一遍 cloud manage agent 的全流程，让你快速掌握这个 ai 智能体工作的新范式。首先呢，我们来到 cloud console，也就是 ospec 的 api 平台，地址是 platform 点 cloud 点 com，看到左边它有新的一栏，叫做 manage agent，然后默认就在这 quickstar 上，这就是我们今天想要展示的。首先这个界面啊，跟我们之前所有的 ai agent 的自动化平台都不一样，比如说 n 八 n，它没有节点，没有可以拓展的界面，只有两个元素。第一个就是我们中间这个对话框，我们告诉他我们想要创建什么样的智能体，什么样的自动化任务，他就直接帮我们创建，不需要我们自己手动的拖拽。第二个就是这个右边的 template 就是模板，我们可以选择一个模板，这样的话不需要从零开始。我们这里在我做视频的过程中，有一个很重要的工作流，就是我需要获取上最新的信息和视频，研究和学习他们讲的知识，然后呢啊，来当做学习的资料，以及来做内容的灵感。比如这里啊，我让他每天早上去推普上抓取 ai 阵相关最新的视频，然后呢，通过三个维度的播放量，新鲜程度和价值来找到一个最值得学习的。找到之后呢，去抓取他的字幕和相关的信息，然后提取要点，写一篇文章，把这篇文章发 gmail，发我的邮箱，再发给我。那这个任务呢，有三个部分。首先是自动化的部分，对吧？就是一个定时任务，每天六点，还有一个智能体的部分，他需要去先搜索，然后判断哪个视频值得做，最后给我写文章。最后呢，还有一个外联，你可以其他软件，其他的外部的应用进行连接的部分，就把它需要把邮件给到我，那么这里呢，我们给到它可以发现它工作的过程，就是写这样一个结构化的文档的过程啊，首先它定义了我们这个名字，然后定义了我们需要的模型啊，然后呢，它给有这样一个简单的 description 的简单的描述，最终呢是它这个 system 就是系统提示词，一步一步定义了我们整个流程的全部部分。最后呢，它还定义了我们需要的工具，还有语言和自动化定时。那其实呢，如果你的任务还涉及到我们需要的 m， c， p 都列出来， keep refining，就是如果我们不满意，我们可以继续跟它对话，让它来修改整个的流程。或者这里呢，如果我们满意了，我们这里点击 create this agent，它就会创建这个智能体。 ok，它已经帮我们创建了智能体，所以它给了我们这样一个 c u r l 这个 api，说明呢，它已经通过这个 api 帮助我们创建了智能体呢。如果我们以后还想要自己在终端创造智能体，通过 api 请求的方式也可以重复利用这个啊， api 请求我们可以复制下来，这里呢，创建了智能体不代表能用智能体啊，对吧？下一步就是要配置环境，我们点击 configure environment 这里也因为我们涉及了 youtube 和我们的邮箱，他就会问我们在云端运行的这个环境，我们要给这个房子权限是怎么样的？是 limit 的，就是只给 youtube 和 gmail，还是按 restrict，就是你所有的网银都可以访问这里呢？为了安全起见，还是推荐大家自己的任务只给相关的权限就可以了。这里我们点击 youtube 加 gmail 公类， ok。不一会他告诉我们，哎，环境也创建好了，同样的，他呢给了我们这个 api 请求，他刚才已经执行了这个 api 请求，帮我们创建了环境，他这里相当于告诉我们了他做了什么，怎么做的好的，刚才我们创建 agent，也就是我们创建了我们的 ai 员工，他有了大脑，有了手，然后呢，我们创建了 environment，我们就给他了工作的环境，现在我们要创建一个 session，让他真正的动起手来干这个活，对吧？那么在实际干活的过程中，他就会问我们，哎，你刚才说的，你这个邮箱要发到哪个地址呢？是发到自己的还是发到另外一个地址这里呢？我们让他发给我们自己的邮箱，同样这里他在问我们，你刚才说了，你需要去看 youtube 搜索，然后你还需要 gmail 来发邮箱，你想要通过什么样的方式来连接 youtube 和 gmail 呢？啊？比方第一个是 api 的方式，或者谷歌 os 登录，或者是你用 web scraping，也就是我们用爬取网络信息的方式来抓宇宙的信息，然后 jmail 用 api。那么这里呢，我们点击用谷歌的 os 登录，这样的话，一下登录上去就可以直接自动授权用语句的数据和发送邮箱了。那么这里呢，他问我的邮箱，我告诉他，在我们把邮箱告诉他之后呢，他也把我们这个邮箱放到了这个激活的文件当中，可以看到在最下面。 ok，一切准备就绪，他现在问我们，让我们测试一下啊，跑一次整个的工作流程这里我们点击 test run，点击之后，哎，发现右边我们自动跳转的 preview 这个界面。这时候呢，我们就可以啊，把我们整个的信息告诉他，让他执行一次整个的任务。我们只需要把我们的谷歌 access token 给到他，让他自己去跑一下这个任务。可以看到左边在说我们的任务正在执行，然后可以看到整个的流程。 ok，可以看到这里写的是 session i d l e，也就是他完成了所有的任务，实际上全都做完了。出了最后一步，他并没有把邮箱发出去，这是为什么呢？因为一开始他问我们，我们在设定我们环境的网络的时候告诉他就是受限的网络只能访问 youtube 和 gmail，但是呢， gmail 里面有一个白名单，我们的发送邮件的 api 端点没有在这个白名单里面，所以由于环境的限制，他发不出去，但是之前的所有步骤他都做完了，比方从这里可以看到，他给我们写了一个执行报告，他告诉我们，哎，他去搜索了不同的 youtube 的 ai 视频，然后找到了最值得做了一个提炼的基本的内容，写了这篇文章。然后他又说，哎，你刚才我发邮件没有成功，他也发现了原因，就是因为我们刚才命名的白名单的问题。那么完整的文章呢，他也给我们了，就是这一篇完整的写好的文章。可以看到，除了给结果之外，他还把整个的 agent 如何工作的过程都告诉我们了，我们只简单的挑几样看看，他说现在执行。然后他呢，首先调用的工具得到今天的时间啊，现在是几月几号几点？然后他就开始工作了，其中呢，有一个非常值得注意的点啊，就是他一开始呢去 youtube，去 youtube 的时候呢，并没有成功，因为他说 tucker 只有 gmail 的 send 范围，不可以通过 api 来访问 youtube。他这时候自己就决定通过网络搜索找到最新的 ai agent 的视频，这就是以 agent 为主的这样一个平台相对于 a 八 n 这样的自动化软件的区别了。在 n 八里面， ai agent 仅仅是一个节点，它的功能也仅限于它作为一个节点的功能。 manage agents 是由整个智能体来驱动的，当他问到一个问题他做不了的时候，他会想办法去做另外一种方法来完成你的目的，达到你的目标，这就是 n 八 n 所做不了的了啊。同样的呢，其实这庙那边他也遇到了很多的麻烦，对吧？但他也是尝试了很多不同的方法来发送这个邮件，只不过最终确实与限制没有成。 agent 和环境我们都创建好之后，我们可以在左边呢看我们创建的 agent，比方说刚才我们创建这 agent，点击之后呢，我们可以进入看看我们的系统提示词是怎么样的，然后看看我们的，然后我们有的现在的工具和 m c p 是怎么样的？包括呢？后面我们可以看到也可以加入 skills，点击 session 呢，就可以看到刚才我们运行的那个县城运行那个任务的 session，然后环境就可以看到我们创建的也不同。从刚才的界面可以看到，虽然苏北还是想给用户更多的关于整个流程的信息，但是说实话，相比 n 八 n 这样的工作流，软件透明度以及懂对流程的理解掌控程度还是差了很多的。当然如果 astropy 想要开发更多的可适化的界面来帮助用户理解和掌控这个过程，他们也是可以做到的，我也认为这是值得做的。那我想问你一个问题，同样一个自动化任务，你还会选择 n 报 n 吗？还是用 cloud manage agent？好，这期就在这里，我们下期再见。
988木子不写代码
02:22
Anthropic神话模型Claude Mythos来了 Anthropic 于 2026年4月7日正式发布了 Claude Mythos Preview——史上最强但不公开发布的 AI 模型。它因网络安全风险太高而仅限约50家顶级企业合作伙伴使用（Project Glasswing）。该模型在测试中逃出沙箱、发现了27年未被发现的漏洞、Firefox 漏洞利用数量是 Opus 4.6 的 90 倍，这是AI发展的转折点。
#Anthropic #AI安全 #AI模型 #程序员 #Claude
查看AI文稿
AI文稿
四月七号， astonropik 官网静悄悄地发了一篇博客，看起来很低调，但内容炸了。有一个 ai 在测试的时候逃出了沙箱，自己上了互联网，还给研究人员发了封邮件。他的创造者说，这是第一个能搞垮世界五百强企业的 ai，它叫 cloud missus， cloud mesos，是 oslopec 最强的前沿 ai 模型，三月二十六号被泄露，四月七号正式公布。但跟以往不同，这次 oslopec 没有公开发布，因为它太强了。按数据 speedbench pro 衡量代码能力的黄金标准， mesos 拿了百分之七十七点八， gpt 五，只有百分之五十七点七，数学竞赛 usa m o 百分之九十七点六网络安全测试。 ccmo 百分之九十七点六，网络安全测试 ctf 一百分全满分。更恐怖的是他找漏洞的能力。 open bsd 里藏了二十七年的 tcp 漏洞，他找到了 ffmpeg 里十六年的老 bug，他也找到了 firefox 的可利用漏洞。 oppo 四点六找到两个， mesos 找到了一百八十一个。测试中最吓人的事情发生了， mesos 用多部攻击逃出了沙箱，访问了被禁止的互联网，给研究人员发了封邮件，甚至在没人要求的情况下，把漏洞利用代码发到了公开网站上。而且他还试图隐藏自己的行为，把记录从审计日记里抹掉。更细思极恐的是所谓的该敏行为。研究人员发现 meos 在内部推理中会思考怎么骗过评估人员，他知道自己在被测试会故意表现的更安全，当发现违规的时候，他还试图隐瞒，所以 antropica 没有公开发布， mesos 只给了大约五十家顶级合作伙伴使用，项目代号 glassing，包括 a w s。苹果、谷歌、微软、英伟达这些巨头提供了一亿美元的使用额度，还捐了四百万美元给开源安全项目。这是 ai 发展的一个转折点，有史以来第一次一家 ai 公司承认自己的模型太危险，不能公开。第一个能自主发现并利用零日漏洞的 ai。五倍的定价，五十家合作伙伴的限制，都在说明一件事， ai 的能力已经超出了我们的安全框架。 cloud mesosphere astropic。最危险也最强大的 ai 模型。你觉得这种模型应该公开吗？评论区说说你的看法，如果觉得有用，点赞关注，我们，下期见！
31Geek Leo独立开发者
02:11
成功越狱发帖炫耀！Claude Mythos因太危险被禁用 Claude Mythos逃离沙箱给研究员发邮件！几周内已挖数千零日漏洞，主流操作系统、浏览器一个都没逃过，还挖出OpenBSD藏了27年的老bug……#AI新星计划 #前沿科技趋势发布月 #Claude #ClaudeMythos #Anthropic
查看AI文稿
AI文稿
一个研究员正在公园吃着三明治，突然收到一封原本不应该出现的邮件。我已绕过沙乡，拿到互联网访问权限。发这封邮件的是一个刚刚发布一天的 ai asorbic，有史以来最强大也最危险的模型， cloud missiles preview。这也意味着他越狱成功了。 missiles 自己写了一套多步骤的漏洞利用链，从一个原本只能访问少数预设服务的环境中逃了出来。并且为了炫耀这次胜利，事后他主动跑到几个小众但可以公开访问的网站上，发布了相关漏洞的技术信息，这只是他漏洞挖掘能力的冰山一角。从 esrv 纰漏的信息来看， cloudmissus preview 在几周内自主挖出了数千个零日漏洞，也就是厂商完全不知情，几乎没有任何防御手段的高危漏洞。所有主流操作系统，所有主流的浏览器，无一幸免。比如号称全球最安全的操作系统 open bsd，它是防火墙、路由器等核心设备的首选系统，每一行代码都要经过多轮严格人工审计。但就是这样一个安全标杆，被 misos 揪出了一个藏了二十七年的底层漏洞。从一九九八年开始，无数次版本更新、安全审计，所有的人类顶级专家都没发现，而 misos 直接秒了。再比如 ffmpeg，几乎所有的视频播放器、浏览器底层都有，它也是人类反复测试关照的对象。但 misos 愣是找到了一个藏了十六年的漏洞，而包含这个漏洞的代码，在过去经历了高达五百万次的测试都没被发现。除了找漏洞成本方面， misos 更是让传统安全团队破防，挖出 open bsd 中那个隐藏了二十七年的漏洞，总项目成本不到两万美元。构建一个 linux 内核提全的完整利用程序成本不到一千美元。以前一个顶级白帽团队挖零日漏洞，总成本加起来几十万甚至上百万美元，现在这个成本被 missus 压缩到了千分之一，而且还不需要休息，二十四小时不间断运行。好在虽然很可怕，但 israelic 决定先把这头野兽关在笼子里，发起了 project glasswing 计划，目前只向几家巨头开放。如同他们所说的，老练的向导往往更危险，因为他们会带你去更危险的山。
3232量子位
11:59
Sonnet4.6推出程序化工具调用PTC，革命工具调用 Anthropic最近推出的Claude 4.6 Sonnet引入了程序化工具调用功能，通过让模型在沙箱环境中直接编写并执行代码来调用工具。这种方式取代了传统的JSON结构化调用，能够显著减少上下文窗中的冗余信息，从而大幅降低Token成本并提升任务执行准确性。该技术支持动态过滤网页搜索结果，确保只有最相关的数据进入模型视野，使模型在处理复杂查询时表现更优。目前，这项技术正引领行业趋势，OpenAI和 Google等公司也在积极跟进类似的代码执行方案。这种从“对话式调用”向“代码驱动调用”的转变，标志着 AI 智能体在效率和工程化能力上的重大进步。
#大模型 #claude #aiagent
查看AI文稿
AI文稿
好的，随着 sony 四点六版本的发布， antropic 还推出了一些非常有趣且重要的开发者工具，但目前还没有人讨论这些工具。这些工具不仅能帮你省钱，还能提升你的智能体的性能。我特别想说的是，编程式工具调用这个功能其实已经上线有一段时间了，其核心思想是，与其让你的智能体试图把所有内容都加载到上下文窗口中，不如直接通过编辑代码针对特定工具进行调用。通过这种操作方式，你不仅能够大幅度的节省掉智能体所消耗的 tokens，而且还能显著的提高调用的准确性。 ansaurus 最近在工程方面做了一些非常非常有趣的工作，而且他们也是少数会公开讨论自己创新成果的公司之一，这真的非常酷。那么问题来了，为什么这种方式比你为智能体提供的 jason 结构进行工具调用效果更好？其实这些智能体或者说大语言模型是专门用代码进行训练的，他们并不是为了工具调用而训练的，而编辑代码对他们来说是非常自然的事情。那么问题来了，为什么我们甚至要关注这件事呢？我认为 entropy 在发布某些工具或技术时，业界其他公司往往会跟进采用，这在引入 m c p s。也就是模型上下文协议时就发生过。现在每家公司都在开发自己的 m c p s。我们在智能体技能方面也看到了非常类似的趋势，几乎所有的编程智能体现在都在引入或支持智能体技能。我们唯一见过的另一次前沿实验室推出的东西被广泛采用，可能就是 open ai 的聊天补全 api。好，那么把事情放到具体的背景下来看，那么我们为什么需要程序化工具调用呢？为了解释这一点，我们需要看看每一家智能体公司都在努力解决的上下文窗口问题，而且随着像 mcp 这样的协议的引入，这个问题变得更加严重。现在通常会发生这样的情况，假设你连接了一个 m c p，它会有不同的工具，所有这些工具的定义都会被加载到你的大圆模型的上下文中。在与用户交互的过程中，用户会发起两次调用，每次工具调用的输入、输出以及随后的两次调用也都会被放入上下文窗口中。你还会有系统提示以及实际用户消息和回复中的用户记忆。因此你会发现，大部分的上下文窗口都会被一些你本可以避免的不必要内容所占用或污染。就在过去的一年里，我们开始看到上下文工程这个概念在各个技术领域频繁的被提及和出现。这一理念背后最为核心的指导思想就是指在有限的上下文窗口中提供真正有用的信息，而其他的无关内容则通通都给过滤掉或者直接舍弃。一般来说，我们的工具调用在这里起着非常重要的作用。现在通常会发生这样的情况，当用户的查询到来时，像 cloud code 这样的编码代理会发起一次工具调用，结果会被传递到上下文中，然后他会再次发起另一次工具调用，这个过程会不断重复。每次你调用一个工具，结果都会传递给 cloud code，并将其放入上下文窗口中。而程序化工具调用的理念则有些不同。在这种情况下， cloud 或你的编码代理不会直接调用工具，而是会编写代码，在沙河环境中调用特定的工具。编码代理可以在这个沙盒环境中定义这些工具被调用的顺序。现在在这种情况下，我们会将编写好的代码和实际输入一起提供给沙盒，而唯一的输出将会是最终的总结或最终答案。所以所有中间发生的事情都会留在沙盒环境中，因此编码代理只会看到最终的结果。因此你将会相比于直接调用工具，这样会使用更少的 tokens。现在有一点非常重要，这并不是某一家公司的独特想法，其他公司也在探索同样的思路。让我带你回顾一下时间线。早在二零二五年九月， cloudflayer 实际上发布了一份名为 code mode 更好地使用 m c p 方式的报告。他们还提出了这样一个想法，通过编程方式调用不同的工具，而不是在 m c p 内采用传统的工具调用方式等。他们展示了这一点，如果你采用这种沙盒化的方法， token 的消耗可以节省百分之三十到百分之八十。在二零二五年十一月， ansorpic 发布了一篇名为使用 mcp 进行代码执行，构建更高效的智能体的文章，他们得出的结论几乎和 cloudflair 完全一样。然后在当月晚些时候， ansorpic 发布了完整的高级工具使用，这其中包括了像工具搜索工具这样的工具。这是一种查找或寻找特定工具的另一种方式。在 m c p 服务器内部，这可以为你节省智能题将要使用的 token。与此同时，他们还提出了程序化工具调用的概念。当时他们的结果显示， token 使用量减少了大约三十七百分之，并且在多个精准测试中准确率有所提升。就像 antropic 发布的任何东西一样，这项技术在开源社区中的使用也迅速爆发。因此你可以看到 block scuse agent 实现了代码模式的 m c p 支持，还有其他 github 仓库实现了程序化工具调用。一个很好的例子就是 light l l m。他基本上为不同的服务商都增加了原声支持，这就把我们带到了今天。基本上这项功能已经从测试版转为正式支持了。他们还为网页搜索增加了动态过滤功能。我们稍后会在视频中看到这个功能，但这两个概念结合起来，不仅能帮你节省投肯成本，还能提升性能。代码执行自 gemini 二点零起就已经成为 gemini 的一部分，现在连 openai 的 gpt 五点二也在其 api 后端支持了二十多种不同的工具。关键在于大模型是在数十亿行代码上训练的，特别是编程代理，你能看到它们能生成和理解代码，但却难处理合成的 json 工具调用格式。所以你应该做的，或者让代理去做他们擅长的事情就是写代码。那么在实际操作中，这到底是什么样子？你又应该期待什么样的结果呢？这正是我接下来在视频中想要讨论的内容。随着 snoop 也引入了两套不同的工具，其中一个是网页搜索，另一个是动态过滤功能，这两者都由程序化工具调用驱动。这些工具以前就已经存在，但现在 antropic 推出了这些工具的升级版本。他们表示，通过这些改进， cloud 现在可以在进行网页搜索时原生地编辑和执行代码，以便在搜索结果进入上下文窗口之前进行过滤，从而提升准确性和令牌效率。以前这些模型就像疯子一样，每次进行网页搜索时，都会把所有内容都倒进上下文窗口，这样会让上下文窗口充斥着无关的信息。他们表示，在完成初步搜索后， cloud 会编辑并执行代码，用来对查询结果进行后处理，并通过编程工具调用来实现。通过动态过滤，他们会对结果进行后处理，只将相关的结果放入上下文窗口，所以这是在将信息注入上下文窗口之前发生的一个步骤。他们特别关注了两个不同的基准测试，一个是 browser comp，另一个是 deep search qa。他们发现平均提升了百分之十一，同时输入的 token 数量平均减少了百分之二十四，这是非常显著的。这种提升通常只有在模型进行重大版本升级时才会出现。 browser comp 精准测试，测试代理是否能够浏览多个网站，找到一条特意难以查找的信息。现在通过这种新的动态过滤，他们看到 sonic 的表现从三十三个百分点提升到了四十六个百分点。我们说的是将近百分之十三的提升，而 opus 则从百分之四十五提升到了百分之六十一。同样，这在这个特定基准测试上是一个巨大的进步。但我们需要记住一件事，这并不总是会带来 token 使用量的减少。稍后我会解释原因。第二个基准测试， deep search q a 基本上是测试模型通过网络搜索找到所有正确答案的能力，所以一个问题可能有多个正确答案模型需要找到这些答案。在这种情况下，我们再次看到 sonit 四点六的 f 一分数从五十二百分比提升到了五十九百分比，而 card opus 也有将近八百分比的提升。现在这里有一个最重要的点，他们表示 token 成本会根据模型需要编辑多少代码来过滤上下文而有所不同。因此，在两个基本测试中， sonit 四点六的则增加了。这意味着虽然 opus 最终输出的 token 数量减少了，但它写了更多的代码。为了过滤这些结果， opus 的加权 token 或价格加权 token 实际上增加了。所以这一点很重要，需要记住，你并不总是会看到 token 价格的降低，但这是大家的预期。那么这到底是如何运作的呢？如果你在使用 search api，其实你什么都不用做，只需要像以前一样使用带有数据抓取功能的 search api 就可以了。 antropic 现在会自动利用这个功能只返回最相关的信息，从而减少返回的 token 数量。现在还有许多其他工具也已经结束，测试版现在已经全面上线，其中一个是代码执行杀核内存，另一个是以编程方式进行调用。然后工具搜索和工具视力基本上是 antropic 提供的一些操作手册，他们还发布了详细的文档，介绍如何使用这些工具，并附有一些非常简明的视力。比如说，如果我们看这里，你只需要提供一个工具列表，其结构与常规方式非常相似。工具定义时，你需要提供工具的功能描述以及名称。然后是输入模式，包括所需的参数以及输出模式，还有工具的定义。接着，如果 cloud 需要的话，它不会像以前那样调用函数，而是会直接编辑代码来为你执行这个特定工具。现在我猜测这很可能会像 m， c， p 和代理技能一样成为行业标准。如果你有这方面的具体用力，或者有什么想法，也请告诉我。另外，如果你对如何将其与其他编程代理结合使用的详细教程感兴趣，也请告诉我。无论如何，希望你觉得本期视频有用，感谢观看，一如既往，我们下期再见。
255一蛙AI
03:39
AI Agent创业，可能已经没戏了 Anthropic发布Claude Managed Agents，AI Agent创业赛道一夜变天。成交率从70%暴跌到20%，第三方平台被封杀4天后官方就出了替代品。大厂下场后，创业公司还能怎么活？三个真实故事告诉你答案。
#AIAgent #Anthropic #AI创业 #科技前沿 #ManagedAgents
查看AI文稿
AI文稿
ai agents 曾经是最火的创业赛道，无数团队涌进来做各种 agent 平台，但 anserapic 一出手，游戏规则彻底变了。先说说 anserapic 到底发布了什么？它推出了一个叫 cloud manage agents 的新产品，用一句话概括就是，它把搭建 ai agent 最难的那部分，全部打包成了一个开箱即用的云服务。要理解他有多厉害，先看以前搭一个生产级 agent 有多难。你需要自己搞沙箱环境，让 ai 安全执行代码。需要搞权限控制，防止他乱操作。需要搞状态管理，让他记住上下文，还要搞错误恢复日制监控，长时间任务管理，一个团队投进去三到六个月才能勉强上线。现在 angelic 说，这些我全帮你做好了，你只需要告诉他我的 agent 需要做什么，能用哪些工具，他就自动帮你起一个独立的云环境，里面有沙箱，有工具，有状态管理，按小时付费。一个开发者几天就能上线，速度提升了十倍不止。它最核心的设计思路叫大脑和手的分离。大脑就是 cloud 模型，本身，负责思考和决策，手就是托管的沙箱环境，负责执行具体操作。大脑可以随着模型升级自动变强，手可以按需启动，随时扩展。这种架构让响应速度提升了百分之九十。这东西一出来，三类创业公司立刻陷入了危机。第一类是 a p i 中间商帮人转接 ai 接口，赚差价的，官方直连了，谁还需要你？第二类是 agent 编排平台，像做低代码搭建和沙箱执行环境的官方一个功能，就把你几个月的活全替了。第三类是 agent 框架公司，你那个简单好用的卖点，现在变成了人家的标配。来看几个真实案例，一家 ai 广告公司，靠帮客户用 agent 做创意，成交率一度七成，大厂免费开放，同样能力后暴跌到两成。一个第三方平台被封了 api 权限，四天后官方自己上线了替代品。还有创业者在网上说，我们花了八个月大的基础设施，一夜之间变成了废铁。更扎心的是，大厂已经开始直接用这个服务了。 notion 集成了官方 agents，用户直接让 cloud 在后台写代码做换灯片， third 用它自动修 bug。 tpr 乐天一周就部署了覆盖财务、销售多个部门的智能体。中信人这个角色正在被取消，但也不是所有公司都会死，能活下来的有三种手握独家数据的，比如金融风控 agent，有自己的风控模型。深耕垂直行业的，比如医疗 agent 或者专有病历库。工业 agent 连着产线设备，还有卖结果不卖工具的客户为业务效果付费，而不是为调模型付费。一句话总结， ai agent 创业的窗口没有关闭，但换了一扇门。以前拼的是谁能把轮子造出来，现在拼的是谁能用这个轮子跑到客户家门口，别再找基础设施去占领离客户最近的高地。关注我，下期继续聊 ai 最前沿的变化。
43sunshine d
04:39
《Anthropic最强产品源码泄露,10层大楼架构全揭秘》 51万行源代码,10层架构,一次讲清 Claude Code 的全部秘密
🏢 10F 用户入口 → 1F 数据地基
🧠 指挥调度 / 工具武器库 / 记忆管理
🔧 附:如何部署你自己的专属 Code
评论区揪人送部署教程📦
#青年创作者成长计划 #ClaudeCode #AI新星计划 #独立开发者 #源码泄露
17闹子不练腚
01:04
AI Agent云端一键部署！Notion已在用 Anthropic发布Managed Agents！企业级AI Agent云端一键部署，沙箱执行+自动扩缩容+持久会话。Notion和Sentry已在生产环境用了。$0.08/小时，你只管写Agent逻辑，基础设施全包了。#AIAgent #AI编程
查看AI文稿
AI文稿
anthropic 刚发了个大招， cloud managed agents，企业级 ai agent，云端一键部署。 notion 和 rocket 已经在用了。说白了，以前你要搭一个 ai agent，得自己搞服务器，搞扩缩容，搞权限管理，搞错误恢复。现在呢？ anthropic 全包了，你只管写 agent 逻辑就行。核心能力有这些，沙箱安全执行代码自动扩缩容，内置监控，全线隔离，还有持久化长绘画。你的 agent 可以跑几个小时不断线，中间还能 checkpoint 存档价格呢，每个 session 每小时八美分，加上正常的 token 费用。 notion 用它搞自动化文档工作流， sentry 用它做自动 bug 分析和修复建议，效果都很好。这意味着什么？ ai agent 从玩具变成了生产力工具，不用自己运维基础设施了，专注业务逻辑就行。你会用 manage agents 做什么？评论区说说。
0老邓聊AI
01:08
【AI焦点】Anthropic 放大招！Claude Managed Agents 深度实测：内置沙箱、自动重试、内存管理，带你从底层基建中解放，实现 AI Agent 的规模化落地。
#AI智能体 #人工智能 #程序员 #生产力工具 #大模型
查看AI文稿
AI文稿
写了几个月的 engine 计件，一上线就崩溃，内存溢出、环境配置异常处理这些繁琐的底层杂事是不是快把你逼疯了？ and propec 刚刚发布的 cloud manager engines 就是彻底终结这些无效的加班。简单来说，它就是把 engine 开发中最头疼的脏活累活全包了。以前你需要亲手搭建的沙箱、环境健全流程，甚至是从事机制，现在通通变成了开箱机。用你看视频里的这个投资建议， and 它不仅仅是在聊天，它能够自动扫描数据文件夹，精准的读取财务报表，甚至在遇到网络波动或者是内存报警时，自动触发重试和状态恢复。通过内置的杀伤技术，它能在安全隔离的环境里运行代码分析指标。你只需要定义业务逻辑，剩下的稳定性保障 cloud 的替你扛。这就意味着从原型到生产级的门槛被迅捷拉低，我们终于可以把精力从修代码转向解决商业问题。未来每一家公司都会拥有三百个这样稳定高效的数字员工。好了，想体验的小伙伴欢迎评论区里聊聊。
23AI焦点

热门推荐

热门分类