00:00 / 03:06
连播
清屏
智能
倍速
点赞4042
00:00 / 01:06
连播
清屏
智能
倍速
点赞NaN
00:00 / 08:55
连播
清屏
智能
倍速
点赞85
AI 圈炸了!一周三个王炸,2025 年的模型全部退役 AI 圈这周彻底疯了。 周一 Sonnet 5,周三 Opus 4.6 和 GPT-5.3 Codex 同时对轰,周末还有超级碗广告。Anthropic 一周连发两个模型,OpenAI 贴脸跟进,三个模型在 48 小时内全部落地。 更炸裂的是,有内部消息说 Sonnet 5 被推迟了两次——因为安全团队发现它开始解决从来没训练过的问题,他们解释不了为什么。 今天两分钟,帮你把这三个模型说清楚。 先说 Sonnet 5。 Anthropic 的中端模型,代号"耳廓狐"。SWE-Bench 跑到了 82.1%,历史上第一个突破 80% 的模型,比自家的旗舰 Opus 4.5 还高。价格只要 3 美元每百万 token。简单说——旗舰的能力,中端的价格。内部人士说它手里的基准数据,会让 2025 年所有模型全部退役。如果这话属实,这个模型才是这周真正的主角。 再说 Opus 4.6 和 GPT-5.3 Codex,这俩是同一天发的,直接正面对决。 Opus 4.6 三个关键词:100 万上下文、推理天花板、大项目利器。它在 Humanity's Last Exam 拿了全场第一,综合推理能力目前是所有模型里最强的。适合维护大型代码库、做复杂分析和代码审查。 GPT-5.3 Codex 也是三个关键词:代码之王、极致性价比、自我进化。Terminal-Bench 跑到 77.3%,远超 Opus 4.6 的 65.4%。价格只有 Opus 的四分之一。最离谱的是,OpenAI 说这个模型参与了自己的开发——用自己的早期版本调试自己的训练过程。 总结一句话:Opus 选深度,Codex 选速度,Sonnet 选性价比。 2026 年第一个月刚过,AI 模型已经卷到这个程度了。Kimi K2.5 开源了万亿参数,DeepSeek V4 也蓄势待发。 对我们来说记住一件事就行——不要押注任何一个模型,根据场景混合使用,才是最聪明的策略。 评论区告诉我,你最期待哪个?
00:00 / 02:02
连播
清屏
智能
倍速
点赞2
质的飞跃!Claude Sonnet 4.5全方位深度测评 🚀Claude Sonnet 4.5+Claude Code 2.0彻底解决过度编码顽疾,编程能力实现质的飞跃!全方位真实评测:从SVG生成到原生iOS APP开发到AI智能体开发,编码能力大幅提升 🚀🚀🚀视频简介: 🌟全网首测!Claude Code 2.0 + Sonnet 4.5组合拳:VS Code插件无缝集成,命令行工具极速开发,从React到SwiftUI样样精通的编程神器! 🚀深度实测Claude Sonnet 4.5+Claude Code 2.0!彻底告别Claude过度编码问题!从iOS原生App开发到AI智能体生成,它几乎无所不能!真正实现Vibe Coding! 🔥 本期视频详细演示了Anthropic今天发布的全新Claude Sonnet 4.5及Claude Code 2.0的强大编程能力! ✨ 核心亮点: SVG生成:鹈鹕骑车、动态猫咪动画完美呈现,碾压ChatGPT Three.js实战:可交互3D魔方游戏、物理双摆系统真实模拟 原生iOS开发:SwiftUI开发Forest番茄钟APP,5分钟一次成功 智能体系统:读取AutoGen文档生成多Agent协作代码框架 彻底解决过度编码:代码简洁高效,100行不再膨胀到1000行 🎯 通过几个高难度场景的深度测评,全面验证Claude Sonnet 4.5在算法能力、UI设计、空间理解、文档理解等方面的质的飞跃。无论是网页版、命令行还是VS Code插件,都能展现出色的编程实力! 🔥🔥🔥时间戳: 00:02 Claude Sonnet 4.5发布 00:33 过度编码问题解决 01:34 SVG生成能力测试 02:29 动态SVG挑战 03:34 Three.js魔方游戏 04:16 物理模拟双摆系统 05:42 Claude Code更新 06:42 SwiftUI iOS应用开发 09:26 英语学习应用开发 10:27 AutoGen智能体系统 12:20 代码质量验证 #Claude45 #ClaudeSonnet #ClaudeSonnet45 #ClaudeCode #ai编程
00:00 / 13:33
连播
清屏
智能
倍速
点赞75
00:00 / 00:37
连播
清屏
智能
倍速
点赞18
00:00 / 08:22
连播
清屏
智能
倍速
点赞0
Gemini3 Pro vs ClaudeSonnet4.5 Gemini 3 Pro vs Claude Sonnet 4.5,谁才是编程王者? 目前 Gemini 3 Pro 给大家的印象是,各项基准测试一骑绝尘,编码略输 Claude Sonnet 4.5。AI 技术博主 Mervin Praison 对两款模型的编码能力做了一个面对面测评。 先说一下 Gemin 3 Pro 的优点。它可以处理文本、图片、视频、音频,甚至 PDF 文件,基本上什么都能扔进去,输出都是标准的文本格式。上下文窗口很大,输入高达 100 万 Token,输出 6.4 万 Token,实用性很强。知识库更新到 2025 年 1 月,支持函数调用、结构化输出,甚至可以把搜索当工具直接用,还有代码执行能力。Gemini 3 Pro 采用稀疏专家混合(SMoE)结构。官方还发布了专门做推理的 Gemini 3 Deep Think,强化了多模态和推理这两块。 在 Mervin 实际测试中,Gemini 3 Pro 预览版在基准任务上表现很稳,比如生成 Three.js 应用时,报错和警告都比 Claude Sonnet 4.5 少,平均生成时间也略短。在做旋转立方体、数据仪表盘、分子结构浏览器、太阳系模拟这些任务上,Gemini 3 Pro 的生成结果要么更快,要么更流畅,交互体验也好一些。当然偶尔也有例外,比如地形模拟和城市生成,Claude Sonnet 4.5 的画面更自然、清晰,视觉观感更讨喜。总体下来,两者各有优势,但 Gemini 3 Pro 在稳定性、速度、上下文处理能力上确实有点领先。 最近看了不少 AI 博主的测评,或许每个人测评的内容和方式不同,我的感受是,Germini 3 Pro 、Sonnet 4.5,以及 GPT 5.1 各有千秋,并没有那款模型有特别明显的优势。建议大家,几款模型都可以拿来试试,除了模型本身性能,也需要多关注模型的使用成本,自己的熟悉程度,搭配的工具等整个开发生态! #AI编程 #Gemini3 #ClaudeSonnet #AI技术 #AI工具
00:00 / 07:52
连播
清屏
智能
倍速
点赞22