Karminski2周前
花费106刀测试! Claude-Opus-4.7 更新了啥 给大家带来 Claude-Opus-4.7 的视觉能力+前端+后端能力测试! 本次测试多模态前端测试采用 pass@3 (相同prompt运行3次取最好结果), 复杂前端测试采用 pass@6, 后端能力测试采用 pass@3. 从测试来看 Claude-Opus-4.7 最大的提升都是视觉能力提升带来的, 包括颜色识别, 细微的画面元素, 都比 Opus-4.6 有明显的提升, 甚至空间理解也变强了. 我觉得用来替代 GPT-5.4-Pro 进行多模态前端交互设计非常不错 (毕竟价格在那摆着). 但是在其余考验硬实力的测试上均有不同程度的下降, 甚至这个下降我觉得不是因为模型能力导致的(只要prompt做更具体的提示, 比如跟他说你要用xxx算法实现), 它其实是能写出来的. 但是如果用在 Harness 场景, 让它自己采取最优的算法自己去实现和验证, 通常就得不到比 Opus-4.6 更好的结果了. 为什么会这样? 核心问题我觉得是这次即使是给到 xhigh 的 reasoning effort 可能它的思考空间(budget)也是不太够的(具体表现就是感觉模型偷懒了), 它的能力强, 但是需要更多的思考才能达到更强的水平. (阴谋论一波这也是为什么官方出了 xhigh 这个 reasoning level). 所以在实际使用中, 如果遇到性能下降问题, 只能反复提示它, 让他跨多个会话反复思考, 才能达到预期的效果. 最后本次测试所有API调用均在 openrouter 完成, 总计开销在 106USD 左右. #opus47 #claudeopus47 #anthropic #claude
00:00 / 08:50
连播
清屏
智能
倍速
点赞105
00:00 / 13:17
连播
清屏
智能
倍速
点赞23
00:00 / 04:24
连播
清屏
智能
倍速
点赞594
00:00 / 04:04
连播
清屏
智能
倍速
点赞186
00:00 / 00:56
连播
清屏
智能
倍速
点赞7
00:00 / 00:19
连播
清屏
智能
倍速
点赞7187
花费200到总结Claude Opus-4.7四个最佳实践 第一个点,叫任务要前置、信息要一次性给足。 官方建议你在第一轮就把目标、约束、验收标准、相关文件位置说清楚。 因为你越是来回补充、拆成很多轮去讲,模型每多一次用户交互,就会多一层 reasoning 开销,效率和质量都可能往下掉。 这背后反映的是一个非常关键的变化: Claude Code 更像“委派型协作”,不是“结对编程型协作”。 第二个点,是这次默认 effort 直接变成了 xhigh。 这其实很值得注意。 因为 Anthropic 等于在告诉你: 对大多数 agent coding 任务来说,真正合适的默认档位,不是省着用,也不是直接拉满, 而是一个介于 high 和 max 之间、兼顾智能和成本的中间档。 他们甚至明确说了,max 虽然更强,但很容易出现收益递减,甚至“想太多”。 所以默认不是更猛,而是更稳。 第三个点,是 adaptive thinking。 以前很多人理解“深度思考”,是固定给预算、固定让模型多想。 但 Opus 4.7 不是这个思路。 它现在更像按场景动态分配思考: 简单问题快速答,复杂步骤再多想。 而且官方特别强调,这一版比以前更不容易 overthinking。 这意味着什么? 意味着真正成熟的 Agent,不是永远拼命想,而是该快的时候快,该深的时候深。 最后还有一个容易被忽略,但很关键的变化: Opus 4.7 默认会少调工具、少开子代理、回答也没以前那么啰嗦。 也就是说,它更克制了。 如果你希望它多读文件、多搜索、多并行 subagent, 你不能再默认它自己会这么干, 你得把“什么时候该调工具,什么时候该并行”明确写进你的 harness 或 prompt 里。 这已经不是单纯的 prompt engineering, 而是agent behavior design。 #AI #claudecode #ai新星计划 #青年创作者扶持计划 #opus4.7
00:00 / 03:02
连播
清屏
智能
倍速
点赞54
00:00 / 00:26
连播
清屏
智能
倍速
点赞846