00:00 / 00:58
连播
清屏
智能
倍速
点赞190
00:00 / 03:51
连播
清屏
智能
倍速
点赞91
00:00 / 08:09
连播
清屏
智能
倍速
点赞10
Thinking模式是如何让Claude Code变聪明的 Claude Code的`/config`里有个thinking mode开关,Claude App的回答前也常挂一段灰色「思考过程」。这一期用claude-tap抓真实请求拆开看——这段思考到底是装饰,还是真的在影响最终答案。 先说本质。普通模式是 上下文 → 行动;thinking模式是 上下文 → 中间推理 → 行动。中间多出来那段是模型给自己行动之前写的草稿。关键在Transformer,生成下一个token时前面所有token都是上下文,所以这段先写的thinking会被自己读回去当输入。 请求体两个字段:thinking: "adaptive"让模型自己决定想不想、想多深;effort: "high"控制深度,五档low/medium/high/xhigh/max,档位越高越细越慢。 响应体content数组两块。我贴了cache.js(带TTL的内存缓存)和app.js(set一秒TTL两秒后get,期望null实际拿到值),问根因和修复。thinking block里干一件事——定位bug在get函数:取出entry但没检查过期。text block给修复:在get里对比`Date.now()`和`entry.expiry`,过期就删除返回null。thinking做诊断,text基于诊断出修复——thinking是text的地基。 这段思考怎么来的?大模型训练四步:预训练 → 指令微调 → RLHF → Reasoning Tuning。普通模型走前三步就上线,reasoning模型多走第四步。样本格式从"问题+答案"变成"问题+`<reasoning>`+`<answer>`"。比如解2(x-3)=14,普通样本直接给x=10,推理样本先在reasoning里写Step 1、2、3再给answer。模型反复看,就把"先写推理再答"内化成了输出习惯。运行时再靠`thinking: adaptive`字段显式开启——没这字段,模型想推理也没地方写。 所以开关控制的是模型张嘴前要不要先把思路在心里过一遍。代价是慢一点、token多烧一点;好处是同一个bug它会枚举可能性、排除错误选项,再给答案。 下次你的Claude Code请求看着没动静,可能就是它在写草稿。 #claude #个人开发者 #程序员 #AI工具 #张司机
00:00 / 06:58
连播
清屏
智能
倍速
点赞211
Claude提示词缓存 Prompt Caching算法详解 之前的视频我们介绍了Claude Code如何利用Prompt Caching节省token的。这次我们深入讲解一下Claude Code客户端在请求里明文写的cache_control标记是如何工作的。 cache_control有两种用法。Automatic自动模式,请求顶层放一个字段,服务器自动给最后一个block打1个breakpoint,简单粗暴。Explicit明确指定,自己往block上挂,最多4个,位置自己挑。Claude Code用的是Explicit,3个breakpoint的位置全是它自己选的。3个分别标在system数组第2项末尾、第3项末尾、最新user消息末尾。前两个是稳定锚点,第3个是游标,每轮跟着最新输入往后跑。 3条核心原理: 原理1:缓存只在breakpoint位置写,写的是从头到这里的累积prefix。所以29个tools没标cache_control也被缓存——蹭system[1]的车一起打包写进去。 原理2:读的时候在breakpoint位置查不到,往前一个block查,最多查20个。它找的是"之前写过的条目",不是"现在稳定的内容"。 原理3:20格上限。超过就放弃。 官方博客Thariq的"Prompt Caching is Everything"分享了Claude Code围绕缓存的几个设计:分层(静态在前动态在后)、Plan Mode做成两个工具而不是swap工具集、Tool Search用defer_loading发轻量存根、compact共享原session的system+tools+history做前缀。两条提醒:不要中途切模型(缓存按模型分隔),不要中途改MCP/hook(整段前缀重来)。 #claude #个人开发者 #命令行 #AI工具 #张司机
00:00 / 06:46
连播
清屏
智能
倍速
点赞273
00:00 / 00:50
连播
清屏
智能
倍速
点赞300