00:00 / 01:16
连播
清屏
智能
倍速
点赞131
00:00 / 03:11
连播
清屏
智能
倍速
点赞468
00:00 / 03:16
连播
清屏
智能
倍速
点赞150
00:00 / 01:47
连播
清屏
智能
倍速
点赞2
00:00 / 02:38
连播
清屏
智能
倍速
点赞7
00:00 / 00:41
连播
清屏
智能
倍速
点赞1376
调用大模型的成本总降不下来?问题或许在“提示词缓存” 为什么使用大模型的时候,同样的提示词,一次要花 3 毛钱,另一次只要 2 毛?为什么有的请求几乎秒回,有的却越来越慢?答案或许不在模型本身,而在一个很多人忽略的机制:提示词缓存! 在这期 Build Hour 里,OpenAI 和 Wrap 的两位技术专家系统地讲解了提示词缓存(Prompt Caching)的运行机制,以及在开发智能体系统时的使用技巧。 所谓提示词缓存,本质上就是 “算过的不再算”。当多个请求拥有相同的前缀(系统提示词、工具定义、已有对话历史、图片或音频等)内容时,模型不需要重复处理已经计算过的部分,只对新增内容继续推理。这样可以同时降低延迟和成本,而且不会影响模型的智能水平。输出不会变,只是少做了重复工作。 很多人以为缓存是 “存下文本”。其实不是。缓存存的是模型在注意力机制(Transformer)里计算出来的一堆中间向量,也就是所谓的 KV cache。只要前缀完全一致,顺序也一致,这部分计算就可以复用。 这里有几个关键点。 第一,缓存从 1024 个 Token 开始生效。不到这个长度,是不会触发缓存的。如果你的系统提示词是 900 个 Token,可能反而在浪费机会。实际测试表明,把提示词扩展到超过 1024 个 Token,一旦开始命中缓存,整体成本可能反而下降。 第二,前缀必须完全一致。哪怕多一个空格、多一个时间戳、换个顺序,都会让缓存失效。有的用户只是因为在提示词里加入动态时间信息,缓存命中率直接变成 0%。很多缓存问题,都是工程细节造成的。 第三,缓存是自动触发的,不需要额外代码。但如果你的请求量很大,可能会被分发到不同机器,影响命中率。这时可以使用 “提示词缓存键” 这个参数,把相关请求有意识地路由到同一组引擎。实测案例里,有团队把命中率从 60% 提升到 87%,带来大幅的成本下降。 缓存带来的收益到底有多大? 在 GPT-4o 上,缓存 Token 有 50% 折扣,在 GPT-4.1 上是 75%,在 GPT-5 系列上高达 90%。实时语音场景下,音频缓存的折扣接近 99%。对于长对话或长上下文应用,这不是小数目。 …… #大模型 #提示缓存 #人工智能
00:00 / 56:03
连播
清屏
智能
倍速
点赞14
00:00 / 02:01
连播
清屏
智能
倍速
点赞0
00:00 / 14:59
连播
清屏
智能
倍速
点赞50