压 prompt 这事，最聪明的不是压缩比，是 cache 命中率。 ...

压 prompt 这事，最聪明的不是压缩比，是 cache 命中率。

GitHub trending 上 Headroom 这个项目，主打 agent context 压缩 60-95%，听着很诱人。我扒了下架构，真正眼前一亮的不是那几个压缩算法（JSON 走结构化、代码走 AST、文本走小模型评分，跟 LLMLingua 那套路数大同小异），是里面一个叫 CacheAligner 的东西——专门稳定 prompt 前缀，让 Anthropic 和 OpenAI 那边的 KV cache 真能命中。
这个细节只有被 agent 工作流折磨过的人才懂。tool output 一变、log 一刷新、RAG chunk 顺序一抖，前缀就漂了，provider 那边的缓存直接 miss，账单立马涨一倍。压缩比再高，cache 不命中就是白搭。
但 60-95% 这个数字我是要打个问号的 ⚠️
LLMLingua 当年喊过 20x，实际跑下来 task-agnostic 场景一上就掉点。Headroom 的做法是「掉了我帮你 retrieve 回来」（CCR 可逆设计），听着圆满，但多一次 tool call 就多一次 RTT，省下的 token 又花在 round trip 上了。
真要上生产，我更想看的是这几个数：
📌 多轮 agent 对话里，cache 命中率从 30% 提到了多少📌 retrieve 触发率有多高，触发之后端到端延迟回涨多少📌 代码场景 AST 压缩对 diff 这种结构敏感任务的伤害
压缩比是 demo 数字，缓存命中和端到端延迟才是账单数字。 GitHub chopratejas·headroom

塔斯娱乐资讯网

压 prompt 这事，最聪明的不是压缩比，是 cache 命中率。 ...

热门分类