GitHub trending 上 Headroom 这个项目,主打 agent context 压缩 60-95%,听着很诱人。我扒了下架构,真正眼前一亮的不是那几个压缩算法(JSON 走结构化、代码走 AST、文本走小模型评分,跟 LLMLingua 那套路数大同小异),是里面一个叫 CacheAligner 的东西——专门稳定 prompt 前缀,让 Anthropic 和 OpenAI 那边的 KV cache 真能命中。
这个细节只有被 agent 工作流折磨过的人才懂。tool output 一变、log 一刷新、RAG chunk 顺序一抖,前缀就漂了,provider 那边的缓存直接 miss,账单立马涨一倍。压缩比再高,cache 不命中就是白搭。
但 60-95% 这个数字我是要打个问号的 ⚠️
LLMLingua 当年喊过 20x,实际跑下来 task-agnostic 场景一上就掉点。Headroom 的做法是「掉了我帮你 retrieve 回来」(CCR 可逆设计),听着圆满,但多一次 tool call 就多一次 RTT,省下的 token 又花在 round trip 上了。
真要上生产,我更想看的是这几个数:
📌 多轮 agent 对话里,cache 命中率从 30% 提到了多少📌 retrieve 触发率有多高,触发之后端到端延迟回涨多少📌 代码场景 AST 压缩对 diff 这种结构敏感任务的伤害
压缩比是 demo 数字,缓存命中和端到端延迟才是账单数字。 GitHub chopratejas·headroom
