2026年4月24日 技术 LLM 上下文五层压缩机制详解 做 Agent 项目时,对话持续进行,token 会不断累积,迟早超出模型的 context window。这篇文章整理一套五层上下文压缩机制,从轻到重依次触发,核心思路是”能少压就少压,实在不行再大压”。...