记录技术与生活的点滴

14 篇文章

LLM 上下文五层压缩机制详解

做 Agent 项目时,对话持续进行,token 会不断累积,迟早超出模型的 context window。这篇文章整理一套五层上下文压缩机制,从轻到重依次触发,核心思路是”能少压就少压,实在不行再大压”。...

阅读 →