记录技术与生活的点滴

23 篇文章

Claude Code 上下文管理机制:从 Microcompact 到 Auto Compact

这篇文章整理的是 Claude Code 上下文管理机制的源码阅读笔记。先给结论: Claude Code 的上下文管理不是一个固定的“60% 用 A、70% 用 B、80% 用 C”的十层阶梯。更准确地说,它是三部分组合: 请求前的轻量...

阅读 →

Week 2:GPU 与推理加速——从 Kernel、算子融合到 LLM Serving

Week 1 我们从 Autograd 理解了深度学习框架的训练本质:Tensor、计算图、反向传播和内存优化。Week 2 要切到更贴近论文和系统落地的部分:GPU 与推理加速。 如果说训练框架的核心问题是“如何自动求梯度”,那么推理系统...

阅读 →

Agent 对话记忆化:从原理到实现

做 Agent 项目绕不开一个问题:大模型本身没有记忆,每次调用都是无状态的。所谓”记忆”,本质上是把历史信息塞进下一次请求的 prompt 里。这篇文章从原理出发,整理三种主流实现方案。...

阅读 →

LLM 上下文五层压缩机制详解

做 Agent 项目时,对话持续进行,token 会不断累积,迟早超出模型的 context window。这篇文章整理一套五层上下文压缩机制,从轻到重依次触发,核心思路是”能少压就少压,实在不行再大压”。...

阅读 →