博客 | Gu EnHao Blog

2026年5月22日技术

MedDocOCR-Interpreter 源码导读：医疗文档 OCR、结构化抽取与报告解读原型

MedDocOCR-Interpreter 是一个面向医疗单据的 OCR 与报告解读原型项目。它的目标不是直接训练一个完整医疗大模型，而是先把“医疗文档从图片/文本到结构化结果，再到可解释解读”的工程链路搭起来：输入可以是检验报告...

# RAG # OCR # 多模态

阅读 →

2026年5月20日学习笔记

六级写作范文背诵包：10 个高频话题

整理 10 篇大学英语六级写作高频话题范文。每篇控制在六级常见篇幅内，结构尽量固定：现象/观点引入 → 原因或论证 → 做法/总结。背诵时优先背开头、转折句和结尾句，再替换关键词迁移到其他题目。打印背诵版 PDF：下...

# English # CET6 # Writing

阅读 →

2026年5月19日技术

Claude Code 上下文管理机制：从 Microcompact 到 Auto Compact

这篇文章整理的是 Claude Code 上下文管理机制的源码阅读笔记。先给结论： Claude Code 的上下文管理不是一个固定的“60% 用 A、70% 用 B、80% 用 C”的十层阶梯。更准确地说，它是三部分组合：请求前的轻量...

# LLM # Agent # AI Infra

阅读 →

2026年5月10日 AI

Nanotron 项目详解：Hugging Face 的大模型预训练框架怎么做分布式训练

这篇文章选一个真正和“大模型训练”强相关的开源项目来讲：Hugging Face 的 Nanotron。项目地址：https://github.com/huggingface/nanotron Nanotron 是 Hugging Fac...

# LLM # AI Infra # PyTorch

阅读 →

2026年5月10日技术

GoFoundry 项目详解：基于 Go 的后端基础框架套件设计

GoFoundry 是一个基于 Go 的后端基础框架套件项目。它不是单独实现一个 Web 框架，也不是只写一个 ORM，而是围绕后端基础设施中最常见的几类能力做模块化重构：Web 框架、ORM、分布式缓存、分布式锁、消息队列和压测工具。项...

# Go # 项目架构 # 后端框架

阅读 →

2026年5月10日技术

CloudVault 项目详解：基于 Go 的云端存储与网盘系统架构设计

CloudVault 是一个基于 Go 的云端存储与网盘系统，面向大文件传输、高并发访问和文件管理场景设计。它的核心目标不是简单做一个“文件上传下载 Demo”，而是围绕真实网盘系统中的关键问题展开：大文件如何稳定上传、分片如何管理、断点续...

# Go # 云存储 # 网盘系统

阅读 →

2026年5月8日技术

OpenClaw 源码导读：个人 AI 助手的网关、通道、插件与运行时架构

OpenClaw 是一个开源的个人 AI 助手项目。它的定位不是单纯的聊天网页，也不是只有一个 CLI，而是一个“运行在自己设备上的多通道 AI 助手”：用户可以通过 WhatsApp、Telegram、Slack、Discord、Goog...

# Agent # AI Infra # 源码分析

阅读 →

2026年5月7日 AI

Flow Matching：从噪声到数据的连续流生成模型

Flow Matching 是近几年生成模型里非常重要的一条路线。它和 Diffusion Model 关系很近，但视角更直接：不再把生成过程理解成“一步步去噪”，而是学习一个连续的速度场，让噪声样本沿着这条流逐渐移动到真实数据分布。一句...

# 深度学习 # 生成模型 # Diffusion

阅读 →

2026年5月5日技术

Week 4：数据库速成——从 Storage、Index、Query Optimization 到 Vector DB 与 RAG

Week 1 我们理解了 Autograd，Week 2 理解了 GPU 推理加速，Week 3 理解了分布式系统。Week 4 要补的是数据库，但目标不是成为数据库内核工程师，而是学会用数据库视角理解 AI 系统里的 Vector DB、...

# RAG # 数据库 # CMU 15-445

阅读 →

2026年5月5日技术

Week 3：分布式系统速成——MapReduce、Raft、容错与 Distributed KV Store

Week 1 我们用 mini autograd 理解了深度学习框架的本质；Week 2 我们从 GPU、Kernel、KV cache 和 batching 理解了推理系统的性能瓶颈。Week 3 要补的是另一块底层能力：分布式系统思想。...

# Agent # 分布式系统 # MIT 6.824

阅读 →

2026年5月5日技术

Week 2：GPU 与推理加速——从 Kernel、算子融合到 LLM Serving

Week 1 我们从 Autograd 理解了深度学习框架的训练本质：Tensor、计算图、反向传播和内存优化。Week 2 要切到更贴近论文和系统落地的部分：GPU 与推理加速。如果说训练框架的核心问题是“如何自动求梯度”，那么推理系统...

# LLM # 深度学习 # CMU 10-414

阅读 →

2026年5月5日技术

Week 1：DL 框架与 Autograd——从计算图、反向传播到 Mini Autograd 实现

如果只用一句话概括 PyTorch / TensorFlow 的本质：它们是在张量计算之上，自动构建计算图，并用链式法则自动求梯度的系统。训练神经网络看起来是调用 loss.backward() 和 optimizer.step(...

# 深度学习 # Autograd # PyTorch

阅读 →

2026年4月25日技术

无锁并发入门：从 CAS 到 Atomic Ring Buffer

这篇文章整理几个无锁并发里经常一起出现的概念：CAS、busy polling、atomic ring buffer、release/acquire、store buffer 和 CPU cache warmup。它们看起来分散，...

# C++ # 并发 # 量化开发

阅读 →

2026年4月24日技术

Agent 对话记忆化：从原理到实现

做 Agent 项目绕不开一个问题：大模型本身没有记忆，每次调用都是无状态的。所谓”记忆”，本质上是把历史信息塞进下一次请求的 prompt 里。这篇文章从原理出发，整理三种主流实现方案。...

# LLM # Agent # RAG

阅读 →

2026年4月24日技术

LLM 上下文五层压缩机制详解

做 Agent 项目时，对话持续进行，token 会不断累积，迟早超出模型的 context window。这篇文章整理一套五层上下文压缩机制，从轻到重依次触发，核心思路是”能少压就少压，实在不行再大压”。...

# LLM # Agent # 面试

阅读 →

2026年4月15日技术

C++ 并发编程入门：从数据竞争到线程池

量化开发面试必考并发编程，但很多人第一次接触就直接看线程池代码，结果一头雾水。这篇文章从最基础的数据竞争开始，一步步推导出有界阻塞队列和线程池，每个概念都从”它解决什么问题”出发。...

# 面试 # C++ # 并发

阅读 →

2026年4月13日旅游

XCPC 深圳游记

第一天是深圳邀请赛。背包 DP 的转移方程写错了，调到最后也没过，打铁收场，两千块报销也跟着没了。第二天是大湾区编程竞赛。E 题是带权最短路，标准 Dijkstra，我脑子抽了一直在用 BFS，WA 加 RE 交了 39 发，最后还是没过...

# C++ # XCPC # 比赛

阅读 →

2026年4月7日技术

后端五件套：FastAPI / Node.js / SQLAlchemy async / PostgreSQL / Docker 面试速通

结合 DeepScientist 项目的实际经验，把这五个东西讲清楚。不是文档翻译，是真正用过之后的理解。...

# 面试 # 后端 # FastAPI

阅读 →

2026年4月6日技术

DeepScientist 技术栈全解析：一个 AI 科研平台的架构设计

DeepScientist 是一个 AI 驱动的科研管理平台，用户 5000+。这篇文章梳理整个项目的技术选型和架构设计，作为面试准备的参考。...

# 面试 # FastAPI # PostgreSQL

阅读 →

2026年4月6日技术

MiniCode 源码解析：用 5000 行 TypeScript 实现一个 AI 编程助手

MiniCode 是一个轻量级终端 AI 编程助手，类 Claude Code 工作流，181 ⭐。整个核心只有 5000 行 TypeScript，依赖极简（只有 diff 和 zod 两个运行时依赖），非常适合学习 AI Agent 的...

# LLM # 面试 # 源码分析

阅读 →

2026年4月6日技术

我是怎么从零实现 Nova 主题的

这篇文章记录 Nova 主题的实现思路。Nova 是我为这个博客定制的 Hexo 主题，目标是把学术个人主页和博客合二为一——进来先看到个人介绍，再从里面跳转到博客内容。...

# Hexo # 前端 # 开源

阅读 →

2026年4月5日技术笔记

Git 常用操作备忘

记录一些 Git 日常高频操作，方便查阅。...

# Git # 工具

阅读 →

2026年4月4日技术笔记

GitHub Actions 入门：自动化你的工作流

GitHub Actions 是 GitHub 内置的 CI/CD 平台，可以在代码推送、PR 创建等事件触发时自动执行任务。本文介绍基本用法。...

# GitHub Actions # CI/CD # 自动化

阅读 →