MedDocOCR-Interpreter 源码导读:医疗文档 OCR、结构化抽取与报告解读原型
MedDocOCR-Interpreter 是一个面向医疗单据的 OCR 与报告解读原型项目。它的目标不是直接训练一个完整医疗大模型,而是先把“医疗文档从图片/文本到结构化结果,再到可解释解读”的工程链路搭起来:输入可以是检验报告...
记录技术与生活的点滴
MedDocOCR-Interpreter 是一个面向医疗单据的 OCR 与报告解读原型项目。它的目标不是直接训练一个完整医疗大模型,而是先把“医疗文档从图片/文本到结构化结果,再到可解释解读”的工程链路搭起来:输入可以是检验报告...
整理 10 篇大学英语六级写作高频话题范文。每篇控制在六级常见篇幅内,结构尽量固定:现象/观点引入 → 原因或论证 → 做法/总结。背诵时优先背开头、转折句和结尾句,再替换关键词迁移到其他题目。 打印背诵版 PDF:下...
这篇文章整理的是 Claude Code 上下文管理机制的源码阅读笔记。先给结论: Claude Code 的上下文管理不是一个固定的“60% 用 A、70% 用 B、80% 用 C”的十层阶梯。更准确地说,它是三部分组合: 请求前的轻量...
这篇文章选一个真正和“大模型训练”强相关的开源项目来讲:Hugging Face 的 Nanotron。 项目地址:https://github.com/huggingface/nanotron Nanotron 是 Hugging Fac...
GoFoundry 是一个基于 Go 的后端基础框架套件项目。它不是单独实现一个 Web 框架,也不是只写一个 ORM,而是围绕后端基础设施中最常见的几类能力做模块化重构:Web 框架、ORM、分布式缓存、分布式锁、消息队列和压测工具。 项...
CloudVault 是一个基于 Go 的云端存储与网盘系统,面向大文件传输、高并发访问和文件管理场景设计。它的核心目标不是简单做一个“文件上传下载 Demo”,而是围绕真实网盘系统中的关键问题展开:大文件如何稳定上传、分片如何管理、断点续...
OpenClaw 是一个开源的个人 AI 助手项目。它的定位不是单纯的聊天网页,也不是只有一个 CLI,而是一个“运行在自己设备上的多通道 AI 助手”:用户可以通过 WhatsApp、Telegram、Slack、Discord、Goog...
Flow Matching 是近几年生成模型里非常重要的一条路线。它和 Diffusion Model 关系很近,但视角更直接:不再把生成过程理解成“一步步去噪”,而是学习一个连续的速度场,让噪声样本沿着这条流逐渐移动到真实数据分布。 一句...
Week 1 我们理解了 Autograd,Week 2 理解了 GPU 推理加速,Week 3 理解了分布式系统。Week 4 要补的是数据库,但目标不是成为数据库内核工程师,而是学会用数据库视角理解 AI 系统里的 Vector DB、...
Week 1 我们用 mini autograd 理解了深度学习框架的本质;Week 2 我们从 GPU、Kernel、KV cache 和 batching 理解了推理系统的性能瓶颈。Week 3 要补的是另一块底层能力:分布式系统思想。...
Week 1 我们从 Autograd 理解了深度学习框架的训练本质:Tensor、计算图、反向传播和内存优化。Week 2 要切到更贴近论文和系统落地的部分:GPU 与推理加速。 如果说训练框架的核心问题是“如何自动求梯度”,那么推理系统...
如果只用一句话概括 PyTorch / TensorFlow 的本质:它们是在张量计算之上,自动构建计算图,并用链式法则自动求梯度的系统。训练神经网络看起来是调用 loss.backward() 和 optimizer.step(...
这篇文章整理几个无锁并发里经常一起出现的概念:CAS、busy polling、atomic ring buffer、release/acquire、store buffer 和 CPU cache warmup。它们看起来分散,...
做 Agent 项目绕不开一个问题:大模型本身没有记忆,每次调用都是无状态的。所谓”记忆”,本质上是把历史信息塞进下一次请求的 prompt 里。这篇文章从原理出发,整理三种主流实现方案。...
做 Agent 项目时,对话持续进行,token 会不断累积,迟早超出模型的 context window。这篇文章整理一套五层上下文压缩机制,从轻到重依次触发,核心思路是”能少压就少压,实在不行再大压”。...
量化开发面试必考并发编程,但很多人第一次接触就直接看线程池代码,结果一头雾水。这篇文章从最基础的数据竞争开始,一步步推导出有界阻塞队列和线程池,每个概念都从”它解决什么问题”出发。...
第一天是深圳邀请赛。背包 DP 的转移方程写错了,调到最后也没过,打铁收场,两千块报销也跟着没了。 第二天是大湾区编程竞赛。E 题是带权最短路,标准 Dijkstra,我脑子抽了一直在用 BFS,WA 加 RE 交了 39 发,最后还是没过...
结合 DeepScientist 项目的实际经验,把这五个东西讲清楚。不是文档翻译,是真正用过之后的理解。...
DeepScientist 是一个 AI 驱动的科研管理平台,用户 5000+。这篇文章梳理整个项目的技术选型和架构设计,作为面试准备的参考。...
MiniCode 是一个轻量级终端 AI 编程助手,类 Claude Code 工作流,181 ⭐。整个核心只有 5000 行 TypeScript,依赖极简(只有 diff 和 zod 两个运行时依赖),非常适合学习 AI Agent 的...
这篇文章记录 Nova 主题的实现思路。Nova 是我为这个博客定制的 Hexo 主题,目标是把学术个人主页和博客合二为一——进来先看到个人介绍,再从里面跳转到博客内容。...
记录一些 Git 日常高频操作,方便查阅。...
GitHub Actions 是 GitHub 内置的 CI/CD 平台,可以在代码推送、PR 创建等事件触发时自动执行任务。本文介绍基本用法。...