记录技术与生活的点滴

23 篇文章

基模训练八股:从数据、架构到预训练、对齐与工程面试

这篇文章整理一份“基模训练八股”,目标不是写成论文综述,而是面向面试、工程实践和系统复盘:如果有人问“一个大语言模型从零训练出来需要哪些环节”,你应该能从数据、Tokenizer、模型架构、预训练目标、并行训练、稳定性、后训练、评测、部署和...

阅读 →