专栏定位
本专栏以 vLLM 的真实工程使用为主线,从“把模型跑起来”开始,逐步进入 OpenAI 兼容服务、批量推理、KV Cache、调度策略、分布式部署、性能调优、可观测性与源码剖析。每一章均采用「项目背景 -> 剧本式交锋对话 -> 项目实战 -> 项目总结」的四段式结构,让读者在业务场景中理解概念,在可运行实验中验证结论,在源码阅读中建立长期维护能力。
专栏写法坚持“实战为主,理论为辅”:基础篇让新人可以独立部署一个 vLLM 服务;中级篇让开发、测试、运维可以围绕吞吐、延迟、成本和稳定性协作;高级篇面向架构师和资深开发,深入 Engine Core、Scheduler、Worker、PagedAttention、CUDA Graph、KV Transfer 与生产级 SRE 体系。
阅读路线建议
| 角色 | 建议阅读顺序 | 重点章节 |
|---|---|---|
| 新人开发/测试 | 基础篇全读 -> 中级篇选读 | 第 1-16 章,重点 3、4、6、12、15、16 章 |
| 核心开发 | 基础篇速读 -> 中级篇精读 -> 高级篇源码章节 | 第 17-31 章,重点 18、19、20、21、28、32-37 章 | <
订阅专栏 解锁全文

6

被折叠的 条评论
为什么被折叠?



