塔斯娱乐资讯网

教学项目tiny-vllm,教你使用 C++ 和 CUDA 构建一个高性能 LL

教学项目tiny-vllm,教你使用 C++ 和 CUDA 构建一个高性能 LLM 推理引擎地址:github.com/jmaczan/tiny-vllm“在这个过程中,我们会学到很多东西,也会犯错,并且会从零开始推导相关思想和数学原理。

这个仓库包含两部分内容:1. 推理服务器的完整源代码2. 一门课程,我会带你完成这个引擎的实现过程

你可以把它当作学习工具,用在自己的学习路径中。如果你是讲师,也欢迎把它作为大学教学资源。

这个推理引擎包含:

从 Safetensors 加载真实的 LLM 模型:Llama 3.2 1B Instruct完整的 LLM forward pass:prefill + decode所有计算都使用 CUDA kernelsKV cachestatic batchingcontinuous batchingonline softmax,类似 FlashAttentionPagedAttention”

AI创造营