教育项目Start-MLLM:从零开始学习多模态大模型(建设中)地址:github.com/datawhalechina/start-mllm
Start-MLLM 是一个面向中文学习者的多模态大模型教程项目
这份教程不想只停留在“知道一些名词”,而是希望带大家走完一条更完整的学习链路: 先理解什么是多模态大模型,以及它与传统 CV、NLP、LLM 的关系。 再理解视觉编码器、跨模态对齐、投影层和生成式架构是怎么工作的。 接着学习数据、训练、评测、部署与应用设计。 最后亲手跑通一个视觉语言模型,并做一个简单的图像问答 Demo。
如果你有 Python 基础,希望系统入门 MLLM,这个项目就是为你准备的。你将收获什么 系统理解多模态大模型的核心概念、能力边界与主流技术路线 理解视觉编码器、CLIP、Projector、Connector、Instruction Tuning 的工程角色 学会阅读常见 VLM/MLLM 架构图,并知道它们为什么这样设计 了解数据构建、SFT、LoRA、评测基准、部署选型等关键工程问题 能够基于 Transformers 或 OpenAI 兼容接口跑通图文问答 能够进一步把单模态 Agent 扩展成多模态 Agent 能够从教程内容过渡到自己的评测脚本、Demo 和小型开源项目
项目受众 想系统学习多模态大模型的中文学习者 已经了解一点 LLM,想进一步理解 VLM / MLLM 的开发者 想把图像、文档、截图能力接入自己项目或 Agent 的工程实践者
你可以从这个项目中获得: 一条相对完整的 MLLM 入门路径 一组可直接上手的代码脚手架 一套从理论到实战的章节导航
基础要求: 具备 Python 基础语法 能使用命令行安装依赖、运行脚本 对 Transformer / LLM 有初步认识会更顺手,但不是硬性要求AI创造营

