在一台古老的Intel Xeon E5-2620 v4 (8 核 16 线程)+ 128GB DDR3 内存服务器上,跑Gemma 4 26B-A4B模型阅读地址:point.free/blog/gemma-4-on-a-2016-xeon/
“我们掀开了行业最爱用的营销话术:把一个巨大的、未校准的权重文件丢到代码仓库里,就敢称之为“开源”。我们看到,缺失的文档、沉默的默认设置,以及披着“用户友好”外衣、实则把严重影响性能的决策藏起来的黑箱封装,共同构成了一道巨大的可用性护城河。
我们真正动手进入了泥潭。
我们追踪晦涩难找、迟迟未合并的 pull request,编译专用 fork(ik_llama.cpp),反转了量化的常规思路,构建出高精度的 speculative decoding drafter,还编写自定义脚本,清理 GGUF 元数据里泄露的基础设施信息。
最后,在这篇文章里,我们用实际结果证明前面的判断。
我们把一台 2016 年的企业级老古董从角落里拖了出来——不,应该说是从坟墓里拖了出来:一颗 Intel Xeon,配着慢得令人煎熬的 DDR3 内存,没有任何 GPU 可言。然后,我们逼着它以接近阅读速度运行一个前沿的、260 亿参数的 Mixture-of-Experts 架构。
我们没有靠堆砌昂贵或稀有硬件来解决问题。相反,我们把部署流水线当成一件严肃的事来对待,把模型架构直接映射到物理硬件上,调优内存分配,并释放 CPU 缓存优化的极限能力。
这里的教训很简单:在本地运行 state-of-the-art AI 的瓶颈,不只在芯片本身。真正的门槛在于,你必须深入理解 inference engine 到底是怎么工作的。”AI创造营
