在一台古老的Intel Xeon E5-2620 v4 （8 核 16 线程）+

在一台古老的Intel Xeon E5-2620 v4 （8 核 16 线程）+ 128GB DDR3 内存服务器上，跑Gemma 4 26B-A4B模型阅读地址：point.free/blog/gemma-4-on-a-2016-xeon/

“我们掀开了行业最爱用的营销话术：把一个巨大的、未校准的权重文件丢到代码仓库里，就敢称之为“开源”。我们看到，缺失的文档、沉默的默认设置，以及披着“用户友好”外衣、实则把严重影响性能的决策藏起来的黑箱封装，共同构成了一道巨大的可用性护城河。

我们真正动手进入了泥潭。

我们追踪晦涩难找、迟迟未合并的 pull request，编译专用 fork（ik_llama.cpp），反转了量化的常规思路，构建出高精度的 speculative decoding drafter，还编写自定义脚本，清理 GGUF 元数据里泄露的基础设施信息。

最后，在这篇文章里，我们用实际结果证明前面的判断。

我们把一台 2016 年的企业级老古董从角落里拖了出来——不，应该说是从坟墓里拖了出来：一颗 Intel Xeon，配着慢得令人煎熬的 DDR3 内存，没有任何 GPU 可言。然后，我们逼着它以接近阅读速度运行一个前沿的、260 亿参数的 Mixture-of-Experts 架构。

我们没有靠堆砌昂贵或稀有硬件来解决问题。相反，我们把部署流水线当成一件严肃的事来对待，把模型架构直接映射到物理硬件上，调优内存分配，并释放 CPU 缓存优化的极限能力。

这里的教训很简单：在本地运行 state-of-the-art AI 的瓶颈，不只在芯片本身。真正的门槛在于，你必须深入理解 inference engine 到底是怎么工作的。”AI创造营

塔斯娱乐资讯网