塔斯娱乐资讯网

本地运行大模型推理经常需要复杂配置,llama.cpp 通用性强但针对性不足,各

本地运行大模型推理经常需要复杂配置,llama.cpp 通用性强但针对性不足,各种框架兼容性问题层出不穷,调试优化耗时费力。

ds4 把 DeepSeek V4 Flash 的本地推理优化到极致,提供了专为 Apple Silicon 的高性能 Metal 推理引擎。

不仅支持 100 万 token 超长上下文、高质量思考模式,还提供磁盘 KV 缓存持久化、OpenAI/Anthropic 兼容 API,甚至 2bit 量化在 128GB MacBook 上流畅运行。

GitHub:github.com/antirez/ds4

主要功能:

- Metal 专用 DeepSeek V4 Flash 推理引擎,M3 Max 达 84 t/s;- 100 万 token 上下文窗口 + 超压缩 KV 缓存,支持磁盘持久化;- 兼容 OpenAI/Anthropic API,支持工具调用和 SSE 流式输出;- 2bit/4bit 特殊量化,128GB RAM MacBook 即可运行 284B 参数模型;- 多种思考模式(normal/max),思考长度随问题复杂度自适应;- CLI 交互 + Server 模式,完美适配 coding agent(如 opencode、Pi)。

支持 macOS(Metal),make 编译后即可运行,适合开发者、研究者和 AI 爱好者。

DeepSeek本地大模型AppleSilicon