用苹果电脑跑本地大模型的兄弟注意了! 有个东西你们可能还没用上 —— Rapid-MLX 专门为 Apple Silicon(M系列芯片)打造的本地LLM推理服务, 核心就一句话: 比 Ollama 明显快很多,官方实测2-4倍加速!
用的是苹果官方MLX框架,吃透了M芯片架构。 主要狠在:
1、多轮对话首token延迟压到0.08秒左右,几乎感觉不到等待
2、工具调用做了17种智能解析器,Qwen、DeepSeek、Gemma等模型自动适配,量化坏了也能自动修复
3、原生OpenAI兼容API,Cursor、Claude Code、Aider、LangChain直接无缝对接
本地优先、视觉+音频多模态都支持,想在Mac上爽跑大模型的, 这波强烈建议试试!