首款能将 DeepSeek R1 完整的 671B 参数装入内存的消费级硬件,以及它的实际应用场景。
配备 512GB 统一内存的 Mac Studio M5 Ultra 是首款能够完全在 RAM 中运行 DeepSeek R1 671B(目前最大的开源模型)的消费级机器。无需 offloading,无需多 GPU 阵列,也无需水冷。它只是一个放在桌面上的小盒子,耗电量甚至比吹风机还低。
这改变了本地 AI 的成本效益计算方式。当你可以在家运行尖端模型时,问题就从“我能运行吗?”变成了“我应该运行吗?”。对于越来越多的开发者来说,答案是肯定的。
以下是 M5 Ultra 在 LLM 推理方面的表现,如何将其与 LemonClaw 搭配打造 24/7 全天候个人 AI 助手,以及它在什么情况下比云端 API 更具经济效益。
M5 Ultra 带来了什么
M5 Ultra 是通过 Apple 的 UltraFusion 互连技术将两颗 M5 Max 芯片融合而成。以下是其对 LLM 推理至关重要的参数:
| 规格 | M3 Ultra | M5 Ultra (预测) | 为什么这很重要 |
|---|---|---|---|
| 内存带宽 | 819 GB/s | ~1,100–1,400 GB/s | Token 生成速度受带宽限制 |
| 统一内存 | 最高 512GB | 最高 512GB+ | 决定了可运行模型的最大尺寸 |
| GPU 核心 | 80 | ~80 | 用于 prefill 的并行计算 |
| 神经加速器 | 无 | 每个 GPU 核心内置 | 首个 token 延迟缩短 3–4 倍 |
| 制程节点 | 3nm | 3nm (N3P) | 更好的能效比 (perf/watt) |
| TDP | ~200W | ~190W | 运行安静,支持 24/7 运行 |
AI 工作负载最大的改进在于:M5 在每个 GPU 核心内部嵌入了神经加速器。Apple 官方的 MLX 基准测试显示,与 M4 相比,其首个 token 生成时间 (TTFT) 提升了 3.3–4.1 倍。Token 生成速度提升了约 25%,虽然仍受带宽限制,但带宽上限更高了。
对于涉及频繁上下文切换和长系统提示词的 agent 工作负载,这一点至关重要。M3 Ultra 处理 120K token 上下文大约需要 2.3 秒(根据 prefill 基准测试估算);而 M5 Ultra 应该能在 0.7 秒内完成。
512GB 统一内存到底能运行什么?
这张表才是重点。统一内存意味着 GPU 和 CPU 共享相同的 RAM,没有 PCIe 瓶颈,也没有 VRAM 限制。
| 模型 | 量化 (Quantization) | 所需内存 | M3 Ultra 512GB | M5 Ultra (预测) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
数据来源:geerlingguy/ai-benchmarks, Apple MLX Research, HN 社区基准测试
作为参考:20–30 tok/s 对于交互式聊天非常舒适。15 tok/s 是可用的。低于 5 tok/s 会感觉迟钝,但适用于批处理任务。
512GB 的配置意味着你可以运行 DeepSeek R1 671B Q4 (~336GB),并且还剩下约 176GB 用于 KV cache 和上下文。这足以支撑拥有 100K+ token 上下文的多轮对话。
为什么不直接用 NVIDIA?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| 内存 | 512GB 统一内存 | 32GB VRAM | 128GB VRAM |
| 带宽 | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ 内存可运行 | ❌ 无法装入 | ❌ 依然无法装入 |
| Llama 70B 速度 | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| 功耗 | ~190W | ~450W | ~1,800W |
| 噪音 | 静音 | 大 | 数据中心级别 |
| 价格 | 约 $10,000 | 约 $2,000 | 约 $8,000 + 主板 |
当模型能装入 VRAM 时,NVIDIA 在原始速度上胜出。但一旦模型超过 32GB,NVIDIA 的性能就会断崖式下跌:offloading 到系统 RAM 会使吞吐量从 100+ tok/s 掉到约 3 tok/s。Mac 的统一内存架构意味着没有这种性能断崖。400GB 的模型运行带宽与 40GB 模型相同。
对于 70B 以下的模型,买 GPU。对于 200B 以上的模型,Mac Studio 是目前唯一实用的消费级选择。
引入 LemonClaw:将硬件转化为 AI 助手
在本地运行模型只是第一步。让它 24/7 全天候发挥作用是第二步。
LemonClaw 是一个开源的自托管 AI agent 平台。它能将你的 Mac 变成一个持久化的 AI 助手,你可以通过现有的即时通讯应用(Telegram、Slack、Discord、WhatsApp 甚至 iMessage)与其互动。
为什么选择 LemonClaw + Mac Studio?
大多数人通过浏览器标签页与 AI 交互。LemonClaw 则将其放入你的通讯应用中:你的助手运行在自己的硬件上,在对话中记住你的上下文,并在你睡觉时继续工作。
LemonClaw 的功能
- 持久化记忆:基于 Markdown 的记忆文件,支持语义搜索。你的助手会记得你上周讨论过的内容。
- 多渠道收件箱:通过 Telegram、Slack、Discord、WhatsApp 或任何支持的平台与之交谈。同一上下文,任何设备。
- 自主任务:安排 cron 任务,设置 webhook,让它彻夜进行研究或代码任务。
- 浏览器自动化:基于 CDP 的网页浏览,用于研究、数据提取、表单填写。
- 技能生态:从 ClawHub 安装社区技能,或编写自己的技能。
- MCP 服务器支持:连接到外部工具和 API。
本地模型的优势
当你通过 Ollama 或 MLX 在 Mac Studio 上运行 LemonClaw 配合本地模型时:
- 零 API 成本。没有按 token 计费。全天候运行 DeepSeek R1 671B,成本仅为电费(每月约 $3)。
- 完全隐私。你的提示词、文档和代码永远不会离开你的机器。处理敏感合同、专有代码、医疗记录,无需第三方数据处理。
- 无速率限制。云端 API 会将你限制在每分钟 1,000–10,000 次请求。本地推理除了硬件限制外没有其他限制。
- 无停机依赖。OpenAI 宕机了?Anthropic 出故障了?你的本地设置依然运行。
- 延迟。没有网络往返。对于小模型,首个 token 在毫秒内出现。
快速设置:Mac Studio + Ollama + LemonClaw
# 1. 安装 Ollama
brew install ollama
# 2. 拉取模型(先从快的开始)
ollama pull qwen3:30b
# 3. 安装 LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon
# 4. 配置 LemonClaw 使用本地 Ollama
# 在 ~/.lemonclaw/config.json 中设置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
LemonClaw 在 macOS 上作为 launchd 服务运行。它随系统启动并在后台 24/7 运行。连接你的 Telegram 或 Slack,你就拥有了一个随时可用的持久 AI 助手。
对于配备 512GB 的 M5 Ultra,你可以尝试更大的模型:
# 拉取 DeepSeek R1 671B (需要约 336GB RAM)
ollama pull deepseek-r1:671b-q4
# 或者用于多模态任务的优秀模型 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4
经济账:本地化何时优于云端?
让我们算一笔账。
云端 API 成本(重度用户)
| 使用模式 | 每月成本 |
|---|---|
| LemonClaw 配合 Claude Sonnet 4.6 (重度) | $200–400/月 |
| 开发 + 编程助手 | $50–100/月 |
| 研究 + 文档分析 | $50–100/月 |
| 总计 | $300–600/月 |
Mac Studio M5 Ultra (一次性 + 运行成本)
| 项目 | 成本 |
|---|---|
| Mac Studio M5 Ultra 512GB (预测) | 约 $10,000 |
| 电费 (~200W, 24/7) | 约 $3/月 |
| 网络(已有) | $0 |
| 对比 $400/月云端成本的回本周期 | 约 25 个月 |
25 个月后,你运行尖端 AI 的成本仅为 $3/月。而且你还拥有一台价值 $10,000 的工作站可以做其他任何事情。
混合方案(推荐)
你不需要非此即彼。最聪明的设置是:
- 本地模型用于高频、隐私敏感或对延迟敏感的任务(编程、文档分析、头脑风暴)
- 云端 API 用于本地无法运行的最强能力(GPT-5、全速运行 200K 上下文的 Claude Opus 4.6)
LemonClaw 原生支持这种方式:配置多个模型提供商,并在每个对话或任务中在本地 Ollama 和云端 API 之间切换。
对于云端 API 访问,LemonData 通过单一 API key 为你提供 300+ 模型,采用按需付费模式,无订阅费,无最低消费。当本地模型不够用时,将其作为你的云端备选。
配置指南:三个档次
第一档:入门级 ($4,000–5,000)
Mac Studio M3/M5 Ultra 96GB
- 运行:Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- 速度:30B 模型 30–50 tok/s
- 最适合:个人助手、编程辅助、轻量级研究
- LemonClaw 配置:默认
qwen3:30b,复杂任务回退到云端
第二档:高级用户 ($7,000–9,000)
Mac Studio M5 Ultra 256GB
- 运行:Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- 速度:200B+ 模型 15–30 tok/s
- 最适合:专业开发、多模态任务、团队 AI 服务器
- LemonClaw 配置:视觉任务用
qwen3-vl:235b,推理任务用deepseek-r1:70b
第三档:AI 工作站 ($10,000–14,000)
Mac Studio M5 Ultra 512GB
- 运行:DeepSeek R1 671B (Q4) 及其以下所有模型
- 速度:671B 模型 25–35 tok/s
- 最适合:运行最大的开源模型、多用户服务器、前沿研究
- LemonClaw 配置:深度推理用
deepseek-r1:671b,快速任务用较小模型
作为 24/7 AI 服务器运行
Mac Studio 专为常开运行而设计。以下是将其设置为无头 (headless) AI 服务器的方法:
如果你正在权衡本地推理是否值得其复杂性,请结合阅读 自托管 LemonClaw 指南 和 DeepSeek R1 指南。前者解决了运行环境问题,后者解决了模型适配问题。
电力与散热
- 190W TDP 意味着标准插座即可,无需特殊布线
- 待机时无风扇噪音,负载下也极度安静
- 在持续工作负载下不会出现热降频(Apple 的散热设计可以轻松应对)
远程访问
- SSH 用于终端访问
- Tailscale 用于从任何地方安全远程访问
- LemonClaw 的消息集成意味着你不需要直接访问机器。只需通过 Telegram 给你的 AI 发消息即可。
可靠性
- macOS launchd 会在 LemonClaw 崩溃时自动重启它
- Ollama 作为后台服务运行
- 建议配备 UPS 以应对停电(Mac Studio 会在通电后自动启动并恢复服务)
# 开启 SSH
sudo systemsetup -setremotelogin on
# 安装 Tailscale 用于远程访问
brew install tailscale
sudo tailscale up
# LemonClaw 在 onboard 后已作为 launchd 服务运行
# 检查状态:
launchctl list | grep lemonclaw
未来展望:M5 Ultra 路线图
M5 Ultra Mac Studio 预计将于 2026 年下半年发布。以下是时间线:
- 2026 年 3 月 4 日:Apple “Experience” 活动,预计发布 M5 Pro/Max MacBook Pro
- 2026 年下半年:搭载 M5 Ultra 的 Mac Studio
- 相比 M3 Ultra 的关键改进:GPU 神经加速器 (3–4x TTFT),更高的内存带宽 (~1.1–1.4 TB/s),相同或更高的最大内存
你应该等待还是现在购买?
如果符合以下情况,现在就买 M3 Ultra 512GB:
- 你今天就需要本地 AI 推理
- 你每月在云端 API 上花费 $300+
- DeepSeek R1 671B 17–20 tok/s 的速度对你的场景来说已经足够快了
如果符合以下情况,请等待 M5 Ultra:
- 你可以再忍受 6–9 个月的云端 API
- 你想要 3–4 倍的 TTFT 提升(这对 agent 工作负载至关重要)
- 你想在投入 $10,000+ 之前看到实际的基准测试结果
无论哪种方式,你今天就可以通过 LemonData 使用云端 API 开始体验 LemonClaw。注册即送 $1 免费额度,支持 300+ 模型,按需付费。当你的 Mac Studio 到货时,只需将 LemonClaw 指向你的本地 Ollama 实例,成本就会降至接近于零。
总结 (TL;DR)
| 云端 API | Mac Studio M5 Ultra + LemonClaw | |
|---|---|---|
| 最大模型尺寸 | 无限制(由提供商处理) | 671B Q4 (512GB 配置) |
| 每月成本 | $300–600 (重度使用) | 约 $3 电费 |
| 隐私 | 数据发送给第三方 | 所有数据保留在本地 |
| 延迟 | 200–500ms 网络 + 推理 | 仅推理延迟 |
| 速率限制 | 有 | 无 |
| 前期成本 | $0 | 约 $10,000 |
| 回本周期 | — | 约 25 个月 |
Mac Studio M5 Ultra 是个人 AI 基础设施。将其与 LemonClaw 搭配,你就拥有了一个 24/7 全天候运行尖端模型、尊重隐私且运行成本仅为 $3/月的 AI 助手。
“本地 AI 只是玩具”的时代已经结束。512GB 统一内存配合 1.2+ TB/s 带宽,意味着你可以运行足以媲美云端服务的模型。唯一的问题是,你是否准备好拥有自己的 AI 技术栈。
准备好开始构建你的 AI 基础设施了吗?尝试 LemonClaw 配合 LemonData:300+ 云端模型,注册即送 $1 免费额度。当你的 Mac Studio 到货时,无需更改代码即可切换到本地模型。
