Mac Studio M5 Ultra：本地运行 671B 模型，利用 LemonClaw 构建专属 AI 基础设施

首款能将 DeepSeek R1 完整的 671B 参数装入内存的消费级硬件，以及它的实际应用场景。

配备 512GB 统一内存的 Mac Studio M5 Ultra 是首款能够完全在 RAM 中运行 DeepSeek R1 671B（目前最大的开源模型）的消费级机器。无需 offloading，无需多 GPU 阵列，也无需水冷。它只是一个放在桌面上的小盒子，耗电量甚至比吹风机还低。

这改变了本地 AI 的成本效益计算方式。当你可以在家运行尖端模型时，问题就从“我能运行吗？”变成了“我应该运行吗？”。对于越来越多的开发者来说，答案是肯定的。

以下是 M5 Ultra 在 LLM 推理方面的表现，如何将其与 LemonClaw 搭配打造 24/7 全天候个人 AI 助手，以及它在什么情况下比云端 API 更具经济效益。

M5 Ultra 带来了什么

M5 Ultra 是通过 Apple 的 UltraFusion 互连技术将两颗 M5 Max 芯片融合而成。以下是其对 LLM 推理至关重要的参数：

规格	M3 Ultra	M5 Ultra (预测)	为什么这很重要
内存带宽	819 GB/s	~1,100–1,400 GB/s	Token 生成速度受带宽限制
统一内存	最高 512GB	最高 512GB+	决定了可运行模型的最大尺寸
GPU 核心	80	~80	用于 prefill 的并行计算
神经加速器	无	每个 GPU 核心内置	首个 token 延迟缩短 3–4 倍
制程节点	3nm	3nm (N3P)	更好的能效比 (perf/watt)
TDP	~200W	~190W	运行安静，支持 24/7 运行

AI 工作负载最大的改进在于：M5 在每个 GPU 核心内部嵌入了神经加速器。Apple 官方的 MLX 基准测试显示，与 M4 相比，其首个 token 生成时间 (TTFT) 提升了 3.3–4.1 倍。Token 生成速度提升了约 25%，虽然仍受带宽限制，但带宽上限更高了。

对于涉及频繁上下文切换和长系统提示词的 agent 工作负载，这一点至关重要。M3 Ultra 处理 120K token 上下文大约需要 2.3 秒（根据 prefill 基准测试估算）；而 M5 Ultra 应该能在 0.7 秒内完成。

512GB 统一内存到底能运行什么？

这张表才是重点。统一内存意味着 GPU 和 CPU 共享相同的 RAM，没有 PCIe 瓶颈，也没有 VRAM 限制。

模型	量化 (Quantization)	所需内存	M3 Ultra 512GB	M5 Ultra (预测)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

数据来源：geerlingguy/ai-benchmarks, Apple MLX Research, HN 社区基准测试

作为参考：20–30 tok/s 对于交互式聊天非常舒适。15 tok/s 是可用的。低于 5 tok/s 会感觉迟钝，但适用于批处理任务。

512GB 的配置意味着你可以运行 DeepSeek R1 671B Q4 (~336GB)，并且还剩下约 176GB 用于 KV cache 和上下文。这足以支撑拥有 100K+ token 上下文的多轮对话。

为什么不直接用 NVIDIA？

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
内存	512GB 统一内存	32GB VRAM	128GB VRAM
带宽	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ 内存可运行	❌ 无法装入	❌ 依然无法装入
Llama 70B 速度	~18 tok/s	~80 tok/s	~240 tok/s
功耗	~190W	~450W	~1,800W
噪音	静音	大	数据中心级别
价格	约 $10,000	约 $2,000	约 $8,000 + 主板

当模型能装入 VRAM 时，NVIDIA 在原始速度上胜出。但一旦模型超过 32GB，NVIDIA 的性能就会断崖式下跌：offloading 到系统 RAM 会使吞吐量从 100+ tok/s 掉到约 3 tok/s。Mac 的统一内存架构意味着没有这种性能断崖。400GB 的模型运行带宽与 40GB 模型相同。

对于 70B 以下的模型，买 GPU。对于 200B 以上的模型，Mac Studio 是目前唯一实用的消费级选择。

引入 LemonClaw：将硬件转化为 AI 助手

在本地运行模型只是第一步。让它 24/7 全天候发挥作用是第二步。

LemonClaw 是一个开源的自托管 AI agent 平台。它能将你的 Mac 变成一个持久化的 AI 助手，你可以通过现有的即时通讯应用（Telegram、Slack、Discord、WhatsApp 甚至 iMessage）与其互动。

为什么选择 LemonClaw + Mac Studio？

大多数人通过浏览器标签页与 AI 交互。LemonClaw 则将其放入你的通讯应用中：你的助手运行在自己的硬件上，在对话中记住你的上下文，并在你睡觉时继续工作。

LemonClaw 的功能

持久化记忆：基于 Markdown 的记忆文件，支持语义搜索。你的助手会记得你上周讨论过的内容。
多渠道收件箱：通过 Telegram、Slack、Discord、WhatsApp 或任何支持的平台与之交谈。同一上下文，任何设备。
自主任务：安排 cron 任务，设置 webhook，让它彻夜进行研究或代码任务。
浏览器自动化：基于 CDP 的网页浏览，用于研究、数据提取、表单填写。
技能生态：从 ClawHub 安装社区技能，或编写自己的技能。
MCP 服务器支持：连接到外部工具和 API。

本地模型的优势

当你通过 Ollama 或 MLX 在 Mac Studio 上运行 LemonClaw 配合本地模型时：

零 API 成本。没有按 token 计费。全天候运行 DeepSeek R1 671B，成本仅为电费（每月约 $3）。
完全隐私。你的提示词、文档和代码永远不会离开你的机器。处理敏感合同、专有代码、医疗记录，无需第三方数据处理。
无速率限制。云端 API 会将你限制在每分钟 1,000–10,000 次请求。本地推理除了硬件限制外没有其他限制。
无停机依赖。OpenAI 宕机了？Anthropic 出故障了？你的本地设置依然运行。
延迟。没有网络往返。对于小模型，首个 token 在毫秒内出现。

快速设置：Mac Studio + Ollama + LemonClaw

# 1. 安装 Ollama
brew install ollama

# 2. 拉取模型（先从快的开始）
ollama pull qwen3:30b

# 3. 安装 LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. 配置 LemonClaw 使用本地 Ollama
# 在 ~/.lemonclaw/config.json 中设置：
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw 在 macOS 上作为 launchd 服务运行。它随系统启动并在后台 24/7 运行。连接你的 Telegram 或 Slack，你就拥有了一个随时可用的持久 AI 助手。

对于配备 512GB 的 M5 Ultra，你可以尝试更大的模型：

# 拉取 DeepSeek R1 671B (需要约 336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或者用于多模态任务的优秀模型 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

经济账：本地化何时优于云端？

让我们算一笔账。

云端 API 成本（重度用户）

使用模式	每月成本
LemonClaw 配合 Claude Sonnet 4.6 (重度)	$200–400/月
开发 + 编程助手	$50–100/月
研究 + 文档分析	$50–100/月
总计	$300–600/月

Mac Studio M5 Ultra (一次性 + 运行成本)

项目	成本
Mac Studio M5 Ultra 512GB (预测)	约 $10,000
电费 (~200W, 24/7)	约 $3/月
网络（已有）	$0
对比 $400/月云端成本的回本周期	约 25 个月

25 个月后，你运行尖端 AI 的成本仅为 $3/月。而且你还拥有一台价值 $10,000 的工作站可以做其他任何事情。

混合方案（推荐）

你不需要非此即彼。最聪明的设置是：

本地模型用于高频、隐私敏感或对延迟敏感的任务（编程、文档分析、头脑风暴）
云端 API 用于本地无法运行的最强能力（GPT-5、全速运行 200K 上下文的 Claude Opus 4.6）

LemonClaw 原生支持这种方式：配置多个模型提供商，并在每个对话或任务中在本地 Ollama 和云端 API 之间切换。

对于云端 API 访问，LemonData 通过单一 API key 为你提供 300+ 模型，采用按需付费模式，无订阅费，无最低消费。当本地模型不够用时，将其作为你的云端备选。

配置指南：三个档次

第一档：入门级 ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

运行：Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
速度：30B 模型 30–50 tok/s
最适合：个人助手、编程辅助、轻量级研究
LemonClaw 配置：默认 qwen3:30b，复杂任务回退到云端

第二档：高级用户 ($7,000–9,000)

Mac Studio M5 Ultra 256GB

运行：Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
速度：200B+ 模型 15–30 tok/s
最适合：专业开发、多模态任务、团队 AI 服务器
LemonClaw 配置：视觉任务用 qwen3-vl:235b，推理任务用 deepseek-r1:70b

第三档：AI 工作站 ($10,000–14,000)

Mac Studio M5 Ultra 512GB

运行：DeepSeek R1 671B (Q4) 及其以下所有模型
速度：671B 模型 25–35 tok/s
最适合：运行最大的开源模型、多用户服务器、前沿研究
LemonClaw 配置：深度推理用 deepseek-r1:671b，快速任务用较小模型

作为 24/7 AI 服务器运行

Mac Studio 专为常开运行而设计。以下是将其设置为无头 (headless) AI 服务器的方法：

如果你正在权衡本地推理是否值得其复杂性，请结合阅读自托管 LemonClaw 指南和 DeepSeek R1 指南。前者解决了运行环境问题，后者解决了模型适配问题。

电力与散热

190W TDP 意味着标准插座即可，无需特殊布线
待机时无风扇噪音，负载下也极度安静
在持续工作负载下不会出现热降频（Apple 的散热设计可以轻松应对）

远程访问

SSH 用于终端访问
Tailscale 用于从任何地方安全远程访问
LemonClaw 的消息集成意味着你不需要直接访问机器。只需通过 Telegram 给你的 AI 发消息即可。

可靠性

macOS launchd 会在 LemonClaw 崩溃时自动重启它
Ollama 作为后台服务运行
建议配备 UPS 以应对停电（Mac Studio 会在通电后自动启动并恢复服务）

# 开启 SSH
sudo systemsetup -setremotelogin on

# 安装 Tailscale 用于远程访问
brew install tailscale
sudo tailscale up

# LemonClaw 在 onboard 后已作为 launchd 服务运行
# 检查状态：
launchctl list | grep lemonclaw

未来展望：M5 Ultra 路线图

M5 Ultra Mac Studio 预计将于 2026 年下半年发布。以下是时间线：

2026 年 3 月 4 日：Apple “Experience” 活动，预计发布 M5 Pro/Max MacBook Pro
2026 年下半年：搭载 M5 Ultra 的 Mac Studio
相比 M3 Ultra 的关键改进：GPU 神经加速器 (3–4x TTFT)，更高的内存带宽 (~1.1–1.4 TB/s)，相同或更高的最大内存

你应该等待还是现在购买？

如果符合以下情况，现在就买 M3 Ultra 512GB：

你今天就需要本地 AI 推理
你每月在云端 API 上花费 $300+
DeepSeek R1 671B 17–20 tok/s 的速度对你的场景来说已经足够快了

如果符合以下情况，请等待 M5 Ultra：

你可以再忍受 6–9 个月的云端 API
你想要 3–4 倍的 TTFT 提升（这对 agent 工作负载至关重要）
你想在投入 $10,000+ 之前看到实际的基准测试结果

无论哪种方式，你今天就可以通过 LemonData 使用云端 API 开始体验 LemonClaw。注册即送 $1 免费额度，支持 300+ 模型，按需付费。当你的 Mac Studio 到货时，只需将 LemonClaw 指向你的本地 Ollama 实例，成本就会降至接近于零。

总结 (TL;DR)

	云端 API	Mac Studio M5 Ultra + LemonClaw
最大模型尺寸	无限制（由提供商处理）	671B Q4 (512GB 配置)
每月成本	$300–600 (重度使用)	约 $3 电费
隐私	数据发送给第三方	所有数据保留在本地
延迟	200–500ms 网络 + 推理	仅推理延迟
速率限制	有	无
前期成本	$0	约 $10,000
回本周期	—	约 25 个月

Mac Studio M5 Ultra 是个人 AI 基础设施。将其与 LemonClaw 搭配，你就拥有了一个 24/7 全天候运行尖端模型、尊重隐私且运行成本仅为 $3/月的 AI 助手。

“本地 AI 只是玩具”的时代已经结束。512GB 统一内存配合 1.2+ TB/s 带宽，意味着你可以运行足以媲美云端服务的模型。唯一的问题是，你是否准备好拥有自己的 AI 技术栈。

准备好开始构建你的 AI 基础设施了吗？尝试 LemonClaw 配合 LemonData：300+ 云端模型，注册即送 $1 免费额度。当你的 Mac Studio 到货时，无需更改代码即可切换到本地模型。

Mac Studio M5 Ultra：本地运行 671B 模型，并使用 LemonClaw 构建你自己的 AI 基础设施