Mac Studio M5 Ultra：本地跑 671B 大模型，用 OpenClaw 搭建你的私人 AI 基础设施

第一台能把 DeepSeek R1 完整 671B 参数装进内存的消费级设备，以及你能用它做什么。

Mac Studio M5 Ultra 配备 512GB 统一内存，是第一台能把 DeepSeek R1 671B（目前最大的开源模型）完整加载到内存中运行的消费级设备。不需要多卡并联，不需要水冷散热，不需要把模型拆到硬盘上慢慢读。一个放在桌上的小盒子，功耗不到一个吹风机。

这改变了本地 AI 的经济账。当你能在家里跑前沿级别的模型，问题就从"能不能跑"变成了"值不值得跑"。对越来越多的开发者来说，答案是值得。

下面是 M5 Ultra 的 LLM 推理能力、如何搭配 OpenClaw 构建 24/7 个人 AI 助手，以及什么时候本地方案比云端 API 更划算。

M5 Ultra 硬件规格

M5 Ultra 是两颗 M5 Max 芯片通过 Apple UltraFusion 互联封装而成。对 LLM 推理来说，关键参数如下：

规格	M3 Ultra	M5 Ultra（预估）	对推理的影响
内存带宽	819 GB/s	~1,100–1,400 GB/s	直接决定生成速度（带宽瓶颈）
统一内存	最高 512GB	最高 512GB+	决定能跑多大的模型
GPU 核心	80	~80	prefill 阶段的并行计算
Neural Accelerator	无	每个 GPU 核心内置	首 token 延迟降低 3–4 倍
制程	3nm	3nm (N3P)	更好的性能功耗比
TDP	~200W	~190W	静音运行，适合 24/7 开机

对 AI 负载最大的提升：M5 在每个 GPU 核心内嵌入了 Neural Accelerator。Apple 自己的 MLX 基准测试显示，首 token 生成时间（TTFT）比 M4 快 3.3–4.1 倍。逐 token 生成速度提升约 25%，仍然受带宽限制，但带宽上限更高了。

对于 Agent 类负载（频繁切换上下文、长 system prompt），TTFT 的提升最关键。M3 Ultra 处理 120K token 上下文大约需要 2.3 秒（根据 prefill 基准推算）；M5 Ultra 预计可以压到 0.7 秒以内。

512GB 统一内存能跑什么？

统一内存意味着 GPU 和 CPU 共享同一块 RAM，没有 PCIe 瓶颈，没有 VRAM 上限。

模型	量化	内存占用	M3 Ultra 512GB	M5 Ultra（预估）
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

数据来源：geerlingguy/ai-benchmarks、Apple MLX Research、HN 社区实测

参考体感：20–30 tok/s 日常对话流畅，15 tok/s 可用但略慢，5 tok/s 以下适合批量任务。

512GB 配置跑 DeepSeek R1 671B Q4（~336GB）后，还剩 ~176GB 给 KV cache 和上下文。足够支撑 100K+ token 的多轮对话。

为什么不直接用 NVIDIA？

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
显存/内存	512GB 统一内存	32GB VRAM	128GB VRAM
带宽	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	能跑	装不下	还是装不下
Llama 70B 速度	~18 tok/s	~80 tok/s	~240 tok/s
功耗	~190W	~450W	~1,800W
噪音	静音	明显	机房级
价格	~$10,000	~$2,000	~$8,000 + 主板

模型能装进 VRAM 时，NVIDIA 速度碾压。但模型一旦超过 32GB，NVIDIA 就断崖式下降：offload 到系统内存后，吞吐从 100+ tok/s 掉到 ~3 tok/s。Mac 的统一内存架构没有这个断崖。400GB 的模型和 40GB 的模型跑在同样的带宽上。

70B 以下的模型，买显卡。200B 以上的模型，Mac Studio 目前是唯一实用的消费级选择。

OpenClaw：把硬件变成 AI 助手

本地跑模型是第一步。让它 24 小时可用才是第二步。

OpenClaw 是一个开源的自托管 AI Agent 平台。它把你的 Mac 变成一个持久化的 AI 助手，通过你已有的聊天工具交互：Telegram、Slack、Discord、微信、甚至 iMessage。

为什么是 OpenClaw + Mac Studio？

大多数人通过浏览器标签页使用 AI。OpenClaw 把它搬进你的聊天工具：助手跑在你自己的硬件上，跨对话记住上下文，你睡觉的时候它还在工作。

OpenClaw 的核心能力

持久化记忆：基于 Markdown 的记忆文件 + 语义搜索。上周聊过的内容，它记得。
多渠道收件箱：Telegram、Slack、Discord、微信都能用。同一个上下文，任何设备。
自主任务：设定 cron 定时任务、配置 webhook，让它通宵跑研究或代码任务。
浏览器自动化：基于 CDP 的网页浏览，用于调研、数据提取、表单填写。
技能生态：从 ClawHub 安装社区技能，或自己写。
MCP Server 支持：连接外部工具和 API。

本地模型的优势

在 Mac Studio 上通过 Ollama 或 MLX 运行本地模型配合 OpenClaw：

零 API 费用。没有按 token 计费。DeepSeek R1 671B 全天候运行，成本只有电费（约 ¥20/月）。
完全隐私。你的 prompt、文档、代码不会离开你的机器。处理敏感合同、私有代码、医疗记录，没有第三方数据处理。
无速率限制。云端 API 限制 1,000–10,000 请求/分钟。本地推理没有限制。
不依赖外部服务。OpenAI 宕机？Anthropic 故障？你的本地环境照常运行。
低延迟。没有网络往返。小模型首 token 毫秒级响应。

快速搭建：Mac Studio + Ollama + OpenClaw

# 1. 安装 Ollama
brew install ollama

# 2. 拉取模型（先从快的开始）
ollama pull qwen3:30b

# 3. 安装 OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. 配置 OpenClaw 使用本地 Ollama
# 在 ~/.openclaw/openclaw.json 中设置：
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw 在 macOS 上以 launchd 服务运行。开机自启，后台 24/7 运行。连上你的 Telegram 或 Slack，就有了一个随时可用的 AI 助手。

512GB 配置可以跑更大的模型：

# 拉取 DeepSeek R1 671B（需要 ~336GB 内存）
ollama pull deepseek-r1:671b-q4

# 或者 Qwen3-VL 235B 用于多模态任务
ollama pull qwen3-vl:235b-q4

经济账：什么时候本地比云端划算？

算一笔账。

云端 API 费用（重度用户）

使用场景	月费
OpenClaw 搭配 Claude Sonnet 4.6（重度）	$200–400/月
开发 + 编程助手	$50–100/月
调研 + 文档分析	$50–100/月
合计	$300–600/月

Mac Studio M5 Ultra（一次性 + 运行成本）

项目	费用
Mac Studio M5 Ultra 512GB（预估）	~$10,000（约 ¥72,000）
电费（~200W，24/7 运行）	~¥20/月
网络（已有）	¥0
按月省 $400 计算回本周期	~25 个月

25 个月后，你的前沿级 AI 运行成本只有每月 ¥20 电费。而且你还有一台 ¥72,000 的工作站可以干别的。

混合方案（推荐）

不必全本地或全云端。最聪明的搭配：

本地模型处理高频、隐私敏感、延迟敏感的任务（编程、文档分析、头脑风暴）
云端 API 处理本地跑不了的前沿能力（GPT-5、Claude Opus 4.6 200K 上下文全速推理）

OpenClaw 原生支持多 provider：配置多个模型来源，按对话或按任务在本地 Ollama 和云端 API 之间切换。

云端 API 接入方面，LemonData 提供 300+ 模型的统一 API，按量付费，没有订阅费，没有最低消费。作为本地模型不够用时的云端补充。

配置推荐：三档方案

入门档（$4,000–5,000 / ¥29,000–36,000）

Mac Studio M3/M5 Ultra 96GB

能跑：Qwen3 30B、Llama 70B (Q4)、DeepSeek R1 14B
速度：30B 模型 30–50 tok/s
适合：个人助手、编程辅助、轻量调研
OpenClaw 配置：qwen3:30b 为默认，复杂任务 fallback 到云端

进阶档（$7,000–9,000 / ¥50,000–65,000）

Mac Studio M5 Ultra 256GB

能跑：Qwen3-VL 235B、GLM-4.7 358B (Q3)、Llama 405B (Q4)
速度：200B+ 模型 15–30 tok/s
适合：专业开发、多模态任务、团队 AI 服务器
OpenClaw 配置：qwen3-vl:235b 处理视觉任务，deepseek-r1:70b 处理推理

旗舰档（$10,000–14,000 / ¥72,000–100,000）

Mac Studio M5 Ultra 512GB

能跑：DeepSeek R1 671B (Q4)，以及以上所有模型
速度：671B 模型 25–35 tok/s
适合：跑最大的开源模型、多用户服务器、研究
OpenClaw 配置：deepseek-r1:671b 深度推理，小模型处理快速任务

作为 24/7 AI 服务器运行

Mac Studio 本身就是为长时间运行设计的。以下是把它配置成无头 AI 服务器的要点：

功耗与散热

190W TDP，普通插座即可，不需要特殊布线
空载无风扇噪音，满载低噪
持续负载无降频（Apple 的散热设计能 hold 住）

远程访问

SSH 终端访问
Tailscale 实现从任何地方安全连接
OpenClaw 的聊天集成意味着你不需要直接访问机器。通过 Telegram 给你的 AI 发消息就行。

可靠性

macOS launchd 在 OpenClaw 崩溃时自动重启
Ollama 作为后台服务运行
建议配 UPS 应对断电（Mac Studio 来电后自动开机并恢复服务）

# 开启 SSH
sudo systemsetup -setremotelogin on

# 安装 Tailscale 远程访问
brew install tailscale
sudo tailscale up

# OpenClaw 在 onboard 后已作为 launchd 服务运行
# 检查状态：
launchctl list | grep openclaw

M5 Ultra 发布时间线

M5 Ultra 版 Mac Studio 预计 2026 年下半年发布。时间线：

2026 年 3 月 4 日：Apple "Experience" 发布会，预计发布 M5 Pro/Max MacBook Pro
2026 年下半年：搭载 M5 Ultra 的 Mac Studio
相比 M3 Ultra 的核心提升：GPU Neural Accelerator（TTFT 快 3–4 倍）、更高内存带宽（~1.1–1.4 TB/s）、同等或更高的最大内存

现在买还是等？

现在买 M3 Ultra 512GB，如果：

你今天就需要本地 AI 推理
你每月在云端 API 上花 $300+
DeepSeek R1 671B 的 17–20 tok/s 对你够用

等 M5 Ultra，如果：

你能再忍 6–9 个月用云端 API
你需要 3–4 倍的 TTFT 提升（Agent 负载的关键指标）
你想看到实际跑分再决定花 ¥72,000+

不管哪种选择，你现在就可以用云端 API 通过 LemonData 开始使用 OpenClaw。注册送 $1 额度，300+ 模型，用多少付多少。等 Mac Studio 到手，把 OpenClaw 指向本地 Ollama 实例，费用直接降到接近零。

总结对比

	云端 API	Mac Studio M5 Ultra + OpenClaw
最大模型	无限制（服务商处理）	671B Q4（512GB 配置）
月费	$300–600（重度使用）	~¥20 电费
隐私	数据发送给第三方	全部留在本地
延迟	200–500ms 网络 + 推理	仅推理
速率限制	有	无
前期投入	$0	~$10,000（约 ¥72,000）
回本周期	—	~25 个月

Mac Studio M5 Ultra 是个人 AI 基础设施。搭配 OpenClaw，你拥有一个 24/7 运行的 AI 助手：跑前沿级模型，数据完全私有，运行成本每月 ¥20。

"本地 AI 是玩具"的时代结束了。512GB 统一内存 + 1.2+ TB/s 带宽，意味着你能在桌面上跑出接近云端的模型能力。唯一的问题是，你准备好拥有自己的 AI 基础设施了吗？

准备开始搭建？用 LemonData 体验 OpenClaw：300+ 云端模型，注册送 $1 额度。等 Mac Studio 到手，切换到本地模型，代码零改动。