Mac Studio M5 Ultra:本地跑 671B 大模型,用 OpenClaw 搭建你的私人 AI 基础设施
第一台能把 DeepSeek R1 完整 671B 参数装进内存的消费级设备,以及你能用它做什么。
Mac Studio M5 Ultra 配备 512GB 统一内存,是第一台能把 DeepSeek R1 671B(目前最大的开源模型)完整加载到内存中运行的消费级设备。不需要多卡并联,不需要水冷散热,不需要把模型拆到硬盘上慢慢读。一个放在桌上的小盒子,功耗不到一个吹风机。
这改变了本地 AI 的经济账。当你能在家里跑前沿级别的模型,问题就从"能不能跑"变成了"值不值得跑"。对越来越多的开发者来说,答案是值得。
下面是 M5 Ultra 的 LLM 推理能力、如何搭配 OpenClaw 构建 24/7 个人 AI 助手,以及什么时候本地方案比云端 API 更划算。
M5 Ultra 硬件规格
M5 Ultra 是两颗 M5 Max 芯片通过 Apple UltraFusion 互联封装而成。对 LLM 推理来说,关键参数如下:
| 规格 | M3 Ultra | M5 Ultra(预估) | 对推理的影响 |
|---|---|---|---|
| 内存带宽 | 819 GB/s | ~1,100–1,400 GB/s | 直接决定生成速度(带宽瓶颈) |
| 统一内存 | 最高 512GB | 最高 512GB+ | 决定能跑多大的模型 |
| GPU 核心 | 80 | ~80 | prefill 阶段的并行计算 |
| Neural Accelerator | 无 | 每个 GPU 核心内置 | 首 token 延迟降低 3–4 倍 |
| 制程 | 3nm | 3nm (N3P) | 更好的性能功耗比 |
| TDP | ~200W | ~190W | 静音运行,适合 24/7 开机 |
对 AI 负载最大的提升:M5 在每个 GPU 核心内嵌入了 Neural Accelerator。Apple 自己的 MLX 基准测试显示,首 token 生成时间(TTFT)比 M4 快 3.3–4.1 倍。逐 token 生成速度提升约 25%,仍然受带宽限制,但带宽上限更高了。
对于 Agent 类负载(频繁切换上下文、长 system prompt),TTFT 的提升最关键。M3 Ultra 处理 120K token 上下文大约需要 2.3 秒(根据 prefill 基准推算);M5 Ultra 预计可以压到 0.7 秒以内。
512GB 统一内存能跑什么?
统一内存意味着 GPU 和 CPU 共享同一块 RAM,没有 PCIe 瓶颈,没有 VRAM 上限。
| 模型 | 量化 | 内存占用 | M3 Ultra 512GB | M5 Ultra(预估) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
数据来源:geerlingguy/ai-benchmarks、Apple MLX Research、HN 社区实测
参考体感:20–30 tok/s 日常对话流畅,15 tok/s 可用但略慢,5 tok/s 以下适合批量任务。
512GB 配置跑 DeepSeek R1 671B Q4(~336GB)后,还剩 ~176GB 给 KV cache 和上下文。足够支撑 100K+ token 的多轮对话。
为什么不直接用 NVIDIA?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| 显存/内存 | 512GB 统一内存 | 32GB VRAM | 128GB VRAM |
| 带宽 | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | 能跑 | 装不下 | 还是装不下 |
| Llama 70B 速度 | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| 功耗 | ~190W | ~450W | ~1,800W |
| 噪音 | 静音 | 明显 | 机房级 |
| 价格 | ~$10,000 | ~$2,000 | ~$8,000 + 主板 |
模型能装进 VRAM 时,NVIDIA 速度碾压。但模型一旦超过 32GB,NVIDIA 就断崖式下降:offload 到系统内存后,吞吐从 100+ tok/s 掉到 ~3 tok/s。Mac 的统一内存架构没有这个断崖。400GB 的模型和 40GB 的模型跑在同样的带宽上。
70B 以下的模型,买显卡。200B 以上的模型,Mac Studio 目前是唯一实用的消费级选择。
OpenClaw:把硬件变成 AI 助手
本地跑模型是第一步。让它 24 小时可用才是第二步。
OpenClaw 是一个开源的自托管 AI Agent 平台。它把你的 Mac 变成一个持久化的 AI 助手,通过你已有的聊天工具交互:Telegram、Slack、Discord、微信、甚至 iMessage。
为什么是 OpenClaw + Mac Studio?
大多数人通过浏览器标签页使用 AI。OpenClaw 把它搬进你的聊天工具:助手跑在你自己的硬件上,跨对话记住上下文,你睡觉的时候它还在工作。
OpenClaw 的核心能力
- 持久化记忆:基于 Markdown 的记忆文件 + 语义搜索。上周聊过的内容,它记得。
- 多渠道收件箱:Telegram、Slack、Discord、微信都能用。同一个上下文,任何设备。
- 自主任务:设定 cron 定时任务、配置 webhook,让它通宵跑研究或代码任务。
- 浏览器自动化:基于 CDP 的网页浏览,用于调研、数据提取、表单填写。
- 技能生态:从 ClawHub 安装社区技能,或自己写。
- MCP Server 支持:连接外部工具和 API。
本地模型的优势
在 Mac Studio 上通过 Ollama 或 MLX 运行本地模型配合 OpenClaw:
- 零 API 费用。没有按 token 计费。DeepSeek R1 671B 全天候运行,成本只有电费(约 ¥20/月)。
- 完全隐私。你的 prompt、文档、代码不会离开你的机器。处理敏感合同、私有代码、医疗记录,没有第三方数据处理。
- 无速率限制。云端 API 限制 1,000–10,000 请求/分钟。本地推理没有限制。
- 不依赖外部服务。OpenAI 宕机?Anthropic 故障?你的本地环境照常运行。
- 低延迟。没有网络往返。小模型首 token 毫秒级响应。
快速搭建:Mac Studio + Ollama + OpenClaw
# 1. 安装 Ollama
brew install ollama
# 2. 拉取模型(先从快的开始)
ollama pull qwen3:30b
# 3. 安装 OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon
# 4. 配置 OpenClaw 使用本地 Ollama
# 在 ~/.openclaw/openclaw.json 中设置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
OpenClaw 在 macOS 上以 launchd 服务运行。开机自启,后台 24/7 运行。连上你的 Telegram 或 Slack,就有了一个随时可用的 AI 助手。
512GB 配置可以跑更大的模型:
# 拉取 DeepSeek R1 671B(需要 ~336GB 内存)
ollama pull deepseek-r1:671b-q4
# 或者 Qwen3-VL 235B 用于多模态任务
ollama pull qwen3-vl:235b-q4
经济账:什么时候本地比云端划算?
算一笔账。
云端 API 费用(重度用户)
| 使用场景 | 月费 |
|---|---|
| OpenClaw 搭配 Claude Sonnet 4.6(重度) | $200–400/月 |
| 开发 + 编程助手 | $50–100/月 |
| 调研 + 文档分析 | $50–100/月 |
| 合计 | $300–600/月 |
Mac Studio M5 Ultra(一次性 + 运行成本)
| 项目 | 费用 |
|---|---|
| Mac Studio M5 Ultra 512GB(预估) | ~$10,000(约 ¥72,000) |
| 电费(~200W,24/7 运行) | ~¥20/月 |
| 网络(已有) | ¥0 |
| 按月省 $400 计算回本周期 | ~25 个月 |
25 个月后,你的前沿级 AI 运行成本只有每月 ¥20 电费。而且你还有一台 ¥72,000 的工作站可以干别的。
混合方案(推荐)
不必全本地或全云端。最聪明的搭配:
- 本地模型处理高频、隐私敏感、延迟敏感的任务(编程、文档分析、头脑风暴)
- 云端 API 处理本地跑不了的前沿能力(GPT-5、Claude Opus 4.6 200K 上下文全速推理)
OpenClaw 原生支持多 provider:配置多个模型来源,按对话或按任务在本地 Ollama 和云端 API 之间切换。
云端 API 接入方面,LemonData 提供 300+ 模型的统一 API,按量付费,没有订阅费,没有最低消费。作为本地模型不够用时的云端补充。
配置推荐:三档方案
入门档($4,000–5,000 / ¥29,000–36,000)
Mac Studio M3/M5 Ultra 96GB
- 能跑:Qwen3 30B、Llama 70B (Q4)、DeepSeek R1 14B
- 速度:30B 模型 30–50 tok/s
- 适合:个人助手、编程辅助、轻量调研
- OpenClaw 配置:
qwen3:30b为默认,复杂任务 fallback 到云端
进阶档($7,000–9,000 / ¥50,000–65,000)
Mac Studio M5 Ultra 256GB
- 能跑:Qwen3-VL 235B、GLM-4.7 358B (Q3)、Llama 405B (Q4)
- 速度:200B+ 模型 15–30 tok/s
- 适合:专业开发、多模态任务、团队 AI 服务器
- OpenClaw 配置:
qwen3-vl:235b处理视觉任务,deepseek-r1:70b处理推理
旗舰档($10,000–14,000 / ¥72,000–100,000)
Mac Studio M5 Ultra 512GB
- 能跑:DeepSeek R1 671B (Q4),以及以上所有模型
- 速度:671B 模型 25–35 tok/s
- 适合:跑最大的开源模型、多用户服务器、研究
- OpenClaw 配置:
deepseek-r1:671b深度推理,小模型处理快速任务
作为 24/7 AI 服务器运行
Mac Studio 本身就是为长时间运行设计的。以下是把它配置成无头 AI 服务器的要点:
功耗与散热
- 190W TDP,普通插座即可,不需要特殊布线
- 空载无风扇噪音,满载低噪
- 持续负载无降频(Apple 的散热设计能 hold 住)
远程访问
- SSH 终端访问
- Tailscale 实现从任何地方安全连接
- OpenClaw 的聊天集成意味着你不需要直接访问机器。通过 Telegram 给你的 AI 发消息就行。
可靠性
- macOS launchd 在 OpenClaw 崩溃时自动重启
- Ollama 作为后台服务运行
- 建议配 UPS 应对断电(Mac Studio 来电后自动开机并恢复服务)
# 开启 SSH
sudo systemsetup -setremotelogin on
# 安装 Tailscale 远程访问
brew install tailscale
sudo tailscale up
# OpenClaw 在 onboard 后已作为 launchd 服务运行
# 检查状态:
launchctl list | grep openclaw
M5 Ultra 发布时间线
M5 Ultra 版 Mac Studio 预计 2026 年下半年发布。时间线:
- 2026 年 3 月 4 日:Apple "Experience" 发布会,预计发布 M5 Pro/Max MacBook Pro
- 2026 年下半年:搭载 M5 Ultra 的 Mac Studio
- 相比 M3 Ultra 的核心提升:GPU Neural Accelerator(TTFT 快 3–4 倍)、更高内存带宽(~1.1–1.4 TB/s)、同等或更高的最大内存
现在买还是等?
现在买 M3 Ultra 512GB,如果:
- 你今天就需要本地 AI 推理
- 你每月在云端 API 上花 $300+
- DeepSeek R1 671B 的 17–20 tok/s 对你够用
等 M5 Ultra,如果:
- 你能再忍 6–9 个月用云端 API
- 你需要 3–4 倍的 TTFT 提升(Agent 负载的关键指标)
- 你想看到实际跑分再决定花 ¥72,000+
不管哪种选择,你现在就可以用云端 API 通过 LemonData 开始使用 OpenClaw。注册送 $1 额度,300+ 模型,用多少付多少。等 Mac Studio 到手,把 OpenClaw 指向本地 Ollama 实例,费用直接降到接近零。
总结对比
| 云端 API | Mac Studio M5 Ultra + OpenClaw | |
|---|---|---|
| 最大模型 | 无限制(服务商处理) | 671B Q4(512GB 配置) |
| 月费 | $300–600(重度使用) | ~¥20 电费 |
| 隐私 | 数据发送给第三方 | 全部留在本地 |
| 延迟 | 200–500ms 网络 + 推理 | 仅推理 |
| 速率限制 | 有 | 无 |
| 前期投入 | $0 | ~$10,000(约 ¥72,000) |
| 回本周期 | — | ~25 个月 |
Mac Studio M5 Ultra 是个人 AI 基础设施。搭配 OpenClaw,你拥有一个 24/7 运行的 AI 助手:跑前沿级模型,数据完全私有,运行成本每月 ¥20。
"本地 AI 是玩具"的时代结束了。512GB 统一内存 + 1.2+ TB/s 带宽,意味着你能在桌面上跑出接近云端的模型能力。唯一的问题是,你准备好拥有自己的 AI 基础设施了吗?
准备开始搭建?用 LemonData 体验 OpenClaw:300+ 云端模型,注册送 $1 额度。等 Mac Studio 到手,切换到本地模型,代码零改动。
