设置

语言

Mac Studio M5 Ultra:本地跑 671B 大模型,用 OpenClaw 搭建你的私人 AI 基础设施

L
LemonData
·2026年2月26日·9 次浏览
#Mac Studio#M5 Ultra#本地AI#OpenClaw#自托管#LLM推理
Mac Studio M5 Ultra:本地跑 671B 大模型,用 OpenClaw 搭建你的私人 AI 基础设施

Mac Studio M5 Ultra:本地跑 671B 大模型,用 OpenClaw 搭建你的私人 AI 基础设施

第一台能把 DeepSeek R1 完整 671B 参数装进内存的消费级设备,以及你能用它做什么。


Mac Studio M5 Ultra 配备 512GB 统一内存,是第一台能把 DeepSeek R1 671B(目前最大的开源模型)完整加载到内存中运行的消费级设备。不需要多卡并联,不需要水冷散热,不需要把模型拆到硬盘上慢慢读。一个放在桌上的小盒子,功耗不到一个吹风机。

这改变了本地 AI 的经济账。当你能在家里跑前沿级别的模型,问题就从"能不能跑"变成了"值不值得跑"。对越来越多的开发者来说,答案是值得。

下面是 M5 Ultra 的 LLM 推理能力、如何搭配 OpenClaw 构建 24/7 个人 AI 助手,以及什么时候本地方案比云端 API 更划算。


M5 Ultra 硬件规格

M5 Ultra 是两颗 M5 Max 芯片通过 Apple UltraFusion 互联封装而成。对 LLM 推理来说,关键参数如下:

规格 M3 Ultra M5 Ultra(预估) 对推理的影响
内存带宽 819 GB/s ~1,100–1,400 GB/s 直接决定生成速度(带宽瓶颈)
统一内存 最高 512GB 最高 512GB+ 决定能跑多大的模型
GPU 核心 80 ~80 prefill 阶段的并行计算
Neural Accelerator 每个 GPU 核心内置 首 token 延迟降低 3–4 倍
制程 3nm 3nm (N3P) 更好的性能功耗比
TDP ~200W ~190W 静音运行,适合 24/7 开机

对 AI 负载最大的提升:M5 在每个 GPU 核心内嵌入了 Neural Accelerator。Apple 自己的 MLX 基准测试显示,首 token 生成时间(TTFT)比 M4 快 3.3–4.1 倍。逐 token 生成速度提升约 25%,仍然受带宽限制,但带宽上限更高了。

对于 Agent 类负载(频繁切换上下文、长 system prompt),TTFT 的提升最关键。M3 Ultra 处理 120K token 上下文大约需要 2.3 秒(根据 prefill 基准推算);M5 Ultra 预计可以压到 0.7 秒以内。


512GB 统一内存能跑什么?

统一内存意味着 GPU 和 CPU 共享同一块 RAM,没有 PCIe 瓶颈,没有 VRAM 上限。

模型 量化 内存占用 M3 Ultra 512GB M5 Ultra(预估)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

数据来源:geerlingguy/ai-benchmarksApple MLX ResearchHN 社区实测

参考体感:20–30 tok/s 日常对话流畅,15 tok/s 可用但略慢,5 tok/s 以下适合批量任务。

512GB 配置跑 DeepSeek R1 671B Q4(~336GB)后,还剩 ~176GB 给 KV cache 和上下文。足够支撑 100K+ token 的多轮对话。

为什么不直接用 NVIDIA?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
显存/内存 512GB 统一内存 32GB VRAM 128GB VRAM
带宽 ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B 能跑 装不下 还是装不下
Llama 70B 速度 ~18 tok/s ~80 tok/s ~240 tok/s
功耗 ~190W ~450W ~1,800W
噪音 静音 明显 机房级
价格 ~$10,000 ~$2,000 ~$8,000 + 主板

模型能装进 VRAM 时,NVIDIA 速度碾压。但模型一旦超过 32GB,NVIDIA 就断崖式下降:offload 到系统内存后,吞吐从 100+ tok/s 掉到 ~3 tok/s。Mac 的统一内存架构没有这个断崖。400GB 的模型和 40GB 的模型跑在同样的带宽上。

70B 以下的模型,买显卡。200B 以上的模型,Mac Studio 目前是唯一实用的消费级选择。


OpenClaw:把硬件变成 AI 助手

本地跑模型是第一步。让它 24 小时可用才是第二步。

OpenClaw 是一个开源的自托管 AI Agent 平台。它把你的 Mac 变成一个持久化的 AI 助手,通过你已有的聊天工具交互:Telegram、Slack、Discord、微信、甚至 iMessage。

为什么是 OpenClaw + Mac Studio?

大多数人通过浏览器标签页使用 AI。OpenClaw 把它搬进你的聊天工具:助手跑在你自己的硬件上,跨对话记住上下文,你睡觉的时候它还在工作。

OpenClaw 的核心能力

  • 持久化记忆:基于 Markdown 的记忆文件 + 语义搜索。上周聊过的内容,它记得。
  • 多渠道收件箱:Telegram、Slack、Discord、微信都能用。同一个上下文,任何设备。
  • 自主任务:设定 cron 定时任务、配置 webhook,让它通宵跑研究或代码任务。
  • 浏览器自动化:基于 CDP 的网页浏览,用于调研、数据提取、表单填写。
  • 技能生态:从 ClawHub 安装社区技能,或自己写。
  • MCP Server 支持:连接外部工具和 API。

本地模型的优势

在 Mac Studio 上通过 Ollama 或 MLX 运行本地模型配合 OpenClaw:

  1. 零 API 费用。没有按 token 计费。DeepSeek R1 671B 全天候运行,成本只有电费(约 ¥20/月)。
  2. 完全隐私。你的 prompt、文档、代码不会离开你的机器。处理敏感合同、私有代码、医疗记录,没有第三方数据处理。
  3. 无速率限制。云端 API 限制 1,000–10,000 请求/分钟。本地推理没有限制。
  4. 不依赖外部服务。OpenAI 宕机?Anthropic 故障?你的本地环境照常运行。
  5. 低延迟。没有网络往返。小模型首 token 毫秒级响应。

快速搭建:Mac Studio + Ollama + OpenClaw

# 1. 安装 Ollama
brew install ollama

# 2. 拉取模型(先从快的开始)
ollama pull qwen3:30b

# 3. 安装 OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. 配置 OpenClaw 使用本地 Ollama
# 在 ~/.openclaw/openclaw.json 中设置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw 在 macOS 上以 launchd 服务运行。开机自启,后台 24/7 运行。连上你的 Telegram 或 Slack,就有了一个随时可用的 AI 助手。

512GB 配置可以跑更大的模型:

# 拉取 DeepSeek R1 671B(需要 ~336GB 内存)
ollama pull deepseek-r1:671b-q4

# 或者 Qwen3-VL 235B 用于多模态任务
ollama pull qwen3-vl:235b-q4

经济账:什么时候本地比云端划算?

算一笔账。

云端 API 费用(重度用户)

使用场景 月费
OpenClaw 搭配 Claude Sonnet 4.6(重度) $200–400/月
开发 + 编程助手 $50–100/月
调研 + 文档分析 $50–100/月
合计 $300–600/月

Mac Studio M5 Ultra(一次性 + 运行成本)

项目 费用
Mac Studio M5 Ultra 512GB(预估) ~$10,000(约 ¥72,000)
电费(~200W,24/7 运行) ~¥20/月
网络(已有) ¥0
按月省 $400 计算回本周期 ~25 个月

25 个月后,你的前沿级 AI 运行成本只有每月 ¥20 电费。而且你还有一台 ¥72,000 的工作站可以干别的。

混合方案(推荐)

不必全本地或全云端。最聪明的搭配:

  • 本地模型处理高频、隐私敏感、延迟敏感的任务(编程、文档分析、头脑风暴)
  • 云端 API 处理本地跑不了的前沿能力(GPT-5、Claude Opus 4.6 200K 上下文全速推理)

OpenClaw 原生支持多 provider:配置多个模型来源,按对话或按任务在本地 Ollama 和云端 API 之间切换。

云端 API 接入方面,LemonData 提供 300+ 模型的统一 API,按量付费,没有订阅费,没有最低消费。作为本地模型不够用时的云端补充。


配置推荐:三档方案

入门档($4,000–5,000 / ¥29,000–36,000)

Mac Studio M3/M5 Ultra 96GB

  • 能跑:Qwen3 30B、Llama 70B (Q4)、DeepSeek R1 14B
  • 速度:30B 模型 30–50 tok/s
  • 适合:个人助手、编程辅助、轻量调研
  • OpenClaw 配置:qwen3:30b 为默认,复杂任务 fallback 到云端

进阶档($7,000–9,000 / ¥50,000–65,000)

Mac Studio M5 Ultra 256GB

  • 能跑:Qwen3-VL 235B、GLM-4.7 358B (Q3)、Llama 405B (Q4)
  • 速度:200B+ 模型 15–30 tok/s
  • 适合:专业开发、多模态任务、团队 AI 服务器
  • OpenClaw 配置:qwen3-vl:235b 处理视觉任务,deepseek-r1:70b 处理推理

旗舰档($10,000–14,000 / ¥72,000–100,000)

Mac Studio M5 Ultra 512GB

  • 能跑:DeepSeek R1 671B (Q4),以及以上所有模型
  • 速度:671B 模型 25–35 tok/s
  • 适合:跑最大的开源模型、多用户服务器、研究
  • OpenClaw 配置:deepseek-r1:671b 深度推理,小模型处理快速任务

作为 24/7 AI 服务器运行

Mac Studio 本身就是为长时间运行设计的。以下是把它配置成无头 AI 服务器的要点:

功耗与散热

  • 190W TDP,普通插座即可,不需要特殊布线
  • 空载无风扇噪音,满载低噪
  • 持续负载无降频(Apple 的散热设计能 hold 住)

远程访问

  • SSH 终端访问
  • Tailscale 实现从任何地方安全连接
  • OpenClaw 的聊天集成意味着你不需要直接访问机器。通过 Telegram 给你的 AI 发消息就行。

可靠性

  • macOS launchd 在 OpenClaw 崩溃时自动重启
  • Ollama 作为后台服务运行
  • 建议配 UPS 应对断电(Mac Studio 来电后自动开机并恢复服务)
# 开启 SSH
sudo systemsetup -setremotelogin on

# 安装 Tailscale 远程访问
brew install tailscale
sudo tailscale up

# OpenClaw 在 onboard 后已作为 launchd 服务运行
# 检查状态:
launchctl list | grep openclaw

M5 Ultra 发布时间线

M5 Ultra 版 Mac Studio 预计 2026 年下半年发布。时间线:

  • 2026 年 3 月 4 日:Apple "Experience" 发布会,预计发布 M5 Pro/Max MacBook Pro
  • 2026 年下半年:搭载 M5 Ultra 的 Mac Studio
  • 相比 M3 Ultra 的核心提升:GPU Neural Accelerator(TTFT 快 3–4 倍)、更高内存带宽(~1.1–1.4 TB/s)、同等或更高的最大内存

现在买还是等?

现在买 M3 Ultra 512GB,如果:

  • 你今天就需要本地 AI 推理
  • 你每月在云端 API 上花 $300+
  • DeepSeek R1 671B 的 17–20 tok/s 对你够用

等 M5 Ultra,如果:

  • 你能再忍 6–9 个月用云端 API
  • 你需要 3–4 倍的 TTFT 提升(Agent 负载的关键指标)
  • 你想看到实际跑分再决定花 ¥72,000+

不管哪种选择,你现在就可以用云端 API 通过 LemonData 开始使用 OpenClaw。注册送 $1 额度,300+ 模型,用多少付多少。等 Mac Studio 到手,把 OpenClaw 指向本地 Ollama 实例,费用直接降到接近零。


总结对比

云端 API Mac Studio M5 Ultra + OpenClaw
最大模型 无限制(服务商处理) 671B Q4(512GB 配置)
月费 $300–600(重度使用) ~¥20 电费
隐私 数据发送给第三方 全部留在本地
延迟 200–500ms 网络 + 推理 仅推理
速率限制
前期投入 $0 ~$10,000(约 ¥72,000)
回本周期 ~25 个月

Mac Studio M5 Ultra 是个人 AI 基础设施。搭配 OpenClaw,你拥有一个 24/7 运行的 AI 助手:跑前沿级模型,数据完全私有,运行成本每月 ¥20。

"本地 AI 是玩具"的时代结束了。512GB 统一内存 + 1.2+ TB/s 带宽,意味着你能在桌面上跑出接近云端的模型能力。唯一的问题是,你准备好拥有自己的 AI 基础设施了吗?


准备开始搭建?用 LemonData 体验 OpenClaw:300+ 云端模型,注册送 $1 额度。等 Mac Studio 到手,切换到本地模型,代码零改动。

分享: