首款能將 DeepSeek R1 完整的 671B 參數裝入記憶體的消費級硬體,以及它的實際應用。
配備 512GB 統一記憶體(unified memory)的 Mac Studio M5 Ultra 是首款能完全在 RAM 中運行 DeepSeek R1 671B(目前最大的開源模型)的消費級機器。無需卸載(offloading)、無需多 GPU 陣列,也無需水冷。只需一個放在桌面上的小盒子,耗電量甚至比吹風機還低。
這改變了本地 AI 的運算邏輯。當你可以在家運行頂尖模型時,問題就從「我能做到嗎?」變成了「我應該這樣做嗎?」。對於越來越多的開發者來說,答案是肯定的。
以下內容將介紹:M5 Ultra 為 LLM 推理(inference)帶來的提升、如何將其與 OpenClaw 搭配打造 24/7 個人 AI 助手,以及何時選擇它比雲端 API 更具經濟效益。
M5 Ultra 帶來了什麼
M5 Ultra 是透過 Apple 的 UltraFusion 互連技術將兩顆 M5 Max 晶片融合而成。以下是對於 LLM 推理至關重要的規格:
| 規格 | M3 Ultra | M5 Ultra (預測) | 重要原因 |
|---|---|---|---|
| 記憶體頻寬 (Memory bandwidth) | 819 GB/s | ~1,100–1,400 GB/s | Token 生成速度受頻寬限制 (bandwidth-bound) |
| 統一記憶體 (Unified memory) | 最高 512GB | 最高 512GB+ | 決定最大模型尺寸 |
| GPU 核心 | 80 | ~80 | 用於 prefill 的並行運算 |
| 神經加速器 (Neural Accelerator) | 無 | 每個 GPU 核心內建 | 首個 token 延遲 (TTFT) 快 3–4 倍 |
| 製程節點 | 3nm | 3nm (N3P) | 更好的效能功耗比 (perf/watt) |
| TDP | ~200W | ~190W | 運行安靜,支援 24/7 運作 |
AI 工作負載最大的單一改進在於:M5 在每個 GPU 核心中都嵌入了神經加速器。Apple 自家的 MLX 基準測試顯示,與 M4 相比,首個 token 生成時間 (TTFT) 快了 3.3–4.1 倍。Token 生成速度提升了約 25%,雖然仍受頻寬限制,但頻寬上限更高了。
對於涉及頻繁上下文切換和長系統提示(system prompts)的代理(agent)工作負載,這一點最為重要。M3 Ultra 處理 120K token 的上下文大約需要 2.3 秒(根據 prefill 基準測試估計);而 M5 Ultra 應該能在 0.7 秒內完成。
512GB 統一記憶體實際能運行什麼?
這是最關鍵的表格。統一記憶體意味著 GPU 和 CPU 共享相同的 RAM,沒有 PCIe 瓶頸,也沒有 VRAM 限制。
| 模型 | 量化 (Quantization) | 所需記憶體 | M3 Ultra 512GB | M5 Ultra (預測) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
數據來源:geerlingguy/ai-benchmarks, Apple MLX Research, HN 社群基準測試
參考標準:20–30 tok/s 對於互動式聊天來說很舒適。15 tok/s 是可用的。低於 5 tok/s 會感到遲鈍,但適用於批次任務。
512GB 的配置意味著你可以運行 DeepSeek R1 671B Q4 (~336GB),並且還有約 176GB 剩餘空間用於 KV cache 和上下文。這足以支撐擁有 100K+ token 上下文的多輪對話。
為什麼不直接用 NVIDIA?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| 記憶體 | 512GB 統一記憶體 | 32GB VRAM | 128GB VRAM |
| 頻寬 | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ 可在記憶體運行 | ❌ 無法裝入 | ❌ 仍無法裝入 |
| Llama 70B 速度 | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| 功耗 | ~190W | ~450W | ~1,800W |
| 噪音 | 安靜 | 大聲 | 數據中心級別 |
| 價格 | 約 $10,000 | 約 $2,000 | 約 $8,000 + 主機板 |
當模型能裝入 VRAM 時,NVIDIA 在原始速度上勝出。但一旦模型超過 32GB,NVIDIA 的效能就會斷崖式下跌:卸載到系統 RAM 會使吞吐量從 100+ tok/s 降至約 3 tok/s。Mac 的統一記憶體架構意味著沒有這種瓶頸。400GB 模型的運行頻寬與 40GB 模型相同。
對於 70B 以下的模型,買 GPU。對於 200B 以上的模型,Mac Studio 是目前唯一實用的消費級選擇。
引入 OpenClaw:將硬體轉化為 AI 助手
在本地運行模型只是第一步。讓它 24/7 發揮作用是第二步。
OpenClaw 是一個開源、自託管的 AI 代理平台。它能將你的 Mac 變成一個持久的 AI 助手,你可以透過現有的通訊軟體與之互動 —— Telegram、Slack、Discord、WhatsApp,甚至是 iMessage。
為什麼選擇 OpenClaw + Mac Studio?
大多數人透過瀏覽器分頁與 AI 互動。OpenClaw 則將其放入你的通訊軟體中:你的助手在你的硬體上運行,跨對話記住你的上下文,並在你睡覺時工作。
OpenClaw 的功能
- 持久化記憶體:基於 Markdown 的記憶體檔案,支援語義搜尋。你的助手會記得你上週討論過的內容。
- 多通路收件匣:透過 Telegram、Slack、Discord、WhatsApp 或任何支援的平台與它交談。相同的上下文,任何裝置。
- 自動化任務:排程 cron 任務、設置 webhooks,讓它徹夜進行研究或程式碼任務。
- 瀏覽器自動化:基於 CDP 的網頁瀏覽,用於研究、數據提取、表單填寫。
- 技能生態系統:從 ClawHub 安裝社群技能,或編寫自己的技能。
- MCP 伺服器支援:連接到外部工具和 API。
本地模型的優勢
當你在 Mac Studio 上透過 Ollama 或 MLX 運行 OpenClaw 本地模型時:
- 零 API 成本。沒有按 token 計費。每天運行 DeepSeek R1 671B,只需支付電費(每月約 $3)。
- 完全隱私。你的提示詞、文件和程式碼永遠不會離開你的機器。處理敏感合約、專有程式碼、醫療記錄,無需第三方數據處理。
- 無速率限制。雲端 API 會將你限制在每分鐘 1,000–10,000 個請求。本地推理除了硬體限制外沒有任何限制。
- 無停機依賴。OpenAI 宕機了?Anthropic 服務中斷?你的本地設置依然正常運行。
- 延遲。沒有網路往返。對於小型模型,首個 token 在幾毫秒內就會出現。
快速設置:Mac Studio + Ollama + OpenClaw
# 1. 安裝 Ollama
brew install ollama
# 2. 拉取模型 (先從快速的模型開始)
ollama pull qwen3:30b
# 3. 安裝 OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon
# 4. 配置 OpenClaw 使用本地 Ollama
# 在 ~/.openclaw/openclaw.json 中設置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
OpenClaw 在 macOS 上作為 launchd 服務運行。它會在開機時啟動並在背景 24/7 運行。連接你的 Telegram 或 Slack,你就擁有了一個隨時可用的持久 AI 助手。
對於配備 512GB 的 M5 Ultra,你可以嘗試更大的模型:
# 拉取 DeepSeek R1 671B (需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4
# 或用於多模態任務的出色 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4
經濟效益:本地何時勝過雲端?
讓我們來算一筆帳。
雲端 API 成本 (重度使用者)
| 使用模式 | 每月成本 |
|---|---|
| OpenClaw 搭配 Claude Sonnet 4.6 (重度) | $200–400/月 |
| 開發 + 程式碼助手 | $50–100/月 |
| 研究 + 文件分析 | $50–100/月 |
| 總計 | $300–600/月 |
Mac Studio M5 Ultra (一次性 + 運行成本)
| 項目 | 成本 |
|---|---|
| Mac Studio M5 Ultra 512GB (預測) | 約 $10,000 |
| 電力 (~200W, 24/7) | 約 $3/月 |
| 網路 (現有) | $0 |
| 對比每月 $400 雲端成本的回本週期 | 約 25 個月 |
25 個月後,你只需每月花費 $3 即可運行頂尖 AI。而且你仍然擁有一台價值 $10,000 的工作站供其他用途使用。
混合方案 (推薦)
你不必完全選擇本地或完全選擇雲端。最聰明的設置是:
- 本地模型用於高流量、隱私敏感或對延遲要求高的任務(程式碼編寫、文件分析、腦力激盪)
- 雲端 API 用於本地無法運行的頂尖能力(GPT-5、全速運行 200K 上下文的 Claude Opus 4.6)
OpenClaw 原生支持這種方式:配置多個模型提供商,並在每次對話或每個任務中在本地 Ollama 和雲端 API 之間切換。
對於雲端 API 存取,LemonData 透過單一 API key 提供 300 多個模型,採用按需付費模式,無訂閱費,無最低消費。當本地模型不足以應對時,將其作為你的雲端備案。
配置指南:三個等級
第一級:入門級 ($4,000–5,000)
Mac Studio M3/M5 Ultra 96GB
- 運行模型:Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- 速度:30B 模型約 30–50 tok/s
- 最適合:個人助手、程式碼輔助、輕量研究
- OpenClaw 配置:預設使用
qwen3:30b,複雜任務切換至雲端
第二級:進階使用者 ($7,000–9,000)
Mac Studio M5 Ultra 256GB
- 運行模型:Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- 速度:200B+ 模型約 15–30 tok/s
- 最適合:專業開發、多模態任務、團隊 AI 伺服器
- OpenClaw 配置:
qwen3-vl:235b用於視覺,deepseek-r1:70b用於推理
第三級:AI 工作站 ($10,000–14,000)
Mac Studio M5 Ultra 512GB
- 運行模型:DeepSeek R1 671B (Q4) 以及以下所有模型
- 速度:671B 模型約 25–35 tok/s
- 最適合:運行最大的開源模型、多用戶伺服器、深度研究
- OpenClaw 配置:
deepseek-r1:671b用於深度推理,小型模型用於快速任務
將其作為 24/7 AI 伺服器運行
Mac Studio 專為全天候運作而設計。以下是如何將其設置為無頭(headless)AI 伺服器:
電力與散熱
- 190W TDP 意味著普通插座即可,無需特殊佈線
- 閒置時無風扇聲,負載下極其安靜
- 在持續工作負載中不會發生熱降頻(Apple 的散熱設計足以應對)
遠端存取
- SSH 用於終端存取
- Tailscale 用於隨時隨地的安全遠端存取
- OpenClaw 的通訊軟體整合意味著你不需要直接存取機器。只需透過 Telegram 發送訊息給你的 AI 即可。
可靠性
- macOS launchd 會在 OpenClaw 崩潰時自動重啟
- Ollama 作為背景服務運行
- 建議配備 UPS 以應對停機(Mac Studio 會在復電後自動開機並恢復服務)
# 啟用 SSH
sudo systemsetup -setremotelogin on
# 安裝 Tailscale 用於遠端存取
brew install tailscale
sudo tailscale up
# OpenClaw 在 onboard 後已作為 launchd 服務運行
# 檢查狀態:
launchctl list | grep openclaw
未來展望:M5 Ultra 路線圖
M5 Ultra Mac Studio 預計將於 2026 年下半年推出。以下是時間線:
- 2026 年 3 月 4 日:Apple "Experience" 活動,預計推出 M5 Pro/Max MacBook Pro
- 2026 年下半年:配備 M5 Ultra 的 Mac Studio
- 相較於 M3 Ultra 的關鍵改進:GPU 神經加速器 (3–4x TTFT)、更高的記憶體頻寬 (~1.1–1.4 TB/s)、相同或更高的最大記憶體
你應該等待還是現在購買?
如果符合以下情況,現在就購買 M3 Ultra 512GB:
- 你現在就需要本地 AI 推理
- 你每月在雲端 API 上花費 $300+
- DeepSeek R1 671B 的 17–20 tok/s 速度對你的使用場景來說已經足夠
如果符合以下情況,請等待 M5 Ultra:
- 你可以再忍受 6–9 個月的雲端 API
- 你想要 3–4 倍的 TTFT 提升(這對代理工作負載至關重要)
- 你想在投入 $10K+ 之前看到實際的基準測試
無論哪種方式,你今天都可以透過 LemonData 使用雲端 API 開始使用 OpenClaw。註冊即送 $1 免費額度,300 多個模型,按需付費。當你的 Mac Studio 到達時,只需將 OpenClaw 指向你的本地 Ollama 實例,你的成本就會降至近乎零。
總結 (TL;DR)
| 雲端 API | Mac Studio M5 Ultra + OpenClaw | |
|---|---|---|
| 最大模型尺寸 | 無限制 (由提供商處理) | 671B Q4 (512GB 配置) |
| 每月成本 | $300–600 (重度使用) | 約 $3 電費 |
| 隱私 | 數據發送到第三方 | 所有內容保留在本地 |
| 延遲 | 200–500ms 網路 + 推理 | 僅推理延遲 |
| 速率限制 | 有 | 無 |
| 前期成本 | $0 | 約 $10,000 |
| 回本週期 | — | 約 25 個月 |
Mac Studio M5 Ultra 是個人 AI 基礎設施。搭配 OpenClaw,你就擁有了一個 24/7 運行的 AI 助手,它運行著頂尖模型,尊重你的隱私,且運行成本僅為每月 $3。
「本地 AI 只是玩具」的時代已經結束。1.2+ TB/s 頻寬的 512GB 統一記憶體意味著你可以運行足以媲美雲端服務的模型。唯一的問題是,你是否準備好擁有自己的 AI 技術棧。
準備好開始構建你的 AI 基礎設施了嗎?試用 OpenClaw 搭配 LemonData:300 多個雲端模型,附贈 $1 免費額度。當你的 Mac Studio 到達時,無需更改程式碼即可切換到本地模型。
