設定

語言

Mac Studio M5 Ultra:在本地執行 671B 模型,並使用 OpenClaw 打造專屬的 AI 基礎設施

L
LemonData
·2026年2月26日·7 次瀏覽
#Mac Studio#M5 Ultra#本地 AI#OpenClaw#自託管#LLM 推理
Mac Studio M5 Ultra:在本地執行 671B 模型,並使用 OpenClaw 打造專屬的 AI 基礎設施

Mac Studio M5 Ultra: 在本地運行 671B 模型,並使用 OpenClaw 打造專屬 AI 基礎設施

首款能將 DeepSeek R1 完整的 671B 參數裝入記憶體的消費級硬體,以及它的實際應用。


配備 512GB 統一記憶體(unified memory)的 Mac Studio M5 Ultra 是首款能完全在 RAM 中運行 DeepSeek R1 671B(目前最大的開源模型)的消費級機器。無需卸載(offloading)、無需多 GPU 陣列,也無需水冷。只需一個放在桌面上的小盒子,耗電量甚至比吹風機還低。

這改變了本地 AI 的運算邏輯。當你可以在家運行頂尖模型時,問題就從「我能做到嗎?」變成了「我應該這樣做嗎?」。對於越來越多的開發者來說,答案是肯定的。

以下內容將介紹:M5 Ultra 為 LLM 推理(inference)帶來的提升、如何將其與 OpenClaw 搭配打造 24/7 個人 AI 助手,以及何時選擇它比雲端 API 更具經濟效益。


M5 Ultra 帶來了什麼

M5 Ultra 是透過 Apple 的 UltraFusion 互連技術將兩顆 M5 Max 晶片融合而成。以下是對於 LLM 推理至關重要的規格:

規格 M3 Ultra M5 Ultra (預測) 重要原因
記憶體頻寬 (Memory bandwidth) 819 GB/s ~1,100–1,400 GB/s Token 生成速度受頻寬限制 (bandwidth-bound)
統一記憶體 (Unified memory) 最高 512GB 最高 512GB+ 決定最大模型尺寸
GPU 核心 80 ~80 用於 prefill 的並行運算
神經加速器 (Neural Accelerator) 每個 GPU 核心內建 首個 token 延遲 (TTFT) 快 3–4 倍
製程節點 3nm 3nm (N3P) 更好的效能功耗比 (perf/watt)
TDP ~200W ~190W 運行安靜,支援 24/7 運作

AI 工作負載最大的單一改進在於:M5 在每個 GPU 核心中都嵌入了神經加速器。Apple 自家的 MLX 基準測試顯示,與 M4 相比,首個 token 生成時間 (TTFT) 快了 3.3–4.1 倍。Token 生成速度提升了約 25%,雖然仍受頻寬限制,但頻寬上限更高了。

對於涉及頻繁上下文切換和長系統提示(system prompts)的代理(agent)工作負載,這一點最為重要。M3 Ultra 處理 120K token 的上下文大約需要 2.3 秒(根據 prefill 基準測試估計);而 M5 Ultra 應該能在 0.7 秒內完成。


512GB 統一記憶體實際能運行什麼?

這是最關鍵的表格。統一記憶體意味著 GPU 和 CPU 共享相同的 RAM,沒有 PCIe 瓶頸,也沒有 VRAM 限制。

模型 量化 (Quantization) 所需記憶體 M3 Ultra 512GB M5 Ultra (預測)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

數據來源:geerlingguy/ai-benchmarks, Apple MLX Research, HN 社群基準測試

參考標準:20–30 tok/s 對於互動式聊天來說很舒適。15 tok/s 是可用的。低於 5 tok/s 會感到遲鈍,但適用於批次任務。

512GB 的配置意味著你可以運行 DeepSeek R1 671B Q4 (~336GB),並且還有約 176GB 剩餘空間用於 KV cache 和上下文。這足以支撐擁有 100K+ token 上下文的多輪對話。

為什麼不直接用 NVIDIA?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
記憶體 512GB 統一記憶體 32GB VRAM 128GB VRAM
頻寬 ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ 可在記憶體運行 ❌ 無法裝入 ❌ 仍無法裝入
Llama 70B 速度 ~18 tok/s ~80 tok/s ~240 tok/s
功耗 ~190W ~450W ~1,800W
噪音 安靜 大聲 數據中心級別
價格 約 $10,000 約 $2,000 約 $8,000 + 主機板

當模型能裝入 VRAM 時,NVIDIA 在原始速度上勝出。但一旦模型超過 32GB,NVIDIA 的效能就會斷崖式下跌:卸載到系統 RAM 會使吞吐量從 100+ tok/s 降至約 3 tok/s。Mac 的統一記憶體架構意味著沒有這種瓶頸。400GB 模型的運行頻寬與 40GB 模型相同。

對於 70B 以下的模型,買 GPU。對於 200B 以上的模型,Mac Studio 是目前唯一實用的消費級選擇。


引入 OpenClaw:將硬體轉化為 AI 助手

在本地運行模型只是第一步。讓它 24/7 發揮作用是第二步。

OpenClaw 是一個開源、自託管的 AI 代理平台。它能將你的 Mac 變成一個持久的 AI 助手,你可以透過現有的通訊軟體與之互動 —— Telegram、Slack、Discord、WhatsApp,甚至是 iMessage。

為什麼選擇 OpenClaw + Mac Studio?

大多數人透過瀏覽器分頁與 AI 互動。OpenClaw 則將其放入你的通訊軟體中:你的助手在你的硬體上運行,跨對話記住你的上下文,並在你睡覺時工作。

OpenClaw 的功能

  • 持久化記憶體:基於 Markdown 的記憶體檔案,支援語義搜尋。你的助手會記得你上週討論過的內容。
  • 多通路收件匣:透過 Telegram、Slack、Discord、WhatsApp 或任何支援的平台與它交談。相同的上下文,任何裝置。
  • 自動化任務:排程 cron 任務、設置 webhooks,讓它徹夜進行研究或程式碼任務。
  • 瀏覽器自動化:基於 CDP 的網頁瀏覽,用於研究、數據提取、表單填寫。
  • 技能生態系統:從 ClawHub 安裝社群技能,或編寫自己的技能。
  • MCP 伺服器支援:連接到外部工具和 API。

本地模型的優勢

當你在 Mac Studio 上透過 Ollama 或 MLX 運行 OpenClaw 本地模型時:

  1. 零 API 成本。沒有按 token 計費。每天運行 DeepSeek R1 671B,只需支付電費(每月約 $3)。
  2. 完全隱私。你的提示詞、文件和程式碼永遠不會離開你的機器。處理敏感合約、專有程式碼、醫療記錄,無需第三方數據處理。
  3. 無速率限制。雲端 API 會將你限制在每分鐘 1,000–10,000 個請求。本地推理除了硬體限制外沒有任何限制。
  4. 無停機依賴。OpenAI 宕機了?Anthropic 服務中斷?你的本地設置依然正常運行。
  5. 延遲。沒有網路往返。對於小型模型,首個 token 在幾毫秒內就會出現。

快速設置:Mac Studio + Ollama + OpenClaw

# 1. 安裝 Ollama
brew install ollama

# 2. 拉取模型 (先從快速的模型開始)
ollama pull qwen3:30b

# 3. 安裝 OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. 配置 OpenClaw 使用本地 Ollama
# 在 ~/.openclaw/openclaw.json 中設置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw 在 macOS 上作為 launchd 服務運行。它會在開機時啟動並在背景 24/7 運行。連接你的 Telegram 或 Slack,你就擁有了一個隨時可用的持久 AI 助手。

對於配備 512GB 的 M5 Ultra,你可以嘗試更大的模型:

# 拉取 DeepSeek R1 671B (需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或用於多模態任務的出色 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

經濟效益:本地何時勝過雲端?

讓我們來算一筆帳。

雲端 API 成本 (重度使用者)

使用模式 每月成本
OpenClaw 搭配 Claude Sonnet 4.6 (重度) $200–400/月
開發 + 程式碼助手 $50–100/月
研究 + 文件分析 $50–100/月
總計 $300–600/月

Mac Studio M5 Ultra (一次性 + 運行成本)

項目 成本
Mac Studio M5 Ultra 512GB (預測) 約 $10,000
電力 (~200W, 24/7) 約 $3/月
網路 (現有) $0
對比每月 $400 雲端成本的回本週期 約 25 個月

25 個月後,你只需每月花費 $3 即可運行頂尖 AI。而且你仍然擁有一台價值 $10,000 的工作站供其他用途使用。

混合方案 (推薦)

你不必完全選擇本地或完全選擇雲端。最聰明的設置是:

  • 本地模型用於高流量、隱私敏感或對延遲要求高的任務(程式碼編寫、文件分析、腦力激盪)
  • 雲端 API 用於本地無法運行的頂尖能力(GPT-5、全速運行 200K 上下文的 Claude Opus 4.6)

OpenClaw 原生支持這種方式:配置多個模型提供商,並在每次對話或每個任務中在本地 Ollama 和雲端 API 之間切換。

對於雲端 API 存取,LemonData 透過單一 API key 提供 300 多個模型,採用按需付費模式,無訂閱費,無最低消費。當本地模型不足以應對時,將其作為你的雲端備案。


配置指南:三個等級

第一級:入門級 ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

  • 運行模型:Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • 速度:30B 模型約 30–50 tok/s
  • 最適合:個人助手、程式碼輔助、輕量研究
  • OpenClaw 配置:預設使用 qwen3:30b,複雜任務切換至雲端

第二級:進階使用者 ($7,000–9,000)

Mac Studio M5 Ultra 256GB

  • 運行模型:Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • 速度:200B+ 模型約 15–30 tok/s
  • 最適合:專業開發、多模態任務、團隊 AI 伺服器
  • OpenClaw 配置:qwen3-vl:235b 用於視覺,deepseek-r1:70b 用於推理

第三級:AI 工作站 ($10,000–14,000)

Mac Studio M5 Ultra 512GB

  • 運行模型:DeepSeek R1 671B (Q4) 以及以下所有模型
  • 速度:671B 模型約 25–35 tok/s
  • 最適合:運行最大的開源模型、多用戶伺服器、深度研究
  • OpenClaw 配置:deepseek-r1:671b 用於深度推理,小型模型用於快速任務

將其作為 24/7 AI 伺服器運行

Mac Studio 專為全天候運作而設計。以下是如何將其設置為無頭(headless)AI 伺服器:

電力與散熱

  • 190W TDP 意味著普通插座即可,無需特殊佈線
  • 閒置時無風扇聲,負載下極其安靜
  • 在持續工作負載中不會發生熱降頻(Apple 的散熱設計足以應對)

遠端存取

  • SSH 用於終端存取
  • Tailscale 用於隨時隨地的安全遠端存取
  • OpenClaw 的通訊軟體整合意味著你不需要直接存取機器。只需透過 Telegram 發送訊息給你的 AI 即可。

可靠性

  • macOS launchd 會在 OpenClaw 崩潰時自動重啟
  • Ollama 作為背景服務運行
  • 建議配備 UPS 以應對停機(Mac Studio 會在復電後自動開機並恢復服務)
# 啟用 SSH
sudo systemsetup -setremotelogin on

# 安裝 Tailscale 用於遠端存取
brew install tailscale
sudo tailscale up

# OpenClaw 在 onboard 後已作為 launchd 服務運行
# 檢查狀態:
launchctl list | grep openclaw

未來展望:M5 Ultra 路線圖

M5 Ultra Mac Studio 預計將於 2026 年下半年推出。以下是時間線:

  • 2026 年 3 月 4 日:Apple "Experience" 活動,預計推出 M5 Pro/Max MacBook Pro
  • 2026 年下半年:配備 M5 Ultra 的 Mac Studio
  • 相較於 M3 Ultra 的關鍵改進:GPU 神經加速器 (3–4x TTFT)、更高的記憶體頻寬 (~1.1–1.4 TB/s)、相同或更高的最大記憶體

你應該等待還是現在購買?

如果符合以下情況,現在就購買 M3 Ultra 512GB:

  • 你現在就需要本地 AI 推理
  • 你每月在雲端 API 上花費 $300+
  • DeepSeek R1 671B 的 17–20 tok/s 速度對你的使用場景來說已經足夠

如果符合以下情況,請等待 M5 Ultra:

  • 你可以再忍受 6–9 個月的雲端 API
  • 你想要 3–4 倍的 TTFT 提升(這對代理工作負載至關重要)
  • 你想在投入 $10K+ 之前看到實際的基準測試

無論哪種方式,你今天都可以透過 LemonData 使用雲端 API 開始使用 OpenClaw。註冊即送 $1 免費額度,300 多個模型,按需付費。當你的 Mac Studio 到達時,只需將 OpenClaw 指向你的本地 Ollama 實例,你的成本就會降至近乎零。


總結 (TL;DR)

雲端 API Mac Studio M5 Ultra + OpenClaw
最大模型尺寸 無限制 (由提供商處理) 671B Q4 (512GB 配置)
每月成本 $300–600 (重度使用) 約 $3 電費
隱私 數據發送到第三方 所有內容保留在本地
延遲 200–500ms 網路 + 推理 僅推理延遲
速率限制
前期成本 $0 約 $10,000
回本週期 約 25 個月

Mac Studio M5 Ultra 是個人 AI 基礎設施。搭配 OpenClaw,你就擁有了一個 24/7 運行的 AI 助手,它運行著頂尖模型,尊重你的隱私,且運行成本僅為每月 $3。

「本地 AI 只是玩具」的時代已經結束。1.2+ TB/s 頻寬的 512GB 統一記憶體意味著你可以運行足以媲美雲端服務的模型。唯一的問題是,你是否準備好擁有自己的 AI 技術棧。


準備好開始構建你的 AI 基礎設施了嗎?試用 OpenClaw 搭配 LemonData:300 多個雲端模型,附贈 $1 免費額度。當你的 Mac Studio 到達時,無需更改程式碼即可切換到本地模型。

Share: