首款能將 DeepSeek R1 完整的 671B 參數裝進記憶體的消費級硬體,以及它的實際應用場景。
配備 512GB 統一記憶體(unified memory)的 Mac Studio M5 Ultra 是首款能完全在 RAM 中運行 DeepSeek R1 671B(目前最大的開源模型)的消費級機器。無需卸載(offloading)、無需多 GPU 陣列,也無需水冷。只需一個放在桌面上的小盒子,耗電量甚至比吹風機還低。
這改變了本地 AI 的運算邏輯。當你可以在家運行尖端模型時,問題就從「我能做到嗎?」轉變為「我應該這樣做嗎?」。對於越來越多的開發者來說,答案是肯定的。
以下內容包括:M5 Ultra 為 LLM 推理(inference)帶來的提升、如何將其與 LemonClaw 搭配使用以打造 24/7 全天候個人 AI 助手,以及何時在財務上比使用雲端 API 更划算。
M5 Ultra 帶來了什麼
M5 Ultra 是由兩顆 M5 Max 晶片透過 Apple 的 UltraFusion 互連技術融合而成。以下是對於 LLM 推理至關重要的規格:
| 規格 | M3 Ultra | M5 Ultra (預測) | 為什麼這很重要 |
|---|---|---|---|
| 記憶體頻寬 | 819 GB/s | ~1,100–1,400 GB/s | Token 生成速度受限於頻寬 |
| 統一記憶體 | 最高 512GB | 最高 512GB+ | 決定最大模型尺寸 |
| GPU 核心 | 80 | ~80 | 用於 prefill 的並行運算 |
| 神經網絡加速器 | 無 | 每個 GPU 核心內建 | 首個 token 延遲 (TTFT) 縮短 3–4 倍 |
| 製程節點 | 3nm | 3nm (N3P) | 更好的能效比 (perf/watt) |
| TDP | ~200W | ~190W | 運行安靜,支援 24/7 運作 |
AI 工作負載最大的單項改進在於:M5 在每個 GPU 核心中都嵌入了神經網絡加速器。Apple 官方的 MLX 基準測試顯示,與 M4 相比,首個 token 延遲 (TTFT) 縮短了 3.3–4.1 倍。Token 生成速度提升了約 25%,雖然仍受頻寬限制,但頻寬上限已顯著提高。
對於涉及頻繁上下文切換和長系統提示(system prompts)的 agent 工作負載,這一點最為重要。M3 Ultra 處理 120K token 的上下文大約需要 2.3 秒(根據 prefill 基準測試估計);M5 Ultra 應該能在 0.7 秒內完成。
512GB 統一記憶體到底能運行什麼?
這是最關鍵的表格。統一記憶體意味著 GPU 和 CPU 共享相同的 RAM,沒有 PCIe 瓶頸,也沒有 VRAM 限制。
| 模型 | 量化 (Quantization) | 所需記憶體 | M3 Ultra 512GB | M5 Ultra (預測) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
數據來源:geerlingguy/ai-benchmarks, Apple MLX Research, HN 社群基準測試
參考標準:20–30 tok/s 對於互動式聊天非常舒適。15 tok/s 尚可接受。低於 5 tok/s 會感到遲鈍,但仍適用於批次任務。
512GB 的配置意味著你可以運行 DeepSeek R1 671B Q4(約 336GB),並且仍有約 176GB 剩餘空間用於 KV cache 和上下文。這足以應對具有 100K+ token 上下文的多輪對話。
為什麼不直接使用 NVIDIA?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| 記憶體 | 512GB 統一記憶體 | 32GB VRAM | 128GB VRAM |
| 頻寬 | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ 可在記憶體中運行 | ❌ 裝不下 | ❌ 仍然裝不下 |
| Llama 70B 速度 | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| 功耗 | ~190W | ~450W | ~1,800W |
| 噪音 | 安靜 | 吵雜 | 數據中心級別 |
| 價格 | 約 $10,000 | 約 $2,000 | 約 $8,000 + 主機板 |
當模型能裝進 VRAM 時,NVIDIA 在原始速度上勝出。但一旦模型超過 32GB,NVIDIA 的表現就會斷崖式下跌:卸載到系統 RAM 會使吞吐量從 100+ tok/s 降至約 3 tok/s。Mac 的統一記憶體架構意味著沒有這種性能斷層。400GB 模型的運行頻寬與 40GB 模型相同。
對於 70B 以下的模型,建議購買 GPU。對於超過 200B 的模型,Mac Studio 是目前唯一實用的消費級選擇。
引入 LemonClaw:將硬體轉化為 AI 助手
在本地運行模型只是第一步。讓它 24/7 全天候發揮作用是第二步。
LemonClaw 是一個開源、自託管的 AI agent 平台。它能將你的 Mac 變成一個持久的 AI 助手,你可以透過現有的通訊軟體(Telegram、Slack、Discord、WhatsApp,甚至 iMessage)與之互動。
為什麼選擇 LemonClaw + Mac Studio?
大多數人透過瀏覽器分頁與 AI 互動。LemonClaw 則將其放入你的通訊軟體中:你的助手在你的硬體上運行,能跨對話記住你的上下文,並在你睡覺時持續工作。
LemonClaw 的功能
- 持久化記憶體:基於 Markdown 的記憶體文件,支援語義搜索。你的助手會記得你上週討論過的內容。
- 多渠道收件箱:透過 Telegram、Slack、Discord、WhatsApp 或任何支援的平台與它交談。在任何裝置上共享相同上下文。
- 自主任務:安排 cron 任務、設定 webhook,讓它通宵進行研究或程式碼編寫任務。
- 瀏覽器自動化:基於 CDP 的網頁瀏覽,用於研究、數據提取、表單填寫。
- 技能生態系統:從 ClawHub 安裝社群技能,或編寫自己的技能。
- MCP server 支援:連接到外部工具和 API。
本地模型的優勢
當你在 Mac Studio 上透過 Ollama 或 MLX 運行 LemonClaw 並搭配本地模型時:
- 零 API 成本。沒有按 token 計費。每天運行 DeepSeek R1 671B,只需支付電費(每月約 $3)。
- 完全隱私。你的提示詞、文件和程式碼永遠不會離開你的機器。處理敏感合約、專有代碼、醫療記錄,無需第三方數據處理。
- 無速率限制 (rate limits)。雲端 API 會將你限制在每分鐘 1,000–10,000 個請求。本地推理除了硬體限制外沒有任何限制。
- 無斷線依賴。OpenAI 宕機了?Anthropic 出現故障?你的本地設置依然能正常運行。
- 延遲。沒有網路往返。小型模型的首個 token 會在毫秒內出現。
快速設定:Mac Studio + Ollama + LemonClaw
# 1. 安裝 Ollama
brew install ollama
# 2. 下載模型 (先從快速的模型開始)
ollama pull qwen3:30b
# 3. 安裝 LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon
# 4. 配置 LemonClaw 使用本地 Ollama
# 在 ~/.lemonclaw/config.json 中設置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
LemonClaw 在 macOS 上作為 launchd 服務運行。它會在開機時啟動並在背景 24/7 運行。連接你的 Telegram 或 Slack,你就擁有了一個隨時可用的持久 AI 助手。
對於配備 512GB 的 M5 Ultra,你可以嘗試更大的模型:
# 下載 DeepSeek R1 671B (需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4
# 或者用於多模態任務的優秀模型 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4
經濟效益:本地何時優於雲端?
讓我們來算一筆帳。
雲端 API 成本 (重度使用者)
| 使用模式 | 每月成本 |
|---|---|
| LemonClaw 搭配 Claude Sonnet 4.6 (重度) | $200–400/月 |
| 開發 + 程式碼助手 | $50–100/月 |
| 研究 + 文件分析 | $50–100/月 |
| 總計 | $300–600/月 |
Mac Studio M5 Ultra (一次性 + 運行成本)
| 項目 | 成本 |
|---|---|
| Mac Studio M5 Ultra 512GB (預測) | 約 $10,000 |
| 電費 (~200W, 24/7) | 約 $3/月 |
| 網路 (已有) | $0 |
| 相對於每月 $400 雲端成本的回本週期 | 約 25 個月 |
25 個月後,你只需支付每月 $3 的電費即可運行尖端 AI。而且你還擁有一台價值 $10,000 的工作站可用於其他用途。
混合方案 (推薦)
你不必完全選擇本地或完全選擇雲端。最聰明的設置是:
- 本地模型用於高吞吐量、隱私敏感或對延遲要求高的任務(程式碼編寫、文件分析、腦力激盪)
- 雲端 API 用於本地無法運行的尖端能力(GPT-5、具有 200K 上下文且全速運行的 Claude Opus 4.6)
LemonClaw 原生支援這種方式:配置多個模型提供商,並在每個對話或每個任務之間切換本地 Ollama 和雲端 API。
對於雲端 API 存取,LemonData 透過單一 API key 提供 300 多個模型,採用按需付費模式,無訂閱費,無最低消費。當本地模型不足以應對時,可將其作為雲端備案。
配置指南:三個等級
等級 1:入門級 ($4,000–5,000)
Mac Studio M3/M5 Ultra 96GB
- 運行模型:Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- 速度:30B 模型約 30–50 tok/s
- 最適合:個人助手、程式碼輔助、輕度研究
- LemonClaw 配置:預設使用
qwen3:30b,複雜任務使用雲端備案
等級 2:進階使用者 ($7,000–9,000)
Mac Studio M5 Ultra 256GB
- 運行模型:Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- 速度:200B+ 模型約 15–30 tok/s
- 最適合:專業開發、多模態任務、團隊 AI 伺服器
- LemonClaw 配置:視覺任務使用
qwen3-vl:235b,推理任務使用deepseek-r1:70b
等級 3:AI 工作站 ($10,000–14,000)
Mac Studio M5 Ultra 512GB
- 運行模型:DeepSeek R1 671B (Q4) 以及以下所有模型
- 速度:671B 模型約 25–35 tok/s
- 最適合:運行最大的開源模型、多用戶伺服器、科學研究
- LemonClaw 配置:深度推理使用
deepseek-r1:671b,快速任務使用較小模型
作為 24/7 AI 伺服器運行
Mac Studio 專為全天候運作而設計。以下是如何將其設置為無顯示器 (headless) AI 伺服器:
如果你正在猶豫本地推理是否值得這麼複雜,請將此頁面與 自託管 LemonClaw 指南 以及 DeepSeek R1 指南 結合閱讀。前者解決了運行環境問題,後者解決了模型適配問題。
電力與散熱
- 190W TDP 意味著標準插座即可,無需特殊佈線
- 待機時無風扇噪音,負載下也極其安靜
- 在持續工作負載下不會因過熱而降頻(Apple 的散熱設計可以輕鬆應對)
遠端存取
- 使用 SSH 進行終端機存取
- 使用 Tailscale 從任何地方進行安全的遠端存取
- LemonClaw 的通訊軟體整合意味著你不需要直接存取機器,只需透過 Telegram 發送訊息給你的 AI 即可。
可靠性
- macOS 的 launchd 會在 LemonClaw 崩潰時自動重啟
- Ollama 作為背景服務運行
- 建議配備 UPS 以應對停電(Mac Studio 會在電力恢復後自動開機並恢復服務)
# 啟用 SSH
sudo systemsetup -setremotelogin on
# 安裝 Tailscale 用於遠端存取
brew install tailscale
sudo tailscale up
# LemonClaw 在引導設定後已作為 launchd 服務運行
# 檢查狀態:
launchctl list | grep lemonclaw
未來展望:M5 Ultra 路線圖
M5 Ultra Mac Studio 預計將於 2026 年下半年推出。以下是時間線:
- 2026 年 3 月 4 日:Apple "Experience" 發表會,預計推出 M5 Pro/Max MacBook Pro
- 2026 年下半年:配備 M5 Ultra 的 Mac Studio
- 相對於 M3 Ultra 的關鍵改進:GPU 神經網絡加速器 (TTFT 提升 3–4 倍)、更高的記憶體頻寬 (~1.1–1.4 TB/s)、相同或更高的最大記憶體容量
你應該等待還是現在購買?
如果符合以下情況,請現在購買 M3 Ultra 512GB:
- 你現在就需要本地 AI 推理
- 你每月在雲端 API 上花費超過 $300
- DeepSeek R1 671B 的 17–20 tok/s 速度已足夠滿足你的需求
如果符合以下情況,請等待 M5 Ultra:
- 你可以再忍受 6–9 個月的雲端 API
- 你想要 3–4 倍的 TTFT 提升(這對 agent 工作負載至關重要)
- 你想在投入 $10,000+ 之前看到實際的基準測試數據
無論哪種方式,你今天就可以開始使用 LemonClaw,並透過 LemonData 使用雲端 API。註冊即送 $1 免費額度,支援 300 多個模型,按需付費。當你的 Mac Studio 到貨時,只需將 LemonClaw 指向你的本地 Ollama 實例,你的成本就會降至接近零。
懶人包 (TL;DR)
| 雲端 API | Mac Studio M5 Ultra + LemonClaw | |
|---|---|---|
| 最大模型尺寸 | 無限制 (由供應商處理) | 671B Q4 (512GB 配置) |
| 每月成本 | $300–600 (重度使用) | 約 $3 電費 |
| 隱私 | 數據發送到第三方 | 所有數據保留在本地 |
| 延遲 | 200–500ms 網路 + 推理 | 僅推理延遲 |
| 速率限制 | 有 | 無 |
| 前期投入成本 | $0 | 約 $10,000 |
| 回本週期 | — | 約 25 個月 |
Mac Studio M5 Ultra 是個人 AI 的基礎設施。將其與 LemonClaw 搭配,你就擁有了一個 24/7 全天候運行的 AI 助手,它能運行尖端模型、尊重你的隱私,且運行成本僅為每月 $3。
「本地 AI 只是玩具」的時代已經結束。1.2+ TB/s 頻寬的 512GB 統一記憶體意味著你可以運行足以媲美雲端服務的模型。唯一的問題是,你是否準備好擁有自己的 AI 技術棧。
準備好開始構建你的 AI 基礎設施了嗎?立即嘗試 LemonClaw 搭配 LemonData:300 多個雲端模型,註冊即送 $1 免費額度。當你的 Mac Studio 到貨時,無需更改程式碼即可切換到本地模型。
