設定

語言

Mac Studio M5 Ultra:本地運行 671B 模型,並透過 LemonClaw 構建您自己的 AI 基礎設施

L
LemonData
·2026年4月8日·137 次瀏覽
Mac Studio M5 Ultra:本地運行 671B 模型,並透過 LemonClaw 構建您自己的 AI 基礎設施

首款能將 DeepSeek R1 完整的 671B 參數裝進記憶體的消費級硬體,以及它的實際應用場景。


配備 512GB 統一記憶體(unified memory)的 Mac Studio M5 Ultra 是首款能完全在 RAM 中運行 DeepSeek R1 671B(目前最大的開源模型)的消費級機器。無需卸載(offloading)、無需多 GPU 陣列,也無需水冷。只需一個放在桌面上的小盒子,耗電量甚至比吹風機還低。

這改變了本地 AI 的運算邏輯。當你可以在家運行尖端模型時,問題就從「我能做到嗎?」轉變為「我應該這樣做嗎?」。對於越來越多的開發者來說,答案是肯定的。

以下內容包括:M5 Ultra 為 LLM 推理(inference)帶來的提升、如何將其與 LemonClaw 搭配使用以打造 24/7 全天候個人 AI 助手,以及何時在財務上比使用雲端 API 更划算。


M5 Ultra 帶來了什麼

M5 Ultra 是由兩顆 M5 Max 晶片透過 Apple 的 UltraFusion 互連技術融合而成。以下是對於 LLM 推理至關重要的規格:

規格 M3 Ultra M5 Ultra (預測) 為什麼這很重要
記憶體頻寬 819 GB/s ~1,100–1,400 GB/s Token 生成速度受限於頻寬
統一記憶體 最高 512GB 最高 512GB+ 決定最大模型尺寸
GPU 核心 80 ~80 用於 prefill 的並行運算
神經網絡加速器 每個 GPU 核心內建 首個 token 延遲 (TTFT) 縮短 3–4 倍
製程節點 3nm 3nm (N3P) 更好的能效比 (perf/watt)
TDP ~200W ~190W 運行安靜,支援 24/7 運作

AI 工作負載最大的單項改進在於:M5 在每個 GPU 核心中都嵌入了神經網絡加速器。Apple 官方的 MLX 基準測試顯示,與 M4 相比,首個 token 延遲 (TTFT) 縮短了 3.3–4.1 倍。Token 生成速度提升了約 25%,雖然仍受頻寬限制,但頻寬上限已顯著提高。

對於涉及頻繁上下文切換和長系統提示(system prompts)的 agent 工作負載,這一點最為重要。M3 Ultra 處理 120K token 的上下文大約需要 2.3 秒(根據 prefill 基準測試估計);M5 Ultra 應該能在 0.7 秒內完成。


512GB 統一記憶體到底能運行什麼?

這是最關鍵的表格。統一記憶體意味著 GPU 和 CPU 共享相同的 RAM,沒有 PCIe 瓶頸,也沒有 VRAM 限制。

模型 量化 (Quantization) 所需記憶體 M3 Ultra 512GB M5 Ultra (預測)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

數據來源:geerlingguy/ai-benchmarks, Apple MLX Research, HN 社群基準測試

參考標準:20–30 tok/s 對於互動式聊天非常舒適。15 tok/s 尚可接受。低於 5 tok/s 會感到遲鈍,但仍適用於批次任務。

512GB 的配置意味著你可以運行 DeepSeek R1 671B Q4(約 336GB),並且仍有約 176GB 剩餘空間用於 KV cache 和上下文。這足以應對具有 100K+ token 上下文的多輪對話。

為什麼不直接使用 NVIDIA?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
記憶體 512GB 統一記憶體 32GB VRAM 128GB VRAM
頻寬 ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ 可在記憶體中運行 ❌ 裝不下 ❌ 仍然裝不下
Llama 70B 速度 ~18 tok/s ~80 tok/s ~240 tok/s
功耗 ~190W ~450W ~1,800W
噪音 安靜 吵雜 數據中心級別
價格 約 $10,000 約 $2,000 約 $8,000 + 主機板

當模型能裝進 VRAM 時,NVIDIA 在原始速度上勝出。但一旦模型超過 32GB,NVIDIA 的表現就會斷崖式下跌:卸載到系統 RAM 會使吞吐量從 100+ tok/s 降至約 3 tok/s。Mac 的統一記憶體架構意味著沒有這種性能斷層。400GB 模型的運行頻寬與 40GB 模型相同。

對於 70B 以下的模型,建議購買 GPU。對於超過 200B 的模型,Mac Studio 是目前唯一實用的消費級選擇。


引入 LemonClaw:將硬體轉化為 AI 助手

在本地運行模型只是第一步。讓它 24/7 全天候發揮作用是第二步。

LemonClaw 是一個開源、自託管的 AI agent 平台。它能將你的 Mac 變成一個持久的 AI 助手,你可以透過現有的通訊軟體(Telegram、Slack、Discord、WhatsApp,甚至 iMessage)與之互動。

為什麼選擇 LemonClaw + Mac Studio?

大多數人透過瀏覽器分頁與 AI 互動。LemonClaw 則將其放入你的通訊軟體中:你的助手在你的硬體上運行,能跨對話記住你的上下文,並在你睡覺時持續工作。

LemonClaw 的功能

  • 持久化記憶體:基於 Markdown 的記憶體文件,支援語義搜索。你的助手會記得你上週討論過的內容。
  • 多渠道收件箱:透過 Telegram、Slack、Discord、WhatsApp 或任何支援的平台與它交談。在任何裝置上共享相同上下文。
  • 自主任務:安排 cron 任務、設定 webhook,讓它通宵進行研究或程式碼編寫任務。
  • 瀏覽器自動化:基於 CDP 的網頁瀏覽,用於研究、數據提取、表單填寫。
  • 技能生態系統:從 ClawHub 安裝社群技能,或編寫自己的技能。
  • MCP server 支援:連接到外部工具和 API。

本地模型的優勢

當你在 Mac Studio 上透過 Ollama 或 MLX 運行 LemonClaw 並搭配本地模型時:

  1. 零 API 成本。沒有按 token 計費。每天運行 DeepSeek R1 671B,只需支付電費(每月約 $3)。
  2. 完全隱私。你的提示詞、文件和程式碼永遠不會離開你的機器。處理敏感合約、專有代碼、醫療記錄,無需第三方數據處理。
  3. 無速率限制 (rate limits)。雲端 API 會將你限制在每分鐘 1,000–10,000 個請求。本地推理除了硬體限制外沒有任何限制。
  4. 無斷線依賴。OpenAI 宕機了?Anthropic 出現故障?你的本地設置依然能正常運行。
  5. 延遲。沒有網路往返。小型模型的首個 token 會在毫秒內出現。

快速設定:Mac Studio + Ollama + LemonClaw

# 1. 安裝 Ollama
brew install ollama

# 2. 下載模型 (先從快速的模型開始)
ollama pull qwen3:30b

# 3. 安裝 LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. 配置 LemonClaw 使用本地 Ollama
# 在 ~/.lemonclaw/config.json 中設置:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw 在 macOS 上作為 launchd 服務運行。它會在開機時啟動並在背景 24/7 運行。連接你的 Telegram 或 Slack,你就擁有了一個隨時可用的持久 AI 助手。

對於配備 512GB 的 M5 Ultra,你可以嘗試更大的模型:

# 下載 DeepSeek R1 671B (需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或者用於多模態任務的優秀模型 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

經濟效益:本地何時優於雲端?

讓我們來算一筆帳。

雲端 API 成本 (重度使用者)

使用模式 每月成本
LemonClaw 搭配 Claude Sonnet 4.6 (重度) $200–400/月
開發 + 程式碼助手 $50–100/月
研究 + 文件分析 $50–100/月
總計 $300–600/月

Mac Studio M5 Ultra (一次性 + 運行成本)

項目 成本
Mac Studio M5 Ultra 512GB (預測) 約 $10,000
電費 (~200W, 24/7) 約 $3/月
網路 (已有) $0
相對於每月 $400 雲端成本的回本週期 約 25 個月

25 個月後,你只需支付每月 $3 的電費即可運行尖端 AI。而且你還擁有一台價值 $10,000 的工作站可用於其他用途。

混合方案 (推薦)

你不必完全選擇本地或完全選擇雲端。最聰明的設置是:

  • 本地模型用於高吞吐量、隱私敏感或對延遲要求高的任務(程式碼編寫、文件分析、腦力激盪)
  • 雲端 API 用於本地無法運行的尖端能力(GPT-5、具有 200K 上下文且全速運行的 Claude Opus 4.6)

LemonClaw 原生支援這種方式:配置多個模型提供商,並在每個對話或每個任務之間切換本地 Ollama 和雲端 API。

對於雲端 API 存取,LemonData 透過單一 API key 提供 300 多個模型,採用按需付費模式,無訂閱費,無最低消費。當本地模型不足以應對時,可將其作為雲端備案。


配置指南:三個等級

等級 1:入門級 ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

  • 運行模型:Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • 速度:30B 模型約 30–50 tok/s
  • 最適合:個人助手、程式碼輔助、輕度研究
  • LemonClaw 配置:預設使用 qwen3:30b,複雜任務使用雲端備案

等級 2:進階使用者 ($7,000–9,000)

Mac Studio M5 Ultra 256GB

  • 運行模型:Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • 速度:200B+ 模型約 15–30 tok/s
  • 最適合:專業開發、多模態任務、團隊 AI 伺服器
  • LemonClaw 配置:視覺任務使用 qwen3-vl:235b,推理任務使用 deepseek-r1:70b

等級 3:AI 工作站 ($10,000–14,000)

Mac Studio M5 Ultra 512GB

  • 運行模型:DeepSeek R1 671B (Q4) 以及以下所有模型
  • 速度:671B 模型約 25–35 tok/s
  • 最適合:運行最大的開源模型、多用戶伺服器、科學研究
  • LemonClaw 配置:深度推理使用 deepseek-r1:671b,快速任務使用較小模型

作為 24/7 AI 伺服器運行

Mac Studio 專為全天候運作而設計。以下是如何將其設置為無顯示器 (headless) AI 伺服器:

如果你正在猶豫本地推理是否值得這麼複雜,請將此頁面與 自託管 LemonClaw 指南 以及 DeepSeek R1 指南 結合閱讀。前者解決了運行環境問題,後者解決了模型適配問題。

電力與散熱

  • 190W TDP 意味著標準插座即可,無需特殊佈線
  • 待機時無風扇噪音,負載下也極其安靜
  • 在持續工作負載下不會因過熱而降頻(Apple 的散熱設計可以輕鬆應對)

遠端存取

  • 使用 SSH 進行終端機存取
  • 使用 Tailscale 從任何地方進行安全的遠端存取
  • LemonClaw 的通訊軟體整合意味著你不需要直接存取機器,只需透過 Telegram 發送訊息給你的 AI 即可。

可靠性

  • macOS 的 launchd 會在 LemonClaw 崩潰時自動重啟
  • Ollama 作為背景服務運行
  • 建議配備 UPS 以應對停電(Mac Studio 會在電力恢復後自動開機並恢復服務)
# 啟用 SSH
sudo systemsetup -setremotelogin on

# 安裝 Tailscale 用於遠端存取
brew install tailscale
sudo tailscale up

# LemonClaw 在引導設定後已作為 launchd 服務運行
# 檢查狀態:
launchctl list | grep lemonclaw

未來展望:M5 Ultra 路線圖

M5 Ultra Mac Studio 預計將於 2026 年下半年推出。以下是時間線:

  • 2026 年 3 月 4 日:Apple "Experience" 發表會,預計推出 M5 Pro/Max MacBook Pro
  • 2026 年下半年:配備 M5 Ultra 的 Mac Studio
  • 相對於 M3 Ultra 的關鍵改進:GPU 神經網絡加速器 (TTFT 提升 3–4 倍)、更高的記憶體頻寬 (~1.1–1.4 TB/s)、相同或更高的最大記憶體容量

你應該等待還是現在購買?

如果符合以下情況,請現在購買 M3 Ultra 512GB:

  • 你現在就需要本地 AI 推理
  • 你每月在雲端 API 上花費超過 $300
  • DeepSeek R1 671B 的 17–20 tok/s 速度已足夠滿足你的需求

如果符合以下情況,請等待 M5 Ultra:

  • 你可以再忍受 6–9 個月的雲端 API
  • 你想要 3–4 倍的 TTFT 提升(這對 agent 工作負載至關重要)
  • 你想在投入 $10,000+ 之前看到實際的基準測試數據

無論哪種方式,你今天就可以開始使用 LemonClaw,並透過 LemonData 使用雲端 API。註冊即送 $1 免費額度,支援 300 多個模型,按需付費。當你的 Mac Studio 到貨時,只需將 LemonClaw 指向你的本地 Ollama 實例,你的成本就會降至接近零。


懶人包 (TL;DR)

雲端 API Mac Studio M5 Ultra + LemonClaw
最大模型尺寸 無限制 (由供應商處理) 671B Q4 (512GB 配置)
每月成本 $300–600 (重度使用) 約 $3 電費
隱私 數據發送到第三方 所有數據保留在本地
延遲 200–500ms 網路 + 推理 僅推理延遲
速率限制
前期投入成本 $0 約 $10,000
回本週期 約 25 個月

Mac Studio M5 Ultra 是個人 AI 的基礎設施。將其與 LemonClaw 搭配,你就擁有了一個 24/7 全天候運行的 AI 助手,它能運行尖端模型、尊重你的隱私,且運行成本僅為每月 $3。

「本地 AI 只是玩具」的時代已經結束。1.2+ TB/s 頻寬的 512GB 統一記憶體意味著你可以運行足以媲美雲端服務的模型。唯一的問題是,你是否準備好擁有自己的 AI 技術棧。


準備好開始構建你的 AI 基礎設施了嗎?立即嘗試 LemonClaw 搭配 LemonData:300 多個雲端模型,註冊即送 $1 免費額度。當你的 Mac Studio 到貨時,無需更改程式碼即可切換到本地模型。

Share: