Mac Studio M5 Ultra: 671Bモデルをローカルで実行し、OpenClawで独自のAIインフラを構築する
DeepSeek R1のフル671Bパラメータをメモリに収めることができる初のコンシューマー向けハードウェアと、それで実際に何ができるのか。
512GBのunified memoryを搭載したMac Studio M5 Ultraは、DeepSeek R1 671B(最大のオープンソースモデル)を完全にRAM内で実行できる初のコンシューマーグレードの製品です。オフロードも、マルチGPUリグも、水冷も不要です。デスクの上に置けるボックス一つで、消費電力はドライヤーよりも少なくなっています。
これにより、ローカルAIの計算式が変わります。自宅でフロンティア級のモデルを実行できるようになると、問いは「できるか?」から「すべきか?」へと変わります。増え続ける開発者にとって、その答えは「Yes」です。
以下では、M5 UltraがLLMの推論にもたらすもの、24時間365日のパーソナルAIアシスタントとしてOpenClawと組み合わせる方法、そしてクラウドAPIと比較して経済的にいつ理にかなうのかについて解説します。
M5 Ultraが提供するもの
M5 Ultraは、AppleのUltraFusionインターコネクトを介して2つのM5 Maxチップを融合させたものです。LLMの推論において重要なポイントは以下の通りです:
| スペック | M3 Ultra | M5 Ultra(予測) | なぜ重要か |
|---|---|---|---|
| メモリ帯域幅 | 819 GB/s | ~1,100–1,400 GB/s | token生成速度は帯域幅に依存する |
| Unified memory | 最大 512GB | 最大 512GB+ | 最大モデルサイズを決定する |
| GPUコア | 80 | ~80 | prefillのための並列計算 |
| Neural Accelerator | なし | GPUコアごとに搭載 | first-tokenのレイテンシが3〜4倍高速化 |
| プロセスノード | 3nm | 3nm (N3P) | ワットあたりのパフォーマンスが向上 |
| TDP | ~200W | ~190W | 静音で動作し、24時間365日の稼働が可能 |
AIワークロードにおける最大級の改善点は、M5がすべてのGPUコア内にNeural Acceleratorを組み込んでいることです。Apple独自のMLXベンチマークでは、M4と比較してtime-to-first-token (TTFT) が3.3〜4.1倍高速化されています。token生成は約25%向上します。依然として帯域幅に依存しますが、帯域幅の上限が引き上げられています。
頻繁なコンテキストの切り替えや長いシステムプロンプトを伴うエージェントのワークロードにおいて、これが最も重要になります。M3 Ultraは120K tokenのコンテキストを処理するのに約2.3秒かかります(prefillベンチマークからの推定)。M5 Ultraはそれを0.7秒未満で処理できるはずです。
512GBのUnified Memoryで実際に何を実行できるか?
これが最も重要な表です。unified memoryとは、GPUとCPUが同じRAMを共有することを意味し、PCIeのボトルネックやVRAMの制限がありません。
| モデル | 量子化 | 必要なメモリ | M3 Ultra 512GB | M5 Ultra(予測) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
出典: geerlingguy/ai-benchmarks, Apple MLX Research, HN community benchmarks
参考までに:20〜30 tok/sは、インタラクティブなチャットにおいて快適です。15 tok/sは実用的です。5 tok/s未満は遅く感じられますが、バッチ処理には適しています。
512GBの構成であれば、DeepSeek R1 671B Q4 (~336GB) を実行しても、KVキャッシュとコンテキスト用に約176GBが残ります。これは、100K以上のコンテキストを持つマルチターンの会話に十分な容量です。
なぜNVIDIAを使わないのか?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| メモリ | 512GB unified | 32GB VRAM | 128GB VRAM |
| 帯域幅 | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ メモリ内で動作 | ❌ 収まらない | ❌ それでも収まらない |
| Llama 70B 速度 | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| 消費電力 | ~190W | ~450W | ~1,800W |
| ノイズ | 静音 | 騒音あり | データセンター級 |
| 価格 | 約10,000ドル | 約2,000ドル | 約8,000ドル + マザーボード |
モデルがVRAMに収まる場合、純粋な速度ではNVIDIAが勝利します。しかし、モデルが32GBを超えた瞬間、NVIDIAのパフォーマンスは急落します。システムRAMへのオフロードにより、スループットは100+ tok/sから約3 tok/sまで低下します。Macのunified memoryアーキテクチャには、このような急落はありません。400GBのモデルも40GBのモデルと同じ帯域幅で動作します。
70B未満のモデルの場合は、GPUを購入してください。200Bを超えるモデルの場合、Mac Studioは現在、唯一の実用的なコンシューマー向けオプションです。
OpenClawの登場:ハードウェアをAIアシスタントに変える
モデルをローカルで実行することは第一歩です。それを24時間365日活用できるようにすることが第二歩です。
OpenClawは、オープンソースのセルフホスト型AIエージェントプラットフォームです。Macを永続的なAIアシスタントに変え、Telegram、Slack、Discord、WhatsApp、さらにはiMessageといった既存のメッセージングアプリを通じて対話できるようにします。
なぜ OpenClaw + Mac Studio なのか?
多くの人はブラウザのタブを介してAIと対話します。OpenClawはそれをメッセージングアプリに置き換えます。アシスタントはあなたのハードウェア上で動作し、会話をまたいでコンテキストを記憶し、あなたが眠っている間も働きます。
OpenClawができること
- 永続メモリ:セマンティック検索を備えたMarkdownベースのメモリファイル。アシスタントは先週話し合った内容を覚えています。
- マルチチャネルインボックス:Telegram、Slack、Discord、WhatsApp、またはサポートされている任意のプラットフォーム経由で会話可能。どのデバイスからでも同じコンテキストを共有。
- 自律的なタスク:cronジョブのスケジュール、webhookの設定を行い、一晩中リサーチやコードタスクを実行させることができます。
- ブラウザ自動化:リサーチ、データ抽出、フォーム入力のためのCDPベースのウェブブラウジング。
- スキルエコシステム:ClawHubからコミュニティスキルをインストールするか、独自のスキルを作成。
- MCPサーバーのサポート:外部ツールやAPIに接続。
ローカルモデルの利点
OllamaやMLXを介してローカルモデルを使用し、Mac Studio上でOpenClawを実行する場合:
- APIコストはゼロ。tokenごとの課金もありません。電気代(月額約3ドル)だけで、DeepSeek R1 671Bを毎日、一日中実行できます。
- 完全なプライバシー。プロンプト、ドキュメント、コードがマシンから離れることはありません。機密性の高い契約書、独自のコード、医療記録などを、第三者のデータ処理なしで処理できます。
- rate limitなし。クラウドAPIは、1分あたり1,000〜10,000リクエストで制限がかかります。ローカル推論には、ハードウェア以外の制限はありません。
- ダウンタイムへの依存なし。OpenAIがダウンしても、Anthropicに障害が発生しても、ローカルセットアップは動作し続けます。
- レイテンシ。ネットワークの往復がありません。小規模なモデルでは、数ミリ秒で最初のtokenが表示されます。
クイックセットアップ:Mac Studio + Ollama + OpenClaw
# 1. Ollamaをインストール
brew install ollama
# 2. モデルをプル(まずは高速なものから)
ollama pull qwen3:30b
# 3. OpenClawをインストール
npm install -g openclaw@latest
openclaw onboard --install-daemon
# 4. ローカルのOllamaを使用するようにOpenClawを設定
# ~/.openclaw/openclaw.json で以下を設定:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
OpenClawはmacOS上でlaunchdサービスとして動作します。起動時に開始され、バックグラウンドで24時間365日動作します。TelegramやSlackを接続すれば、いつでも利用可能な永続的なAIアシスタントが手に入ります。
512GBのM5 Ultraであれば、より大規模なモデルも可能です:
# DeepSeek R1 671Bをプル(約336GBのRAMが必要)
ollama pull deepseek-r1:671b-q4
# または、マルチモーダルタスクに優れたQwen3-VL 235B
ollama pull qwen3-vl:235b-q4
経済性:ローカルがクラウドを上回るのはいつか?
計算してみましょう。
クラウドAPIコスト(ヘビーユーザー)
| 利用パターン | 月額コスト |
|---|---|
| OpenClaw + Claude Sonnet 4.6(ヘビー利用) | $200–400/月 |
| 開発 + コーディングアシスタント | $50–100/月 |
| リサーチ + ドキュメント分析 | $50–100/月 |
| 合計 | $300–600/月 |
Mac Studio M5 Ultra(初期費用 + 運用費)
| 項目 | コスト |
|---|---|
| Mac Studio M5 Ultra 512GB(予測) | 約$10,000 |
| 電気代(~200W, 24/7) | 約$3/月 |
| インターネット(既存利用) | $0 |
| 月額$400のクラウドと比較した損益分岐点 | 約25ヶ月 |
25ヶ月後には、月額3ドルでフロンティア級のAIを運用していることになります。しかも、それ以外のあらゆる用途に使える10,000ドルのワークステーションが手元に残ります。
ハイブリッドアプローチ(推奨)
すべてをローカルにするか、すべてをクラウドにするか選ぶ必要はありません。最も賢いセットアップは以下の通りです:
- 高ボリューム、プライバシー重視、またはレイテンシが重要なタスク(コーディング、ドキュメント分析、ブレインストーミング)にはローカルモデルを使用。
- ローカルでは実行できない最先端の機能(GPT-5、200Kコンテキストをフルスピードで処理するClaude Opus 4.6など)にはクラウドAPIを使用。
OpenClawはこれをネイティブにサポートしています。複数のモデルプロバイダーを設定し、会話やタスクごとにローカルのOllamaとクラウドAPIを切り替えることができます。
また、クラウドAPIアクセスについては、LemonDataを利用すれば、単一のAPIキーで300以上のモデルを従量課金制で利用できます。サブスクリプションや最低利用料金はありません。ローカルモデルでは不十分な場合のクラウドバックアップとして活用してください。
構成ガイド:3つのティア
ティア1:スターター ($4,000–5,000)
Mac Studio M3/M5 Ultra 96GB
- 実行可能モデル: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- 速度: 30Bモデルで 30–50 tok/s
- 最適な用途: パーソナルアシスタント、コーディング支援、軽いリサーチ
- OpenClaw設定: デフォルトを
qwen3:30bにし、複雑なタスクはクラウドへフォールバック
ティア2:パワーユーザー ($7,000–9,000)
Mac Studio M5 Ultra 256GB
- 実行可能モデル: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- 速度: 200B+モデルで 15–30 tok/s
- 最適な用途: プロフェッショナルな開発、マルチモーダルタスク、チーム用AIサーバー
- OpenClaw設定: ビジョン用に
qwen3-vl:235b、推論用にdeepseek-r1:70b
ティア3:AIワークステーション ($10,000–14,000)
Mac Studio M5 Ultra 512GB
- 実行可能モデル: DeepSeek R1 671B (Q4) およびそれ以下の全モデル
- 速度: 671Bで 25–35 tok/s
- 最適な用途: 最大級のオープンソースモデルの実行、マルチユーザーサーバー、研究開発
- OpenClaw設定: 深い推論用に
deepseek-r1:671b、クイックなタスクには小規模モデル
24時間365日のAIサーバーとして運用する
Mac Studioは常時稼働を前提に設計されています。ヘッドレスAIサーバーとしてセットアップする方法は以下の通りです:
電力と熱
- 190WのTDPは標準的なコンセントで対応可能、特別な配線は不要
- アイドル時はファンレス、負荷時もささやくように静か
- 持続的なワークロードでもサーマルスロットリングが発生しない(Appleの熱設計が対応)
リモートアクセス
- ターミナルアクセス用のSSH
- どこからでも安全にリモートアクセスするためのTailscale
- OpenClawのメッセージング連携により、マシンへの直接アクセスは不要。Telegramを通じてAIにメッセージを送るだけです。
信頼性
- macOSのlaunchdが、クラッシュ時にOpenClawを自動再起動
- Ollamaはバックグラウンドサービスとして動作
- 停電対策としてUPSを推奨(Mac Studioは自動的に起動し、サービスを再開します)
# SSHを有効化
sudo systemsetup -setremotelogin on
# リモートアクセス用にTailscaleをインストール
brew install tailscale
sudo tailscale up
# OpenClawはオンボーディング後にlaunchdサービスとして動作
# ステータスを確認:
launchctl list | grep openclaw
今後の展望:M5 Ultraロードマップ
M5 Ultra搭載のMac Studioは、2026年後半に登場すると予想されています。タイムラインは以下の通りです:
- 2026年3月4日:Apple "Experience" イベント、M5 Pro/Max搭載MacBook Proの発表予想
- 2026年後半:M5 Ultra搭載Mac Studio
- M3 Ultraからの主な改善点:GPU Neural Accelerator(TTFTが3〜4倍)、より高いメモリ帯域幅(~1.1–1.4 TB/s)、同等以上の最大メモリ容量
待つべきか、今買うべきか?
以下に当てはまるなら、今すぐM3 Ultra 512GBを購入してください:
- 今すぐローカルAI推論が必要
- クラウドAPIに月額300ドル以上費やしている
- DeepSeek R1 671Bでの17〜20 tok/sが、自分の用途に十分な速度である
以下に当てはまるなら、M5 Ultraを待ってください:
- あと6〜9ヶ月はクラウドAPIで我慢できる
- 3〜4倍のTTFT改善を求めている(エージェントのワークロードには不可欠)
- 10,000ドル以上を投じる前に、実際のベンチマークを確認したい
どちらにせよ、LemonDataを介したクラウドAPIを使用して、今日からOpenClawを使い始めることができます。サインアップで1ドルの無料クレジット、300以上のモデル、使った分だけの支払いです。Mac Studioが届いたら、OpenClawの接続先をローカルのOllamaインスタンスに向けるだけで、コストはほぼゼロになります。
TL;DR
| クラウドAPI | Mac Studio M5 Ultra + OpenClaw | |
|---|---|---|
| 最大モデルサイズ | 無制限(プロバイダーが処理) | 671B Q4 (512GB構成) |
| 月額コスト | $300–600(ヘビー利用) | 約$3(電気代) |
| プライバシー | データが第三者に送信される | すべてローカルに留まる |
| レイテンシ | 200–500ms(ネットワーク + 推論) | 推論のみ |
| Rate limit | あり | なし |
| 初期費用 | $0 | 約$10,000 |
| 損益分岐点 | — | 約25ヶ月 |
Mac Studio M5 Ultraは、パーソナルなAIインフラです。OpenClawと組み合わせることで、フロンティア級のモデルを動かし、プライバシーを守り、月額3ドルで運用できる24時間365日のAIアシスタントが手に入ります。
「ローカルAIはおもちゃ」という時代は終わりました。1.2 TB/s以上の帯域幅を持つ512GBのunified memoryは、クラウドサービスに匹敵するモデルを実行できることを意味します。唯一の問いは、あなたが自分自身のAIスタックを所有する準備ができているかどうかです。
AIインフラの構築を始める準備はできましたか? LemonDataでOpenClawを試してみてください:300以上のクラウドモデルを1ドルの無料クレジットで利用できます。Mac Studioが届いたら、コードの変更なしでローカルモデルに切り替え可能です。
