Mac Studio M5 Ultra: 671B Modelsをローカルで実行し、OpenClawで独自のAI Infrastructureを構築

DeepSeek R1のフル671Bパラメータをメモリに収めることができる初のコンシューマー向けハードウェアと、それで実際に何ができるのか。

512GBのunified memoryを搭載したMac Studio M5 Ultraは、DeepSeek R1 671B（最大のオープンソースモデル）を完全にRAM内で実行できる初のコンシューマーグレードの製品です。オフロードも、マルチGPUリグも、水冷も不要です。デスクの上に置けるボックス一つで、消費電力はドライヤーよりも少なくなっています。

これにより、ローカルAIの計算式が変わります。自宅でフロンティア級のモデルを実行できるようになると、問いは「できるか？」から「すべきか？」へと変わります。増え続ける開発者にとって、その答えは「Yes」です。

以下では、M5 UltraがLLMの推論にもたらすもの、24時間365日のパーソナルAIアシスタントとしてOpenClawと組み合わせる方法、そしてクラウドAPIと比較して経済的にいつ理にかなうのかについて解説します。

M5 Ultraが提供するもの

M5 Ultraは、AppleのUltraFusionインターコネクトを介して2つのM5 Maxチップを融合させたものです。LLMの推論において重要なポイントは以下の通りです：

スペック	M3 Ultra	M5 Ultra（予測）	なぜ重要か
メモリ帯域幅	819 GB/s	~1,100–1,400 GB/s	token生成速度は帯域幅に依存する
Unified memory	最大 512GB	最大 512GB+	最大モデルサイズを決定する
GPUコア	80	~80	prefillのための並列計算
Neural Accelerator	なし	GPUコアごとに搭載	first-tokenのレイテンシが3〜4倍高速化
プロセスノード	3nm	3nm (N3P)	ワットあたりのパフォーマンスが向上
TDP	~200W	~190W	静音で動作し、24時間365日の稼働が可能

AIワークロードにおける最大級の改善点は、M5がすべてのGPUコア内にNeural Acceleratorを組み込んでいることです。Apple独自のMLXベンチマークでは、M4と比較してtime-to-first-token (TTFT) が3.3〜4.1倍高速化されています。token生成は約25%向上します。依然として帯域幅に依存しますが、帯域幅の上限が引き上げられています。

頻繁なコンテキストの切り替えや長いシステムプロンプトを伴うエージェントのワークロードにおいて、これが最も重要になります。M3 Ultraは120K tokenのコンテキストを処理するのに約2.3秒かかります（prefillベンチマークからの推定）。M5 Ultraはそれを0.7秒未満で処理できるはずです。

512GBのUnified Memoryで実際に何を実行できるか？

これが最も重要な表です。unified memoryとは、GPUとCPUが同じRAMを共有することを意味し、PCIeのボトルネックやVRAMの制限がありません。

モデル	量子化	必要なメモリ	M3 Ultra 512GB	M5 Ultra（予測）
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

出典: geerlingguy/ai-benchmarks, Apple MLX Research, HN community benchmarks

参考までに：20〜30 tok/sは、インタラクティブなチャットにおいて快適です。15 tok/sは実用的です。5 tok/s未満は遅く感じられますが、バッチ処理には適しています。

512GBの構成であれば、DeepSeek R1 671B Q4 (~336GB) を実行しても、KVキャッシュとコンテキスト用に約176GBが残ります。これは、100K以上のコンテキストを持つマルチターンの会話に十分な容量です。

なぜNVIDIAを使わないのか？

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
メモリ	512GB unified	32GB VRAM	128GB VRAM
帯域幅	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ メモリ内で動作	❌ 収まらない	❌ それでも収まらない
Llama 70B 速度	~18 tok/s	~80 tok/s	~240 tok/s
消費電力	~190W	~450W	~1,800W
ノイズ	静音	騒音あり	データセンター級
価格	約10,000ドル	約2,000ドル	約8,000ドル + マザーボード

モデルがVRAMに収まる場合、純粋な速度ではNVIDIAが勝利します。しかし、モデルが32GBを超えた瞬間、NVIDIAのパフォーマンスは急落します。システムRAMへのオフロードにより、スループットは100+ tok/sから約3 tok/sまで低下します。Macのunified memoryアーキテクチャには、このような急落はありません。400GBのモデルも40GBのモデルと同じ帯域幅で動作します。

70B未満のモデルの場合は、GPUを購入してください。200Bを超えるモデルの場合、Mac Studioは現在、唯一の実用的なコンシューマー向けオプションです。

OpenClawの登場：ハードウェアをAIアシスタントに変える

モデルをローカルで実行することは第一歩です。それを24時間365日活用できるようにすることが第二歩です。

OpenClawは、オープンソースのセルフホスト型AIエージェントプラットフォームです。Macを永続的なAIアシスタントに変え、Telegram、Slack、Discord、WhatsApp、さらにはiMessageといった既存のメッセージングアプリを通じて対話できるようにします。

なぜ OpenClaw + Mac Studio なのか？

多くの人はブラウザのタブを介してAIと対話します。OpenClawはそれをメッセージングアプリに置き換えます。アシスタントはあなたのハードウェア上で動作し、会話をまたいでコンテキストを記憶し、あなたが眠っている間も働きます。

OpenClawができること

永続メモリ：セマンティック検索を備えたMarkdownベースのメモリファイル。アシスタントは先週話し合った内容を覚えています。
マルチチャネルインボックス：Telegram、Slack、Discord、WhatsApp、またはサポートされている任意のプラットフォーム経由で会話可能。どのデバイスからでも同じコンテキストを共有。
自律的なタスク：cronジョブのスケジュール、webhookの設定を行い、一晩中リサーチやコードタスクを実行させることができます。
ブラウザ自動化：リサーチ、データ抽出、フォーム入力のためのCDPベースのウェブブラウジング。
スキルエコシステム：ClawHubからコミュニティスキルをインストールするか、独自のスキルを作成。
MCPサーバーのサポート：外部ツールやAPIに接続。

ローカルモデルの利点

OllamaやMLXを介してローカルモデルを使用し、Mac Studio上でOpenClawを実行する場合：

APIコストはゼロ。tokenごとの課金もありません。電気代（月額約3ドル）だけで、DeepSeek R1 671Bを毎日、一日中実行できます。
完全なプライバシー。プロンプト、ドキュメント、コードがマシンから離れることはありません。機密性の高い契約書、独自のコード、医療記録などを、第三者のデータ処理なしで処理できます。
rate limitなし。クラウドAPIは、1分あたり1,000〜10,000リクエストで制限がかかります。ローカル推論には、ハードウェア以外の制限はありません。
ダウンタイムへの依存なし。OpenAIがダウンしても、Anthropicに障害が発生しても、ローカルセットアップは動作し続けます。
レイテンシ。ネットワークの往復がありません。小規模なモデルでは、数ミリ秒で最初のtokenが表示されます。

クイックセットアップ：Mac Studio + Ollama + OpenClaw

# 1. Ollamaをインストール
brew install ollama

# 2. モデルをプル（まずは高速なものから）
ollama pull qwen3:30b

# 3. OpenClawをインストール
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. ローカルのOllamaを使用するようにOpenClawを設定
# ~/.openclaw/openclaw.json で以下を設定：
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClawはmacOS上でlaunchdサービスとして動作します。起動時に開始され、バックグラウンドで24時間365日動作します。TelegramやSlackを接続すれば、いつでも利用可能な永続的なAIアシスタントが手に入ります。

512GBのM5 Ultraであれば、より大規模なモデルも可能です：

# DeepSeek R1 671Bをプル（約336GBのRAMが必要）
ollama pull deepseek-r1:671b-q4

# または、マルチモーダルタスクに優れたQwen3-VL 235B
ollama pull qwen3-vl:235b-q4

経済性：ローカルがクラウドを上回るのはいつか？

計算してみましょう。

クラウドAPIコスト（ヘビーユーザー）

利用パターン	月額コスト
OpenClaw + Claude Sonnet 4.6（ヘビー利用）	$200–400/月
開発 + コーディングアシスタント	$50–100/月
リサーチ + ドキュメント分析	$50–100/月
合計	$300–600/月

Mac Studio M5 Ultra（初期費用 + 運用費）

項目	コスト
Mac Studio M5 Ultra 512GB（予測）	約$10,000
電気代（~200W, 24/7）	約$3/月
インターネット（既存利用）	$0
月額$400のクラウドと比較した損益分岐点	約25ヶ月

25ヶ月後には、月額3ドルでフロンティア級のAIを運用していることになります。しかも、それ以外のあらゆる用途に使える10,000ドルのワークステーションが手元に残ります。

ハイブリッドアプローチ（推奨）

すべてをローカルにするか、すべてをクラウドにするか選ぶ必要はありません。最も賢いセットアップは以下の通りです：

高ボリューム、プライバシー重視、またはレイテンシが重要なタスク（コーディング、ドキュメント分析、ブレインストーミング）にはローカルモデルを使用。
ローカルでは実行できない最先端の機能（GPT-5、200Kコンテキストをフルスピードで処理するClaude Opus 4.6など）にはクラウドAPIを使用。

OpenClawはこれをネイティブにサポートしています。複数のモデルプロバイダーを設定し、会話やタスクごとにローカルのOllamaとクラウドAPIを切り替えることができます。

また、クラウドAPIアクセスについては、LemonDataを利用すれば、単一のAPIキーで300以上のモデルを従量課金制で利用できます。サブスクリプションや最低利用料金はありません。ローカルモデルでは不十分な場合のクラウドバックアップとして活用してください。

構成ガイド：3つのティア

ティア1：スターター ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

実行可能モデル: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
速度: 30Bモデルで 30–50 tok/s
最適な用途: パーソナルアシスタント、コーディング支援、軽いリサーチ
OpenClaw設定: デフォルトを qwen3:30b にし、複雑なタスクはクラウドへフォールバック

ティア2：パワーユーザー ($7,000–9,000)

Mac Studio M5 Ultra 256GB

実行可能モデル: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
速度: 200B+モデルで 15–30 tok/s
最適な用途: プロフェッショナルな開発、マルチモーダルタスク、チーム用AIサーバー
OpenClaw設定: ビジョン用に qwen3-vl:235b、推論用に deepseek-r1:70b

ティア3：AIワークステーション ($10,000–14,000)

Mac Studio M5 Ultra 512GB

実行可能モデル: DeepSeek R1 671B (Q4) およびそれ以下の全モデル
速度: 671Bで 25–35 tok/s
最適な用途: 最大級のオープンソースモデルの実行、マルチユーザーサーバー、研究開発
OpenClaw設定: 深い推論用に deepseek-r1:671b、クイックなタスクには小規模モデル

24時間365日のAIサーバーとして運用する

Mac Studioは常時稼働を前提に設計されています。ヘッドレスAIサーバーとしてセットアップする方法は以下の通りです：

電力と熱

190WのTDPは標準的なコンセントで対応可能、特別な配線は不要
アイドル時はファンレス、負荷時もささやくように静か
持続的なワークロードでもサーマルスロットリングが発生しない（Appleの熱設計が対応）

リモートアクセス

ターミナルアクセス用のSSH
どこからでも安全にリモートアクセスするためのTailscale
OpenClawのメッセージング連携により、マシンへの直接アクセスは不要。Telegramを通じてAIにメッセージを送るだけです。

信頼性

macOSのlaunchdが、クラッシュ時にOpenClawを自動再起動
Ollamaはバックグラウンドサービスとして動作
停電対策としてUPSを推奨（Mac Studioは自動的に起動し、サービスを再開します）

# SSHを有効化
sudo systemsetup -setremotelogin on

# リモートアクセス用にTailscaleをインストール
brew install tailscale
sudo tailscale up

# OpenClawはオンボーディング後にlaunchdサービスとして動作
# ステータスを確認：
launchctl list | grep openclaw

今後の展望：M5 Ultraロードマップ

M5 Ultra搭載のMac Studioは、2026年後半に登場すると予想されています。タイムラインは以下の通りです：

2026年3月4日：Apple "Experience" イベント、M5 Pro/Max搭載MacBook Proの発表予想
2026年後半：M5 Ultra搭載Mac Studio
M3 Ultraからの主な改善点：GPU Neural Accelerator（TTFTが3〜4倍）、より高いメモリ帯域幅（~1.1–1.4 TB/s）、同等以上の最大メモリ容量

待つべきか、今買うべきか？

以下に当てはまるなら、今すぐM3 Ultra 512GBを購入してください：

今すぐローカルAI推論が必要
クラウドAPIに月額300ドル以上費やしている
DeepSeek R1 671Bでの17〜20 tok/sが、自分の用途に十分な速度である

以下に当てはまるなら、M5 Ultraを待ってください：

あと6〜9ヶ月はクラウドAPIで我慢できる
3〜4倍のTTFT改善を求めている（エージェントのワークロードには不可欠）
10,000ドル以上を投じる前に、実際のベンチマークを確認したい

どちらにせよ、LemonDataを介したクラウドAPIを使用して、今日からOpenClawを使い始めることができます。サインアップで1ドルの無料クレジット、300以上のモデル、使った分だけの支払いです。Mac Studioが届いたら、OpenClawの接続先をローカルのOllamaインスタンスに向けるだけで、コストはほぼゼロになります。

TL;DR

	クラウドAPI	Mac Studio M5 Ultra + OpenClaw
最大モデルサイズ	無制限（プロバイダーが処理）	671B Q4 (512GB構成)
月額コスト	$300–600（ヘビー利用）	約$3（電気代）
プライバシー	データが第三者に送信される	すべてローカルに留まる
レイテンシ	200–500ms（ネットワーク + 推論）	推論のみ
Rate limit	あり	なし
初期費用	$0	約$10,000
損益分岐点	—	約25ヶ月

Mac Studio M5 Ultraは、パーソナルなAIインフラです。OpenClawと組み合わせることで、フロンティア級のモデルを動かし、プライバシーを守り、月額3ドルで運用できる24時間365日のAIアシスタントが手に入ります。

「ローカルAIはおもちゃ」という時代は終わりました。1.2 TB/s以上の帯域幅を持つ512GBのunified memoryは、クラウドサービスに匹敵するモデルを実行できることを意味します。唯一の問いは、あなたが自分自身のAIスタックを所有する準備ができているかどうかです。

AIインフラの構築を始める準備はできましたか？ LemonDataでOpenClawを試してみてください：300以上のクラウドモデルを1ドルの無料クレジットで利用できます。Mac Studioが届いたら、コードの変更なしでローカルモデルに切り替え可能です。

Mac Studio M5 Ultra: 671B Models をローカルで実行し、OpenClaw で独自の AI Infrastructure を構築する