Mac Studio M5 Ultra：671Bモデルをローカルで実行し、LemonClawで独自のAIインフラを構築

DeepSeek R1のフル671Bパラメータをメモリに収めることができる初のコンシューマー向けハードウェアと、それで実際に何ができるか。

512GBのユニファイドメモリを搭載したMac Studio M5 Ultraは、DeepSeek R1 671B（最大のオープンソースモデル）を完全にRAM内で実行できる初のコンシューマーグレードのマシンです。オフロードも、マルチGPUリグも、水冷も不要。デスクの上に置けるボックス1台で、ドライヤーよりも少ない電力で動作します。

これはローカルAIの常識を覆します。フロンティアクラスのモデルを自宅で実行できるようになったとき、問いは「できるか？」から「すべきか？」へと変わります。増え続ける開発者にとって、その答えは「Yes」です。

以下では、M5 UltraがLLMの推論にもたらすもの、24時間365日稼働のパーソナルAIアシスタントとしてLemonClawと組み合わせる方法、そしてクラウドAPIと比較して経済的にいつ理にかなうのかを解説します。

M5 Ultraがもたらす進化

M5 Ultraは、AppleのUltraFusionインターコネクトを介して2つのM5 Maxチップを融合させたものです。LLMの推論において重要なポイントは以下の通りです：

スペック	M3 Ultra	M5 Ultra (予測)	なぜ重要か
メモリ帯域幅	819 GB/s	~1,100–1,400 GB/s	トークン生成速度は帯域幅に依存します
ユニファイドメモリ	最大 512GB	最大 512GB+	実行可能な最大モデルサイズを決定します
GPUコア	80	~80	プリフィルのための並列演算
Neural Accelerator	なし	GPUコアごとに搭載	first-token latencyが3〜4倍高速化
プロセスノード	3nm	3nm (N3P)	ワットパフォーマンスの向上
TDP	~200W	~190W	静音動作、24時間365日の稼働が可能

AIワークロードにおける最大の改善点は、M5がすべてのGPUコア内にNeural Acceleratorを組み込んでいることです。Apple独自のMLXベンチマークでは、M4と比較してtime-to-first-token (TTFT) が3.3〜4.1倍高速化されています。トークン生成は依然として帯域幅に制限されますが、約25%向上し、帯域幅の上限も高くなっています。

頻繁なコンテキストの切り替えや長いシステムプロンプトを伴うエージェントのワークロードにおいて、これは最も重要です。M3 Ultraでは120Kトークンのコンテキスト処理に約2.3秒かかりますが（プリフィルベンチマークからの推定）、M5 Ultraでは0.7秒未満で処理できるはずです。

512GBのユニファイドメモリで実際に何が動くのか？

これが最も重要な表です。ユニファイドメモリとは、GPUとCPUが同じRAMを共有することを意味し、PCIeのボトルネックもVRAMの制限もありません。

モデル	量子化	必要メモリ	M3 Ultra 512GB	M5 Ultra (予測)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

出典: geerlingguy/ai-benchmarks, Apple MLX Research, HN community benchmarks

参考までに：対話型チャットでは20〜30 tok/sが快適です。15 tok/sは実用的です。5 tok/sを下回ると遅く感じますが、バッチタスクには利用可能です。

512GBの構成であれば、DeepSeek R1 671B Q4 (~336GB) を実行しても、KV cacheとコンテキスト用に約176GBが残ります。これは、100Kトークン以上のコンテキストを持つマルチターンの会話に十分な容量です。

なぜNVIDIAではないのか？

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
メモリ	512GB ユニファイド	32GB VRAM	128GB VRAM
帯域幅	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ メモリ内で動作	❌ 収まらない	❌ 依然として収まらない
Llama 70B 速度	~18 tok/s	~80 tok/s	~240 tok/s
消費電力	~190W	~450W	~1,800W
騒音	静音	騒音あり	データセンター級
価格	約 $10,000	約 $2,000	約 $8,000 + マザーボード

モデルがVRAMに収まる場合、NVIDIAは生の速度で勝利します。しかし、モデルが32GBを超えた瞬間、NVIDIAのパフォーマンスは急落します。システムRAMへのオフロードにより、スループットは100+ tok/sから約3 tok/sまで低下します。Macのユニファイドメモリアーキテクチャには、このような急激な低下はありません。400GBのモデルも40GBのモデルと同じ帯域幅で動作します。

70B未満のモデルならGPUを購入してください。200Bを超えるモデルの場合、現在Mac Studioが唯一の実用的なコンシューマー向けオプションです。

LemonClaw：ハードウェアをAIアシスタントに変える

モデルをローカルで実行するのは第一歩です。それを24時間365日役立つものにするのが第二歩です。

LemonClawは、オープンソースのセルフホスト型AIエージェントプラットフォームです。Macを永続的なAIアシスタントに変え、Telegram、Slack、Discord、WhatsApp、さらにはiMessageといった既存のメッセージングアプリを通じて対話できるようにします。

なぜLemonClaw + Mac Studioなのか？

多くの人はブラウザのタブを通じてAIと対話します。LemonClawはそれをメッセージングアプリに置き換えます。アシスタントはあなたのハードウェア上で動作し、会話をまたいでコンテキストを記憶し、あなたが眠っている間も働きます。

LemonClawができること

永続メモリ：セマンティック検索を備えたMarkdownベースのメモリファイル。アシスタントは先週話した内容を覚えています。
マルチチャネルインボックス：Telegram、Slack、Discord、WhatsApp、またはサポートされている任意のプラットフォーム経由で会話可能。どのデバイスでも同じコンテキストを共有。
自律タスク：cronジョブのスケジュール、webhookの設定を行い、一晩中リサーチやコードタスクを実行させることができます。
ブラウザ自動化：リサーチ、データ抽出、フォーム入力のためのCDPベースのウェブブラウジング。
スキルエコシステム：ClawHubからコミュニティスキルをインストールするか、独自のスキルを作成。
MCPサーバーのサポート：外部ツールやAPIに接続。

ローカルモデルの利点

OllamaやMLXを介してローカルモデルを使用し、Mac StudioでLemonClawを実行する場合：

APIコストがゼロ。トークンごとの課金はありません。DeepSeek R1 671Bを1日中、毎日実行しても、かかるのは電気代（月額約3ドル）だけです。
完全なプライバシー。プロンプト、ドキュメント、コードがマシンから離れることはありません。機密性の高い契約書、独自のコード、医療記録などを、サードパーティのデータ処理なしで処理できます。
レート制限なし。クラウドAPIは毎分1,000〜10,000リクエストで制限されます。ローカル推論には、ハードウェア以外の制限はありません。
ダウンタイムに依存しない。OpenAIがダウンしても、Anthropicに障害が発生しても、ローカルセットアップは動作し続けます。
低レイテンシ。ネットワークの往復がありません。小型モデルの場合、最初のトークンは数ミリ秒で表示されます。

クイックセットアップ：Mac Studio + Ollama + LemonClaw

# 1. Ollamaをインストール
brew install ollama

# 2. モデルをプル（まずは高速なものから）
ollama pull qwen3:30b

# 3. LemonClawをインストール
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. ローカルのOllamaを使用するようにLemonClawを設定
# ~/.lemonclaw/config.json で以下を設定：
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClawはmacOS上でlaunchdサービスとして動作します。起動時に開始され、バックグラウンドで24時間365日稼働します。TelegramやSlackを接続すれば、いつでも利用可能な永続的なAIアシスタントが手に入ります。

512GBのM5 Ultraなら、より大規模なモデルも可能です：

# DeepSeek R1 671Bをプル（約336GBのRAMが必要）
ollama pull deepseek-r1:671b-q4

# またはマルチモーダルタスクに優れたQwen3-VL 235B
ollama pull qwen3-vl:235b-q4

経済性：ローカルがクラウドに勝つのはいつか？

計算してみましょう。

クラウドAPIコスト（ヘビーユーザー）

使用パターン	月額コスト
LemonClaw + Claude Sonnet 4.6 (ヘビー)	$200–400/月
開発 + コーディングアシスタント	$50–100/月
リサーチ + ドキュメント分析	$50–100/月
合計	$300–600/月

Mac Studio M5 Ultra（初期費用 + 運用）

項目	コスト
Mac Studio M5 Ultra 512GB (予測)	約 $10,000
電気代 (~200W, 24/7)	約 $3/月
インターネット（既存利用）	$0
月額$400のクラウドとの損益分岐点	約 25ヶ月

25ヶ月後には、フロンティアクラスのAIを月額3ドルで動かしていることになります。しかも、他のあらゆる用途に使える10,000ドルのワークステーションが手元に残ります。

ハイブリッドアプローチ（推奨）

すべてをローカルにするか、すべてをクラウドにするか選ぶ必要はありません。最も賢いセットアップは以下の通りです：

高ボリューム、プライバシー重視、またはレイテンシが重要なタスク（コーディング、ドキュメント分析、ブレインストーミング）にはローカルモデルを使用
ローカルでは実行できない最先端の機能（GPT-5、フルスピードでの200Kコンテキストを持つClaude Opus 4.6など）にはクラウドAPIを使用

LemonClawはこれをネイティブにサポートしています。複数のモデルプロバイダーを設定し、会話やタスクごとにローカルのOllamaとクラウドAPIを切り替えることができます。

また、クラウドAPIアクセスには、LemonDataが便利です。単一のAPIキーで300以上のモデルを利用でき、従量課金制でサブスクリプションや最低利用料金もありません。ローカルモデルでは不十分な場合のクラウドバックアップとして活用してください。

構成ガイド：3つのティア

ティア1：スターター ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

実行可能モデル: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
速度: 30Bモデルで30–50 tok/s
最適：パーソナルアシスタント、コーディング支援、軽いリサーチ
LemonClaw設定: qwen3:30bをデフォルトにし、複雑なタスクにはクラウドを併用

ティア2：パワーユーザー ($7,000–9,000)

Mac Studio M5 Ultra 256GB

実行可能モデル: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
速度: 200B+モデルで15–30 tok/s
最適：プロフェッショナルな開発、マルチモーダルタスク、チーム用AIサーバー
LemonClaw設定: ビジョン用にqwen3-vl:235b、推論用にdeepseek-r1:70bを使用

ティア3：AIワークステーション ($10,000–14,000)

Mac Studio M5 Ultra 512GB

実行可能モデル: DeepSeek R1 671B (Q4) およびそれ以下のすべて
速度: 671Bで25–35 tok/s
最適：最大のオープンソースモデルの実行、マルチユーザーサーバー、研究開発
LemonClaw設定: 深い推論用にdeepseek-r1:671b、クイックなタスクには小型モデルを使用

24時間365日稼働のAIサーバーとして運用する

Mac Studioは常時稼働を前提に設計されています。ヘッドレスAIサーバーとしてセットアップする方法は以下の通りです：

ローカル推論が手間に見合うかどうか検討している場合は、このページと併せてセルフホストLemonClawガイドおよびDeepSeek R1ガイドもご覧ください。一方は実行環境の疑問に、もう一方はモデルの適合性の疑問に答えてくれます。

電力と熱

190WのTDPは標準的なコンセントで対応可能、特別な配線は不要
アイドル時はファンレス、負荷時もささやくように静か
持続的なワークロードでもサーマルスロットリングが発生しない（Appleの熱設計がそれを処理します）

リモートアクセス

ターミナルアクセス用のSSH
どこからでも安全にリモートアクセスするためのTailscale
LemonClawのメッセージング連携により、マシンへの直接アクセスは不要です。Telegramを通じてAIにメッセージを送るだけです。

信頼性

macOSのlaunchdが、クラッシュ時にLemonClawを自動再起動します
Ollamaはバックグラウンドサービスとして動作します
停電に備えてUPS（無停電電源装置）を推奨します（Mac Studioは自動的に起動し、サービスを再開します）

# SSHを有効化
sudo systemsetup -setremotelogin on

# リモートアクセス用にTailscaleをインストール
brew install tailscale
sudo tailscale up

# LemonClawはオンボーディング後にlaunchdサービスとして稼働
# ステータス確認：
launchctl list | grep lemonclaw

今後の展望：M5 Ultraロードマップ

M5 Ultra搭載のMac Studioは、2026年後半に登場すると予想されています。タイムラインは以下の通りです：

2026年3月4日：Apple "Experience" イベント、M5 Pro/Max搭載MacBook Proの発表予想
2026年後半：M5 Ultra搭載Mac Studio
M3 Ultraからの主な改善点：GPU Neural Accelerator（TTFTが3〜4倍）、より高いメモリ帯域幅（~1.1–1.4 TB/s）、同等以上の最大メモリ容量

待つべきか、今買うべきか？

以下に当てはまるなら、今すぐM3 Ultra 512GBを購入してください：

今すぐローカルAI推論が必要
クラウドAPIに月額300ドル以上費やしている
DeepSeek R1 671Bで17–20 tok/sの速度があれば十分である

以下に当てはまるなら、M5 Ultraを待ってください：

あと6〜9ヶ月はクラウドAPIで我慢できる
3〜4倍のTTFT改善を求めている（エージェントのワークロードには不可欠）
1万ドル以上を投じる前に、実際のベンチマークを確認したい

どちらにせよ、LemonDataを通じてクラウドAPIを使用し、今日からLemonClawを使い始めることができます。サインアップで1ドルの無料クレジット、300以上のモデル、使った分だけお支払い。Mac Studioが届いたら、LemonClawの接続先をローカルのOllamaインスタンスに向けるだけで、コストはほぼゼロになります。

要約 (TL;DR)

	クラウドAPI	Mac Studio M5 Ultra + LemonClaw
最大モデルサイズ	無制限（プロバイダーが処理）	671B Q4 (512GB構成)
月額コスト	$300–600 (ヘビー利用)	約 $3 (電気代)
プライバシー	データが第三者に送信される	すべてローカルに留まる
レイテンシ	200–500ms (ネットワーク + 推論)	推論のみ
レート制限	あり	なし
初期費用	$0	約 $10,000
損益分岐点	—	約 25ヶ月

Mac Studio M5 Ultraは、パーソナルなAIインフラです。LemonClawと組み合わせることで、フロンティアクラスのモデルを動かし、プライバシーを守り、月額3ドルで運用できる24時間365日稼働のAIアシスタントが手に入ります。

「ローカルAIはおもちゃ」という時代は終わりました。1.2 TB/s以上の帯域幅を持つ512GBのユニファイドメモリは、クラウドサービスに匹敵するモデルを実行できることを意味します。唯一の問いは、あなたが自分自身のAIスタックを所有する準備ができているかどうかです。

AIインフラの構築を始めませんか？ LemonDataでLemonClawを試す：300以上のクラウドモデルが1ドルの無料クレジットで利用可能。Mac Studioが届いたら、コード変更なしでローカルモデルに切り替えられます。

Mac Studio M5 Ultra：671Bモデルをローカルで実行し、LemonClawで独自のAIインフラを構築する