Mac Studio M5 Ultra: 671B-Modelle lokal ausführen und eigene AI Infrastructure mit OpenClaw aufbauen

Die erste Consumer-Hardware, die die vollständigen 671B-Parameter von DeepSeek R1 im Speicher unterbringt, und was man tatsächlich damit machen kann.

Der Mac Studio M5 Ultra mit 512 GB Unified Memory ist der erste Rechner für Endverbraucher, der DeepSeek R1 671B (das größte Open-Source-Modell) vollständig im RAM ausführen kann. Kein Offloading, keine Multi-GPU-Rigs, keine Wasserkühlung. Nur eine Box, die auf Ihrem Schreibtisch steht und weniger Strom verbraucht als ein Haartrockner.

Das ändert die Rechnung für lokale AI. Wenn man Modelle der Frontier-Klasse zu Hause ausführen kann, verschiebt sich die Frage von „Kann ich?“ zu „Sollte ich?“. Für eine wachsende Zahl von Entwicklern lautet die Antwort: Ja.

Unten erfahren Sie, was der M5 Ultra für LLM-Inference liefert, wie man ihn mit OpenClaw für einen persönlichen 24/7 AI-Assistenten kombiniert und wann er im Vergleich zu Cloud-APIs finanziell sinnvoll ist.

Was der M5 Ultra zu bieten hat

Der M5 Ultra besteht aus zwei M5 Max-Chips, die über Apples UltraFusion-Interconnect verbunden sind. Hier ist das, was für LLM-Inference zählt:

Spezifikation	M3 Ultra	M5 Ultra (prognostiziert)	Warum es wichtig ist
Speicherbandbreite	819 GB/s	~1.100–1.400 GB/s	Token-Generierungsgeschwindigkeit ist bandbreitenbegrenzt
Unified Memory	Bis zu 512 GB	Bis zu 512 GB+	Bestimmt die maximale Modellgröße
GPU-Kerne	80	~80	Parallele Berechnungen für Prefill
Neural Accelerator	Keiner	Pro GPU-Kern	3–4x schnellere First-Token-Latenz
Fertigungsprozess	3nm	3nm (N3P)	Bessere Performance/Watt
TDP	~200W	~190W	Läuft geräuschlos, 24/7-fähig

Die wichtigste Verbesserung für AI-Workloads: Der M5 integriert einen Neural Accelerator in jeden GPU-Kern. Apples eigene MLX-Benchmarks zeigen eine 3,3–4,1x schnellere Time-to-First-Token (TTFT) im Vergleich zum M4. Die Token-Generierung verbessert sich um ~25 %, bleibt zwar bandbreitenbegrenzt, aber die Bandbreitenobergrenze liegt höher.

Für Agent-Workloads, die häufige Kontextwechsel und lange System-Prompts beinhalten, ist dies am wichtigsten. Ein M3 Ultra benötigt ~2,3 Sekunden, um einen Kontext von 120K Token zu verarbeiten (geschätzt nach Prefill-Benchmarks); der M5 Ultra sollte dies in weniger als 0,7 Sekunden schaffen.

Was können 512 GB Unified Memory tatsächlich ausführen?

Dies ist die entscheidende Tabelle. Unified Memory bedeutet, dass sich GPU und CPU denselben RAM teilen – kein PCIe-Flaschenhals, keine VRAM-Limits.

Modell	Quantisierung	Benötigter Speicher	M3 Ultra 512 GB	M5 Ultra (prognostiziert)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Quellen: geerlingguy/ai-benchmarks, Apple MLX Research, HN Community-Benchmarks

Zum Vergleich: 20–30 tok/s sind angenehm für interaktive Chats. 15 tok/s sind brauchbar. Unter 5 tok/s fühlt es sich träge an, funktioniert aber für Batch-Aufgaben.

Die 512-GB-Konfiguration bedeutet, dass Sie DeepSeek R1 671B Q4 (~336 GB) ausführen können und immer noch ~176 GB für KV-Cache und Kontext übrig haben. Das reicht für Unterhaltungen über mehrere Runden mit Kontexten von über 100K Token.

Warum nicht einfach NVIDIA verwenden?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Speicher	512 GB Unified	32 GB VRAM	128 GB VRAM
Bandbreite	~1.200 GB/s	1.792 GB/s	7.168 GB/s
DeepSeek R1 671B	✅ Läuft im Speicher	❌ Passt nicht hinein	❌ Passt immer noch nicht hinein
Llama 70B Geschwindigkeit	~18 tok/s	~80 tok/s	~240 tok/s
Stromverbrauch	~190W	~450W	~1.800W
Geräuschentwicklung	Geräuschlos	Laut	Rechenzentrum
Preis	~$10.000	~$2.000	~$8.000 + Mainboard

NVIDIA gewinnt bei der reinen Geschwindigkeit, wenn das Modell in den VRAM passt. Aber in dem Moment, in dem ein Modell 32 GB überschreitet, bricht NVIDIA ein: Das Offloading in den System-RAM lässt den Durchsatz von über 100 tok/s auf ~3 tok/s sinken. Die Unified-Memory-Architektur des Macs kennt diesen Einbruch nicht. Ein 400-GB-Modell läuft mit der gleichen Bandbreite wie ein 40-GB-Modell.

Für Modelle unter 70B kaufen Sie eine GPU. Für Modelle über 200B ist der Mac Studio derzeit die einzige praktikable Option für Endverbraucher.

OpenClaw: Hardware in einen AI-Assistenten verwandeln

Ein Modell lokal auszuführen, ist der erste Schritt. Es rund um die Uhr nützlich zu machen, ist der zweite.

OpenClaw ist eine Open-Source, selbst gehostete AI-Agent-Plattform. Sie verwandelt Ihren Mac in einen persistenten AI-Assistenten, mit dem Sie über Ihre bestehenden Messaging-Apps interagieren – Telegram, Slack, Discord, WhatsApp, sogar iMessage.

Warum OpenClaw + Mac Studio?

Die meisten Menschen interagieren mit AI über einen Browser-Tab. OpenClaw bringt sie stattdessen in Ihre Messaging-App: Ihr Assistent läuft auf Ihrer Hardware, merkt sich Ihren Kontext über Gespräche hinweg und arbeitet, während Sie schlafen.

Was OpenClaw leistet

Persistenter Speicher: Markdown-basierte Speicherdateien mit semantischer Suche. Ihr Assistent erinnert sich an das, was Sie letzte Woche besprochen haben.
Multi-Channel-Posteingang: Sprechen Sie mit ihm über Telegram, Slack, Discord, WhatsApp oder jede unterstützte Plattform. Gleicher Kontext, jedes Gerät.
Autonome Aufgaben: Planen Sie Cron-Jobs, richten Sie Webhooks ein, lassen Sie ihn über Nacht an Recherche- oder Code-Aufgaben arbeiten.
Browser-Automatisierung: CDP-basiertes Web-Browsing für Recherche, Datenextraktion, Ausfüllen von Formularen.
Skills-Ökosystem: Installieren Sie Community-Skills von ClawHub oder schreiben Sie Ihre eigenen.
MCP-Server-Unterstützung: Verbinden Sie sich mit externen Tools und APIs.

Der Vorteil lokaler Modelle

Wenn Sie OpenClaw auf einem Mac Studio mit lokalen Modellen über Ollama oder MLX betreiben:

Keine API-Kosten. Keine Abrechnung pro Token. Betreiben Sie DeepSeek R1 671B den ganzen Tag, jeden Tag, zum Preis von Strom (~3 $/Monat).
Vollständige Privatsphäre. Ihre Prompts, Dokumente und Ihr Code verlassen niemals Ihren Rechner. Verarbeiten Sie sensible Verträge, proprietären Code, Krankenakten – keine Datenverarbeitung durch Dritte.
Keine Rate Limits. Cloud-APIs drosseln Sie bei 1.000–10.000 Anfragen/Minute. Lokale Inference hat keine Grenzen außer Ihrer Hardware.
Keine Abhängigkeit von Ausfallzeiten. OpenAI ist offline? Anthropic hat eine Störung? Ihr lokales Setup läuft weiter.
Latenz. Kein Netzwerk-Roundtrip. Der erste Token erscheint bei kleinen Modellen in Millisekunden.

Schnelle Einrichtung: Mac Studio + Ollama + OpenClaw

# 1. Ollama installieren
brew install ollama

# 2. Ein Modell laden (starten Sie mit etwas Schnellem)
ollama pull qwen3:30b

# 3. OpenClaw installieren
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. OpenClaw für die Nutzung von lokalem Ollama konfigurieren
# In ~/.openclaw/openclaw.json setzen:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw läuft als launchd-Dienst unter macOS. Es startet beim Booten und läuft rund um die Uhr im Hintergrund. Verbinden Sie Ihr Telegram oder Slack, und Sie haben einen persistenten AI-Assistenten, der immer verfügbar ist.

Für den M5 Ultra mit 512 GB können Sie größer dimensionieren:

# DeepSeek R1 671B laden (benötigt ~336 GB RAM)
ollama pull deepseek-r1:671b-q4

# Oder das exzellente Qwen3-VL 235B für multimodale Aufgaben
ollama pull qwen3-vl:235b-q4

Die Wirtschaftlichkeit: Wann schlägt lokal die Cloud?

Rechnen wir es durch.

Cloud-API-Kosten (intensive Nutzung)

Nutzungsmuster	Monatliche Kosten
OpenClaw mit Claude Sonnet 4.6 (intensiv)	200–400 $/Monat
Entwicklung + Coding-Assistent	50–100 $/Monat
Recherche + Dokumentenanalyse	50–100 $/Monat
Gesamt	300–600 $/Monat

Mac Studio M5 Ultra (einmalig + laufend)

Posten	Kosten
Mac Studio M5 Ultra 512 GB (prognostiziert)	~$10.000
Strom (~200W, 24/7)	~$3/Monat
Internet (bereits vorhanden)	0 $
Break-even gegenüber 400 $/Monat Cloud	~25 Monate

Nach 25 Monaten betreiben Sie AI der Frontier-Klasse für 3 $/Monat. Und Sie haben immer noch eine 10.000-$-Workstation für alles andere.

Der hybride Ansatz (empfohlen)

Sie müssen sich nicht für rein lokal oder rein Cloud entscheiden. Das intelligenteste Setup:

Lokale Modelle für Aufgaben mit hohem Volumen, Datenschutzrelevanz oder kritischer Latenz (Coding, Dokumentenanalyse, Brainstorming)
Cloud-APIs für Frontier-Fähigkeiten, die Sie lokal nicht ausführen können (GPT-5, Claude Opus 4.6 mit 200K Kontext bei voller Geschwindigkeit)

OpenClaw unterstützt dies nativ: Konfigurieren Sie mehrere Modell-Provider und wechseln Sie pro Gespräch oder Aufgabe zwischen lokalem Ollama und Cloud-APIs.

Und für den Zugriff auf Cloud-APIs bietet Ihnen LemonData über 300 Modelle über einen einzigen API-Key mit Pay-as-you-go-Preisen, ohne Abonnements, ohne Mindestumsatz. Nutzen Sie es als Cloud-Fallback, wenn lokale Modelle nicht ausreichen.

Konfigurations-Leitfaden: Drei Stufen

Stufe 1: Der Einsteiger (4.000–5.000 $)

Mac Studio M3/M5 Ultra 96 GB

Führt aus: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Geschwindigkeit: 30–50 tok/s bei 30B-Modellen
Bestens geeignet für: Persönlicher Assistent, Coding-Hilfe, leichte Recherche
OpenClaw-Konfiguration: qwen3:30b als Standard, Cloud-Fallback für komplexe Aufgaben

Stufe 2: Der Power-User (7.000–9.000 $)

Mac Studio M5 Ultra 256 GB

Führt aus: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Geschwindigkeit: 15–30 tok/s bei 200B+ Modellen
Bestens geeignet für: Professionelle Entwicklung, multimodale Aufgaben, Team-AI-Server
OpenClaw-Konfiguration: qwen3-vl:235b für Vision, deepseek-r1:70b für Reasoning

Stufe 3: Die AI-Workstation (10.000–14.000 $)

Mac Studio M5 Ultra 512 GB

Führt aus: DeepSeek R1 671B (Q4), alles darunter
Geschwindigkeit: 25–35 tok/s bei 671B
Bestens geeignet für: Ausführung der größten Open-Source-Modelle, Multi-User-Server, Forschung
OpenClaw-Konfiguration: deepseek-r1:671b für tiefes Reasoning, kleinere Modelle für schnelle Aufgaben

Betrieb als 24/7 AI-Server

Der Mac Studio ist für den Dauerbetrieb ausgelegt. So richten Sie ihn als Headless AI-Server ein:

Strom & Thermik

190W TDP bedeutet Standardsteckdose, keine spezielle Verkabelung
Lüfterlos im Leerlauf, flüsterleise unter Last
Kein Thermal Throttling bei dauerhafter Arbeitslast (Apples thermisches Design bewältigt das)

Fernzugriff

SSH für Terminal-Zugriff
Tailscale für sicheren Fernzugriff von überall
Die Messaging-Integration von OpenClaw bedeutet, dass Sie keinen direkten Zugriff auf den Rechner benötigen. Schreiben Sie Ihrer AI einfach über Telegram.

Zuverlässigkeit

macOS launchd startet OpenClaw automatisch neu, falls es abstürzt
Ollama läuft als Hintergrunddienst
USV empfohlen für Stromausfälle (der Mac Studio bootet und setzt Dienste automatisch fort)

# SSH aktivieren
sudo systemsetup -setremotelogin on

# Tailscale für Fernzugriff installieren
brew install tailscale
sudo tailscale up

# OpenClaw läuft nach dem Onboarding bereits als launchd-Dienst
# Status prüfen:
launchctl list | grep openclaw

Was kommt: Die M5 Ultra Roadmap

Der M5 Ultra Mac Studio wird in der zweiten Hälfte des Jahres 2026 erwartet. Hier ist der Zeitplan:

4. März 2026: Apple „Experience“-Event, M5 Pro/Max MacBook Pro erwartet
H2 2026: Mac Studio mit M5 Ultra
Wichtigste Verbesserungen gegenüber M3 Ultra: GPU Neural Accelerators (3–4x TTFT), höhere Speicherbandbreite (~1,1–1,4 TB/s), gleicher oder höherer Maximalspeicher

Warten oder jetzt kaufen?

Kaufen Sie den M3 Ultra 512 GB jetzt, wenn:

Sie heute lokale AI-Inference benötigen
Sie über 300 $/Monat für Cloud-APIs ausgeben
Die 17–20 tok/s bei DeepSeek R1 671B für Ihren Anwendungsfall schnell genug sind

Warten Sie auf den M5 Ultra, wenn:

Sie Cloud-APIs noch 6–9 Monate tolerieren können
Sie die 3–4x TTFT-Verbesserung wollen (entscheidend für Agent-Workloads)
Sie tatsächliche Benchmarks sehen wollen, bevor Sie über 10.000 $ investieren

So oder so können Sie heute mit OpenClaw beginnen, indem Sie Cloud-APIs über LemonData nutzen. 1 $ Gratisguthaben bei der Anmeldung, über 300 Modelle, zahlen Sie nur für das, was Sie nutzen. Wenn Ihr Mac Studio eintrifft, richten Sie OpenClaw einfach auf Ihre lokale Ollama-Instanz aus, und Ihre Kosten sinken auf fast Null.

TL;DR

	Cloud-APIs	Mac Studio M5 Ultra + OpenClaw
Maximale Modellgröße	Unbegrenzt (Provider übernimmt das)	671B Q4 (512-GB-Konfig)
Monatliche Kosten	300–600 $ (intensive Nutzung)	~$3 Strom
Privatsphäre	Daten werden an Dritte gesendet	Alles bleibt lokal
Latenz	200–500ms Netzwerk + Inference	Nur Inference
Rate Limits	Ja	Nein
Anschaffungskosten	0 $	~$10.000
Break-even	—	~25 Monate

Der Mac Studio M5 Ultra ist persönliche AI-Infrastruktur. Kombinieren Sie ihn mit OpenClaw, und Sie haben einen 24/7 AI-Assistenten, der Modelle der Frontier-Klasse ausführt, Ihre Privatsphäre respektiert und 3 $/Monat im Betrieb kostet.

Die Ära von „lokale AI ist ein Spielzeug“ ist vorbei. 512 GB Unified Memory bei 1,2+ TB/s Bandbreite bedeuten, dass Sie Modelle ausführen können, die mit Cloud-Angeboten konkurrieren. Die einzige Frage ist, ob Sie bereit sind, Ihren eigenen AI-Stack zu besitzen.

Bereit, Ihre AI-Infrastruktur aufzubauen? Testen Sie OpenClaw mit LemonData: Über 300 Cloud-Modelle mit 1 $ Gratisguthaben. Wenn Ihr Mac Studio eintrifft, wechseln Sie ohne Code-Änderungen zu lokalen Modellen.

Mac Studio M5 Ultra: 671B-Modelle lokal ausführen und eigene AI-Infrastruktur mit OpenClaw aufbauen