Mac Studio M5 Ultra: 671B-Modelle lokal ausführen und eigene AI-Infrastruktur mit LemonClaw aufbauen

Die erste Consumer-Hardware, die die vollen 671B Parameter von DeepSeek R1 im Speicher unterbringt, und was man tatsächlich damit machen kann.

Der Mac Studio M5 Ultra mit 512 GB Unified Memory ist die erste Maschine für Endverbraucher, die DeepSeek R1 671B (das größte Open-Source-Modell) vollständig im RAM ausführen kann. Kein Offloading, keine Multi-GPU-Rigs, keine Wasserkühlung. Nur eine Box, die auf Ihrem Schreibtisch steht und weniger Strom verbraucht als ein Haartrockner.

Dies ändert die Kalkulation für lokale KI grundlegend. Wenn man Modelle der Frontier-Klasse zu Hause ausführen kann, verschiebt sich die Frage von „Kann ich?“ zu „Sollte ich?“. Für eine wachsende Zahl von Entwicklern lautet die Antwort: Ja.

Im Folgenden: Was der M5 Ultra für die LLM-Inference liefert, wie man ihn mit LemonClaw für einen persönlichen 24/7-KI-Assistenten kombiniert und wann er im Vergleich zu Cloud-APIs finanziell sinnvoll ist.

Was der M5 Ultra zu bieten hat

Der M5 Ultra besteht aus zwei M5 Max Chips, die über Apples UltraFusion-Interconnect verbunden sind. Hier ist das, was für die LLM-Inference zählt:

Spezifikation	M3 Ultra	M5 Ultra (prognostiziert)	Warum das wichtig ist
Speicherbandbreite	819 GB/s	~1.100–1.400 GB/s	Die Token-Generierungsgeschwindigkeit ist Bandbreiten-limitiert
Unified Memory	Bis zu 512 GB	Bis zu 512 GB+	Bestimmt die maximale Modellgröße
GPU-Kerne	80	~80	Paralleles Computing für den Prefill
Neural Accelerator	Keiner	Pro GPU-Kern	3–4x schnellere Time-to-first-token Latenz
Fertigungsprozess	3nm	3nm (N3P)	Bessere Performance pro Watt
TDP	~200W	~190W	Läuft leise, 24/7-fähig

Die größte Verbesserung für KI-Workloads: Der M5 integriert einen Neural Accelerator in jeden GPU-Kern. Apples eigene MLX-Benchmarks zeigen eine 3,3–4,1x schnellere Time-to-first-token (TTFT) im Vergleich zum M4. Die Token-Generierung verbessert sich um ca. 25 %; sie bleibt zwar Bandbreiten-limitiert, aber die Bandbreitenobergrenze liegt höher.

Für Agent-Workloads, die häufige Kontextwechsel und lange System-Prompts beinhalten, ist dies am wichtigsten. Ein M3 Ultra benötigt ca. 2,3 Sekunden, um einen Kontext von 120K Token zu verarbeiten (geschätzt nach Prefill-Benchmarks); der M5 Ultra sollte dies in unter 0,7 Sekunden schaffen.

Was können 512 GB Unified Memory tatsächlich ausführen?

Dies ist die Tabelle, auf die es ankommt. Unified Memory bedeutet, dass sich GPU und CPU denselben RAM teilen – kein PCIe-Flaschenhals, keine VRAM-Limits.

Modell	Quantisierung	Benötigter Speicher	M3 Ultra 512 GB	M5 Ultra (prognostiziert)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Quellen: geerlingguy/ai-benchmarks, Apple MLX Research, HN Community Benchmarks

Zum Kontext: 20–30 tok/s sind angenehm für interaktive Chats. 15 tok/s sind nutzbar. Unter 5 tok/s fühlt es sich träge an, funktioniert aber für Batch-Aufgaben.

Die 512-GB-Konfiguration bedeutet, dass Sie DeepSeek R1 671B Q4 (~336 GB) ausführen können und immer noch ~176 GB für den KV-Cache und Kontext übrig haben. Das reicht für Unterhaltungen über mehrere Runden mit Kontexten von über 100K Token.

Warum nicht einfach NVIDIA verwenden?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Speicher	512 GB Unified	32 GB VRAM	128 GB VRAM
Bandbreite	~1.200 GB/s	1.792 GB/s	7.168 GB/s
DeepSeek R1 671B	✅ Läuft im Speicher	❌ Passt nicht	❌ Passt immer noch nicht
Llama 70B Speed	~18 tok/s	~80 tok/s	~240 tok/s
Stromverbrauch	~190W	~450W	~1.800W
Geräuschpegel	Lautlos	Laut	Rechenzentrum-Niveau
Preis	~$10.000	~$2.000	~$8.000 + Mainboard

NVIDIA gewinnt bei der reinen Geschwindigkeit, wenn das Modell in den VRAM passt. Aber in dem Moment, in dem ein Modell 32 GB überschreitet, bricht NVIDIA ein: Das Offloading in den System-RAM lässt den Durchsatz von über 100 tok/s auf ca. 3 tok/s fallen. Die Unified Memory Architektur des Macs kennt diesen Einbruch nicht. Ein 400-GB-Modell läuft mit der gleichen Bandbreite wie ein 40-GB-Modell.

Für Modelle unter 70B kaufen Sie eine GPU. Für Modelle über 200B ist der Mac Studio derzeit die einzige praktikable Consumer-Option.

Vorhang auf für LemonClaw: Hardware in einen KI-Assistenten verwandeln

Ein Modell lokal auszuführen, ist der erste Schritt. Es 24/7 nützlich zu machen, ist der zweite.

LemonClaw ist eine quelloffene, selbstgehostete KI-Agenten-Plattform. Sie verwandelt Ihren Mac in einen permanenten KI-Assistenten, mit dem Sie über Ihre bestehenden Messaging-Apps interagieren – Telegram, Slack, Discord, WhatsApp oder sogar iMessage.

Warum LemonClaw + Mac Studio?

Die meisten Menschen interagieren mit KI über einen Browser-Tab. LemonClaw bringt sie stattdessen in Ihre Messaging-App: Ihr Assistent läuft auf Ihrer Hardware, merkt sich Ihren Kontext über Gespräche hinweg und arbeitet, während Sie schlafen.

Was LemonClaw kann

Persistenter Speicher: Markdown-basierte Speicherdateien mit semantischer Suche. Ihr Assistent erinnert sich an das, was Sie letzte Woche besprochen haben.
Multi-Channel-Posteingang: Sprechen Sie mit ihm über Telegram, Slack, Discord, WhatsApp oder jede unterstützte Plattform. Gleicher Kontext, jedes Gerät.
Autonome Aufgaben: Planen Sie Cron-Jobs, richten Sie Webhooks ein, lassen Sie ihn über Nacht an Forschungs- oder Code-Aufgaben arbeiten.
Browser-Automatisierung: CDP-basierte Web-Browsing-Funktion für Recherche, Datenextraktion und das Ausfüllen von Formularen.
Skills-Ökosystem: Installieren Sie Community-Skills von ClawHub oder schreiben Sie Ihre eigenen.
MCP-Server-Unterstützung: Verbinden Sie sich mit externen Tools und APIs.

Der Vorteil lokaler Modelle

Wenn Sie LemonClaw auf einem Mac Studio mit lokalen Modellen über Ollama oder MLX ausführen:

Null API-Kosten. Keine Abrechnung pro Token. Lassen Sie DeepSeek R1 671B den ganzen Tag laufen, jeden Tag, zum Preis der Stromkosten (~3 $/Monat).
Vollständige Privatsphäre. Ihre Prompts, Dokumente und Codes verlassen niemals Ihre Maschine. Verarbeiten Sie sensible Verträge, proprietären Code oder Krankenakten ohne Datenverarbeitung durch Dritte.
Keine Rate Limits. Cloud-APIs drosseln Sie bei 1.000–10.000 Anfragen/Minute. Lokale Inference hat keine Grenzen außer Ihrer Hardware.
Keine Abhängigkeit von Ausfallzeiten. OpenAI ist down? Anthropic hat eine Störung? Ihr lokales Setup läuft weiter.
Latenz. Kein Netzwerk-Roundtrip. Der erste Token erscheint bei kleinen Modellen in Millisekunden.

Schnellstart: Mac Studio + Ollama + LemonClaw

# 1. Ollama installieren
brew install ollama

# 2. Modell laden (starten Sie mit etwas Schnellem)
ollama pull qwen3:30b

# 3. LemonClaw installieren
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. LemonClaw für die Nutzung von lokalem Ollama konfigurieren
# In ~/.lemonclaw/config.json folgendes einstellen:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw läuft als launchd-Dienst unter macOS. Er startet beim Booten und läuft rund um die Uhr im Hintergrund. Verbinden Sie Ihr Telegram oder Slack, und Sie haben einen permanenten KI-Assistenten, der immer verfügbar ist.

Für den M5 Ultra mit 512 GB können Sie größer denken:

# DeepSeek R1 671B laden (benötigt ~336 GB RAM)
ollama pull deepseek-r1:671b-q4

# Oder das exzellente Qwen3-VL 235B für multimodale Aufgaben
ollama pull qwen3-vl:235b-q4

Die Wirtschaftlichkeit: Wann schlägt lokal die Cloud?

Rechnen wir es durch.

Cloud-API-Kosten (Power-User)

Nutzungsmuster	Monatliche Kosten
LemonClaw mit Claude Sonnet 4.6 (intensiv)	200–400 $/Monat
Entwicklung + Coding-Assistent	50–100 $/Monat
Recherche + Dokumentenanalyse	50–100 $/Monat
Gesamt	300–600 $/Monat

Mac Studio M5 Ultra (einmalig + laufend)

Posten	Kosten
Mac Studio M5 Ultra 512 GB (prognostiziert)	~$10.000
Strom (~200W, 24/7)	~$3/Monat
Internet (bereits vorhanden)	0 $
Break-even vs. 400 $/Monat Cloud	~25 Monate

Nach 25 Monaten betreiben Sie Frontier-KI für 3 $/Monat. Und Sie haben immer noch eine 10.000-Dollar-Workstation für alles andere.

Der hybride Ansatz (empfohlen)

Sie müssen sich nicht für rein lokal oder rein Cloud entscheiden. Das intelligenteste Setup:

Lokale Modelle für Aufgaben mit hohem Volumen, Datenschutzrelevanz oder kritischer Latenz (Coding, Dokumentenanalyse, Brainstorming).
Cloud-APIs für Frontier-Fähigkeiten, die Sie lokal nicht ausführen können (GPT-5, Claude Opus 4.6 mit 200K Kontext bei voller Geschwindigkeit).

LemonClaw unterstützt dies nativ: Konfigurieren Sie mehrere Modell-Provider und wechseln Sie pro Gespräch oder pro Aufgabe zwischen lokalem Ollama und Cloud-APIs.

Und für den Cloud-API-Zugang bietet Ihnen LemonData über 300 Modelle über einen einzigen API-Key mit Pay-as-you-go-Preisen, ohne Abonnements und ohne Mindestumsatz. Nutzen Sie es als Cloud-Fallback, wenn lokale Modelle nicht ausreichen.

Konfigurations-Leitfaden: Drei Stufen

Stufe 1: Der Einsteiger (4.000–5.000 $)

Mac Studio M3/M5 Ultra 96 GB

Läuft: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Geschwindigkeit: 30–50 tok/s bei 30B-Modellen
Bestens geeignet für: Persönlicher Assistent, Hilfe beim Coding, leichte Recherche
LemonClaw-Konfiguration: qwen3:30b als Standard, Cloud-Fallback für komplexe Aufgaben

Stufe 2: Der Power-User (7.000–9.000 $)

Mac Studio M5 Ultra 256 GB

Läuft: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Geschwindigkeit: 15–30 tok/s bei 200B+ Modellen
Bestens geeignet für: Professionelle Entwicklung, multimodale Aufgaben, KI-Server für Teams
LemonClaw-Konfiguration: qwen3-vl:235b für Vision, deepseek-r1:70b für Reasoning

Stufe 3: Die KI-Workstation (10.000–14.000 $)

Mac Studio M5 Ultra 512 GB

Läuft: DeepSeek R1 671B (Q4), alles darunter
Geschwindigkeit: 25–35 tok/s bei 671B
Bestens geeignet für: Ausführung der größten Open-Source-Modelle, Multi-User-Server, Forschung
LemonClaw-Konfiguration: deepseek-r1:671b für tiefes Reasoning, kleinere Modelle für schnelle Aufgaben

Betrieb als 24/7 KI-Server

Der Mac Studio ist für den Dauerbetrieb ausgelegt. So richten Sie ihn als Headless-KI-Server ein:

Wenn Sie entscheiden, ob lokale Inference die Komplexität wert ist, kombinieren Sie diese Seite mit dem Leitfaden für selbstgehostetes LemonClaw und dem DeepSeek R1 Leitfaden. Der eine beantwortet die Frage nach der Laufzeitumgebung, der andere die nach der Modell-Eignung.

Strom & Kühlung

190W TDP bedeutet Standardsteckdose, keine spezielle Verkabelung nötig.
Lüfterlos im Leerlauf, flüsterleise unter Last.
Kein Thermal Throttling bei dauerhafter Arbeitslast (Apples thermisches Design bewältigt das).

Fernzugriff

SSH für Terminal-Zugriff.
Tailscale für sicheren Fernzugriff von überall.
Die Messaging-Integration von LemonClaw bedeutet, dass Sie keinen direkten Zugriff auf die Maschine benötigen. Schreiben Sie Ihrer KI einfach über Telegram.

Zuverlässigkeit

macOS launchd startet LemonClaw automatisch neu, falls es abstürzt.
Ollama läuft als Hintergrunddienst.
USV empfohlen für Stromausfälle (der Mac Studio bootet und setzt Dienste automatisch fort).

# SSH aktivieren
sudo systemsetup -setremotelogin on

# Tailscale für Fernzugriff installieren
brew install tailscale
sudo tailscale up

# LemonClaw läuft nach dem Onboarding bereits als launchd-Dienst
# Status prüfen:
launchctl list | grep lemonclaw

Ausblick: Die M5 Ultra Roadmap

Der M5 Ultra Mac Studio wird in der zweiten Jahreshälfte 2026 erwartet. Hier ist der Zeitplan:

4. März 2026: Apple „Experience“-Event, M5 Pro/Max MacBook Pro erwartet
H2 2026: Mac Studio mit M5 Ultra
Wichtige Verbesserungen gegenüber M3 Ultra: GPU Neural Accelerators (3–4x TTFT), höhere Speicherbandbreite (~1,1–1,4 TB/s), gleicher oder höherer Maximalspeicher

Warten oder jetzt kaufen?

Kaufen Sie den M3 Ultra 512 GB jetzt, wenn:

Sie heute lokale KI-Inference benötigen.
Sie 300 $+/Monat für Cloud-APIs ausgeben.
Die 17–20 tok/s bei DeepSeek R1 671B für Ihren Anwendungsfall schnell genug sind.

Warten Sie auf den M5 Ultra, wenn:

Sie Cloud-APIs noch 6–9 Monate tolerieren können.
Sie die 3–4x TTFT-Verbesserung wollen (kritisch für Agent-Workloads).
Sie tatsächliche Benchmarks sehen wollen, bevor Sie 10.000 $+ investieren.

In jedem Fall können Sie heute mit LemonClaw beginnen, indem Sie Cloud-APIs über LemonData nutzen. 1 $ Gratis-Guthaben bei der Anmeldung, über 300 Modelle, zahlen Sie nur für das, was Sie verbrauchen. Wenn Ihr Mac Studio eintrifft, richten Sie LemonClaw einfach auf Ihre lokale Ollama-Instanz aus, und Ihre Kosten sinken auf nahezu Null.

TL;DR

	Cloud-APIs	Mac Studio M5 Ultra + LemonClaw
Max. Modellgröße	Unbegrenzt (Provider übernimmt das)	671B Q4 (512 GB Konfig)
Monatliche Kosten	300–600 $ (intensive Nutzung)	~$3 Strom
Privatsphäre	Daten werden an Dritte gesendet	Alles bleibt lokal
Latenz	200–500ms Netzwerk + Inference	Nur Inference
Rate Limits	Ja	Nein
Anschaffungskosten	0 $	~$10.000
Break-even	—	~25 Monate

Der Mac Studio M5 Ultra ist persönliche KI-Infrastruktur. Kombinieren Sie ihn mit LemonClaw, und Sie haben einen 24/7 KI-Assistenten, der Modelle der Frontier-Klasse ausführt, Ihre Privatsphäre respektiert und 3 $/Monat im Betrieb kostet.

Die Ära von „lokale KI ist ein Spielzeug“ ist vorbei. 512 GB Unified Memory bei 1,2+ TB/s Bandbreite bedeuten, dass Sie Modelle ausführen können, die mit Cloud-Angeboten konkurrieren. Die einzige Frage ist, ob Sie bereit sind, Ihren eigenen KI-Stack zu besitzen.

Bereit, Ihre KI-Infrastruktur aufzubauen? Testen Sie LemonClaw mit LemonData: über 300 Cloud-Modelle mit 1 $ Gratis-Guthaben. Wenn Ihr Mac Studio eintrifft, wechseln Sie ohne Code-Änderungen zu lokalen Modellen.

Mac Studio M5 Ultra: 671B Models lokal ausführen und eigene AI Infrastructure mit LemonClaw aufbauen