Mac Studio M5 Ultra : exécutez des modèles 671B localement et créez votre propre infrastructure AI avec OpenClaw

Le premier matériel grand public capable d'accueillir les 671B de paramètres du modèle DeepSeek R1 en mémoire, et ce que vous pouvez réellement en faire.

Le Mac Studio M5 Ultra avec 512 GB de unified memory est la première machine de classe grand public capable d'exécuter DeepSeek R1 671B (le plus grand modèle open-source) entièrement en RAM. Pas de déchargement, pas de configurations multi-GPU, pas de refroidissement liquide. Juste un boîtier posé sur votre bureau qui consomme moins d'énergie qu'un sèche-cheveux.

Cela change la donne pour l'IA locale. Lorsqu'on peut exécuter des modèles de pointe chez soi, la question ne porte plus sur le « puis-je le faire ? » mais sur le « devrais-je le faire ? ». Pour un nombre croissant de développeurs, la réponse est oui.

Ci-dessous : ce que le M5 Ultra offre pour l'inference de LLM, comment le coupler avec OpenClaw pour obtenir un assistant IA personnel disponible 24h/24 et 7j/7, et quand cela devient financièrement pertinent par rapport aux API cloud.

Ce que le M5 Ultra apporte

Le M5 Ultra est composé de deux puces M5 Max fusionnées via l'interconnexion UltraFusion d'Apple. Voici ce qui compte pour l'inference de LLM :

Spécification	M3 Ultra	M5 Ultra (prévisions)	Pourquoi c'est important
Memory bandwidth	819 GB/s	~1 100–1 400 GB/s	La vitesse de génération de token est limitée par la bande passante
Unified memory	Jusqu'à 512 GB	Jusqu'à 512 GB+	Détermine la taille maximale du modèle
Cœurs GPU	80	~80	Calcul parallèle pour le prefill
Neural Accelerator	Aucun	Par cœur GPU	Latence du premier token 3 à 4 fois plus rapide
Nœud de gravure	3nm	3nm (N3P)	Meilleure performance/watt
TDP	~200W	~190W	Silencieux, capable de fonctionner 24h/24 et 7j/7

L'amélioration majeure pour les charges de travail IA : le M5 intègre un Neural Accelerator dans chaque cœur GPU. Les propres benchmarks MLX d'Apple montrent un time-to-first-token (TTFT) 3,3 à 4,1 fois plus rapide par rapport au M4. La génération de token s'améliore d'environ 25 %, restant limitée par la bande passante, mais le plafond de celle-ci est plus élevé.

Pour les charges de travail d'agents impliquant des changements de contexte fréquents et de longs prompts système, c'est crucial. Un M3 Ultra met environ 2,3 secondes pour traiter un contexte de 120K tokens (estimé d'après les benchmarks de prefill) ; le M5 Ultra devrait le faire en moins de 0,7 seconde.

Que peut-on réellement faire tourner avec 512 GB de Unified Memory ?

C'est le tableau qui compte. La unified memory signifie que le GPU et le CPU partagent la même RAM, sans goulot d'étranglement PCIe ni limites de VRAM.

Modèle	Quantization	Mémoire requise	M3 Ultra 512 GB	M5 Ultra (prévisions)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Sources : geerlingguy/ai-benchmarks, Apple MLX Research, benchmarks de la communauté HN

Pour situer : 20–30 tok/s est confortable pour un chat interactif. 15 tok/s est utilisable. En dessous de 5 tok/s, cela semble lent mais fonctionne pour les tâches par lots.

La configuration 512 GB signifie que vous pouvez exécuter DeepSeek R1 671B Q4 (~336 GB) et qu'il vous reste encore environ 176 GB pour le cache KV et le contexte. C'est suffisant pour des conversations à plusieurs tours avec des contextes de plus de 100K tokens.

Pourquoi ne pas simplement utiliser NVIDIA ?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Mémoire	512 GB unifiée	32 GB VRAM	128 GB VRAM
Bande passante	~1 200 GB/s	1 792 GB/s	7 168 GB/s
DeepSeek R1 671B	✅ Tient en mémoire	❌ Ne tient pas	❌ Ne tient toujours pas
Vitesse Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Consommation	~190W	~450W	~1 800W
Bruit	Silencieux	Bruyant	Data center
Prix	~$10 000	~$2 000	~$8 000 + carte mère

NVIDIA l'emporte sur la vitesse brute lorsque le modèle tient dans la VRAM. Mais dès qu'un modèle dépasse 32 GB, NVIDIA s'effondre : le déchargement vers la RAM système fait chuter le débit de plus de 100 tok/s à environ 3 tok/s. L'architecture de unified memory du Mac évite cette chute. Un modèle de 400 GB fonctionne avec la même bande passante qu'un modèle de 40 GB.

Pour les modèles de moins de 70B, achetez un GPU. Pour les modèles de plus de 200B, le Mac Studio est actuellement la seule option grand public pratique.

Voici OpenClaw : transformer le matériel en assistant IA

Exécuter un modèle localement est la première étape. Le rendre utile 24h/24 et 7j/7 est la deuxième.

OpenClaw est une plateforme d'agents IA open-source et auto-hébergée. Elle transforme votre Mac en un assistant IA persistant avec lequel vous interagissez via vos applications de messagerie existantes — Telegram, Slack, Discord, WhatsApp, et même iMessage.

Pourquoi OpenClaw + Mac Studio ?

La plupart des gens interagissent avec l'IA via un onglet de navigateur. OpenClaw l'intègre plutôt dans votre application de messagerie : votre assistant tourne sur votre matériel, se souvient de votre contexte au fil des conversations et travaille pendant que vous dormez.

Ce que fait OpenClaw

Mémoire persistante : fichiers de mémoire basés sur Markdown avec recherche sémantique. Votre assistant se souvient de ce dont vous avez discuté la semaine dernière.
Boîte de réception multi-canaux : parlez-lui via Telegram, Slack, Discord, WhatsApp ou toute plateforme supportée. Même contexte, n'importe quel appareil.
Tâches autonomes : planifiez des tâches cron, configurez des webhooks, laissez-le travailler toute la nuit sur des recherches ou des tâches de code.
Automatisation du navigateur : navigation web basée sur CDP pour la recherche, l'extraction de données, le remplissage de formulaires.
Écosystème de compétences : installez des compétences communautaires depuis ClawHub, ou écrivez les vôtres.
Support de serveur MCP : connectez-vous à des outils et API externes.

L'avantage du modèle local

Lorsque vous exécutez OpenClaw sur un Mac Studio avec des modèles locaux via Ollama ou MLX :

Zéro coût d'API. Pas de facturation au token. Faites tourner DeepSeek R1 671B toute la journée, tous les jours, pour le prix de l'électricité (~3 $/mois).
Confidentialité totale. Vos prompts, documents et codes ne quittent jamais votre machine. Traitez des contrats sensibles, du code propriétaire, des dossiers médicaux, sans traitement de données par des tiers.
Pas de limites de débit (rate limits). Les API cloud vous brident à 1 000–10 000 requêtes/minute. L'inference locale n'a d'autres limites que celles de votre matériel.
Pas de dépendance aux pannes. OpenAI est hors service ? Anthropic subit une panne ? Votre installation locale continue de fonctionner.
Latence. Pas d'aller-retour réseau. Le premier token apparaît en quelques millisecondes pour les petits modèles.

Configuration rapide : Mac Studio + Ollama + OpenClaw

# 1. Installer Ollama
brew install ollama

# 2. Récupérer un modèle (commencez par quelque chose de rapide)
ollama pull qwen3:30b

# 3. Installer OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. Configurer OpenClaw pour utiliser Ollama localement
# Dans ~/.openclaw/openclaw.json, réglez :
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw s'exécute comme un service launchd sur macOS. Il démarre au boot et tourne 24h/24 en arrière-plan. Connectez votre Telegram ou Slack, et vous disposez d'un assistant IA persistant toujours disponible.

Pour le M5 Ultra avec 512 GB, vous pouvez voir plus grand :

# Récupérer DeepSeek R1 671B (nécessite ~336 GB de RAM)
ollama pull deepseek-r1:671b-q4

# Ou l'excellent Qwen3-VL 235B pour les tâches multimodales
ollama pull qwen3-vl:235b-q4

L'aspect économique : quand le local l'emporte-t-il sur le cloud ?

Faisons le calcul.

Coûts des API Cloud (utilisateur intensif)

Modèle d'utilisation	Coût mensuel
OpenClaw avec Claude Sonnet 4.6 (intensif)	200–400 $/mois
Développement + assistant de code	50–100 $/mois
Recherche + analyse de documents	50–100 $/mois
Total	300–600 $/mois

Mac Studio M5 Ultra (achat unique + fonctionnement)

Élément	Coût
Mac Studio M5 Ultra 512 GB (prévision)	~$10 000
Électricité (~200W, 24h/24)	~$3/mois
Internet (déjà inclus)	0 $
Seuil de rentabilité vs cloud à 400 $/mois	~25 mois

Après 25 mois, vous faites tourner une IA de pointe pour 3 $/mois. Et vous disposez toujours d'une station de travail à 10 000 $ pour tout le reste.

L'approche hybride (recommandée)

Vous n'êtes pas obligé de choisir entre le tout-local ou le tout-cloud. La configuration la plus intelligente :

Modèles locaux pour les tâches à gros volume, sensibles à la confidentialité ou critiques en termes de latence (codage, analyse de documents, brainstorming).
API cloud pour les capacités de pointe que vous ne pouvez pas exécuter localement (GPT-5, Claude Opus 4.6 avec un contexte de 200K à pleine vitesse).

OpenClaw supporte cela nativement : configurez plusieurs fournisseurs de modèles et basculez entre Ollama local et les API cloud par conversation ou par tâche.

Et pour l'accès aux API cloud, LemonData vous donne accès à plus de 300 modèles via une seule clé API avec une tarification pay-as-you-go, sans abonnement ni minimum. Utilisez-le comme solution de secours cloud lorsque les modèles locaux ne suffisent pas.

Guide de configuration : trois niveaux

Niveau 1 : Le Débutant (4 000–5 000 $)

Mac Studio M3/M5 Ultra 96 GB

Exécute : Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Vitesse : 30–50 tok/s sur les modèles 30B
Idéal pour : Assistant personnel, aide au code, recherche légère
Config OpenClaw : qwen3:30b par défaut, fallback cloud pour les tâches complexes

Niveau 2 : L'Utilisateur Avancé (7 000–9 000 $)

Mac Studio M5 Ultra 256 GB

Exécute : Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Vitesse : 15–30 tok/s sur les modèles 200B+
Idéal pour : Développement professionnel, tâches multimodales, serveur IA d'équipe
Config OpenClaw : qwen3-vl:235b pour la vision, deepseek-r1:70b pour le raisonnement

Niveau 3 : La Station de Travail IA (10 000–14 000 $)

Mac Studio M5 Ultra 512 GB

Exécute : DeepSeek R1 671B (Q4), et tout ce qui précède
Vitesse : 25–35 tok/s sur 671B
Idéal pour : Exécuter les plus grands modèles open-source, serveur multi-utilisateurs, recherche
Config OpenClaw : deepseek-r1:671b pour le raisonnement profond, modèles plus petits pour les tâches rapides

L'utiliser comme serveur IA 24h/24 et 7j/7

Le Mac Studio est conçu pour un fonctionnement permanent. Voici comment le configurer comme serveur IA headless :

Alimentation et thermique

Le TDP de 190W signifie une prise standard, pas de câblage spécial
Sans ventilateur au repos, silencieux comme un murmure sous charge
Pas de bridage thermique (thermal throttling) lors de charges de travail soutenues (la conception thermique d'Apple gère cela)

Accès à distance

SSH pour l'accès au terminal
Tailscale pour un accès distant sécurisé de n'importe où
L'intégration de messagerie d'OpenClaw signifie que vous n'avez pas besoin d'un accès direct à la machine. Envoyez simplement un message à votre IA via Telegram.

Fiabilité

Le launchd de macOS redémarre automatiquement OpenClaw s'il plante
Ollama fonctionne comme un service en arrière-plan
Onduleur (UPS) recommandé pour les coupures de courant (le Mac Studio redémarre et reprend les services automatiquement)

# Activer SSH
sudo systemsetup -setremotelogin on

# Installer Tailscale pour l'accès à distance
brew install tailscale
sudo tailscale up

# OpenClaw fonctionne déjà comme service launchd après l'onboarding
# Vérifier le statut :
launchctl list | grep openclaw

À venir : la feuille de route du M5 Ultra

Le Mac Studio M5 Ultra est attendu pour la seconde moitié de 2026. Voici le calendrier :

4 mars 2026 : Événement Apple "Experience", MacBook Pro M5 Pro/Max attendus
S2 2026 : Mac Studio avec M5 Ultra
Améliorations clés par rapport au M3 Ultra : Accélérateurs Neural GPU (TTFT 3 à 4 fois plus rapide), bande passante mémoire plus élevée (~1,1–1,4 TB/s), mémoire maximale identique ou supérieure

Faut-il attendre ou acheter maintenant ?

Achetez le M3 Ultra 512 GB maintenant si :

Vous avez besoin d'inference IA locale aujourd'hui
Vous dépensez plus de 300 $/mois en API cloud
Les 17–20 tok/s sur DeepSeek R1 671B sont suffisants pour votre usage

Attendez le M5 Ultra si :

Vous pouvez tolérer les API cloud pendant 6 à 9 mois de plus
Vous voulez l'amélioration de 3 à 4 fois du TTFT (critique pour les charges de travail d'agents)
Vous voulez voir les benchmarks réels avant d'investir plus de 10 000 $

Dans tous les cas, vous pouvez commencer avec OpenClaw dès aujourd'hui en utilisant les API cloud via LemonData. 1 $ de crédit gratuit à l'inscription, plus de 300 modèles, payez uniquement ce que vous utilisez. Quand votre Mac Studio arrivera, pointez simplement OpenClaw vers votre instance Ollama locale et vos coûts chuteront presque à zéro.

En résumé (TL;DR)

	API Cloud	Mac Studio M5 Ultra + OpenClaw
Taille max du modèle	Illimitée (gérée par le fournisseur)	671B Q4 (config 512 GB)
Coût mensuel	300–600 $ (usage intensif)	~3 $ d'électricité
Confidentialité	Données envoyées à des tiers	Tout reste local
Latence	200–500ms réseau + inference	Inference uniquement
Limites de débit	Oui	Non
Coût initial	0 $	~$10 000
Rentabilité	—	~25 mois

Le Mac Studio M5 Ultra est une infrastructure IA personnelle. Couplez-le avec OpenClaw, et vous obtenez un assistant IA 24h/24 et 7j/7 qui exécute des modèles de pointe, respecte votre vie privée et coûte 3 $/mois à l'usage.

L'ère où « l'IA locale est un jouet » est révolue. 512 GB de unified memory à plus de 1,2 TB/s de bande passante signifie que vous pouvez faire tourner des modèles qui rivalisent avec les offres cloud. La seule question est de savoir si vous êtes prêt à posséder votre propre stack IA.

Prêt à commencer à construire votre infrastructure IA ? Essayez OpenClaw avec LemonData : plus de 300 modèles cloud avec 1 $ de crédit gratuit. Quand votre Mac Studio arrivera, passez aux modèles locaux sans aucun changement de code.

Mac Studio M5 Ultra : Exécutez des modèles 671B localement et construisez votre propre infrastructure d'IA avec OpenClaw