Mac Studio M5 Ultra : Exécutez des modèles 671B localement et créez votre propre infrastructure AI avec LemonClaw

Le premier matériel grand public capable d'accueillir les 671B de paramètres complets de DeepSeek R1 en mémoire, et ce que vous pouvez réellement en faire.

Le Mac Studio M5 Ultra avec 512 Go de mémoire unifiée est la première machine de classe grand public capable d'exécuter DeepSeek R1 671B (le plus grand modèle open-source) entièrement en RAM. Pas de déchargement (offloading), pas de configurations multi-GPU, pas de refroidissement liquide. Juste un boîtier posé sur votre bureau qui consomme moins d'énergie qu'un sèche-cheveux.

Cela change la donne pour l'AI locale. Quand on peut exécuter des modèles de pointe chez soi, la question ne porte plus sur le « puis-je ? » mais sur le « devrais-je ? ». Pour un nombre croissant de développeurs, la réponse est oui.

Ci-dessous : ce que l'M5 Ultra offre pour l'inférence LLM, comment le coupler avec LemonClaw pour obtenir un assistant AI personnel disponible 24h/24 et 7j/7, et quand cela devient financièrement pertinent par rapport aux API cloud.

Ce que l'M5 Ultra apporte de nouveau

L'M5 Ultra est composé de deux puces M5 Max fusionnées via l'interconnexion UltraFusion d'Apple. Voici ce qui compte pour l'inférence LLM :

Caractéristique	M3 Ultra	M5 Ultra (prévisions)	Pourquoi c'est important
Bande passante mémoire	819 GB/s	~1 100–1 400 GB/s	La vitesse de génération de tokens est limitée par la bande passante
Mémoire unifiée	Jusqu'à 512 Go	Jusqu'à 512 Go+	Détermine la taille maximale du modèle
Cœurs GPU	80	~80	Calcul parallèle pour le prefill
Neural Accelerator	Aucun	Par cœur GPU	Latence du premier token (TTFT) 3 à 4 fois plus rapide
Finesse de gravure	3nm	3nm (N3P)	Meilleure performance/watt
TDP	~200W	~190W	Silencieux, capable de fonctionner 24h/24 et 7j/7

L'amélioration la plus importante pour les charges de travail AI : l'M5 intègre un Neural Accelerator dans chaque cœur GPU. Les propres benchmarks MLX d'Apple montrent un temps de réponse pour le premier token (TTFT) 3,3 à 4,1 fois plus rapide par rapport à l'M4. La génération de tokens s'améliore d'environ 25 %, restant limitée par la bande passante, mais le plafond de cette dernière est plus élevé.

Pour les charges de travail des agents qui impliquent des changements de contexte fréquents et de longs system prompts, c'est crucial. Un M3 Ultra prend environ 2,3 secondes pour traiter un contexte de 120 000 tokens (estimé à partir des benchmarks de prefill) ; l'M5 Ultra devrait le faire en moins de 0,7 seconde.

Que peut-on réellement faire tourner avec 512 Go de mémoire unifiée ?

C'est le tableau qui compte vraiment. La mémoire unifiée signifie que le GPU et le CPU partagent la même RAM, sans goulot d'étranglement PCIe ni limites de VRAM.

Modèle	Quantification	Mémoire requise	M3 Ultra 512 Go	M5 Ultra (prévisions)
DeepSeek R1 671B (MoE)	Q4	~336 Go	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 Go	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 Go	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 Go	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 Go	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 Go	95 tok/s	~130+ tok/s

Sources : geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks de la communauté HN

Pour situer : 20–30 tok/s est confortable pour un chat interactif. 15 tok/s est utilisable. En dessous de 5 tok/s, cela semble lent mais fonctionne pour les tâches par lots (batch).

La configuration 512 Go signifie que vous pouvez exécuter DeepSeek R1 671B Q4 (~336 Go) tout en conservant environ 176 Go pour le KV cache et le contexte. C'est suffisant pour des conversations à plusieurs tours avec des contextes de plus de 100 000 tokens.

Pourquoi ne pas simplement utiliser NVIDIA ?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Mémoire	512 Go unifiée	32 Go VRAM	128 Go VRAM
Bande passante	~1 200 GB/s	1 792 GB/s	7 168 GB/s
DeepSeek R1 671B	✅ Tient en mémoire	❌ Ne tient pas	❌ Ne tient toujours pas
Vitesse Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Consommation	~190W	~450W	~1 800W
Bruit	Silencieux	Bruyant	Data center
Prix	~$10 000	~$2 000	~$8 000 + carte mère

NVIDIA l'emporte sur la vitesse brute lorsque le modèle tient dans la VRAM. Mais dès qu'un modèle dépasse 32 Go, NVIDIA s'effondre : le déchargement (offloading) vers la RAM système fait chuter le débit de plus de 100 tok/s à environ 3 tok/s. L'architecture de mémoire unifiée du Mac signifie qu'il n'y a pas de chute brutale. Un modèle de 400 Go fonctionne avec la même bande passante qu'un modèle de 40 Go.

Pour les modèles de moins de 70B, achetez un GPU. Pour les modèles de plus de 200B, le Mac Studio est actuellement la seule option grand public pratique.

Place à LemonClaw : Transformer le matériel en assistant AI

Exécuter un modèle localement est la première étape. Le rendre utile 24h/24 et 7j/7 est la deuxième.

LemonClaw est une plateforme d'agents AI open-source et auto-hébergée. Elle transforme votre Mac en un assistant AI persistant avec lequel vous interagissez via vos applications de messagerie habituelles — Telegram, Slack, Discord, WhatsApp, et même iMessage.

Pourquoi LemonClaw + Mac Studio ?

La plupart des gens interagissent avec l'AI via un onglet de navigateur. LemonClaw l'intègre plutôt dans votre application de messagerie : votre assistant fonctionne sur votre matériel, se souvient de votre contexte à travers les conversations et travaille pendant que vous dormez.

Ce que fait LemonClaw

Mémoire persistante : Fichiers de mémoire au format Markdown avec recherche sémantique. Votre assistant se souvient de ce dont vous avez discuté la semaine dernière.
Boîte de réception multi-canaux : Parlez-lui via Telegram, Slack, Discord, WhatsApp ou toute plateforme supportée. Même contexte, n'importe quel appareil.
Tâches autonomes : Planifiez des tâches cron, configurez des webhooks, laissez-le travailler toute la nuit sur des recherches ou des tâches de code.
Automatisation du navigateur : Navigation web basée sur CDP pour la recherche, l'extraction de données, le remplissage de formulaires.
Écosystème de compétences : Installez des compétences communautaires depuis ClawHub, ou écrivez les vôtres.
Support serveur MCP : Connectez-vous à des outils et API externes.

L'avantage du modèle local

Lorsque vous exécutez LemonClaw sur un Mac Studio avec des modèles locaux via Ollama ou MLX :

Zéro coût d'API. Pas de facturation au token. Faites tourner DeepSeek R1 671B toute la journée, tous les jours, pour le prix de l'électricité (~3 $/mois).
Confidentialité totale. Vos prompts, documents et code ne quittent jamais votre machine. Traitez des contrats sensibles, du code propriétaire, des dossiers médicaux, sans aucun traitement de données par des tiers.
Pas de limites de débit (rate limits). Les API cloud vous brident à 1 000–10 000 requêtes/minute. L'inférence locale n'a pas d'autres limites que celles de votre matériel.
Pas de dépendance aux pannes. OpenAI est en panne ? Anthropic subit une interruption ? Votre installation locale continue de fonctionner.
Latence. Pas d'aller-retour réseau. Le premier token apparaît en quelques millisecondes pour les petits modèles.

Configuration rapide : Mac Studio + Ollama + LemonClaw

# 1. Installer Ollama
brew install ollama

# 2. Récupérer un modèle (commencez par quelque chose de rapide)
ollama pull qwen3:30b

# 3. Installer LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Configurer LemonClaw pour utiliser Ollama localement
# Dans ~/.lemonclaw/config.json, réglez :
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw fonctionne comme un service launchd sur macOS. Il démarre au lancement et tourne 24h/24 et 7j/7 en arrière-plan. Connectez votre Telegram ou Slack, et vous disposez d'un assistant AI persistant toujours disponible.

Pour l'M5 Ultra avec 512 Go, vous pouvez voir plus grand :

# Récupérer DeepSeek R1 671B (nécessite ~336 Go de RAM)
ollama pull deepseek-r1:671b-q4

# Ou l'excellent Qwen3-VL 235B pour les tâches multimodales
ollama pull qwen3-vl:235b-q4

L'aspect économique : quand le local bat-il le cloud ?

Faisons le calcul.

Coûts des API cloud (utilisateur intensif)

Profil d'utilisation	Coût mensuel
LemonClaw avec Claude Sonnet 4.6 (intensif)	200–400 $/mois
Développement + assistant de code	50–100 $/mois
Recherche + analyse de documents	50–100 $/mois
Total	300–600 $/mois

Mac Studio M5 Ultra (coût unique + fonctionnement)

Article	Coût
Mac Studio M5 Ultra 512 Go (prévisions)	~$10 000
Électricité (~200W, 24/7)	~3 $/mois
Internet (déjà inclus)	0 $
Seuil de rentabilité vs 400 $/mois cloud	~25 mois

Après 25 mois, vous faites tourner une AI de pointe pour 3 $/mois. Et vous possédez toujours une station de travail de 10 000 $ pour tout le reste.

L'approche hybride (recommandée)

Vous n'êtes pas obligé de choisir entre le tout-local ou le tout-cloud. La configuration la plus intelligente :

Modèles locaux pour les tâches à haut volume, sensibles à la confidentialité ou critiques en termes de latence (code, analyse de documents, brainstorming).
API cloud pour les capacités de pointe que vous ne pouvez pas exécuter localement (GPT-5, Claude Opus 4.6 avec 200 000 tokens de contexte à pleine vitesse).

LemonClaw supporte cela nativement : configurez plusieurs fournisseurs de modèles et passez d'Ollama local aux API cloud par conversation ou par tâche.

Et pour l'accès aux API cloud, LemonData vous offre plus de 300 modèles via une clé API unique avec un paiement à l'usage, sans abonnement ni minimum. Utilisez-le comme solution de secours cloud lorsque les modèles locaux ne suffisent pas.

Guide de configuration : trois niveaux

Niveau 1 : Le débutant (4 000–5 000 $)

Mac Studio M3/M5 Ultra 96 Go

Exécute : Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Vitesse : 30–50 tok/s sur les modèles 30B
Idéal pour : Assistant personnel, aide au code, recherche légère
Config LemonClaw : qwen3:30b par défaut, secours cloud pour les tâches complexes

Niveau 2 : L'utilisateur avancé (7 000–9 000 $)

Mac Studio M5 Ultra 256 Go

Exécute : Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Vitesse : 15–30 tok/s sur les modèles 200B+
Idéal pour : Développement professionnel, tâches multimodales, serveur AI d'équipe
Config LemonClaw : qwen3-vl:235b pour la vision, deepseek-r1:70b pour le raisonnement

Niveau 3 : La station de travail AI (10 000–14 000 $)

Mac Studio M5 Ultra 512 Go

Exécute : DeepSeek R1 671B (Q4), et tout ce qui précède
Vitesse : 25–35 tok/s sur 671B
Idéal pour : Exécuter les plus grands modèles open-source, serveur multi-utilisateurs, recherche
Config LemonClaw : deepseek-r1:671b pour le raisonnement profond, modèles plus petits pour les tâches rapides

L'utiliser comme serveur AI 24h/24 et 7j/7

Le Mac Studio est conçu pour un fonctionnement permanent. Voici comment le configurer comme serveur AI headless :

Si vous hésitez sur la pertinence de l'inférence locale, consultez également le guide LemonClaw auto-hébergé et le guide DeepSeek R1. L'un répond à la question de l'exécution, l'autre à celle de l'adéquation du modèle.

Alimentation et thermique

TDP de 190W signifie une prise standard, pas de câblage spécial
Sans ventilateur au repos, extrêmement silencieux en charge
Pas de bridage thermique (thermal throttling) lors de charges de travail prolongées (la conception thermique d'Apple gère cela)

Accès à distance

SSH pour l'accès au terminal
Tailscale pour un accès à distance sécurisé de n'importe où
L'intégration de messagerie de LemonClaw signifie que vous n'avez pas besoin d'un accès direct à la machine. Envoyez simplement un message à votre AI via Telegram.

Fiabilité

Le service launchd de macOS redémarre automatiquement LemonClaw s'il plante
Ollama fonctionne comme un service d'arrière-plan
Onduleur (UPS) recommandé pour les coupures de courant (le Mac Studio démarre et reprend les services automatiquement)

# Activer SSH
sudo systemsetup -setremotelogin on

# Installer Tailscale pour l'accès à distance
brew install tailscale
sudo tailscale up

# LemonClaw fonctionne déjà comme service launchd après l'onboarding
# Vérifier le statut :
launchctl list | grep lemonclaw

À venir : la feuille de route de l'M5 Ultra

Le Mac Studio M5 Ultra est attendu pour la seconde moitié de 2026. Voici le calendrier :

4 mars 2026 : Événement Apple « Experience », MacBook Pro M5 Pro/Max attendus
H2 2026 : Mac Studio avec M5 Ultra
Améliorations clés par rapport à l'M3 Ultra : Accélérateurs Neural GPU (TTFT 3 à 4 fois plus rapide), bande passante mémoire plus élevée (~1,1–1,4 TB/s), mémoire maximale identique ou supérieure

Devriez-vous attendre ou acheter maintenant ?

Achetez l'M3 Ultra 512 Go maintenant si :

Vous avez besoin d'inférence AI locale dès aujourd'hui
Vous dépensez plus de 300 $/mois en API cloud
Les 17–20 tok/s sur DeepSeek R1 671B sont suffisants pour votre usage

Attendez l'M5 Ultra si :

Vous pouvez tolérer les API cloud pendant 6 à 9 mois de plus
Vous voulez l'amélioration TTFT de 3 à 4 fois (critique pour les charges de travail des agents)
Vous voulez voir les benchmarks réels avant d'investir plus de 10 000 $

Dans tous les cas, vous pouvez commencer avec LemonClaw dès aujourd'hui en utilisant les API cloud via LemonData. 1 $ de crédit gratuit à l'inscription, plus de 300 modèles, payez uniquement ce que vous utilisez. Lorsque votre Mac Studio arrivera, il vous suffira de pointer LemonClaw vers votre instance Ollama locale et vos coûts chuteront à presque zéro.

TL;DR

	API Cloud	Mac Studio M5 Ultra + LemonClaw
Taille max du modèle	Illimitée (gérée par le fournisseur)	671B Q4 (config 512 Go)
Coût mensuel	300–600 $ (usage intensif)	~3 $ d'électricité
Confidentialité	Données envoyées à des tiers	Tout reste local
Latence	200–500ms réseau + inférence	Inférence uniquement
Limites de débit	Oui	Non
Coût initial	0 $	~$10 000
Seuil de rentabilité	—	~25 mois

Le Mac Studio M5 Ultra est une infrastructure AI personnelle. Couplé à LemonClaw, vous disposez d'un assistant AI 24h/24 et 7j/7 qui exécute des modèles de pointe, respecte votre confidentialité et coûte 3 $/mois à l'usage.

L'ère de « l'AI locale est un jouet » est révolue. 512 Go de mémoire unifiée avec une bande passante de plus de 1,2 TB/s permettent de faire tourner des modèles qui rivalisent avec les offres cloud. La seule question est de savoir si vous êtes prêt à posséder votre propre pile AI (AI stack).

Prêt à construire votre infrastructure AI ? Essayez LemonClaw avec LemonData : plus de 300 modèles cloud avec 1 $ de crédit gratuit. Lorsque votre Mac Studio arrivera, passez aux modèles locaux sans aucun changement de code.

Mac Studio M5 Ultra : Exécutez des modèles 671B localement et construisez votre propre AI Infrastructure avec LemonClaw