Paramètres

Langue

Mac Studio M5 Ultra : Exécutez des modèles 671B localement et construisez votre propre AI Infrastructure avec LemonClaw

L
LemonData
·8 avril 2026·142 vues
Mac Studio M5 Ultra : Exécutez des modèles 671B localement et construisez votre propre AI Infrastructure avec LemonClaw

Le premier matériel grand public capable d'accueillir les 671B de paramètres complets de DeepSeek R1 en mémoire, et ce que vous pouvez réellement en faire.


Le Mac Studio M5 Ultra avec 512 Go de mémoire unifiée est la première machine de classe grand public capable d'exécuter DeepSeek R1 671B (le plus grand modèle open-source) entièrement en RAM. Pas de déchargement (offloading), pas de configurations multi-GPU, pas de refroidissement liquide. Juste un boîtier posé sur votre bureau qui consomme moins d'énergie qu'un sèche-cheveux.

Cela change la donne pour l'AI locale. Quand on peut exécuter des modèles de pointe chez soi, la question ne porte plus sur le « puis-je ? » mais sur le « devrais-je ? ». Pour un nombre croissant de développeurs, la réponse est oui.

Ci-dessous : ce que l'M5 Ultra offre pour l'inférence LLM, comment le coupler avec LemonClaw pour obtenir un assistant AI personnel disponible 24h/24 et 7j/7, et quand cela devient financièrement pertinent par rapport aux API cloud.


Ce que l'M5 Ultra apporte de nouveau

L'M5 Ultra est composé de deux puces M5 Max fusionnées via l'interconnexion UltraFusion d'Apple. Voici ce qui compte pour l'inférence LLM :

Caractéristique M3 Ultra M5 Ultra (prévisions) Pourquoi c'est important
Bande passante mémoire 819 GB/s ~1 100–1 400 GB/s La vitesse de génération de tokens est limitée par la bande passante
Mémoire unifiée Jusqu'à 512 Go Jusqu'à 512 Go+ Détermine la taille maximale du modèle
Cœurs GPU 80 ~80 Calcul parallèle pour le prefill
Neural Accelerator Aucun Par cœur GPU Latence du premier token (TTFT) 3 à 4 fois plus rapide
Finesse de gravure 3nm 3nm (N3P) Meilleure performance/watt
TDP ~200W ~190W Silencieux, capable de fonctionner 24h/24 et 7j/7

L'amélioration la plus importante pour les charges de travail AI : l'M5 intègre un Neural Accelerator dans chaque cœur GPU. Les propres benchmarks MLX d'Apple montrent un temps de réponse pour le premier token (TTFT) 3,3 à 4,1 fois plus rapide par rapport à l'M4. La génération de tokens s'améliore d'environ 25 %, restant limitée par la bande passante, mais le plafond de cette dernière est plus élevé.

Pour les charges de travail des agents qui impliquent des changements de contexte fréquents et de longs system prompts, c'est crucial. Un M3 Ultra prend environ 2,3 secondes pour traiter un contexte de 120 000 tokens (estimé à partir des benchmarks de prefill) ; l'M5 Ultra devrait le faire en moins de 0,7 seconde.


Que peut-on réellement faire tourner avec 512 Go de mémoire unifiée ?

C'est le tableau qui compte vraiment. La mémoire unifiée signifie que le GPU et le CPU partagent la même RAM, sans goulot d'étranglement PCIe ni limites de VRAM.

Modèle Quantification Mémoire requise M3 Ultra 512 Go M5 Ultra (prévisions)
DeepSeek R1 671B (MoE) Q4 ~336 Go 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 Go ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 Go ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 Go ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 Go ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 Go 95 tok/s ~130+ tok/s

Sources : geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks de la communauté HN

Pour situer : 20–30 tok/s est confortable pour un chat interactif. 15 tok/s est utilisable. En dessous de 5 tok/s, cela semble lent mais fonctionne pour les tâches par lots (batch).

La configuration 512 Go signifie que vous pouvez exécuter DeepSeek R1 671B Q4 (~336 Go) tout en conservant environ 176 Go pour le KV cache et le contexte. C'est suffisant pour des conversations à plusieurs tours avec des contextes de plus de 100 000 tokens.

Pourquoi ne pas simplement utiliser NVIDIA ?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
Mémoire 512 Go unifiée 32 Go VRAM 128 Go VRAM
Bande passante ~1 200 GB/s 1 792 GB/s 7 168 GB/s
DeepSeek R1 671B ✅ Tient en mémoire ❌ Ne tient pas ❌ Ne tient toujours pas
Vitesse Llama 70B ~18 tok/s ~80 tok/s ~240 tok/s
Consommation ~190W ~450W ~1 800W
Bruit Silencieux Bruyant Data center
Prix ~$10 000 ~$2 000 ~$8 000 + carte mère

NVIDIA l'emporte sur la vitesse brute lorsque le modèle tient dans la VRAM. Mais dès qu'un modèle dépasse 32 Go, NVIDIA s'effondre : le déchargement (offloading) vers la RAM système fait chuter le débit de plus de 100 tok/s à environ 3 tok/s. L'architecture de mémoire unifiée du Mac signifie qu'il n'y a pas de chute brutale. Un modèle de 400 Go fonctionne avec la même bande passante qu'un modèle de 40 Go.

Pour les modèles de moins de 70B, achetez un GPU. Pour les modèles de plus de 200B, le Mac Studio est actuellement la seule option grand public pratique.


Place à LemonClaw : Transformer le matériel en assistant AI

Exécuter un modèle localement est la première étape. Le rendre utile 24h/24 et 7j/7 est la deuxième.

LemonClaw est une plateforme d'agents AI open-source et auto-hébergée. Elle transforme votre Mac en un assistant AI persistant avec lequel vous interagissez via vos applications de messagerie habituelles — Telegram, Slack, Discord, WhatsApp, et même iMessage.

Pourquoi LemonClaw + Mac Studio ?

La plupart des gens interagissent avec l'AI via un onglet de navigateur. LemonClaw l'intègre plutôt dans votre application de messagerie : votre assistant fonctionne sur votre matériel, se souvient de votre contexte à travers les conversations et travaille pendant que vous dormez.

Ce que fait LemonClaw

  • Mémoire persistante : Fichiers de mémoire au format Markdown avec recherche sémantique. Votre assistant se souvient de ce dont vous avez discuté la semaine dernière.
  • Boîte de réception multi-canaux : Parlez-lui via Telegram, Slack, Discord, WhatsApp ou toute plateforme supportée. Même contexte, n'importe quel appareil.
  • Tâches autonomes : Planifiez des tâches cron, configurez des webhooks, laissez-le travailler toute la nuit sur des recherches ou des tâches de code.
  • Automatisation du navigateur : Navigation web basée sur CDP pour la recherche, l'extraction de données, le remplissage de formulaires.
  • Écosystème de compétences : Installez des compétences communautaires depuis ClawHub, ou écrivez les vôtres.
  • Support serveur MCP : Connectez-vous à des outils et API externes.

L'avantage du modèle local

Lorsque vous exécutez LemonClaw sur un Mac Studio avec des modèles locaux via Ollama ou MLX :

  1. Zéro coût d'API. Pas de facturation au token. Faites tourner DeepSeek R1 671B toute la journée, tous les jours, pour le prix de l'électricité (~3 $/mois).
  2. Confidentialité totale. Vos prompts, documents et code ne quittent jamais votre machine. Traitez des contrats sensibles, du code propriétaire, des dossiers médicaux, sans aucun traitement de données par des tiers.
  3. Pas de limites de débit (rate limits). Les API cloud vous brident à 1 000–10 000 requêtes/minute. L'inférence locale n'a pas d'autres limites que celles de votre matériel.
  4. Pas de dépendance aux pannes. OpenAI est en panne ? Anthropic subit une interruption ? Votre installation locale continue de fonctionner.
  5. Latence. Pas d'aller-retour réseau. Le premier token apparaît en quelques millisecondes pour les petits modèles.

Configuration rapide : Mac Studio + Ollama + LemonClaw

# 1. Installer Ollama
brew install ollama

# 2. Récupérer un modèle (commencez par quelque chose de rapide)
ollama pull qwen3:30b

# 3. Installer LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Configurer LemonClaw pour utiliser Ollama localement
# Dans ~/.lemonclaw/config.json, réglez :
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw fonctionne comme un service launchd sur macOS. Il démarre au lancement et tourne 24h/24 et 7j/7 en arrière-plan. Connectez votre Telegram ou Slack, et vous disposez d'un assistant AI persistant toujours disponible.

Pour l'M5 Ultra avec 512 Go, vous pouvez voir plus grand :

# Récupérer DeepSeek R1 671B (nécessite ~336 Go de RAM)
ollama pull deepseek-r1:671b-q4

# Ou l'excellent Qwen3-VL 235B pour les tâches multimodales
ollama pull qwen3-vl:235b-q4

L'aspect économique : quand le local bat-il le cloud ?

Faisons le calcul.

Coûts des API cloud (utilisateur intensif)

Profil d'utilisation Coût mensuel
LemonClaw avec Claude Sonnet 4.6 (intensif) 200–400 $/mois
Développement + assistant de code 50–100 $/mois
Recherche + analyse de documents 50–100 $/mois
Total 300–600 $/mois

Mac Studio M5 Ultra (coût unique + fonctionnement)

Article Coût
Mac Studio M5 Ultra 512 Go (prévisions) ~$10 000
Électricité (~200W, 24/7) ~3 $/mois
Internet (déjà inclus) 0 $
Seuil de rentabilité vs 400 $/mois cloud ~25 mois

Après 25 mois, vous faites tourner une AI de pointe pour 3 $/mois. Et vous possédez toujours une station de travail de 10 000 $ pour tout le reste.

L'approche hybride (recommandée)

Vous n'êtes pas obligé de choisir entre le tout-local ou le tout-cloud. La configuration la plus intelligente :

  • Modèles locaux pour les tâches à haut volume, sensibles à la confidentialité ou critiques en termes de latence (code, analyse de documents, brainstorming).
  • API cloud pour les capacités de pointe que vous ne pouvez pas exécuter localement (GPT-5, Claude Opus 4.6 avec 200 000 tokens de contexte à pleine vitesse).

LemonClaw supporte cela nativement : configurez plusieurs fournisseurs de modèles et passez d'Ollama local aux API cloud par conversation ou par tâche.

Et pour l'accès aux API cloud, LemonData vous offre plus de 300 modèles via une clé API unique avec un paiement à l'usage, sans abonnement ni minimum. Utilisez-le comme solution de secours cloud lorsque les modèles locaux ne suffisent pas.


Guide de configuration : trois niveaux

Niveau 1 : Le débutant (4 000–5 000 $)

Mac Studio M3/M5 Ultra 96 Go

  • Exécute : Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • Vitesse : 30–50 tok/s sur les modèles 30B
  • Idéal pour : Assistant personnel, aide au code, recherche légère
  • Config LemonClaw : qwen3:30b par défaut, secours cloud pour les tâches complexes

Niveau 2 : L'utilisateur avancé (7 000–9 000 $)

Mac Studio M5 Ultra 256 Go

  • Exécute : Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • Vitesse : 15–30 tok/s sur les modèles 200B+
  • Idéal pour : Développement professionnel, tâches multimodales, serveur AI d'équipe
  • Config LemonClaw : qwen3-vl:235b pour la vision, deepseek-r1:70b pour le raisonnement

Niveau 3 : La station de travail AI (10 000–14 000 $)

Mac Studio M5 Ultra 512 Go

  • Exécute : DeepSeek R1 671B (Q4), et tout ce qui précède
  • Vitesse : 25–35 tok/s sur 671B
  • Idéal pour : Exécuter les plus grands modèles open-source, serveur multi-utilisateurs, recherche
  • Config LemonClaw : deepseek-r1:671b pour le raisonnement profond, modèles plus petits pour les tâches rapides

L'utiliser comme serveur AI 24h/24 et 7j/7

Le Mac Studio est conçu pour un fonctionnement permanent. Voici comment le configurer comme serveur AI headless :

Si vous hésitez sur la pertinence de l'inférence locale, consultez également le guide LemonClaw auto-hébergé et le guide DeepSeek R1. L'un répond à la question de l'exécution, l'autre à celle de l'adéquation du modèle.

Alimentation et thermique

  • TDP de 190W signifie une prise standard, pas de câblage spécial
  • Sans ventilateur au repos, extrêmement silencieux en charge
  • Pas de bridage thermique (thermal throttling) lors de charges de travail prolongées (la conception thermique d'Apple gère cela)

Accès à distance

  • SSH pour l'accès au terminal
  • Tailscale pour un accès à distance sécurisé de n'importe où
  • L'intégration de messagerie de LemonClaw signifie que vous n'avez pas besoin d'un accès direct à la machine. Envoyez simplement un message à votre AI via Telegram.

Fiabilité

  • Le service launchd de macOS redémarre automatiquement LemonClaw s'il plante
  • Ollama fonctionne comme un service d'arrière-plan
  • Onduleur (UPS) recommandé pour les coupures de courant (le Mac Studio démarre et reprend les services automatiquement)
# Activer SSH
sudo systemsetup -setremotelogin on

# Installer Tailscale pour l'accès à distance
brew install tailscale
sudo tailscale up

# LemonClaw fonctionne déjà comme service launchd après l'onboarding
# Vérifier le statut :
launchctl list | grep lemonclaw

À venir : la feuille de route de l'M5 Ultra

Le Mac Studio M5 Ultra est attendu pour la seconde moitié de 2026. Voici le calendrier :

  • 4 mars 2026 : Événement Apple « Experience », MacBook Pro M5 Pro/Max attendus
  • H2 2026 : Mac Studio avec M5 Ultra
  • Améliorations clés par rapport à l'M3 Ultra : Accélérateurs Neural GPU (TTFT 3 à 4 fois plus rapide), bande passante mémoire plus élevée (~1,1–1,4 TB/s), mémoire maximale identique ou supérieure

Devriez-vous attendre ou acheter maintenant ?

Achetez l'M3 Ultra 512 Go maintenant si :

  • Vous avez besoin d'inférence AI locale dès aujourd'hui
  • Vous dépensez plus de 300 $/mois en API cloud
  • Les 17–20 tok/s sur DeepSeek R1 671B sont suffisants pour votre usage

Attendez l'M5 Ultra si :

  • Vous pouvez tolérer les API cloud pendant 6 à 9 mois de plus
  • Vous voulez l'amélioration TTFT de 3 à 4 fois (critique pour les charges de travail des agents)
  • Vous voulez voir les benchmarks réels avant d'investir plus de 10 000 $

Dans tous les cas, vous pouvez commencer avec LemonClaw dès aujourd'hui en utilisant les API cloud via LemonData. 1 $ de crédit gratuit à l'inscription, plus de 300 modèles, payez uniquement ce que vous utilisez. Lorsque votre Mac Studio arrivera, il vous suffira de pointer LemonClaw vers votre instance Ollama locale et vos coûts chuteront à presque zéro.


TL;DR

API Cloud Mac Studio M5 Ultra + LemonClaw
Taille max du modèle Illimitée (gérée par le fournisseur) 671B Q4 (config 512 Go)
Coût mensuel 300–600 $ (usage intensif) ~3 $ d'électricité
Confidentialité Données envoyées à des tiers Tout reste local
Latence 200–500ms réseau + inférence Inférence uniquement
Limites de débit Oui Non
Coût initial 0 $ ~$10 000
Seuil de rentabilité ~25 mois

Le Mac Studio M5 Ultra est une infrastructure AI personnelle. Couplé à LemonClaw, vous disposez d'un assistant AI 24h/24 et 7j/7 qui exécute des modèles de pointe, respecte votre confidentialité et coûte 3 $/mois à l'usage.

L'ère de « l'AI locale est un jouet » est révolue. 512 Go de mémoire unifiée avec une bande passante de plus de 1,2 TB/s permettent de faire tourner des modèles qui rivalisent avec les offres cloud. La seule question est de savoir si vous êtes prêt à posséder votre propre pile AI (AI stack).


Prêt à construire votre infrastructure AI ? Essayez LemonClaw avec LemonData : plus de 300 modèles cloud avec 1 $ de crédit gratuit. Lorsque votre Mac Studio arrivera, passez aux modèles locaux sans aucun changement de code.

Share: