Mac Studio M5 Ultra: Rode modelos 671B localmente e construa sua própria infraestrutura de AI com OpenClaw

O primeiro hardware de consumo que comporta os parâmetros completos de 671B do DeepSeek R1 em memory, e o que você pode realmente fazer com ele.

O Mac Studio M5 Ultra com 512GB unified memory é a primeira máquina de nível de consumo que pode rodar o DeepSeek R1 671B (o maior modelo open-source) inteiramente em RAM. Sem offloading, sem rigs multi-GPU, sem water cooling. Apenas uma caixa que fica na sua mesa e consome menos energia que um secador de cabelo.

Isso muda a lógica da AI local. Quando você pode rodar modelos de classe frontier em casa, a pergunta muda de "eu consigo?" para "eu deveria?". Para um número crescente de desenvolvedores, a resposta é sim.

Abaixo: o que o M5 Ultra entrega para LLM inference, como combiná-lo com o OpenClaw para um assistente de AI pessoal 24/7, e quando faz sentido financeiro em comparação com cloud APIs.

O que o M5 Ultra Traz para a Mesa

O M5 Ultra consiste em dois chips M5 Max fundidos através do interconnect UltraFusion da Apple. Aqui está o que importa para LLM inference:

Spec	M3 Ultra	M5 Ultra (projetado)	Por que isso importa
Memory bandwidth	819 GB/s	~1,100–1,400 GB/s	A velocidade de token generation é limitada pela bandwidth
Unified memory	Até 512GB	Até 512GB+	Determina o tamanho máximo do modelo
GPU cores	80	~80	Compute paralelo para prefill
Neural Accelerator	Nenhum	Por GPU-core	3–4x mais rápido em first-token latency
Process node	3nm	3nm (N3P)	Melhor perf/watt
TDP	~200W	~190W	Funciona silenciosamente, capaz de operar 24/7

A maior melhoria individual para AI workloads: o M5 incorpora um Neural Accelerator dentro de cada GPU core. Os benchmarks de MLX da própria Apple mostram um time-to-first-token (TTFT) 3.3–4.1x mais rápido em comparação com o M4. A token generation melhora cerca de 25%, ainda limitada pela bandwidth, mas o teto da bandwidth é maior.

Para agent workloads que envolvem context switches frequentes e longos system prompts, isso é o que mais importa. Um M3 Ultra leva cerca de 2.3 segundos para processar um contexto de 120K tokens (estimado a partir de benchmarks de prefill); o M5 Ultra deve fazer isso em menos de 0.7 segundos.

O que 512GB de Unified Memory Pode Realmente Rodar?

Esta é a tabela que importa. Unified memory significa que a GPU e a CPU compartilham a mesma RAM, sem gargalo de PCIe, sem limites de VRAM.

Model	Quantization	Memory necessária	M3 Ultra 512GB	M5 Ultra (projetado)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Fontes: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks da comunidade HN

Para contexto: 20–30 tok/s é confortável para chat interativo. 15 tok/s é utilizável. Abaixo de 5 tok/s parece lento, mas funciona para tarefas em batch.

A configuração de 512GB significa que você pode rodar o DeepSeek R1 671B Q4 (~336GB) e ainda ter cerca de 176GB restantes para KV cache e contexto. Isso é suficiente para conversas multi-turn com contextos de mais de 100K tokens.

Por que não usar apenas NVIDIA?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Memory	512GB unified	32GB VRAM	128GB VRAM
Bandwidth	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Roda em memory	❌ Não cabe	❌ Ainda não cabe
Llama 70B speed	~18 tok/s	~80 tok/s	~240 tok/s
Power draw	~190W	~450W	~1,800W
Noise	Silencioso	Barulhento	Data center
Price	~$10,000	~$2,000	~$8,000 + motherboard

A NVIDIA vence em velocidade bruta quando o modelo cabe na VRAM. Mas no momento em que um modelo excede 32GB, a NVIDIA perde performance drasticamente: o offloading para a RAM do sistema derruba o throughput de mais de 100 tok/s para cerca de 3 tok/s. A arquitetura de unified memory do Mac significa que não há essa queda brusca. Um modelo de 400GB roda com a mesma bandwidth que um modelo de 40GB.

Para modelos abaixo de 70B, compre uma GPU. Para modelos acima de 200B, o Mac Studio é atualmente a única opção prática de consumo.

Entre no OpenClaw: Transformando Hardware em um Assistente de AI

Rodar um modelo localmente é o primeiro passo. Torná-lo útil 24/7 é o segundo.

OpenClaw é uma plataforma de AI agent open-source e self-hosted. Ele transforma seu Mac em um assistente de AI persistente com o qual você interage através de seus aplicativos de mensagens existentes — Telegram, Slack, Discord, WhatsApp e até iMessage.

Por que OpenClaw + Mac Studio?

A maioria das pessoas interage com AI através de uma aba no navegador. O OpenClaw coloca a AI no seu aplicativo de mensagens: seu assistente roda no seu hardware, lembra do seu contexto em todas as conversas e trabalha enquanto você dorme.

O que o OpenClaw faz

Persistent memory: Arquivos de memória baseados em Markdown com busca semântica. Seu assistente lembra o que você discutiu na semana passada.
Multi-channel inbox: Fale com ele via Telegram, Slack, Discord, WhatsApp ou qualquer plataforma suportada. Mesmo contexto, qualquer dispositivo.
Tarefas autônomas: Agende cron jobs, configure webhooks, deixe-o trabalhando durante a noite em tarefas de pesquisa ou código.
Browser automation: Navegação web baseada em CDP para pesquisa, extração de dados e preenchimento de formulários.
Ecossistema de skills: Instale skills da comunidade através do ClawHub ou escreva as suas próprias.
Suporte a MCP server: Conecte-se a ferramentas e APIs externas.

A Vantagem do Modelo Local

Quando você roda o OpenClaw em um Mac Studio com modelos locais via Ollama ou MLX:

Zero custos de API. Sem cobrança por token. Rode o DeepSeek R1 671B o dia todo, todos os dias, pelo custo da eletricidade (~$3/mês).
Privacidade completa. Seus prompts, documentos e códigos nunca saem da sua máquina. Processe contratos sensíveis, código proprietário, registros médicos, sem processamento de dados por terceiros.
Sem rate limits. Cloud APIs limitam você a 1.000–10.000 requests/minuto. A local inference não tem limites além do seu hardware.
Sem dependência de tempo de inatividade. OpenAI fora do ar? Anthropic com instabilidade? Seu setup local continua funcionando.
Latência. Sem o round-trip da rede. O first token aparece em milissegundos para modelos pequenos.

Configuração Rápida: Mac Studio + Ollama + OpenClaw

# 1. Instale o Ollama
brew install ollama

# 2. Baixe um modelo (comece com algo rápido)
ollama pull qwen3:30b

# 3. Instale o OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. Configure o OpenClaw para usar o Ollama local
# No arquivo ~/.openclaw/openclaw.json, defina:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

O OpenClaw roda como um serviço launchd no macOS. Ele inicia no boot e roda 24/7 em background. Conecte seu Telegram ou Slack, e você terá um assistente de AI persistente que está sempre disponível.

Para o M5 Ultra com 512GB, você pode ir além:

# Baixe o DeepSeek R1 671B (requer ~336GB de RAM)
ollama pull deepseek-r1:671b-q4

# Ou o excelente Qwen3-VL 235B para tarefas multimodais
ollama pull qwen3-vl:235b-q4

A Economia: Quando o Local Vence a Nuvem?

Vamos fazer as contas.

Custos de Cloud API (usuário pesado)

Padrão de uso	Custo mensal
OpenClaw com Claude Sonnet 4.6 (pesado)	$200–400/mês
Desenvolvimento + assistente de código	$50–100/mês
Pesquisa + análise de documentos	$50–100/mês
Total	$300–600/mês

Mac Studio M5 Ultra (custo único + operação)

Item	Custo
Mac Studio M5 Ultra 512GB (projetado)	~$10,000
Eletricidade (~200W, 24/7)	~$3/mês
Internet (já existente)	$0
Break-even vs $400/mês na nuvem	~25 meses

Após 25 meses, você estará rodando AI de classe frontier por $3/mês. E você ainda terá uma workstation de $10.000 para todo o resto.

A Abordagem Híbrida (Recomendada)

Você não precisa ser totalmente local ou totalmente nuvem. O setup mais inteligente:

Modelos locais para tarefas de alto volume, sensíveis à privacidade ou críticas em latência (coding, análise de documentos, brainstorming)
Cloud APIs para capacidades frontier que você não consegue rodar localmente (GPT-5, Claude Opus 4.6 com 200K de contexto em velocidade total)

O OpenClaw suporta isso nativamente: configure múltiplos model providers e alterne entre o Ollama local e cloud APIs por conversa ou por tarefa.

E para acesso a cloud API, a LemonData oferece mais de 300 modelos através de uma única API key com preços pay-as-you-go, sem assinaturas, sem mínimos. Use-a como seu fallback na nuvem quando os modelos locais não forem suficientes.

Guia de Configuração: Três Níveis

Nível 1: O Iniciante ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

Roda: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Velocidade: 30–50 tok/s em modelos 30B
Ideal para: Assistente pessoal, ajuda com código, pesquisa leve
Configuração OpenClaw: qwen3:30b como padrão, cloud fallback para tarefas complexas

Nível 2: O Usuário Avançado ($7,000–9,000)

Mac Studio M5 Ultra 256GB

Roda: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Velocidade: 15–30 tok/s em modelos 200B+
Ideal para: Desenvolvimento profissional, tarefas multimodais, servidor de AI para equipes
Configuração OpenClaw: qwen3-vl:235b para visão, deepseek-r1:70b para reasoning

Nível 3: A AI Workstation ($10,000–14,000)

Mac Studio M5 Ultra 512GB

Roda: DeepSeek R1 671B (Q4), e tudo o que estiver abaixo
Velocidade: 25–35 tok/s no 671B
Ideal para: Rodar os maiores modelos open-source, servidor multi-usuário, pesquisa
Configuração OpenClaw: deepseek-r1:671b para deep reasoning, modelos menores para tarefas rápidas

Rodando como um Servidor de AI 24/7

O Mac Studio foi projetado para operação sempre ligada. Veja como configurá-lo como um servidor de AI headless:

Energia e Térmica

TDP de 190W significa tomada padrão, sem fiação especial
Fanless em idle, silencioso sob carga
Sem thermal throttling em workloads sustentados (o design térmico da Apple dá conta)

Acesso Remoto

SSH para acesso via terminal
Tailscale para acesso remoto seguro de qualquer lugar
A integração de mensagens do OpenClaw significa que você não precisa de acesso direto à máquina. Basta enviar uma mensagem para sua AI via Telegram.

Confiabilidade

O launchd do macOS reinicia automaticamente o OpenClaw se ele travar
O Ollama roda como um serviço de background
UPS recomendado para quedas de energia (o Mac Studio inicializa e retoma os serviços automaticamente)

# Habilitar SSH
sudo systemsetup -setremotelogin on

# Instalar Tailscale para acesso remoto
brew install tailscale
sudo tailscale up

# O OpenClaw já roda como serviço launchd após o onboarding
# Verificar status:
launchctl list | grep openclaw

O Que Vem Por Aí: O Roadmap do M5 Ultra

O Mac Studio M5 Ultra é esperado para a segunda metade de 2026. Aqui está o cronograma:

4 de Março de 2026: Evento Apple "Experience", esperado o MacBook Pro com M5 Pro/Max
H2 2026: Mac Studio com M5 Ultra
Principais melhorias sobre o M3 Ultra: GPU Neural Accelerators (3–4x TTFT), maior memory bandwidth (~1.1–1.4 TB/s), mesma ou maior memória máxima

Você Deve Esperar ou Comprar Agora?

Compre o M3 Ultra 512GB agora se:

Você precisa de local AI inference hoje
Você está gastando mais de $300/mês em cloud APIs
Os 17–20 tok/s no DeepSeek R1 671B são rápidos o suficiente para o seu caso de uso

Espere pelo M5 Ultra se:

Você pode tolerar cloud APIs por mais 6–9 meses
Você quer a melhoria de 3–4x no TTFT (crítico para agent workloads)
Você quer ver benchmarks reais antes de investir mais de $10K

De qualquer forma, você pode começar com o OpenClaw hoje usando cloud APIs através da LemonData. $1 de crédito grátis no cadastro, mais de 300 modelos, pague apenas pelo que usar. Quando seu Mac Studio chegar, basta apontar o OpenClaw para sua instância local do Ollama e seus custos cairão para quase zero.

TL;DR

	Cloud APIs	Mac Studio M5 Ultra + OpenClaw
Tamanho máx. do modelo	Ilimitado (o provedor gerencia)	671B Q4 (configuração 512GB)
Custo mensal	$300–600 (uso pesado)	~$3 eletricidade
Privacidade	Dados enviados a terceiros	Tudo permanece local
Latência	200–500ms rede + inference	Apenas inference
Rate limits	Sim	Não
Custo inicial	$0	~$10,000
Break-even	—	~25 meses

O Mac Studio M5 Ultra é uma AI infrastructure pessoal. Combine-o com o OpenClaw e você terá um assistente de AI 24/7 que roda modelos de classe frontier, respeita sua privacidade e custa $3/mês para operar.

A era de que "AI local é um brinquedo" acabou. 512GB de unified memory com 1.2+ TB/s de bandwidth significa que você pode rodar modelos que rivalizam com as ofertas na nuvem. A única pergunta é se você está pronto para ser dono do seu próprio AI stack.

Pronto para começar a construir sua AI infrastructure? Experimente o OpenClaw com a LemonData: mais de 300 modelos na nuvem com $1 de crédito grátis. Quando seu Mac Studio chegar, mude para modelos locais com zero alterações de código.

Mac Studio M5 Ultra: Execute modelos 671B localmente e construa sua própria infraestrutura de IA com OpenClaw