Mac Studio M5 Ultra: Run 671B Models Locally e Construa Sua Própria AI Infrastructure com OpenClaw
O primeiro hardware de consumo que comporta os parâmetros completos de 671B do DeepSeek R1 em memory, e o que você pode realmente fazer com ele.
O Mac Studio M5 Ultra com 512GB unified memory é a primeira máquina de nível de consumo que pode rodar o DeepSeek R1 671B (o maior modelo open-source) inteiramente em RAM. Sem offloading, sem rigs multi-GPU, sem water cooling. Apenas uma caixa que fica na sua mesa e consome menos energia que um secador de cabelo.
Isso muda a lógica da AI local. Quando você pode rodar modelos de classe frontier em casa, a pergunta muda de "eu consigo?" para "eu deveria?". Para um número crescente de desenvolvedores, a resposta é sim.
Abaixo: o que o M5 Ultra entrega para LLM inference, como combiná-lo com o OpenClaw para um assistente de AI pessoal 24/7, e quando faz sentido financeiro em comparação com cloud APIs.
O que o M5 Ultra Traz para a Mesa
O M5 Ultra consiste em dois chips M5 Max fundidos através do interconnect UltraFusion da Apple. Aqui está o que importa para LLM inference:
| Spec | M3 Ultra | M5 Ultra (projetado) | Por que isso importa |
|---|---|---|---|
| Memory bandwidth | 819 GB/s | ~1,100–1,400 GB/s | A velocidade de token generation é limitada pela bandwidth |
| Unified memory | Até 512GB | Até 512GB+ | Determina o tamanho máximo do modelo |
| GPU cores | 80 | ~80 | Compute paralelo para prefill |
| Neural Accelerator | Nenhum | Por GPU-core | 3–4x mais rápido em first-token latency |
| Process node | 3nm | 3nm (N3P) | Melhor perf/watt |
| TDP | ~200W | ~190W | Funciona silenciosamente, capaz de operar 24/7 |
A maior melhoria individual para AI workloads: o M5 incorpora um Neural Accelerator dentro de cada GPU core. Os benchmarks de MLX da própria Apple mostram um time-to-first-token (TTFT) 3.3–4.1x mais rápido em comparação com o M4. A token generation melhora cerca de 25%, ainda limitada pela bandwidth, mas o teto da bandwidth é maior.
Para agent workloads que envolvem context switches frequentes e longos system prompts, isso é o que mais importa. Um M3 Ultra leva cerca de 2.3 segundos para processar um contexto de 120K tokens (estimado a partir de benchmarks de prefill); o M5 Ultra deve fazer isso em menos de 0.7 segundos.
O que 512GB de Unified Memory Pode Realmente Rodar?
Esta é a tabela que importa. Unified memory significa que a GPU e a CPU compartilham a mesma RAM, sem gargalo de PCIe, sem limites de VRAM.
| Model | Quantization | Memory necessária | M3 Ultra 512GB | M5 Ultra (projetado) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
Fontes: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks da comunidade HN
Para contexto: 20–30 tok/s é confortável para chat interativo. 15 tok/s é utilizável. Abaixo de 5 tok/s parece lento, mas funciona para tarefas em batch.
A configuração de 512GB significa que você pode rodar o DeepSeek R1 671B Q4 (~336GB) e ainda ter cerca de 176GB restantes para KV cache e contexto. Isso é suficiente para conversas multi-turn com contextos de mais de 100K tokens.
Por que não usar apenas NVIDIA?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| Memory | 512GB unified | 32GB VRAM | 128GB VRAM |
| Bandwidth | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ Roda em memory | ❌ Não cabe | ❌ Ainda não cabe |
| Llama 70B speed | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| Power draw | ~190W | ~450W | ~1,800W |
| Noise | Silencioso | Barulhento | Data center |
| Price | ~$10,000 | ~$2,000 | ~$8,000 + motherboard |
A NVIDIA vence em velocidade bruta quando o modelo cabe na VRAM. Mas no momento em que um modelo excede 32GB, a NVIDIA perde performance drasticamente: o offloading para a RAM do sistema derruba o throughput de mais de 100 tok/s para cerca de 3 tok/s. A arquitetura de unified memory do Mac significa que não há essa queda brusca. Um modelo de 400GB roda com a mesma bandwidth que um modelo de 40GB.
Para modelos abaixo de 70B, compre uma GPU. Para modelos acima de 200B, o Mac Studio é atualmente a única opção prática de consumo.
Entre no OpenClaw: Transformando Hardware em um Assistente de AI
Rodar um modelo localmente é o primeiro passo. Torná-lo útil 24/7 é o segundo.
OpenClaw é uma plataforma de AI agent open-source e self-hosted. Ele transforma seu Mac em um assistente de AI persistente com o qual você interage através de seus aplicativos de mensagens existentes — Telegram, Slack, Discord, WhatsApp e até iMessage.
Por que OpenClaw + Mac Studio?
A maioria das pessoas interage com AI através de uma aba no navegador. O OpenClaw coloca a AI no seu aplicativo de mensagens: seu assistente roda no seu hardware, lembra do seu contexto em todas as conversas e trabalha enquanto você dorme.
O que o OpenClaw faz
- Persistent memory: Arquivos de memória baseados em Markdown com busca semântica. Seu assistente lembra o que você discutiu na semana passada.
- Multi-channel inbox: Fale com ele via Telegram, Slack, Discord, WhatsApp ou qualquer plataforma suportada. Mesmo contexto, qualquer dispositivo.
- Tarefas autônomas: Agende cron jobs, configure webhooks, deixe-o trabalhando durante a noite em tarefas de pesquisa ou código.
- Browser automation: Navegação web baseada em CDP para pesquisa, extração de dados e preenchimento de formulários.
- Ecossistema de skills: Instale skills da comunidade através do ClawHub ou escreva as suas próprias.
- Suporte a MCP server: Conecte-se a ferramentas e APIs externas.
A Vantagem do Modelo Local
Quando você roda o OpenClaw em um Mac Studio com modelos locais via Ollama ou MLX:
- Zero custos de API. Sem cobrança por token. Rode o DeepSeek R1 671B o dia todo, todos os dias, pelo custo da eletricidade (~$3/mês).
- Privacidade completa. Seus prompts, documentos e códigos nunca saem da sua máquina. Processe contratos sensíveis, código proprietário, registros médicos, sem processamento de dados por terceiros.
- Sem rate limits. Cloud APIs limitam você a 1.000–10.000 requests/minuto. A local inference não tem limites além do seu hardware.
- Sem dependência de tempo de inatividade. OpenAI fora do ar? Anthropic com instabilidade? Seu setup local continua funcionando.
- Latência. Sem o round-trip da rede. O first token aparece em milissegundos para modelos pequenos.
Configuração Rápida: Mac Studio + Ollama + OpenClaw
# 1. Instale o Ollama
brew install ollama
# 2. Baixe um modelo (comece com algo rápido)
ollama pull qwen3:30b
# 3. Instale o OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon
# 4. Configure o OpenClaw para usar o Ollama local
# No arquivo ~/.openclaw/openclaw.json, defina:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
O OpenClaw roda como um serviço launchd no macOS. Ele inicia no boot e roda 24/7 em background. Conecte seu Telegram ou Slack, e você terá um assistente de AI persistente que está sempre disponível.
Para o M5 Ultra com 512GB, você pode ir além:
# Baixe o DeepSeek R1 671B (requer ~336GB de RAM)
ollama pull deepseek-r1:671b-q4
# Ou o excelente Qwen3-VL 235B para tarefas multimodais
ollama pull qwen3-vl:235b-q4
A Economia: Quando o Local Vence a Nuvem?
Vamos fazer as contas.
Custos de Cloud API (usuário pesado)
| Padrão de uso | Custo mensal |
|---|---|
| OpenClaw com Claude Sonnet 4.6 (pesado) | $200–400/mês |
| Desenvolvimento + assistente de código | $50–100/mês |
| Pesquisa + análise de documentos | $50–100/mês |
| Total | $300–600/mês |
Mac Studio M5 Ultra (custo único + operação)
| Item | Custo |
|---|---|
| Mac Studio M5 Ultra 512GB (projetado) | ~$10,000 |
| Eletricidade (~200W, 24/7) | ~$3/mês |
| Internet (já existente) | $0 |
| Break-even vs $400/mês na nuvem | ~25 meses |
Após 25 meses, você estará rodando AI de classe frontier por $3/mês. E você ainda terá uma workstation de $10.000 para todo o resto.
A Abordagem Híbrida (Recomendada)
Você não precisa ser totalmente local ou totalmente nuvem. O setup mais inteligente:
- Modelos locais para tarefas de alto volume, sensíveis à privacidade ou críticas em latência (coding, análise de documentos, brainstorming)
- Cloud APIs para capacidades frontier que você não consegue rodar localmente (GPT-5, Claude Opus 4.6 com 200K de contexto em velocidade total)
O OpenClaw suporta isso nativamente: configure múltiplos model providers e alterne entre o Ollama local e cloud APIs por conversa ou por tarefa.
E para acesso a cloud API, a LemonData oferece mais de 300 modelos através de uma única API key com preços pay-as-you-go, sem assinaturas, sem mínimos. Use-a como seu fallback na nuvem quando os modelos locais não forem suficientes.
Guia de Configuração: Três Níveis
Nível 1: O Iniciante ($4,000–5,000)
Mac Studio M3/M5 Ultra 96GB
- Roda: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- Velocidade: 30–50 tok/s em modelos 30B
- Ideal para: Assistente pessoal, ajuda com código, pesquisa leve
- Configuração OpenClaw:
qwen3:30bcomo padrão, cloud fallback para tarefas complexas
Nível 2: O Usuário Avançado ($7,000–9,000)
Mac Studio M5 Ultra 256GB
- Roda: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- Velocidade: 15–30 tok/s em modelos 200B+
- Ideal para: Desenvolvimento profissional, tarefas multimodais, servidor de AI para equipes
- Configuração OpenClaw:
qwen3-vl:235bpara visão,deepseek-r1:70bpara reasoning
Nível 3: A AI Workstation ($10,000–14,000)
Mac Studio M5 Ultra 512GB
- Roda: DeepSeek R1 671B (Q4), e tudo o que estiver abaixo
- Velocidade: 25–35 tok/s no 671B
- Ideal para: Rodar os maiores modelos open-source, servidor multi-usuário, pesquisa
- Configuração OpenClaw:
deepseek-r1:671bpara deep reasoning, modelos menores para tarefas rápidas
Rodando como um Servidor de AI 24/7
O Mac Studio foi projetado para operação sempre ligada. Veja como configurá-lo como um servidor de AI headless:
Energia e Térmica
- TDP de 190W significa tomada padrão, sem fiação especial
- Fanless em idle, silencioso sob carga
- Sem thermal throttling em workloads sustentados (o design térmico da Apple dá conta)
Acesso Remoto
- SSH para acesso via terminal
- Tailscale para acesso remoto seguro de qualquer lugar
- A integração de mensagens do OpenClaw significa que você não precisa de acesso direto à máquina. Basta enviar uma mensagem para sua AI via Telegram.
Confiabilidade
- O launchd do macOS reinicia automaticamente o OpenClaw se ele travar
- O Ollama roda como um serviço de background
- UPS recomendado para quedas de energia (o Mac Studio inicializa e retoma os serviços automaticamente)
# Habilitar SSH
sudo systemsetup -setremotelogin on
# Instalar Tailscale para acesso remoto
brew install tailscale
sudo tailscale up
# O OpenClaw já roda como serviço launchd após o onboarding
# Verificar status:
launchctl list | grep openclaw
O Que Vem Por Aí: O Roadmap do M5 Ultra
O Mac Studio M5 Ultra é esperado para a segunda metade de 2026. Aqui está o cronograma:
- 4 de Março de 2026: Evento Apple "Experience", esperado o MacBook Pro com M5 Pro/Max
- H2 2026: Mac Studio com M5 Ultra
- Principais melhorias sobre o M3 Ultra: GPU Neural Accelerators (3–4x TTFT), maior memory bandwidth (~1.1–1.4 TB/s), mesma ou maior memória máxima
Você Deve Esperar ou Comprar Agora?
Compre o M3 Ultra 512GB agora se:
- Você precisa de local AI inference hoje
- Você está gastando mais de $300/mês em cloud APIs
- Os 17–20 tok/s no DeepSeek R1 671B são rápidos o suficiente para o seu caso de uso
Espere pelo M5 Ultra se:
- Você pode tolerar cloud APIs por mais 6–9 meses
- Você quer a melhoria de 3–4x no TTFT (crítico para agent workloads)
- Você quer ver benchmarks reais antes de investir mais de $10K
De qualquer forma, você pode começar com o OpenClaw hoje usando cloud APIs através da LemonData. $1 de crédito grátis no cadastro, mais de 300 modelos, pague apenas pelo que usar. Quando seu Mac Studio chegar, basta apontar o OpenClaw para sua instância local do Ollama e seus custos cairão para quase zero.
TL;DR
| Cloud APIs | Mac Studio M5 Ultra + OpenClaw | |
|---|---|---|
| Tamanho máx. do modelo | Ilimitado (o provedor gerencia) | 671B Q4 (configuração 512GB) |
| Custo mensal | $300–600 (uso pesado) | ~$3 eletricidade |
| Privacidade | Dados enviados a terceiros | Tudo permanece local |
| Latência | 200–500ms rede + inference | Apenas inference |
| Rate limits | Sim | Não |
| Custo inicial | $0 | ~$10,000 |
| Break-even | — | ~25 meses |
O Mac Studio M5 Ultra é uma AI infrastructure pessoal. Combine-o com o OpenClaw e você terá um assistente de AI 24/7 que roda modelos de classe frontier, respeita sua privacidade e custa $3/mês para operar.
A era de que "AI local é um brinquedo" acabou. 512GB de unified memory com 1.2+ TB/s de bandwidth significa que você pode rodar modelos que rivalizam com as ofertas na nuvem. A única pergunta é se você está pronto para ser dono do seu próprio AI stack.
Pronto para começar a construir sua AI infrastructure? Experimente o OpenClaw com a LemonData: mais de 300 modelos na nuvem com $1 de crédito grátis. Quando seu Mac Studio chegar, mude para modelos locais com zero alterações de código.
