Configurações

Idioma

Mac Studio M5 Ultra: Execute modelos 671B localmente e construa sua própria infraestrutura de IA com OpenClaw

L
LemonData
·26 de fevereiro de 2026·23 visualizações
#Mac Studio#M5 Ultra#IA local#OpenClaw#auto hospedado#inferência de LLM
Mac Studio M5 Ultra: Execute modelos 671B localmente e construa sua própria infraestrutura de IA com OpenClaw

Mac Studio M5 Ultra: Run 671B Models Locally e Construa Sua Própria AI Infrastructure com OpenClaw

O primeiro hardware de consumo que comporta os parâmetros completos de 671B do DeepSeek R1 em memory, e o que você pode realmente fazer com ele.


O Mac Studio M5 Ultra com 512GB unified memory é a primeira máquina de nível de consumo que pode rodar o DeepSeek R1 671B (o maior modelo open-source) inteiramente em RAM. Sem offloading, sem rigs multi-GPU, sem water cooling. Apenas uma caixa que fica na sua mesa e consome menos energia que um secador de cabelo.

Isso muda a lógica da AI local. Quando você pode rodar modelos de classe frontier em casa, a pergunta muda de "eu consigo?" para "eu deveria?". Para um número crescente de desenvolvedores, a resposta é sim.

Abaixo: o que o M5 Ultra entrega para LLM inference, como combiná-lo com o OpenClaw para um assistente de AI pessoal 24/7, e quando faz sentido financeiro em comparação com cloud APIs.


O que o M5 Ultra Traz para a Mesa

O M5 Ultra consiste em dois chips M5 Max fundidos através do interconnect UltraFusion da Apple. Aqui está o que importa para LLM inference:

Spec M3 Ultra M5 Ultra (projetado) Por que isso importa
Memory bandwidth 819 GB/s ~1,100–1,400 GB/s A velocidade de token generation é limitada pela bandwidth
Unified memory Até 512GB Até 512GB+ Determina o tamanho máximo do modelo
GPU cores 80 ~80 Compute paralelo para prefill
Neural Accelerator Nenhum Por GPU-core 3–4x mais rápido em first-token latency
Process node 3nm 3nm (N3P) Melhor perf/watt
TDP ~200W ~190W Funciona silenciosamente, capaz de operar 24/7

A maior melhoria individual para AI workloads: o M5 incorpora um Neural Accelerator dentro de cada GPU core. Os benchmarks de MLX da própria Apple mostram um time-to-first-token (TTFT) 3.3–4.1x mais rápido em comparação com o M4. A token generation melhora cerca de 25%, ainda limitada pela bandwidth, mas o teto da bandwidth é maior.

Para agent workloads que envolvem context switches frequentes e longos system prompts, isso é o que mais importa. Um M3 Ultra leva cerca de 2.3 segundos para processar um contexto de 120K tokens (estimado a partir de benchmarks de prefill); o M5 Ultra deve fazer isso em menos de 0.7 segundos.


O que 512GB de Unified Memory Pode Realmente Rodar?

Esta é a tabela que importa. Unified memory significa que a GPU e a CPU compartilham a mesma RAM, sem gargalo de PCIe, sem limites de VRAM.

Model Quantization Memory necessária M3 Ultra 512GB M5 Ultra (projetado)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

Fontes: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks da comunidade HN

Para contexto: 20–30 tok/s é confortável para chat interativo. 15 tok/s é utilizável. Abaixo de 5 tok/s parece lento, mas funciona para tarefas em batch.

A configuração de 512GB significa que você pode rodar o DeepSeek R1 671B Q4 (~336GB) e ainda ter cerca de 176GB restantes para KV cache e contexto. Isso é suficiente para conversas multi-turn com contextos de mais de 100K tokens.

Por que não usar apenas NVIDIA?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
Memory 512GB unified 32GB VRAM 128GB VRAM
Bandwidth ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ Roda em memory ❌ Não cabe ❌ Ainda não cabe
Llama 70B speed ~18 tok/s ~80 tok/s ~240 tok/s
Power draw ~190W ~450W ~1,800W
Noise Silencioso Barulhento Data center
Price ~$10,000 ~$2,000 ~$8,000 + motherboard

A NVIDIA vence em velocidade bruta quando o modelo cabe na VRAM. Mas no momento em que um modelo excede 32GB, a NVIDIA perde performance drasticamente: o offloading para a RAM do sistema derruba o throughput de mais de 100 tok/s para cerca de 3 tok/s. A arquitetura de unified memory do Mac significa que não há essa queda brusca. Um modelo de 400GB roda com a mesma bandwidth que um modelo de 40GB.

Para modelos abaixo de 70B, compre uma GPU. Para modelos acima de 200B, o Mac Studio é atualmente a única opção prática de consumo.


Entre no OpenClaw: Transformando Hardware em um Assistente de AI

Rodar um modelo localmente é o primeiro passo. Torná-lo útil 24/7 é o segundo.

OpenClaw é uma plataforma de AI agent open-source e self-hosted. Ele transforma seu Mac em um assistente de AI persistente com o qual você interage através de seus aplicativos de mensagens existentes — Telegram, Slack, Discord, WhatsApp e até iMessage.

Por que OpenClaw + Mac Studio?

A maioria das pessoas interage com AI através de uma aba no navegador. O OpenClaw coloca a AI no seu aplicativo de mensagens: seu assistente roda no seu hardware, lembra do seu contexto em todas as conversas e trabalha enquanto você dorme.

O que o OpenClaw faz

  • Persistent memory: Arquivos de memória baseados em Markdown com busca semântica. Seu assistente lembra o que você discutiu na semana passada.
  • Multi-channel inbox: Fale com ele via Telegram, Slack, Discord, WhatsApp ou qualquer plataforma suportada. Mesmo contexto, qualquer dispositivo.
  • Tarefas autônomas: Agende cron jobs, configure webhooks, deixe-o trabalhando durante a noite em tarefas de pesquisa ou código.
  • Browser automation: Navegação web baseada em CDP para pesquisa, extração de dados e preenchimento de formulários.
  • Ecossistema de skills: Instale skills da comunidade através do ClawHub ou escreva as suas próprias.
  • Suporte a MCP server: Conecte-se a ferramentas e APIs externas.

A Vantagem do Modelo Local

Quando você roda o OpenClaw em um Mac Studio com modelos locais via Ollama ou MLX:

  1. Zero custos de API. Sem cobrança por token. Rode o DeepSeek R1 671B o dia todo, todos os dias, pelo custo da eletricidade (~$3/mês).
  2. Privacidade completa. Seus prompts, documentos e códigos nunca saem da sua máquina. Processe contratos sensíveis, código proprietário, registros médicos, sem processamento de dados por terceiros.
  3. Sem rate limits. Cloud APIs limitam você a 1.000–10.000 requests/minuto. A local inference não tem limites além do seu hardware.
  4. Sem dependência de tempo de inatividade. OpenAI fora do ar? Anthropic com instabilidade? Seu setup local continua funcionando.
  5. Latência. Sem o round-trip da rede. O first token aparece em milissegundos para modelos pequenos.

Configuração Rápida: Mac Studio + Ollama + OpenClaw

# 1. Instale o Ollama
brew install ollama

# 2. Baixe um modelo (comece com algo rápido)
ollama pull qwen3:30b

# 3. Instale o OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. Configure o OpenClaw para usar o Ollama local
# No arquivo ~/.openclaw/openclaw.json, defina:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

O OpenClaw roda como um serviço launchd no macOS. Ele inicia no boot e roda 24/7 em background. Conecte seu Telegram ou Slack, e você terá um assistente de AI persistente que está sempre disponível.

Para o M5 Ultra com 512GB, você pode ir além:

# Baixe o DeepSeek R1 671B (requer ~336GB de RAM)
ollama pull deepseek-r1:671b-q4

# Ou o excelente Qwen3-VL 235B para tarefas multimodais
ollama pull qwen3-vl:235b-q4

A Economia: Quando o Local Vence a Nuvem?

Vamos fazer as contas.

Custos de Cloud API (usuário pesado)

Padrão de uso Custo mensal
OpenClaw com Claude Sonnet 4.6 (pesado) $200–400/mês
Desenvolvimento + assistente de código $50–100/mês
Pesquisa + análise de documentos $50–100/mês
Total $300–600/mês

Mac Studio M5 Ultra (custo único + operação)

Item Custo
Mac Studio M5 Ultra 512GB (projetado) ~$10,000
Eletricidade (~200W, 24/7) ~$3/mês
Internet (já existente) $0
Break-even vs $400/mês na nuvem ~25 meses

Após 25 meses, você estará rodando AI de classe frontier por $3/mês. E você ainda terá uma workstation de $10.000 para todo o resto.

A Abordagem Híbrida (Recomendada)

Você não precisa ser totalmente local ou totalmente nuvem. O setup mais inteligente:

  • Modelos locais para tarefas de alto volume, sensíveis à privacidade ou críticas em latência (coding, análise de documentos, brainstorming)
  • Cloud APIs para capacidades frontier que você não consegue rodar localmente (GPT-5, Claude Opus 4.6 com 200K de contexto em velocidade total)

O OpenClaw suporta isso nativamente: configure múltiplos model providers e alterne entre o Ollama local e cloud APIs por conversa ou por tarefa.

E para acesso a cloud API, a LemonData oferece mais de 300 modelos através de uma única API key com preços pay-as-you-go, sem assinaturas, sem mínimos. Use-a como seu fallback na nuvem quando os modelos locais não forem suficientes.


Guia de Configuração: Três Níveis

Nível 1: O Iniciante ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

  • Roda: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • Velocidade: 30–50 tok/s em modelos 30B
  • Ideal para: Assistente pessoal, ajuda com código, pesquisa leve
  • Configuração OpenClaw: qwen3:30b como padrão, cloud fallback para tarefas complexas

Nível 2: O Usuário Avançado ($7,000–9,000)

Mac Studio M5 Ultra 256GB

  • Roda: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • Velocidade: 15–30 tok/s em modelos 200B+
  • Ideal para: Desenvolvimento profissional, tarefas multimodais, servidor de AI para equipes
  • Configuração OpenClaw: qwen3-vl:235b para visão, deepseek-r1:70b para reasoning

Nível 3: A AI Workstation ($10,000–14,000)

Mac Studio M5 Ultra 512GB

  • Roda: DeepSeek R1 671B (Q4), e tudo o que estiver abaixo
  • Velocidade: 25–35 tok/s no 671B
  • Ideal para: Rodar os maiores modelos open-source, servidor multi-usuário, pesquisa
  • Configuração OpenClaw: deepseek-r1:671b para deep reasoning, modelos menores para tarefas rápidas

Rodando como um Servidor de AI 24/7

O Mac Studio foi projetado para operação sempre ligada. Veja como configurá-lo como um servidor de AI headless:

Energia e Térmica

  • TDP de 190W significa tomada padrão, sem fiação especial
  • Fanless em idle, silencioso sob carga
  • Sem thermal throttling em workloads sustentados (o design térmico da Apple dá conta)

Acesso Remoto

  • SSH para acesso via terminal
  • Tailscale para acesso remoto seguro de qualquer lugar
  • A integração de mensagens do OpenClaw significa que você não precisa de acesso direto à máquina. Basta enviar uma mensagem para sua AI via Telegram.

Confiabilidade

  • O launchd do macOS reinicia automaticamente o OpenClaw se ele travar
  • O Ollama roda como um serviço de background
  • UPS recomendado para quedas de energia (o Mac Studio inicializa e retoma os serviços automaticamente)
# Habilitar SSH
sudo systemsetup -setremotelogin on

# Instalar Tailscale para acesso remoto
brew install tailscale
sudo tailscale up

# O OpenClaw já roda como serviço launchd após o onboarding
# Verificar status:
launchctl list | grep openclaw

O Que Vem Por Aí: O Roadmap do M5 Ultra

O Mac Studio M5 Ultra é esperado para a segunda metade de 2026. Aqui está o cronograma:

  • 4 de Março de 2026: Evento Apple "Experience", esperado o MacBook Pro com M5 Pro/Max
  • H2 2026: Mac Studio com M5 Ultra
  • Principais melhorias sobre o M3 Ultra: GPU Neural Accelerators (3–4x TTFT), maior memory bandwidth (~1.1–1.4 TB/s), mesma ou maior memória máxima

Você Deve Esperar ou Comprar Agora?

Compre o M3 Ultra 512GB agora se:

  • Você precisa de local AI inference hoje
  • Você está gastando mais de $300/mês em cloud APIs
  • Os 17–20 tok/s no DeepSeek R1 671B são rápidos o suficiente para o seu caso de uso

Espere pelo M5 Ultra se:

  • Você pode tolerar cloud APIs por mais 6–9 meses
  • Você quer a melhoria de 3–4x no TTFT (crítico para agent workloads)
  • Você quer ver benchmarks reais antes de investir mais de $10K

De qualquer forma, você pode começar com o OpenClaw hoje usando cloud APIs através da LemonData. $1 de crédito grátis no cadastro, mais de 300 modelos, pague apenas pelo que usar. Quando seu Mac Studio chegar, basta apontar o OpenClaw para sua instância local do Ollama e seus custos cairão para quase zero.


TL;DR

Cloud APIs Mac Studio M5 Ultra + OpenClaw
Tamanho máx. do modelo Ilimitado (o provedor gerencia) 671B Q4 (configuração 512GB)
Custo mensal $300–600 (uso pesado) ~$3 eletricidade
Privacidade Dados enviados a terceiros Tudo permanece local
Latência 200–500ms rede + inference Apenas inference
Rate limits Sim Não
Custo inicial $0 ~$10,000
Break-even ~25 meses

O Mac Studio M5 Ultra é uma AI infrastructure pessoal. Combine-o com o OpenClaw e você terá um assistente de AI 24/7 que roda modelos de classe frontier, respeita sua privacidade e custa $3/mês para operar.

A era de que "AI local é um brinquedo" acabou. 512GB de unified memory com 1.2+ TB/s de bandwidth significa que você pode rodar modelos que rivalizam com as ofertas na nuvem. A única pergunta é se você está pronto para ser dono do seu próprio AI stack.


Pronto para começar a construir sua AI infrastructure? Experimente o OpenClaw com a LemonData: mais de 300 modelos na nuvem com $1 de crédito grátis. Quando seu Mac Studio chegar, mude para modelos locais com zero alterações de código.

Share: