Mac Studio M5 Ultra: Ejecuta modelos 671B localmente y construye tu propia infraestructura de AI con OpenClaw

El primer hardware de consumo que admite los 671B parámetros completos de DeepSeek R1 en memoria, y lo que realmente puedes hacer con él.

El Mac Studio M5 Ultra con 512GB de unified memory es la primera máquina de consumo capaz de ejecutar DeepSeek R1 671B (el modelo de código abierto más grande) íntegramente en RAM. Sin offloading, sin configuraciones multi-GPU, sin refrigeración líquida. Solo una caja que se asienta en tu escritorio y consume menos energía que un secador de pelo.

Esto cambia los cálculos de la AI local. Cuando puedes ejecutar modelos de clase frontera en casa, la pregunta pasa de "¿puedo?" a "¿debería?". Para un número creciente de desarrolladores, la respuesta es sí.

A continuación: lo que el M5 Ultra ofrece para la inference de LLM, cómo emparejarlo con OpenClaw para tener un asistente de AI personal las 24 horas del día, los 7 días de la semana, y cuándo tiene sentido financiero frente a las API de la nube.

Lo que el M5 Ultra pone sobre la mesa

El M5 Ultra son dos chips M5 Max fusionados a través de la interconexión UltraFusion de Apple. Esto es lo que importa para la inference de LLM:

Especificación	M3 Ultra	M5 Ultra (proyectado)	Por qué es importante
Memory bandwidth	819 GB/s	~1,100–1,400 GB/s	La velocidad de generación de tokens está limitada por el bandwidth
Unified memory	Hasta 512GB	Hasta 512GB+	Determina el tamaño máximo del modelo
GPU cores	80	~80	Cómputo paralelo para prefill
Neural Accelerator	Ninguno	Por núcleo de GPU	Latencia de primer token de 3 a 4 veces más rápida
Nodo de proceso	3nm	3nm (N3P)	Mejor rendimiento por vatio
TDP	~200W	~190W	Funciona en silencio, capaz de operar 24/7

La mayor mejora individual para las cargas de trabajo de AI: el M5 integra un Neural Accelerator dentro de cada núcleo de GPU. Los propios benchmarks de MLX de Apple muestran un time-to-first-token (TTFT) de 3.3 a 4.1 veces más rápido en comparación con el M4. La generación de tokens mejora un ~25%, todavía limitada por el bandwidth, pero el techo de bandwidth es más alto.

Para las cargas de trabajo de agentes que implican cambios de contexto frecuentes y system prompts largos, esto es lo más importante. Un M3 Ultra tarda unos 2.3 segundos en procesar un contexto de 120K tokens (estimado a partir de benchmarks de prefill); el M5 Ultra debería hacerlo en menos de 0.7 segundos.

¿Qué puede ejecutar realmente 512GB de Unified Memory?

Esta es la tabla que importa. Unified memory significa que la GPU y la CPU comparten la misma RAM, sin cuellos de botella de PCIe, sin límites de VRAM.

Modelo	Quantization	Memoria necesaria	M3 Ultra 512GB	M5 Ultra (proyectado)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Fuentes: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks de la comunidad de HN

Para contextualizar: 20–30 tok/s es cómodo para un chat interactivo. 15 tok/s es utilizable. Por debajo de 5 tok/s se siente lento pero funciona para tareas por lotes.

La configuración de 512GB significa que puedes ejecutar DeepSeek R1 671B Q4 (~336GB) y aún tener ~176GB libres para KV cache y contexto. Eso es suficiente para conversaciones de múltiples turnos con contextos de más de 100K tokens.

¿Por qué no usar simplemente NVIDIA?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Memoria	512GB unified	32GB VRAM	128GB VRAM
Bandwidth	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Cabe en memoria	❌ No cabe	❌ Sigue sin caber
Llama 70B speed	~18 tok/s	~80 tok/s	~240 tok/s
Consumo de energía	~190W	~450W	~1,800W
Ruido	Silencioso	Ruidoso	Data center
Precio	~$10,000	~$2,000	~$8,000 + placa base

NVIDIA gana en velocidad bruta cuando el modelo cabe en VRAM. Pero en el momento en que un modelo supera los 32GB, NVIDIA cae en picado: el offloading a la RAM del sistema reduce el rendimiento de más de 100 tok/s a ~3 tok/s. La arquitectura de unified memory del Mac significa que no hay tal caída. Un modelo de 400GB se ejecuta con el mismo bandwidth que un modelo de 40GB.

Para modelos de menos de 70B, compra una GPU. Para modelos de más de 200B, el Mac Studio es actualmente la única opción práctica de consumo.

Entra OpenClaw: Convirtiendo el hardware en un asistente de AI

Ejecutar un modelo localmente es el primer paso. Hacerlo útil las 24 horas del día, los 7 días de la semana, es el segundo.

OpenClaw es una plataforma de agentes de AI de código abierto y autohospedada. Convierte tu Mac en un asistente de AI persistente con el que interactúas a través de tus aplicaciones de mensajería existentes: Telegram, Slack, Discord, WhatsApp, incluso iMessage.

¿Por qué OpenClaw + Mac Studio?

La mayoría de las personas interactúan con la AI a través de una pestaña del navegador. OpenClaw la coloca en tu aplicación de mensajería: tu asistente se ejecuta en tu hardware, recuerda tu contexto en todas las conversaciones y trabaja mientras duermes.

Lo que hace OpenClaw

Memoria persistente: Archivos de memoria basados en Markdown con búsqueda semántica. Tu asistente recuerda lo que discutiste la semana pasada.
Bandeja de entrada multicanal: Habla con él a través de Telegram, Slack, Discord, WhatsApp o cualquier plataforma compatible. Mismo contexto, cualquier dispositivo.
Tareas autónomas: Programa cron jobs, configura webhooks, deja que trabaje durante la noche en tareas de investigación o código.
Automatización del navegador: Navegación web basada en CDP para investigación, extracción de datos y llenado de formularios.
Ecosistema de habilidades: Instala habilidades de la comunidad desde ClawHub o escribe las tuyas propias.
Soporte para servidores MCP: Conéctate a herramientas y API externas.

La ventaja del modelo local

Cuando ejecutas OpenClaw en un Mac Studio con modelos locales a través de Ollama o MLX:

Cero costes de API. Sin facturación por token. Ejecuta DeepSeek R1 671B todo el día, todos los días, por el coste de la electricidad (~$3/mes).
Privacidad completa. Tus prompts, documentos y código nunca salen de tu máquina. Procesa contratos sensibles, código propietario, registros médicos, sin procesamiento de datos por terceros.
Sin límites de velocidad. Las API de la nube te limitan a 1,000–10,000 solicitudes/minuto. La inference local no tiene más límites que los de tu hardware.
Sin dependencia de caídas del servicio. ¿OpenAI no funciona? ¿Anthropic tiene una interrupción? Tu configuración local sigue funcionando.
Latencia. Sin viaje de ida y vuelta por la red. El primer token aparece en milisegundos para modelos pequeños.

Configuración rápida: Mac Studio + Ollama + OpenClaw

# 1. Instalar Ollama
brew install ollama

# 2. Descargar un modelo (empieza con algo rápido)
ollama pull qwen3:30b

# 3. Instalar OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. Configurar OpenClaw para usar Ollama local
# En ~/.openclaw/openclaw.json, establece:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw se ejecuta como un servicio launchd en macOS. Se inicia al arrancar y funciona 24/7 en segundo plano. Conecta tu Telegram o Slack, y tendrás un asistente de AI persistente que siempre estará disponible.

Para el M5 Ultra con 512GB, puedes ir a lo grande:

# Descargar DeepSeek R1 671B (requiere ~336GB de RAM)
ollama pull deepseek-r1:671b-q4

# O el excelente Qwen3-VL 235B para tareas multimodales
ollama pull qwen3-vl:235b-q4

La economía: ¿Cuándo lo local supera a la nube?

Hagamos los cálculos.

Costes de API en la nube (usuario intensivo)

Patrón de uso	Coste mensual
OpenClaw con Claude Sonnet 4.6 (intensivo)	$200–400/mes
Asistente de desarrollo + programación	$50–100/mes
Investigación + análisis de documentos	$50–100/mes
Total	$300–600/mes

Mac Studio M5 Ultra (pago único + funcionamiento)

Artículo	Coste
Mac Studio M5 Ultra 512GB (proyectado)	~$10,000
Electricidad (~200W, 24/7)	~$3/mes
Internet (ya lo tienes)	$0
Punto de equilibrio vs $400/mes en la nube	~25 meses

Después de 25 meses, estarás ejecutando AI de clase frontera por $3/mes. Y todavía tendrás una estación de trabajo de $10,000 para todo lo demás.

El enfoque híbrido (Recomendado)

No tienes que elegir entre todo local o todo nube. La configuración más inteligente:

Modelos locales para tareas de gran volumen, sensibles a la privacidad o críticas para la latencia (programación, análisis de documentos, lluvia de ideas).
API en la nube para capacidades de vanguardia que no puedes ejecutar localmente (GPT-5, Claude Opus 4.6 con contexto de 200K a toda velocidad).

OpenClaw admite esto de forma nativa: configura múltiples proveedores de modelos y cambia entre Ollama local y API en la nube por conversación o por tarea.

Y para el acceso a API en la nube, LemonData te ofrece más de 300 modelos a través de una única API key con precios de pago por uso, sin suscripciones ni mínimos. Úsalo como tu respaldo en la nube cuando los modelos locales no sean suficientes.

Guía de configuración: Tres niveles

Nivel 1: El principiante ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

Ejecuta: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Velocidad: 30–50 tok/s en modelos de 30B
Ideal para: Asistente personal, ayuda con el código, investigación ligera
Configuración de OpenClaw: qwen3:30b por defecto, respaldo en la nube para tareas complejas

Nivel 2: El usuario avanzado ($7,000–9,000)

Mac Studio M5 Ultra 256GB

Ejecuta: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Velocidad: 15–30 tok/s en modelos de más de 200B
Ideal para: Desarrollo profesional, tareas multimodales, servidor de AI para equipos
Configuración de OpenClaw: qwen3-vl:235b para visión, deepseek-r1:70b para razonamiento

Nivel 3: La estación de trabajo de AI ($10,000–14,000)

Mac Studio M5 Ultra 512GB

Ejecuta: DeepSeek R1 671B (Q4) y todo lo anterior
Velocidad: 25–35 tok/s en 671B
Ideal para: Ejecutar los modelos de código abierto más grandes, servidor multiusuario, investigación
Configuración de OpenClaw: deepseek-r1:671b para razonamiento profundo, modelos más pequeños para tareas rápidas

Ejecutándolo como un servidor de AI 24/7

El Mac Studio está diseñado para un funcionamiento ininterrumpido. Aquí te explicamos cómo configurarlo como un servidor de AI headless:

Energía y temperatura

TDP de 190W significa enchufe estándar, sin cableado especial
Sin ventilador en reposo, silencioso bajo carga
Sin thermal throttling en cargas de trabajo sostenidas (el diseño térmico de Apple lo gestiona)

Acceso remoto

SSH para acceso a la terminal
Tailscale para acceso remoto seguro desde cualquier lugar
La integración de mensajería de OpenClaw significa que no necesitas acceso directo a la máquina. Simplemente envía un mensaje a tu AI a través de Telegram.

Fiabilidad

macOS launchd reinicia automáticamente OpenClaw si se bloquea
Ollama se ejecuta como un servicio en segundo plano
Se recomienda un UPS para cortes de energía (el Mac Studio arranca y reanuda los servicios automáticamente)

# Habilitar SSH
sudo systemsetup -setremotelogin on

# Instalar Tailscale para acceso remoto
brew install tailscale
sudo tailscale up

# OpenClaw ya se ejecuta como servicio launchd tras el onboarding
# Comprobar estado:
launchctl list | grep openclaw

Lo que viene: La hoja de ruta del M5 Ultra

Se espera el Mac Studio M5 Ultra para la segunda mitad de 2026. Aquí está el cronograma:

4 de marzo de 2026: Evento "Experience" de Apple, se esperan los MacBook Pro M5 Pro/Max
H2 2026: Mac Studio con M5 Ultra
Mejoras clave sobre el M3 Ultra: GPU Neural Accelerators (3–4x TTFT), mayor memory bandwidth (~1.1–1.4 TB/s), misma o mayor memoria máxima

¿Deberías esperar o comprar ahora?

Compra el M3 Ultra 512GB ahora si:

Necesitas inference de AI local hoy mismo
Estás gastando más de $300/mes en API de la nube
Los 17–20 tok/s en DeepSeek R1 671B son lo suficientemente rápidos para tu caso de uso

Espera al M5 Ultra si:

Puedes tolerar las API de la nube durante 6 a 9 meses más
Quieres la mejora de 3 a 4 veces en TTFT (crítica para cargas de trabajo de agentes)
Quieres ver benchmarks reales antes de comprometer más de $10,000

De cualquier manera, puedes empezar con OpenClaw hoy mismo utilizando API en la nube a través de LemonData. $1 de crédito gratis al registrarte, más de 300 modelos, paga solo por lo que uses. Cuando llegue tu Mac Studio, simplemente apunta OpenClaw a tu instancia local de Ollama y tus costes caerán casi a cero.

Resumen (TL;DR)

	API en la nube	Mac Studio M5 Ultra + OpenClaw
Tamaño máximo de modelo	Ilimitado (el proveedor lo gestiona)	671B Q4 (configuración de 512GB)
Coste mensual	$300–600 (uso intensivo)	~$3 de electricidad
Privacidad	Datos enviados a terceros	Todo se queda localmente
Latencia	200–500ms red + inference	Solo inference
Límites de velocidad	Sí	No
Coste inicial	$0	~$10,000
Punto de equilibrio	—	~25 meses

El Mac Studio M5 Ultra es infraestructura de AI personal. Emparéjalo con OpenClaw y tendrás un asistente de AI 24/7 que ejecuta modelos de clase frontera, respeta tu privacidad y cuesta $3 al mes operarlo.

La era de "la AI local es un juguete" ha terminado. 512GB de unified memory a más de 1.2 TB/s de bandwidth significan que puedes ejecutar modelos que rivalizan con las ofertas de la nube. La única pregunta es si estás listo para ser el dueño de tu propio stack de AI.

¿Listo para empezar a construir tu infraestructura de AI? Prueba OpenClaw con LemonData: más de 300 modelos en la nube con $1 de crédito gratis. Cuando llegue tu Mac Studio, cambia a modelos locales sin cambios en el código.

Mac Studio M5 Ultra: Ejecuta modelos 671B localmente y construye tu propia infraestructura de IA con OpenClaw