Mac Studio M5 Ultra: Ejecuta modelos 671B localmente y construye tu propia AI Infrastructure con LemonClaw

El primer hardware de consumo que permite alojar los 671B parámetros completos de DeepSeek R1 en memoria, y lo que realmente puedes hacer con él.

El Mac Studio M5 Ultra con 512GB de memoria unificada es la primera máquina de grado de consumo que puede ejecutar DeepSeek R1 671B (el modelo de código abierto más grande) íntegramente en RAM. Sin offloading, sin plataformas multi-GPU, sin refrigeración líquida. Solo una caja que se asienta en tu escritorio y consume menos energía que un secador de pelo.

Esto cambia las reglas del juego de la AI local. Cuando puedes ejecutar modelos de clase frontera en casa, la pregunta pasa de "¿puedo?" a "¿debería?". Para un número creciente de desarrolladores, la respuesta es sí.

A continuación: lo que el M5 Ultra ofrece para la inferencia de LLM, cómo emparejarlo con LemonClaw para tener un asistente de AI personal 24/7, y cuándo tiene sentido financiero frente a las API de la nube.

Lo que el M5 Ultra pone sobre la mesa

El M5 Ultra son dos chips M5 Max fusionados a través de la interconexión UltraFusion de Apple. Esto es lo que importa para la inferencia de LLM:

Especificación	M3 Ultra	M5 Ultra (proyectado)	Por qué es importante
Ancho de banda de memoria	819 GB/s	~1,100–1,400 GB/s	La velocidad de generación de tokens está limitada por el ancho de banda
Memoria unificada	Hasta 512GB	Hasta 512GB+	Determina el tamaño máximo del modelo
Núcleos de GPU	80	~80	Cómputo paralelo para prefill
Neural Accelerator	Ninguno	Por núcleo de GPU	Latencia del primer token 3–4 veces más rápida
Nodo de proceso	3nm	3nm (N3P)	Mejor rendimiento por vatio
TDP	~200W	~190W	Funciona de forma silenciosa, capaz de operar 24/7

La mayor mejora individual para las cargas de trabajo de AI: el M5 integra un Neural Accelerator dentro de cada núcleo de GPU. Los propios benchmarks de MLX de Apple muestran un tiempo hasta el primer token (TTFT) entre 3.3 y 4.1 veces más rápido en comparación con el M4. La generación de tokens mejora un ~25%, todavía limitada por el ancho de banda, pero el techo de dicho ancho de banda es más alto.

Para las cargas de trabajo de agentes que implican cambios frecuentes de contexto y prompts de sistema largos, esto es lo más importante. Un M3 Ultra tarda ~2.3 segundos en procesar un contexto de 120K tokens (estimado a partir de benchmarks de prefill); el M5 Ultra debería hacerlo en menos de 0.7 segundos.

¿Qué pueden ejecutar realmente 512GB de memoria unificada?

Esta es la tabla que importa. La memoria unificada significa que la GPU y la CPU comparten la misma RAM, sin cuellos de botella de PCIe ni límites de VRAM.

Modelo	Quantization	Memoria necesaria	M3 Ultra 512GB	M5 Ultra (proyectado)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Fuentes: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmarks de la comunidad de HN

Para contextualizar: 20–30 tok/s es cómodo para un chat interactivo. 15 tok/s es utilizable. Por debajo de 5 tok/s se siente lento pero funciona para tareas por lotes.

La configuración de 512GB significa que puedes ejecutar DeepSeek R1 671B Q4 (~336GB) y aún tener ~176GB libres para KV cache y contexto. Eso es suficiente para conversaciones de varios turnos con contextos de más de 100K tokens.

¿Por qué no usar simplemente NVIDIA?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Memoria	512GB unificada	32GB VRAM	128GB VRAM
Ancho de banda	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Cabe en memoria	❌ No cabe	❌ Sigue sin caber
Velocidad Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Consumo de energía	~190W	~450W	~1,800W
Ruido	Silencioso	Ruidoso	Data center
Precio	~$10,000	~$2,000	~$8,000 + placa base

NVIDIA gana en velocidad bruta cuando el modelo cabe en VRAM. Pero en el momento en que un modelo supera los 32GB, NVIDIA cae en picado: el offloading a la RAM del sistema reduce el rendimiento de más de 100 tok/s a ~3 tok/s. La arquitectura de memoria unificada del Mac significa que no hay esa caída. Un modelo de 400GB se ejecuta con el mismo ancho de banda que uno de 40GB.

Para modelos de menos de 70B, compra una GPU. Para modelos de más de 200B, el Mac Studio es actualmente la única opción práctica para el consumidor.

Llega LemonClaw: Convirtiendo el hardware en un asistente de AI

Ejecutar un modelo localmente es el primer paso. Hacerlo útil las 24 horas del día, los 7 días de la semana, es el segundo.

LemonClaw es una plataforma de agentes de AI de código abierto y auto-hospedada. Convierte tu Mac en un asistente de AI persistente con el que interactúas a través de tus aplicaciones de mensajería actuales: Telegram, Slack, Discord, WhatsApp, incluso iMessage.

¿Por qué LemonClaw + Mac Studio?

La mayoría de las personas interactúan con la AI a través de una pestaña del navegador. LemonClaw la sitúa en tu aplicación de mensajería: tu asistente se ejecuta en tu hardware, recuerda tu contexto en todas las conversaciones y trabaja mientras duermes.

Qué hace LemonClaw

Memoria persistente: Archivos de memoria basados en Markdown con búsqueda semántica. Tu asistente recuerda lo que discutiste la semana pasada.
Bandeja de entrada multicanal: Habla con él a través de Telegram, Slack, Discord, WhatsApp o cualquier plataforma compatible. Mismo contexto, cualquier dispositivo.
Tareas autónomas: Programa cron jobs, configura webhooks, deja que trabaje durante la noche en tareas de investigación o código.
Automatización del navegador: Navegación web basada en CDP para investigación, extracción de datos y cumplimentación de formularios.
Ecosistema de habilidades: Instala habilidades de la comunidad desde ClawHub o escribe las tuyas propias.
Soporte para servidores MCP: Conéctate a herramientas y API externas.

La ventaja del modelo local

Cuando ejecutas LemonClaw en un Mac Studio con modelos locales a través de Ollama o MLX:

Cero costes de API. Sin facturación por token. Ejecuta DeepSeek R1 671B todo el día, todos los días, por el coste de la electricidad (~$3/mes).
Privacidad completa. Tus prompts, documentos y código nunca salen de tu máquina. Procesa contratos sensibles, código propietario, registros médicos, sin procesamiento de datos por terceros.
Sin límites de velocidad. Las API de la nube te limitan a 1,000–10,000 solicitudes/minuto. La inferencia local no tiene más límites que los de tu hardware.
Sin dependencia de caídas del servicio. ¿OpenAI no funciona? ¿Anthropic tiene una interrupción? Tu configuración local sigue funcionando.
Latencia. Sin el viaje de ida y vuelta de la red. El primer token aparece en milisegundos para modelos pequeños.

Configuración rápida: Mac Studio + Ollama + LemonClaw

# 1. Instalar Ollama
brew install ollama

# 2. Descargar un modelo (empieza con algo rápido)
ollama pull qwen3:30b

# 3. Instalar LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Configurar LemonClaw para usar Ollama local
# En ~/.lemonclaw/config.json, establece:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw se ejecuta como un servicio launchd en macOS. Se inicia al arrancar y funciona 24/7 en segundo plano. Conecta tu Telegram o Slack, y tendrás un asistente de AI persistente que siempre está disponible.

Para el M5 Ultra con 512GB, puedes ir a por algo más grande:

# Descargar DeepSeek R1 671B (requiere ~336GB de RAM)
ollama pull deepseek-r1:671b-q4

# O el excelente Qwen3-VL 235B para tareas multimodales
ollama pull qwen3-vl:235b-q4

La economía: ¿Cuándo gana lo local a la nube?

Hagamos los cálculos.

Costes de API en la nube (usuario intensivo)

Patrón de uso	Coste mensual
LemonClaw con Claude Sonnet 4.6 (intensivo)	$200–400/mes
Asistente de desarrollo + programación	$50–100/mes
Investigación + análisis de documentos	$50–100/mes
Total	$300–600/mes

Mac Studio M5 Ultra (pago único + funcionamiento)

Artículo	Coste
Mac Studio M5 Ultra 512GB (proyectado)	~$10,000
Electricidad (~200W, 24/7)	~$3/mes
Internet (ya lo tienes)	$0
Amortización vs $400/mes en la nube	~25 meses

Después de 25 meses, estarás ejecutando AI de clase frontera por $3/mes. Y seguirás teniendo una estación de trabajo de $10,000 para todo lo demás.

El enfoque híbrido (Recomendado)

No tienes que elegir entre todo local o todo nube. La configuración más inteligente:

Modelos locales para tareas de gran volumen, sensibles a la privacidad o críticas para la latencia (programación, análisis de documentos, lluvia de ideas).
API de la nube para capacidades de vanguardia que no puedes ejecutar localmente (GPT-5, Claude Opus 4.6 con 200K de contexto a toda velocidad).

LemonClaw soporta esto de forma nativa: configura múltiples proveedores de modelos y cambia entre Ollama local y API de la nube por conversación o por tarea.

Y para el acceso a API de la nube, LemonData te ofrece más de 300 modelos a través de una única API key con precios de pago por uso, sin suscripciones ni mínimos. Úsalo como tu respaldo en la nube cuando los modelos locales no sean suficientes.

Guía de configuración: Tres niveles

Nivel 1: El Principiante ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

Ejecuta: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Velocidad: 30–50 tok/s en modelos de 30B
Ideal para: Asistente personal, ayuda con el código, investigación ligera
Configuración de LemonClaw: qwen3:30b por defecto, respaldo en la nube para tareas complejas

Nivel 2: El Usuario Avanzado ($7,000–9,000)

Mac Studio M5 Ultra 256GB

Ejecuta: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Velocidad: 15–30 tok/s en modelos de más de 200B
Ideal para: Desarrollo profesional, tareas multimodales, servidor de AI para equipos
Configuración de LemonClaw: qwen3-vl:235b para visión, deepseek-r1:70b para razonamiento

Nivel 3: La Estación de Trabajo de AI ($10,000–14,000)

Mac Studio M5 Ultra 512GB

Ejecuta: DeepSeek R1 671B (Q4), y todo lo anterior
Velocidad: 25–35 tok/s en 671B
Ideal para: Ejecutar los modelos de código abierto más grandes, servidor multiusuario, investigación
Configuración de LemonClaw: deepseek-r1:671b para razonamiento profundo, modelos más pequeños para tareas rápidas

Funcionamiento como servidor de AI 24/7

El Mac Studio está diseñado para un funcionamiento ininterrumpido. Así es como se configura como un servidor de AI headless:

Si estás decidiendo si la inferencia local vale la pena por su complejidad, combina esta página con la guía de LemonClaw auto-hospedado y la guía de DeepSeek R1. Una responde a la cuestión del tiempo de ejecución. La otra a la del ajuste del modelo.

Energía y Térmica

190W de TDP significan un enchufe estándar, sin cableado especial
Sin ventilador en reposo, silencioso bajo carga
Sin estrangulamiento térmico (thermal throttling) en cargas de trabajo sostenidas (el diseño térmico de Apple lo gestiona)

Acceso remoto

SSH para acceso por terminal
Tailscale para acceso remoto seguro desde cualquier lugar
La integración de mensajería de LemonClaw significa que no necesitas acceso directo a la máquina. Solo envía un mensaje a tu AI a través de Telegram.

Fiabilidad

El launchd de macOS reinicia automáticamente LemonClaw si falla
Ollama se ejecuta como un servicio en segundo plano
Se recomienda un SAI (UPS) para cortes de energía (el Mac Studio arranca y reanuda los servicios automáticamente)

# Habilitar SSH
sudo systemsetup -setremotelogin on

# Instalar Tailscale para acceso remoto
brew install tailscale
sudo tailscale up

# LemonClaw ya se ejecuta como servicio launchd tras el onboarding
# Comprobar estado:
launchctl list | grep lemonclaw

Lo que viene: La hoja de ruta del M5 Ultra

Se espera el Mac Studio M5 Ultra para la segunda mitad de 2026. Este es el cronograma:

4 de marzo de 2026: Evento "Experience" de Apple, se espera el MacBook Pro M5 Pro/Max
H2 2026: Mac Studio con M5 Ultra
Mejoras clave respecto al M3 Ultra: Aceleradores Neurales en la GPU (3–4x TTFT), mayor ancho de banda de memoria (~1.1–1.4 TB/s), misma o mayor memoria máxima

¿Deberías esperar o comprar ahora?

Compra el M3 Ultra 512GB ahora si:

Necesitas inferencia de AI local hoy mismo
Estás gastando más de $300/mes en API de la nube
Los 17–20 tok/s en DeepSeek R1 671B son suficientes para tu caso de uso

Espera al M5 Ultra si:

Puedes tolerar las API de la nube durante 6–9 meses más
Quieres la mejora de 3–4x en TTFT (crítica para cargas de trabajo de agentes)
Quieres ver benchmarks reales antes de comprometer más de $10,000

En cualquier caso, puedes empezar con LemonClaw hoy mismo utilizando API de la nube a través de LemonData. $1 de crédito gratis al registrarte, más de 300 modelos, paga solo por lo que uses. Cuando llegue tu Mac Studio, simplemente apunta LemonClaw a tu instancia local de Ollama y tus costes caerán casi a cero.

TL;DR

	API en la nube	Mac Studio M5 Ultra + LemonClaw
Tamaño máx. de modelo	Ilimitado (el proveedor lo gestiona)	671B Q4 (configuración 512GB)
Coste mensual	$300–600 (uso intensivo)	~$3 electricidad
Privacidad	Datos enviados a terceros	Todo permanece local
Latencia	200–500ms red + inferencia	Solo inferencia
Límites de velocidad	Sí	No
Coste inicial	$0	~$10,000
Amortización	—	~25 meses

El Mac Studio M5 Ultra es infraestructura de AI personal. Emparéjalo con LemonClaw y tendrás un asistente de AI 24/7 que ejecuta modelos de clase frontera, respeta tu privacidad y cuesta $3/mes de operar.

La era de "la AI local es un juguete" ha terminado. 512GB de memoria unificada a más de 1.2 TB/s de ancho de banda significa que puedes ejecutar modelos que rivalizan con las ofertas de la nube. La única pregunta es si estás listo para ser el dueño de tu propio stack de AI.

¿Listo para empezar a construir tu infraestructura de AI? Prueba LemonClaw con LemonData: más de 300 modelos en la nube con $1 de crédito gratis. Cuando llegue tu Mac Studio, cambia a modelos locales sin cambios en el código.

Mac Studio M5 Ultra: Ejecuta Models de 671B localmente y construye tu propia infraestructura de AI con LemonClaw