Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve OpenClaw ile Kendi AI Infrastructure'ınızı Kurun

DeepSeek R1'in tam 671B parametresini belleğe sığdıran ilk tüketici donanımı ve onunla gerçekte neler yapabileceğiniz.

512GB unified memory (birleşik bellek) kapasitesine sahip Mac Studio M5 Ultra, DeepSeek R1 671B'yi (en büyük açık kaynaklı model) tamamen RAM üzerinde çalıştırabilen ilk tüketici sınıfı makinedir. Offloading yok, çoklu GPU kurulumları yok, su soğutma yok. Sadece masanızda duran ve bir fön makinesinden daha az güç tüketen bir kutu.

Bu, yerel AI (yapay zeka) hesaplamalarını değiştiriyor. Frontier sınıfı modelleri evde çalıştırabildiğinizde, soru "yapabilir miyim?"den "yapmalı mıyım?"a dönüşüyor. Giderek artan sayıda geliştirici için cevap evet.

Aşağıda: M5 Ultra'nın LLM inference (çıkarım) için neler sunduğu, 7/24 kişisel bir yapay zeka asistanı için OpenClaw ile nasıl eşleştirileceği ve bulut API'larına kıyasla ne zaman finansal olarak mantıklı olduğu yer almaktadır.

M5 Ultra Neler Sunuyor?

M5 Ultra, Apple'ın UltraFusion ara bağlantısı aracılığıyla birleştirilmiş iki M5 Max çipinden oluşur. LLM inference için önemli olan noktalar şunlardır:

Özellik	M3 Ultra	M5 Ultra (öngörülen)	Neden önemli?
Memory bandwidth	819 GB/s	~1,100–1,400 GB/s	Token üretimi hızı bant genişliğine bağlıdır
Unified memory	512GB'a kadar	512GB+ üzerine kadar	Maksimum model boyutunu belirler
GPU çekirdekleri	80	~80	Prefill için paralel hesaplama
Neural Accelerator	Yok	GPU çekirdeği başına	3–4 kat daha hızlı ilk token gecikmesi
İşlem düğümü	3nm	3nm (N3P)	Daha iyi performans/watt
TDP	~200W	~190W	Sessiz çalışır, 7/24 kullanıma uygundur

AI iş yükleri için en büyük tek iyileştirme: M5, her GPU çekirdeğinin içine bir Neural Accelerator yerleştiriyor. Apple'ın kendi MLX benchmark testleri, M4'e kıyasla 3,3–4,1 kat daha hızlı time-to-first-token (TTFT) gösteriyor. Token üretimi yaklaşık %25 iyileşiyor; hala bant genişliğine bağlı, ancak bant genişliği tavanı daha yüksek.

Sık bağlam geçişleri ve uzun sistem prompt'ları içeren agent iş yükleri için bu en önemli konudur. Bir M3 Ultra, 120K token'lık bir bağlamı işlemek için yaklaşık 2,3 saniye harcar (prefill benchmark'larından tahmin edilmiştir); M5 Ultra bunu 0,7 saniyenin altında yapmalıdır.

512GB Birleşik Bellek Gerçekte Neleri Çalıştırabilir?

Asıl önemli olan tablo budur. Unified memory, GPU ve CPU'nun aynı RAM'i paylaşması anlamına gelir; PCIe darboğazı yok, VRAM sınırı yok.

Model	Quantization	Gereken bellek	M3 Ultra 512GB	M5 Ultra (öngörülen)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Kaynaklar: geerlingguy/ai-benchmarks, Apple MLX Research, HN topluluk benchmark'ları

Bağlam açısından: 20–30 tok/s etkileşimli sohbet için konforludur. 15 tok/s kullanılabilirdir. 5 tok/s'nin altı yavaş hissettirir ancak toplu görevler için işe yarar.

512GB yapılandırması, DeepSeek R1 671B Q4 (~336GB) çalıştırabileceğiniz ve KV cache ile bağlam için hala ~176GB boş alanınız kalacağı anlamına gelir. Bu, 100K+ token bağlamlı çok turlu konuşmalar için yeterlidir.

Neden Sadece NVIDIA Kullanmıyoruz?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Bellek	512GB unified	32GB VRAM	128GB VRAM
Bant Genişliği	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Belleğe sığar	❌ Sığmaz	❌ Hala sığmaz
Llama 70B hızı	~18 tok/s	~80 tok/s	~240 tok/s
Güç tüketimi	~190W	~450W	~1,800W
Gürültü	Sessiz	Gürültülü	Veri merkezi seviyesi
Fiyat	~$10,000	~$2,000	~$8,000 + anakart

NVIDIA, model VRAM'e sığdığında ham hızda kazanır. Ancak bir model 32GB'ı aştığı anda NVIDIA performansı hızla düşer: sistem RAM'ine offloading yapmak, verimi 100+ tok/s'den ~3 tok/s'ye düşürür. Mac'in unified memory mimarisi, bu tür bir performans düşüşü yaşanmayacağı anlamına gelir. 400GB'lık bir model, 40GB'lık bir modelle aynı bant genişliğinde çalışır.

70B'nin altındaki modeller için bir GPU satın alın. 200B'nin üzerindeki modeller için Mac Studio şu anda tek pratik tüketici seçeneğidir.

OpenClaw ile Tanışın: Donanımı Bir Yapay Zeka Asistanına Dönüştürmek

Bir modeli yerel olarak çalıştırmak birinci adımdır. Onu 7/24 kullanışlı hale getirmek ise ikinci adımdır.

OpenClaw, açık kaynaklı, kendi kendine barındırılan (self-hosted) bir AI agent platformudur. Mac'inizi, mevcut mesajlaşma uygulamalarınız (Telegram, Slack, Discord, WhatsApp, hatta iMessage) aracılığıyla etkileşim kurduğunuz kalıcı bir yapay zeka asistanına dönüştürür.

Neden OpenClaw + Mac Studio?

Çoğu insan yapay zeka ile bir tarayıcı sekmesi üzerinden etkileşim kurar. OpenClaw bunu mesajlaşma uygulamanıza taşır: asistanınız kendi donanımınızda çalışır, konuşmalar boyunca bağlamınızı hatırlar ve siz uyurken bile çalışmaya devam eder.

OpenClaw Neler Yapar?

Kalıcı bellek: Semantik arama özellikli Markdown tabanlı bellek dosyaları. Asistanınız geçen hafta ne konuştuğunuzu hatırlar.
Çok kanallı gelen kutusu: Telegram, Slack, Discord, WhatsApp veya desteklenen herhangi bir platform üzerinden onunla konuşun. Her cihazda aynı bağlam.
Otonom görevler: Cron job'lar planlayın, webhook'lar kurun, araştırma veya kod görevleri üzerinde gece boyunca çalışmasına izin verin.
Tarayıcı otomasyonu: Araştırma, veri çıkarma ve form doldurma için CDP tabanlı web gezintisi.
Yetenek ekosistemi: ClawHub'dan topluluk yeteneklerini yükleyin veya kendi yeteneklerinizi yazın.
MCP server desteği: Harici araçlara ve API'lara bağlanın.

Yerel Model Avantajı

OpenClaw'ı Ollama veya MLX aracılığıyla yerel modellerle bir Mac Studio üzerinde çalıştırdığınızda:

Sıfır API maliyeti. Token başına ücretlendirme yok. DeepSeek R1 671B'yi tüm gün, her gün, sadece elektrik maliyetine (~3$/ay) çalıştırın.
Tam gizlilik. Prompt'larınız, belgeleriniz ve kodlarınız asla makinenizden çıkmaz. Hassas sözleşmeleri, tescilli kodları, tıbbi kayıtları üçüncü taraf veri işleme olmadan işleyin.
Rate limit yok. Bulut API'ları sizi dakikada 1.000–10.000 istek ile kısıtlar. Yerel inference'ın donanımınız dışında bir sınırı yoktur.
Kesinti bağımlılığı yok. OpenAI mı çöktü? Anthropic'te kesinti mi var? Yerel kurulumunuz çalışmaya devam eder.
Gecikme. Ağ gidiş-dönüşü yok. Küçük modeller için ilk token milisaniyeler içinde görünür.

Hızlı Kurulum: Mac Studio + Ollama + OpenClaw

# 1. Ollama'yı kurun
brew install ollama

# 2. Bir model çekin (hızlı bir modelle başlayın)
ollama pull qwen3:30b

# 3. OpenClaw'ı kurun
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. OpenClaw'ı yerel Ollama'yı kullanacak şekilde yapılandırın
# ~/.openclaw/openclaw.json dosyasında şunları ayarlayın:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw, macOS üzerinde bir launchd servisi olarak çalışır. Önyükleme sırasında başlar ve arka planda 7/24 çalışır. Telegram veya Slack'inizi bağlayın ve her zaman erişilebilir, kalıcı bir yapay zeka asistanına sahip olun.

512GB'lık M5 Ultra için daha büyük modellere geçebilirsiniz:

# DeepSeek R1 671B'yi çekin (~336GB RAM gerektirir)
ollama pull deepseek-r1:671b-q4

# Veya multimodal görevler için mükemmel Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

Ekonomi: Yerel, Bulutu Ne Zaman Geçer?

Gelin hesap yapalım.

Bulut API maliyetleri (yoğun kullanıcı)

Kullanım modeli	Aylık maliyet
Claude Sonnet 4.6 ile OpenClaw (yoğun)	200–400$/ay
Geliştirme + kodlama asistanı	50–100$/ay
Araştırma + belge analizi	50–100$/ay
Toplam	300–600$/ay

Mac Studio M5 Ultra (tek seferlik + işletme)

Kalem	Maliyet
Mac Studio M5 Ultra 512GB (öngörülen)	~$10,000
Elektrik (~200W, 7/24)	~$3/ay
İnternet (zaten var)	$0
400$/ay bulut maliyetine göre başabaş noktası	~25 ay

25 ay sonra, frontier sınıfı yapay zekayı ayda 3 dolara çalıştırıyor olacaksınız. Ve hala diğer her şey için kullanabileceğiniz 10.000 dolarlık bir iş istasyonunuz olacak.

Hibrit Yaklaşım (Önerilen)

Tamamen yerel veya tamamen bulut olmak zorunda değilsiniz. En akıllı kurulum:

Yüksek hacimli, gizlilik açısından hassas veya gecikme kritik görevler (kodlama, belge analizi, beyin fırtınası) için yerel modeller.
Yerel olarak çalıştıramayacağınız frontier yetenekler (tam hızda 200K bağlamlı GPT-5, Claude Opus 4.6) için bulut API'ları.

OpenClaw bunu yerel olarak destekler: birden fazla model sağlayıcısı yapılandırın ve konuşma veya görev başına yerel Ollama ile bulut API'ları arasında geçiş yapın.

Bulut API erişimi için LemonData, tek bir API key ile 300'den fazla modele kullandıkça öde fiyatlandırmasıyla, abonelik veya minimum tutar olmadan erişim sağlar. Yerel modellerin yetmediği durumlarda bulut yedeğiniz olarak kullanın.

Yapılandırma Kılavuzu: Üç Seviye

Seviye 1: Başlangıç (4,000–5,000$)

Mac Studio M3/M5 Ultra 96GB

Çalıştırdıkları: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Hız: 30B modellerde 30–50 tok/s
Şunun için en iyisi: Kişisel asistan, kodlama yardımı, hafif araştırma
OpenClaw yapılandırması: Varsayılan olarak qwen3:30b, karmaşık görevler için bulut yedeği

Seviye 2: Güçlü Kullanıcı (7,000–9,000$)

Mac Studio M5 Ultra 256GB

Çalıştırdıkları: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Hız: 200B+ modellerde 15–30 tok/s
Şunun için en iyisi: Profesyonel geliştirme, multimodal görevler, ekip AI sunucusu
OpenClaw yapılandırması: Vizyon için qwen3-vl:235b, akıl yürütme için deepseek-r1:70b

Seviye 3: AI İş İstasyonu (10,000–14,000$)

Mac Studio M5 Ultra 512GB

Çalıştırdıkları: DeepSeek R1 671B (Q4) ve altındaki her şey
Hız: 671B'de 25–35 tok/s
Şunun için en iyisi: En büyük açık kaynaklı modelleri çalıştırmak, çok kullanıcılı sunucu, araştırma
OpenClaw yapılandırması: Derin akıl yürütme için deepseek-r1:671b, hızlı görevler için daha küçük modeller

7/24 Yapay Zeka Sunucusu Olarak Çalıştırmak

Mac Studio, her zaman açık çalışma için tasarlanmıştır. İşte onu bir headless AI sunucusu olarak nasıl kuracağınız:

Güç ve Termal

190W TDP, standart priz anlamına gelir, özel kablolama gerektirmez
Boştayken fansız, yük altında fısıltı kadar sessiz
Sürekli iş yüklerinde termal kısıtlama (thermal throttling) olmaz (Apple'ın termal tasarımı bunu yönetir)

Uzaktan Erişim

Terminal erişimi için SSH
Her yerden güvenli uzaktan erişim için Tailscale
OpenClaw'ın mesajlaşma entegrasyonu, doğrudan makine erişimine ihtiyacınız olmadığı anlamına gelir. Yapay zekanıza Telegram üzerinden mesaj atmanız yeterlidir.

Güvenilirlik

macOS launchd, çökerse OpenClaw'ı otomatik olarak yeniden başlatır
Ollama bir arka plan servisi olarak çalışır
Güç kesintileri için UPS önerilir (Mac Studio otomatik olarak açılır ve servisleri devam ettirir)

# SSH'ı etkinleştirin
sudo systemsetup -setremotelogin on

# Uzaktan erişim için Tailscale'i kurun
brew install tailscale
sudo tailscale up

# OpenClaw, onboarding'den sonra zaten launchd servisi olarak çalışır
# Durumu kontrol edin:
launchctl list | grep openclaw

Gelecekte Ne Var: M5 Ultra Yol Haritası

M5 Ultra Mac Studio'nun 2026'nın ikinci yarısında çıkması bekleniyor. İşte zaman çizelgesi:

4 Mart 2026: Apple "Experience" etkinliği, M5 Pro/Max MacBook Pro bekleniyor
2026 2. Yarı: M5 Ultra ile Mac Studio
M3 Ultra'ya göre temel iyileştirmeler: GPU Neural Accelerator'lar (3–4 kat TTFT), daha yüksek bellek bant genişliği (~1,1–1,4 TB/s), aynı veya daha yüksek maksimum bellek

Beklemeli mi Yoksa Şimdi mi Almalı?

Şu durumlarda M3 Ultra 512GB satın alın:

Bugün yerel AI inference'a ihtiyacınız varsa
Bulut API'larına ayda 300$+ harcıyorsanız
DeepSeek R1 671B'deki 17–20 tok/s hız kullanım durumunuz için yeterliyse

Şu durumlarda M5 Ultra'yı bekleyin:

6–9 ay daha bulut API'larına tahammül edebiliyorsanız
3-4 kat TTFT iyileştirmesini istiyorsanız (agent iş yükleri için kritik)
10.000$+ harcamadan önce gerçek benchmark'ları görmek istiyorsanız

Her iki durumda da, LemonData üzerinden bulut API'larını kullanarak bugün OpenClaw ile başlayabilirsiniz. Kayıtta 1$ ücretsiz kredi, 300+ model, sadece kullandığınız kadar ödeyin. Mac Studio'nuz geldiğinde, OpenClaw'ı yerel Ollama örneğinize yönlendirmeniz yeterlidir ve maliyetleriniz neredeyse sıfıra düşer.

Özet (TL;DR)

	Bulut API'ları	Mac Studio M5 Ultra + OpenClaw
Maksimum model boyutu	Sınırsız (sağlayıcı yönetir)	671B Q4 (512GB yapılandırması)
Aylık maliyet	300–600$ (yoğun kullanım)	~$3 elektrik
Gizlilik	Veriler üçüncü taraflara gönderilir	Her şey yerel kalır
Gecikme	200–500ms ağ + inference	Sadece inference
Rate limit'ler	Evet	Hayır
Ön maliyet	$0	~$10,000
Başabaş noktası	—	~25 ay

Mac Studio M5 Ultra, kişisel bir yapay zeka altyapısıdır. Onu OpenClaw ile eşleştirin ve frontier sınıfı modelleri çalıştıran, gizliliğinize saygı duyan ve işletmesi ayda 3 dolara mal olan 7/24 bir yapay zeka asistanına sahip olun.

"Yerel yapay zeka bir oyuncaktır" dönemi sona erdi. 1,2+ TB/s bant genişliğinde 512GB birleşik bellek, bulut tekliflerine rakip modelleri çalıştırabileceğiniz anlamına gelir. Tek soru, kendi yapay zeka stack'inize sahip olmaya hazır olup olmadığınızdır.

Yapay zeka altyapınızı kurmaya hazır mısınız? LemonData ile OpenClaw'ı deneyin: 1$ ücretsiz kredi ile 300'den fazla bulut modeli. Mac Studio'nuz geldiğinde, sıfır kod değişikliği ile yerel modellere geçin.

Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve OpenClaw ile Kendi AI Altyapınızı Kurun