Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve OpenClaw ile Kendi Yapay Zeka Altyapınızı Kurun
DeepSeek R1'in tam 671B parametresini belleğe sığdıran ilk tüketici donanımı ve onunla gerçekte neler yapabileceğiniz.
512GB unified memory (birleşik bellek) kapasitesine sahip Mac Studio M5 Ultra, DeepSeek R1 671B'yi (en büyük açık kaynaklı model) tamamen RAM üzerinde çalıştırabilen ilk tüketici sınıfı makinedir. Offloading yok, çoklu GPU kurulumları yok, su soğutma yok. Sadece masanızda duran ve bir fön makinesinden daha az güç tüketen bir kutu.
Bu, yerel AI (yapay zeka) hesaplamalarını değiştiriyor. Frontier sınıfı modelleri evde çalıştırabildiğinizde, soru "yapabilir miyim?"den "yapmalı mıyım?"a dönüşüyor. Giderek artan sayıda geliştirici için cevap evet.
Aşağıda: M5 Ultra'nın LLM inference (çıkarım) için neler sunduğu, 7/24 kişisel bir yapay zeka asistanı için OpenClaw ile nasıl eşleştirileceği ve bulut API'larına kıyasla ne zaman finansal olarak mantıklı olduğu yer almaktadır.
M5 Ultra Neler Sunuyor?
M5 Ultra, Apple'ın UltraFusion ara bağlantısı aracılığıyla birleştirilmiş iki M5 Max çipinden oluşur. LLM inference için önemli olan noktalar şunlardır:
| Özellik | M3 Ultra | M5 Ultra (öngörülen) | Neden önemli? |
|---|---|---|---|
| Memory bandwidth | 819 GB/s | ~1,100–1,400 GB/s | Token üretimi hızı bant genişliğine bağlıdır |
| Unified memory | 512GB'a kadar | 512GB+ üzerine kadar | Maksimum model boyutunu belirler |
| GPU çekirdekleri | 80 | ~80 | Prefill için paralel hesaplama |
| Neural Accelerator | Yok | GPU çekirdeği başına | 3–4 kat daha hızlı ilk token gecikmesi |
| İşlem düğümü | 3nm | 3nm (N3P) | Daha iyi performans/watt |
| TDP | ~200W | ~190W | Sessiz çalışır, 7/24 kullanıma uygundur |
AI iş yükleri için en büyük tek iyileştirme: M5, her GPU çekirdeğinin içine bir Neural Accelerator yerleştiriyor. Apple'ın kendi MLX benchmark testleri, M4'e kıyasla 3,3–4,1 kat daha hızlı time-to-first-token (TTFT) gösteriyor. Token üretimi yaklaşık %25 iyileşiyor; hala bant genişliğine bağlı, ancak bant genişliği tavanı daha yüksek.
Sık bağlam geçişleri ve uzun sistem prompt'ları içeren agent iş yükleri için bu en önemli konudur. Bir M3 Ultra, 120K token'lık bir bağlamı işlemek için yaklaşık 2,3 saniye harcar (prefill benchmark'larından tahmin edilmiştir); M5 Ultra bunu 0,7 saniyenin altında yapmalıdır.
512GB Birleşik Bellek Gerçekte Neleri Çalıştırabilir?
Asıl önemli olan tablo budur. Unified memory, GPU ve CPU'nun aynı RAM'i paylaşması anlamına gelir; PCIe darboğazı yok, VRAM sınırı yok.
| Model | Quantization | Gereken bellek | M3 Ultra 512GB | M5 Ultra (öngörülen) |
|---|---|---|---|---|
| DeepSeek R1 671B (MoE) | Q4 | ~336 GB | 17–20 tok/s | ~25–35 tok/s |
| Llama 3.1 405B | Q4 | ~203 GB | ~2 tok/s | ~3–5 tok/s |
| Qwen3-VL 235B | Q4 | ~118 GB | ~30 tok/s | ~40–55 tok/s |
| GLM-4.7 358B | Q3 | ~180 GB | ~15 tok/s | ~20–28 tok/s |
| Qwen3 30B (MoE) | 4-bit | ~17 GB | ~45 tok/s | ~60+ tok/s |
| Mistral Small 24B | BF16 | ~48 GB | 95 tok/s | ~130+ tok/s |
Kaynaklar: geerlingguy/ai-benchmarks, Apple MLX Research, HN topluluk benchmark'ları
Bağlam açısından: 20–30 tok/s etkileşimli sohbet için konforludur. 15 tok/s kullanılabilirdir. 5 tok/s'nin altı yavaş hissettirir ancak toplu görevler için işe yarar.
512GB yapılandırması, DeepSeek R1 671B Q4 (~336GB) çalıştırabileceğiniz ve KV cache ile bağlam için hala ~176GB boş alanınız kalacağı anlamına gelir. Bu, 100K+ token bağlamlı çok turlu konuşmalar için yeterlidir.
Neden Sadece NVIDIA Kullanmıyoruz?
| Mac Studio M5 Ultra | NVIDIA RTX 5090 | 4x RTX 5090 | |
|---|---|---|---|
| Bellek | 512GB unified | 32GB VRAM | 128GB VRAM |
| Bant Genişliği | ~1,200 GB/s | 1,792 GB/s | 7,168 GB/s |
| DeepSeek R1 671B | ✅ Belleğe sığar | ❌ Sığmaz | ❌ Hala sığmaz |
| Llama 70B hızı | ~18 tok/s | ~80 tok/s | ~240 tok/s |
| Güç tüketimi | ~190W | ~450W | ~1,800W |
| Gürültü | Sessiz | Gürültülü | Veri merkezi seviyesi |
| Fiyat | ~$10,000 | ~$2,000 | ~$8,000 + anakart |
NVIDIA, model VRAM'e sığdığında ham hızda kazanır. Ancak bir model 32GB'ı aştığı anda NVIDIA performansı hızla düşer: sistem RAM'ine offloading yapmak, verimi 100+ tok/s'den ~3 tok/s'ye düşürür. Mac'in unified memory mimarisi, bu tür bir performans düşüşü yaşanmayacağı anlamına gelir. 400GB'lık bir model, 40GB'lık bir modelle aynı bant genişliğinde çalışır.
70B'nin altındaki modeller için bir GPU satın alın. 200B'nin üzerindeki modeller için Mac Studio şu anda tek pratik tüketici seçeneğidir.
OpenClaw ile Tanışın: Donanımı Bir Yapay Zeka Asistanına Dönüştürmek
Bir modeli yerel olarak çalıştırmak birinci adımdır. Onu 7/24 kullanışlı hale getirmek ise ikinci adımdır.
OpenClaw, açık kaynaklı, kendi kendine barındırılan (self-hosted) bir AI agent platformudur. Mac'inizi, mevcut mesajlaşma uygulamalarınız (Telegram, Slack, Discord, WhatsApp, hatta iMessage) aracılığıyla etkileşim kurduğunuz kalıcı bir yapay zeka asistanına dönüştürür.
Neden OpenClaw + Mac Studio?
Çoğu insan yapay zeka ile bir tarayıcı sekmesi üzerinden etkileşim kurar. OpenClaw bunu mesajlaşma uygulamanıza taşır: asistanınız kendi donanımınızda çalışır, konuşmalar boyunca bağlamınızı hatırlar ve siz uyurken bile çalışmaya devam eder.
OpenClaw Neler Yapar?
- Kalıcı bellek: Semantik arama özellikli Markdown tabanlı bellek dosyaları. Asistanınız geçen hafta ne konuştuğunuzu hatırlar.
- Çok kanallı gelen kutusu: Telegram, Slack, Discord, WhatsApp veya desteklenen herhangi bir platform üzerinden onunla konuşun. Her cihazda aynı bağlam.
- Otonom görevler: Cron job'lar planlayın, webhook'lar kurun, araştırma veya kod görevleri üzerinde gece boyunca çalışmasına izin verin.
- Tarayıcı otomasyonu: Araştırma, veri çıkarma ve form doldurma için CDP tabanlı web gezintisi.
- Yetenek ekosistemi: ClawHub'dan topluluk yeteneklerini yükleyin veya kendi yeteneklerinizi yazın.
- MCP server desteği: Harici araçlara ve API'lara bağlanın.
Yerel Model Avantajı
OpenClaw'ı Ollama veya MLX aracılığıyla yerel modellerle bir Mac Studio üzerinde çalıştırdığınızda:
- Sıfır API maliyeti. Token başına ücretlendirme yok. DeepSeek R1 671B'yi tüm gün, her gün, sadece elektrik maliyetine (~3$/ay) çalıştırın.
- Tam gizlilik. Prompt'larınız, belgeleriniz ve kodlarınız asla makinenizden çıkmaz. Hassas sözleşmeleri, tescilli kodları, tıbbi kayıtları üçüncü taraf veri işleme olmadan işleyin.
- Rate limit yok. Bulut API'ları sizi dakikada 1.000–10.000 istek ile kısıtlar. Yerel inference'ın donanımınız dışında bir sınırı yoktur.
- Kesinti bağımlılığı yok. OpenAI mı çöktü? Anthropic'te kesinti mi var? Yerel kurulumunuz çalışmaya devam eder.
- Gecikme. Ağ gidiş-dönüşü yok. Küçük modeller için ilk token milisaniyeler içinde görünür.
Hızlı Kurulum: Mac Studio + Ollama + OpenClaw
# 1. Ollama'yı kurun
brew install ollama
# 2. Bir model çekin (hızlı bir modelle başlayın)
ollama pull qwen3:30b
# 3. OpenClaw'ı kurun
npm install -g openclaw@latest
openclaw onboard --install-daemon
# 4. OpenClaw'ı yerel Ollama'yı kullanacak şekilde yapılandırın
# ~/.openclaw/openclaw.json dosyasında şunları ayarlayın:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]
OpenClaw, macOS üzerinde bir launchd servisi olarak çalışır. Önyükleme sırasında başlar ve arka planda 7/24 çalışır. Telegram veya Slack'inizi bağlayın ve her zaman erişilebilir, kalıcı bir yapay zeka asistanına sahip olun.
512GB'lık M5 Ultra için daha büyük modellere geçebilirsiniz:
# DeepSeek R1 671B'yi çekin (~336GB RAM gerektirir)
ollama pull deepseek-r1:671b-q4
# Veya multimodal görevler için mükemmel Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4
Ekonomi: Yerel, Bulutu Ne Zaman Geçer?
Gelin hesap yapalım.
Bulut API maliyetleri (yoğun kullanıcı)
| Kullanım modeli | Aylık maliyet |
|---|---|
| Claude Sonnet 4.6 ile OpenClaw (yoğun) | 200–400$/ay |
| Geliştirme + kodlama asistanı | 50–100$/ay |
| Araştırma + belge analizi | 50–100$/ay |
| Toplam | 300–600$/ay |
Mac Studio M5 Ultra (tek seferlik + işletme)
| Kalem | Maliyet |
|---|---|
| Mac Studio M5 Ultra 512GB (öngörülen) | ~$10,000 |
| Elektrik (~200W, 7/24) | ~$3/ay |
| İnternet (zaten var) | $0 |
| 400$/ay bulut maliyetine göre başabaş noktası | ~25 ay |
25 ay sonra, frontier sınıfı yapay zekayı ayda 3 dolara çalıştırıyor olacaksınız. Ve hala diğer her şey için kullanabileceğiniz 10.000 dolarlık bir iş istasyonunuz olacak.
Hibrit Yaklaşım (Önerilen)
Tamamen yerel veya tamamen bulut olmak zorunda değilsiniz. En akıllı kurulum:
- Yüksek hacimli, gizlilik açısından hassas veya gecikme kritik görevler (kodlama, belge analizi, beyin fırtınası) için yerel modeller.
- Yerel olarak çalıştıramayacağınız frontier yetenekler (tam hızda 200K bağlamlı GPT-5, Claude Opus 4.6) için bulut API'ları.
OpenClaw bunu yerel olarak destekler: birden fazla model sağlayıcısı yapılandırın ve konuşma veya görev başına yerel Ollama ile bulut API'ları arasında geçiş yapın.
Bulut API erişimi için LemonData, tek bir API key ile 300'den fazla modele kullandıkça öde fiyatlandırmasıyla, abonelik veya minimum tutar olmadan erişim sağlar. Yerel modellerin yetmediği durumlarda bulut yedeğiniz olarak kullanın.
Yapılandırma Kılavuzu: Üç Seviye
Seviye 1: Başlangıç (4,000–5,000$)
Mac Studio M3/M5 Ultra 96GB
- Çalıştırdıkları: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
- Hız: 30B modellerde 30–50 tok/s
- Şunun için en iyisi: Kişisel asistan, kodlama yardımı, hafif araştırma
- OpenClaw yapılandırması: Varsayılan olarak
qwen3:30b, karmaşık görevler için bulut yedeği
Seviye 2: Güçlü Kullanıcı (7,000–9,000$)
Mac Studio M5 Ultra 256GB
- Çalıştırdıkları: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
- Hız: 200B+ modellerde 15–30 tok/s
- Şunun için en iyisi: Profesyonel geliştirme, multimodal görevler, ekip AI sunucusu
- OpenClaw yapılandırması: Vizyon için
qwen3-vl:235b, akıl yürütme içindeepseek-r1:70b
Seviye 3: AI İş İstasyonu (10,000–14,000$)
Mac Studio M5 Ultra 512GB
- Çalıştırdıkları: DeepSeek R1 671B (Q4) ve altındaki her şey
- Hız: 671B'de 25–35 tok/s
- Şunun için en iyisi: En büyük açık kaynaklı modelleri çalıştırmak, çok kullanıcılı sunucu, araştırma
- OpenClaw yapılandırması: Derin akıl yürütme için
deepseek-r1:671b, hızlı görevler için daha küçük modeller
7/24 Yapay Zeka Sunucusu Olarak Çalıştırmak
Mac Studio, her zaman açık çalışma için tasarlanmıştır. İşte onu bir headless AI sunucusu olarak nasıl kuracağınız:
Güç ve Termal
- 190W TDP, standart priz anlamına gelir, özel kablolama gerektirmez
- Boştayken fansız, yük altında fısıltı kadar sessiz
- Sürekli iş yüklerinde termal kısıtlama (thermal throttling) olmaz (Apple'ın termal tasarımı bunu yönetir)
Uzaktan Erişim
- Terminal erişimi için SSH
- Her yerden güvenli uzaktan erişim için Tailscale
- OpenClaw'ın mesajlaşma entegrasyonu, doğrudan makine erişimine ihtiyacınız olmadığı anlamına gelir. Yapay zekanıza Telegram üzerinden mesaj atmanız yeterlidir.
Güvenilirlik
- macOS launchd, çökerse OpenClaw'ı otomatik olarak yeniden başlatır
- Ollama bir arka plan servisi olarak çalışır
- Güç kesintileri için UPS önerilir (Mac Studio otomatik olarak açılır ve servisleri devam ettirir)
# SSH'ı etkinleştirin
sudo systemsetup -setremotelogin on
# Uzaktan erişim için Tailscale'i kurun
brew install tailscale
sudo tailscale up
# OpenClaw, onboarding'den sonra zaten launchd servisi olarak çalışır
# Durumu kontrol edin:
launchctl list | grep openclaw
Gelecekte Ne Var: M5 Ultra Yol Haritası
M5 Ultra Mac Studio'nun 2026'nın ikinci yarısında çıkması bekleniyor. İşte zaman çizelgesi:
- 4 Mart 2026: Apple "Experience" etkinliği, M5 Pro/Max MacBook Pro bekleniyor
- 2026 2. Yarı: M5 Ultra ile Mac Studio
- M3 Ultra'ya göre temel iyileştirmeler: GPU Neural Accelerator'lar (3–4 kat TTFT), daha yüksek bellek bant genişliği (~1,1–1,4 TB/s), aynı veya daha yüksek maksimum bellek
Beklemeli mi Yoksa Şimdi mi Almalı?
Şu durumlarda M3 Ultra 512GB satın alın:
- Bugün yerel AI inference'a ihtiyacınız varsa
- Bulut API'larına ayda 300$+ harcıyorsanız
- DeepSeek R1 671B'deki 17–20 tok/s hız kullanım durumunuz için yeterliyse
Şu durumlarda M5 Ultra'yı bekleyin:
- 6–9 ay daha bulut API'larına tahammül edebiliyorsanız
- 3-4 kat TTFT iyileştirmesini istiyorsanız (agent iş yükleri için kritik)
- 10.000$+ harcamadan önce gerçek benchmark'ları görmek istiyorsanız
Her iki durumda da, LemonData üzerinden bulut API'larını kullanarak bugün OpenClaw ile başlayabilirsiniz. Kayıtta 1$ ücretsiz kredi, 300+ model, sadece kullandığınız kadar ödeyin. Mac Studio'nuz geldiğinde, OpenClaw'ı yerel Ollama örneğinize yönlendirmeniz yeterlidir ve maliyetleriniz neredeyse sıfıra düşer.
Özet (TL;DR)
| Bulut API'ları | Mac Studio M5 Ultra + OpenClaw | |
|---|---|---|
| Maksimum model boyutu | Sınırsız (sağlayıcı yönetir) | 671B Q4 (512GB yapılandırması) |
| Aylık maliyet | 300–600$ (yoğun kullanım) | ~$3 elektrik |
| Gizlilik | Veriler üçüncü taraflara gönderilir | Her şey yerel kalır |
| Gecikme | 200–500ms ağ + inference | Sadece inference |
| Rate limit'ler | Evet | Hayır |
| Ön maliyet | $0 | ~$10,000 |
| Başabaş noktası | — | ~25 ay |
Mac Studio M5 Ultra, kişisel bir yapay zeka altyapısıdır. Onu OpenClaw ile eşleştirin ve frontier sınıfı modelleri çalıştıran, gizliliğinize saygı duyan ve işletmesi ayda 3 dolara mal olan 7/24 bir yapay zeka asistanına sahip olun.
"Yerel yapay zeka bir oyuncaktır" dönemi sona erdi. 1,2+ TB/s bant genişliğinde 512GB birleşik bellek, bulut tekliflerine rakip modelleri çalıştırabileceğiniz anlamına gelir. Tek soru, kendi yapay zeka stack'inize sahip olmaya hazır olup olmadığınızdır.
Yapay zeka altyapınızı kurmaya hazır mısınız? LemonData ile OpenClaw'ı deneyin: 1$ ücretsiz kredi ile 300'den fazla bulut modeli. Mac Studio'nuz geldiğinde, sıfır kod değişikliği ile yerel modellere geçin.
