Mac Studio M5 Ultra: 671B Modelleri Yerel Olarak Çalıştırın ve LemonClaw ile Kendi AI Altyapınızı Kurun

DeepSeek R1'in tam 671B parametresini belleğe sığdıran ilk tüketici donanımı ve onunla gerçekte neler yapabileceğiniz.

512GB unified memory kapasitesine sahip Mac Studio M5 Ultra, DeepSeek R1 671B'yi (en büyük açık kaynaklı model) tamamen RAM üzerinde çalıştırabilen ilk tüketici sınıfı makinedir. Offloading yok, çoklu GPU kurulumları yok, sıvı soğutma yok. Sadece masanızda duran ve bir saç kurutma makinesinden daha az güç tüketen bir kutu.

Bu durum, yerel yapay zeka konusundaki hesaplamaları değiştiriyor. Frontier sınıfı modelleri evde çalıştırabildiğinizde, soru "yapabilir miyim?"den "yapmalı mıyım?"a dönüşüyor. Giderek artan sayıda geliştirici için cevap: evet.

Aşağıda: M5 Ultra'nın LLM inference için neler sunduğu, 7/24 kişisel bir yapay zeka asistanı için LemonClaw ile nasıl eşleştirileceği ve bulut API'lerine kıyasla ne zaman finansal olarak mantıklı olduğu yer almaktadır.

M5 Ultra Neler Sunuyor?

M5 Ultra, Apple'ın UltraFusion bağlantısı aracılığıyla birleştirilmiş iki M5 Max çipinden oluşur. LLM inference için önemli olan noktalar şunlardır:

Özellik	M3 Ultra	M5 Ultra (öngörülen)	Neden önemli
Memory bandwidth	819 GB/s	~1,100–1,400 GB/s	Token oluşturma hızı bandwidth-bound'dur
Unified memory	512GB'a kadar	512GB+ üzerine kadar	Maksimum model boyutunu belirler
GPU çekirdekleri	80	~80	Prefill için paralel hesaplama
Neural Accelerator	Yok	GPU çekirdeği başına	3–4 kat daha hızlı ilk token gecikmesi (TTFT)
Üretim süreci	3nm	3nm (N3P)	Daha iyi performans/watt oranı
TDP	~200W	~190W	Sessiz çalışır, 7/24 kullanıma uygundur

Yapay zeka iş yükleri için en büyük iyileştirme: M5, her GPU çekirdeğinin içine bir Neural Accelerator yerleştiriyor. Apple'ın kendi MLX benchmark sonuçları, M4'e kıyasla 3.3–4.1 kat daha hızlı ilk token süresi (TTFT) gösteriyor. Token üretimi yaklaşık %25 iyileşiyor; hala bandwidth-bound olsa da, bandwidth tavanı daha yüksek.

Sık bağlam geçişleri ve uzun sistem prompt'ları içeren agent iş yükleri için bu en önemli unsurdur. Bir M3 Ultra, 120K token'lık bir bağlamı işlemek için yaklaşık 2.3 saniye harcar (prefill benchmark'larından tahmin edilmiştir); M5 Ultra'nın bunu 0.7 saniyenin altında yapması bekleniyor.

512GB Unified Memory Gerçekte Neyi Çalıştırabilir?

Asıl önemli olan tablo budur. Unified memory, GPU ve CPU'nun aynı RAM'i paylaşması demektir; PCIe darboğazı yok, VRAM sınırı yok.

Model	Quantization	Gereken Bellek	M3 Ultra 512GB	M5 Ultra (öngörülen)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Kaynaklar: geerlingguy/ai-benchmarks, Apple MLX Research, HN topluluk benchmark'ları

Bağlam açısından: 20–30 tok/s etkileşimli sohbet için konforludur. 15 tok/s kullanılabilirdir. 5 tok/s altı yavaş hissettirir ancak toplu (batch) görevler için işe yarar.

512GB yapılandırması, DeepSeek R1 671B Q4 (~336GB) çalıştırabileceğiniz ve KV cache ile bağlam için hala ~176GB boş alanınız kalacağı anlamına gelir. Bu, 100K+ token bağlamlı çok turlu konuşmalar için yeterlidir.

Neden NVIDIA Kullanmıyoruz?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Bellek	512GB unified	32GB VRAM	128GB VRAM
Bandwidth	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Belleğe sığar	❌ Sığmaz	❌ Hala sığmaz
Llama 70B hızı	~18 tok/s	~80 tok/s	~240 tok/s
Güç tüketimi	~190W	~450W	~1,800W
Gürültü	Sessiz	Gürültülü	Veri merkezi seviyesi
Fiyat	~$10,000	~$2,000	~$8,000 + anakart

NVIDIA, model VRAM'e sığdığında ham hızda kazanır. Ancak bir model 32GB'ı aştığı anda NVIDIA performansı hızla düşer: sistem RAM'ine offloading yapmak, throughput değerini 100+ tok/s'den ~3 tok/s'ye düşürür. Mac'in unified memory mimarisi sayesinde böyle bir uçurum yoktur. 400GB'lık bir model, 40GB'lık bir modelle aynı bandwidth üzerinde çalışır.

70B altındaki modeller için bir GPU satın alın. 200B üzerindeki modeller için Mac Studio şu anda tek pratik tüketici seçeneğidir.

LemonClaw: Donanımı Bir Yapay Zeka Asistanına Dönüştürmek

Bir modeli yerel olarak çalıştırmak birinci adımdır. Onu 7/24 kullanışlı hale getirmek ise ikinci adımdır.

LemonClaw, açık kaynaklı, self-hosted bir yapay zeka agent platformudur. Mac'inizi, mevcut mesajlaşma uygulamalarınız (Telegram, Slack, Discord, WhatsApp, hatta iMessage) aracılığıyla etkileşim kurduğunuz kalıcı bir yapay zeka asistanına dönüştürür.

Neden LemonClaw + Mac Studio?

Çoğu insan yapay zeka ile bir tarayıcı sekmesi üzerinden etkileşim kurar. LemonClaw bunu mesajlaşma uygulamanıza taşır: asistanınız kendi donanımınızda çalışır, konuşmalar boyunca bağlamınızı hatırlar ve siz uyurken bile çalışmaya devam eder.

LemonClaw Neler Yapar?

Kalıcı bellek: Semantik arama özellikli Markdown tabanlı bellek dosyaları. Asistanınız geçen hafta ne konuştuğunuzu hatırlar.
Çok kanallı gelen kutusu: Telegram, Slack, Discord, WhatsApp veya desteklenen herhangi bir platform üzerinden konuşun. Her cihazda aynı bağlam.
Otonom görevler: Cron job'lar planlayın, webhook'lar kurun, araştırma veya kodlama görevleri üzerinde gece boyunca çalışmasına izin verin.
Tarayıcı otomasyonu: Araştırma, veri çıkarma ve form doldurma için CDP tabanlı web gezintisi.
Yetenek ekosistemi: ClawHub'dan topluluk yeteneklerini yükleyin veya kendinizinkini yazın.
MCP sunucu desteği: Harici araçlara ve API'lere bağlanın.

Yerel Model Avantajı

LemonClaw'u Ollama veya MLX aracılığıyla yerel modellerle bir Mac Studio üzerinde çalıştırdığınızda:

Sıfır API maliyeti. Token başına ücretlendirme yok. DeepSeek R1 671B'yi tüm gün, her gün sadece elektrik maliyetine (~3$/ay) çalıştırın.
Tam gizlilik. Prompt'larınız, belgeleriniz ve kodlarınız asla makinenizden çıkmaz. Hassas sözleşmeleri, tescilli kodları, tıbbi kayıtları üçüncü taraf veri işleme olmadan işleyin.
Rate limit yok. Bulut API'leri sizi dakikada 1.000–10.000 istekle sınırlar. Yerel inference'ın donanımınız dışında bir sınırı yoktur.
Kesinti bağımlılığı yok. OpenAI mı çöktü? Anthropic'te kesinti mi var? Yerel kurulumunuz çalışmaya devam eder.
Düşük gecikme. Ağ gidiş-dönüş süresi yok. Küçük modellerde ilk token milisaniyeler içinde görünür.

Hızlı Kurulum: Mac Studio + Ollama + LemonClaw

# 1. Ollama'yı kurun
brew install ollama

# 2. Bir model çekin (hızlı bir modelle başlayın)
ollama pull qwen3:30b

# 3. LemonClaw'u kurun
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. LemonClaw'u yerel Ollama'yı kullanacak şekilde yapılandırın
# ~/.lemonclaw/config.json dosyasında şunları ayarlayın:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw, macOS üzerinde bir launchd servisi olarak çalışır. Açılışta başlar ve arka planda 7/24 çalışır. Telegram veya Slack'inizi bağlayın ve her zaman erişilebilir, kalıcı bir yapay zeka asistanına sahip olun.

512GB'lık M5 Ultra için daha büyük modellere geçebilirsiniz:

# DeepSeek R1 671B çekin (~336GB RAM gerektirir)
ollama pull deepseek-r1:671b-q4

# Veya multimodal görevler için mükemmel olan Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

Ekonomi: Yerel Ne Zaman Bulutu Geçer?

Gelin hesap yapalım.

Bulut API maliyetleri (yoğun kullanıcı)

Kullanım şekli	Aylık maliyet
Claude Sonnet 4.6 ile LemonClaw (yoğun)	200–400$/ay
Geliştirme + kodlama asistanı	50–100$/ay
Araştırma + belge analizi	50–100$/ay
Toplam	300–600$/ay

Mac Studio M5 Ultra (tek seferlik + işletme)

Kalem	Maliyet
Mac Studio M5 Ultra 512GB (öngörülen)	~10,000$
Elektrik (~200W, 7/24)	~3$/ay
İnternet (zaten var)	0$
400$/ay bulut maliyetine göre amortisman	~25 ay

25 ay sonra, frontier sınıfı yapay zekayı ayda 3 dolara çalıştırıyor olacaksınız. Ve hala diğer her şey için kullanabileceğiniz 10.000 dolarlık bir iş istasyonuna sahipsiniz.

Hibrit Yaklaşım (Önerilen)

Tamamen yerel veya tamamen bulut olmak zorunda değilsiniz. En akıllı kurulum:

Yüksek hacimli, gizlilik gerektiren veya gecikme hassasiyeti olan görevler (kodlama, belge analizi, beyin fırtınası) için yerel modeller.
Yerel olarak çalıştıramayacağınız frontier yetenekler (GPT-5, tam hızda 200K bağlamlı Claude Opus 4.6) için bulut API'leri.

LemonClaw bunu yerel olarak destekler: birden fazla model sağlayıcısı yapılandırın ve konuşma veya görev başına yerel Ollama ile bulut API'leri arasında geçiş yapın.

Bulut API erişimi için LemonData, tek bir API key ile 300'den fazla modele kullandığın kadar öde modeliyle, abonelik veya minimum tutar olmadan erişim sağlar. Yerel modellerin yetmediği durumlarda bulut yedeğiniz olarak kullanın.

Yapılandırma Kılavuzu: Üç Seviye

1. Seviye: Başlangıç (4.000–5.000$)

Mac Studio M3/M5 Ultra 96GB

Çalıştırdıkları: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Hız: 30B modellerde 30–50 tok/s
Şunun için en iyisi: Kişisel asistan, kodlama yardımı, hafif araştırma
LemonClaw yapılandırması: Varsayılan olarak qwen3:30b, karmaşık görevler için bulut yedeği

2. Seviye: İleri Düzey Kullanıcı (7.000–9.000$)

Mac Studio M5 Ultra 256GB

Çalıştırdıkları: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Hız: 200B+ modellerde 15–30 tok/s
Şunun için en iyisi: Profesyonel geliştirme, multimodal görevler, ekip yapay zeka sunucusu
LemonClaw yapılandırması: Vision için qwen3-vl:235b, akıl yürütme için deepseek-r1:70b

3. Seviye: Yapay Zeka İş İstasyonu (10.000–14.000$)

Mac Studio M5 Ultra 512GB

Çalıştırdıkları: DeepSeek R1 671B (Q4) ve altındaki her şey
Hız: 671B'de 25–35 tok/s
Şunun için en iyisi: En büyük açık kaynaklı modelleri çalıştırmak, çok kullanıcılı sunucu, araştırma
LemonClaw yapılandırması: Derin akıl yürütme için deepseek-r1:671b, hızlı görevler için daha küçük modeller

7/24 Yapay Zeka Sunucusu Olarak Çalıştırma

Mac Studio, her zaman açık çalışma için tasarlanmıştır. İşte onu headless bir yapay zeka sunucusu olarak nasıl kuracağınız:

Yerel inference'ın karmaşıklığa değip değmeyeceğine karar veriyorsanız, bu sayfayı self-hosted LemonClaw kılavuzu ve DeepSeek R1 kılavuzu ile birlikte inceleyin. Biri çalışma süresi sorusunu, diğeri model uyumu sorusunu yanıtlar.

Güç ve Termal

190W TDP, standart priz ve özel kablolama gerektirmediği anlamına gelir
Boşta fan sesi duyulmaz, yük altında fısıltı sessizliğindedir
Sürekli iş yüklerinde thermal throttling olmaz (Apple'ın termal tasarımı bunu yönetir)

Uzaktan Erişim

Terminal erişimi için SSH
Her yerden güvenli uzaktan erişim için Tailscale
LemonClaw'un mesajlaşma entegrasyonu, makineye doğrudan erişime ihtiyacınız olmadığı anlamına gelir. Yapay zekanıza Telegram üzerinden mesaj atmanız yeterlidir.

Güvenilirlik

macOS launchd, çökerse LemonClaw'u otomatik olarak yeniden başlatır
Ollama bir arka plan servisi olarak çalışır
Güç kesintileri için UPS önerilir (Mac Studio otomatik olarak açılır ve servisleri devam ettirir)

# SSH'ı etkinleştirin
sudo systemsetup -setremotelogin on

# Uzaktan erişim için Tailscale kurun
brew install tailscale
sudo tailscale up

# LemonClaw, onboarding sonrası zaten launchd servisi olarak çalışır
# Durumu kontrol edin:
launchctl list | grep lemonclaw

Gelecek: M5 Ultra Yol Haritası

M5 Ultra Mac Studio'nun 2026'nın ikinci yarısında çıkması bekleniyor. İşte zaman çizelgesi:

4 Mart 2026: Apple "Experience" etkinliği, M5 Pro/Max MacBook Pro bekleniyor
2026 2. Yarı: M5 Ultra'lı Mac Studio
M3 Ultra'ya göre temel iyileştirmeler: GPU Neural Accelerator'lar (3–4 kat TTFT), daha yüksek bellek bant genişliği (~1.1–1.4 TB/s), aynı veya daha yüksek maksimum bellek

Beklemeli misiniz yoksa Şimdi mi Almalısınız?

Şu durumlarda M3 Ultra 512GB'ı şimdi alın:

Bugün yerel yapay zeka inference'ına ihtiyacınız varsa
Bulut API'lerine ayda 300$+ harcıyorsanız
DeepSeek R1 671B'deki 17–20 tok/s hız kullanım durumunuz için yeterliyse

Şu durumlarda M5 Ultra'yı bekleyin:

6–9 ay daha bulut API'lerine tahammül edebiliyorsanız
3–4 kat TTFT iyileştirmesini istiyorsanız (agent iş yükleri için kritik)
10.000$+ harcamadan önce gerçek benchmark sonuçlarını görmek istiyorsanız

Her iki durumda da, LemonData üzerinden bulut API'lerini kullanarak bugün LemonClaw ile başlayabilirsiniz. Kayıtta 1$ ücretsiz kredi, 300+ model ve sadece kullandığınız kadar ödeme. Mac Studio'nuz geldiğinde, LemonClaw'u yerel Ollama örneğinize yönlendirmeniz yeterlidir; maliyetleriniz neredeyse sıfıra düşer.

Özet (TL;DR)

	Bulut API'leri	Mac Studio M5 Ultra + LemonClaw
Maksimum model boyutu	Sınırsız (sağlayıcı yönetir)	671B Q4 (512GB yapılandırma)
Aylık maliyet	300–600$ (yoğun kullanım)	~3$ elektrik
Gizlilik	Veriler üçüncü taraflara gönderilir	Her şey yerelde kalır
Gecikme	200–500ms ağ + inference	Sadece inference
Rate limitler	Evet	Hayır
Ön maliyet	0$	~10,000$
Amortisman	—	~25 ay

Mac Studio M5 Ultra, kişisel bir yapay zeka altyapısıdır. Onu LemonClaw ile eşleştirin ve frontier sınıfı modelleri çalıştıran, gizliliğinize saygı duyan ve işletme maliyeti ayda 3 dolar olan 7/24 bir yapay zeka asistanına sahip olun.

"Yerel yapay zeka bir oyuncaktır" dönemi sona erdi. 1.2+ TB/s bant genişliğinde 512GB unified memory, bulut tekliflerine rakip modelleri çalıştırabileceğiniz anlamına gelir. Tek soru, kendi yapay zeka stack'inize sahip olmaya hazır olup olmadığınızdır.

Yapay zeka altyapınızı kurmaya başlamaya hazır mısınız? LemonData ile LemonClaw'u deneyin: 1$ ücretsiz kredi ile 300'den fazla bulut modeli. Mac Studio'nuz geldiğinde, sıfır kod değişikliği ile yerel modellere geçin.

Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve LemonClaw ile Kendi AI Altyapınızı Kurun