Ayarlar

Dil

Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve LemonClaw ile Kendi AI Altyapınızı Kurun

L
LemonData
·8 Nisan 2026·136 görüntüleme
Mac Studio M5 Ultra: 671B Modellerini Yerel Olarak Çalıştırın ve LemonClaw ile Kendi AI Altyapınızı Kurun

DeepSeek R1'in tam 671B parametresini belleğe sığdıran ilk tüketici donanımı ve onunla gerçekte neler yapabileceğiniz.


512GB unified memory kapasitesine sahip Mac Studio M5 Ultra, DeepSeek R1 671B'yi (en büyük açık kaynaklı model) tamamen RAM üzerinde çalıştırabilen ilk tüketici sınıfı makinedir. Offloading yok, çoklu GPU kurulumları yok, sıvı soğutma yok. Sadece masanızda duran ve bir saç kurutma makinesinden daha az güç tüketen bir kutu.

Bu durum, yerel yapay zeka konusundaki hesaplamaları değiştiriyor. Frontier sınıfı modelleri evde çalıştırabildiğinizde, soru "yapabilir miyim?"den "yapmalı mıyım?"a dönüşüyor. Giderek artan sayıda geliştirici için cevap: evet.

Aşağıda: M5 Ultra'nın LLM inference için neler sunduğu, 7/24 kişisel bir yapay zeka asistanı için LemonClaw ile nasıl eşleştirileceği ve bulut API'lerine kıyasla ne zaman finansal olarak mantıklı olduğu yer almaktadır.


M5 Ultra Neler Sunuyor?

M5 Ultra, Apple'ın UltraFusion bağlantısı aracılığıyla birleştirilmiş iki M5 Max çipinden oluşur. LLM inference için önemli olan noktalar şunlardır:

Özellik M3 Ultra M5 Ultra (öngörülen) Neden önemli
Memory bandwidth 819 GB/s ~1,100–1,400 GB/s Token oluşturma hızı bandwidth-bound'dur
Unified memory 512GB'a kadar 512GB+ üzerine kadar Maksimum model boyutunu belirler
GPU çekirdekleri 80 ~80 Prefill için paralel hesaplama
Neural Accelerator Yok GPU çekirdeği başına 3–4 kat daha hızlı ilk token gecikmesi (TTFT)
Üretim süreci 3nm 3nm (N3P) Daha iyi performans/watt oranı
TDP ~200W ~190W Sessiz çalışır, 7/24 kullanıma uygundur

Yapay zeka iş yükleri için en büyük iyileştirme: M5, her GPU çekirdeğinin içine bir Neural Accelerator yerleştiriyor. Apple'ın kendi MLX benchmark sonuçları, M4'e kıyasla 3.3–4.1 kat daha hızlı ilk token süresi (TTFT) gösteriyor. Token üretimi yaklaşık %25 iyileşiyor; hala bandwidth-bound olsa da, bandwidth tavanı daha yüksek.

Sık bağlam geçişleri ve uzun sistem prompt'ları içeren agent iş yükleri için bu en önemli unsurdur. Bir M3 Ultra, 120K token'lık bir bağlamı işlemek için yaklaşık 2.3 saniye harcar (prefill benchmark'larından tahmin edilmiştir); M5 Ultra'nın bunu 0.7 saniyenin altında yapması bekleniyor.


512GB Unified Memory Gerçekte Neyi Çalıştırabilir?

Asıl önemli olan tablo budur. Unified memory, GPU ve CPU'nun aynı RAM'i paylaşması demektir; PCIe darboğazı yok, VRAM sınırı yok.

Model Quantization Gereken Bellek M3 Ultra 512GB M5 Ultra (öngörülen)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

Kaynaklar: geerlingguy/ai-benchmarks, Apple MLX Research, HN topluluk benchmark'ları

Bağlam açısından: 20–30 tok/s etkileşimli sohbet için konforludur. 15 tok/s kullanılabilirdir. 5 tok/s altı yavaş hissettirir ancak toplu (batch) görevler için işe yarar.

512GB yapılandırması, DeepSeek R1 671B Q4 (~336GB) çalıştırabileceğiniz ve KV cache ile bağlam için hala ~176GB boş alanınız kalacağı anlamına gelir. Bu, 100K+ token bağlamlı çok turlu konuşmalar için yeterlidir.

Neden NVIDIA Kullanmıyoruz?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
Bellek 512GB unified 32GB VRAM 128GB VRAM
Bandwidth ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ Belleğe sığar ❌ Sığmaz ❌ Hala sığmaz
Llama 70B hızı ~18 tok/s ~80 tok/s ~240 tok/s
Güç tüketimi ~190W ~450W ~1,800W
Gürültü Sessiz Gürültülü Veri merkezi seviyesi
Fiyat ~$10,000 ~$2,000 ~$8,000 + anakart

NVIDIA, model VRAM'e sığdığında ham hızda kazanır. Ancak bir model 32GB'ı aştığı anda NVIDIA performansı hızla düşer: sistem RAM'ine offloading yapmak, throughput değerini 100+ tok/s'den ~3 tok/s'ye düşürür. Mac'in unified memory mimarisi sayesinde böyle bir uçurum yoktur. 400GB'lık bir model, 40GB'lık bir modelle aynı bandwidth üzerinde çalışır.

70B altındaki modeller için bir GPU satın alın. 200B üzerindeki modeller için Mac Studio şu anda tek pratik tüketici seçeneğidir.


LemonClaw: Donanımı Bir Yapay Zeka Asistanına Dönüştürmek

Bir modeli yerel olarak çalıştırmak birinci adımdır. Onu 7/24 kullanışlı hale getirmek ise ikinci adımdır.

LemonClaw, açık kaynaklı, self-hosted bir yapay zeka agent platformudur. Mac'inizi, mevcut mesajlaşma uygulamalarınız (Telegram, Slack, Discord, WhatsApp, hatta iMessage) aracılığıyla etkileşim kurduğunuz kalıcı bir yapay zeka asistanına dönüştürür.

Neden LemonClaw + Mac Studio?

Çoğu insan yapay zeka ile bir tarayıcı sekmesi üzerinden etkileşim kurar. LemonClaw bunu mesajlaşma uygulamanıza taşır: asistanınız kendi donanımınızda çalışır, konuşmalar boyunca bağlamınızı hatırlar ve siz uyurken bile çalışmaya devam eder.

LemonClaw Neler Yapar?

  • Kalıcı bellek: Semantik arama özellikli Markdown tabanlı bellek dosyaları. Asistanınız geçen hafta ne konuştuğunuzu hatırlar.
  • Çok kanallı gelen kutusu: Telegram, Slack, Discord, WhatsApp veya desteklenen herhangi bir platform üzerinden konuşun. Her cihazda aynı bağlam.
  • Otonom görevler: Cron job'lar planlayın, webhook'lar kurun, araştırma veya kodlama görevleri üzerinde gece boyunca çalışmasına izin verin.
  • Tarayıcı otomasyonu: Araştırma, veri çıkarma ve form doldurma için CDP tabanlı web gezintisi.
  • Yetenek ekosistemi: ClawHub'dan topluluk yeteneklerini yükleyin veya kendinizinkini yazın.
  • MCP sunucu desteği: Harici araçlara ve API'lere bağlanın.

Yerel Model Avantajı

LemonClaw'u Ollama veya MLX aracılığıyla yerel modellerle bir Mac Studio üzerinde çalıştırdığınızda:

  1. Sıfır API maliyeti. Token başına ücretlendirme yok. DeepSeek R1 671B'yi tüm gün, her gün sadece elektrik maliyetine (~3$/ay) çalıştırın.
  2. Tam gizlilik. Prompt'larınız, belgeleriniz ve kodlarınız asla makinenizden çıkmaz. Hassas sözleşmeleri, tescilli kodları, tıbbi kayıtları üçüncü taraf veri işleme olmadan işleyin.
  3. Rate limit yok. Bulut API'leri sizi dakikada 1.000–10.000 istekle sınırlar. Yerel inference'ın donanımınız dışında bir sınırı yoktur.
  4. Kesinti bağımlılığı yok. OpenAI mı çöktü? Anthropic'te kesinti mi var? Yerel kurulumunuz çalışmaya devam eder.
  5. Düşük gecikme. Ağ gidiş-dönüş süresi yok. Küçük modellerde ilk token milisaniyeler içinde görünür.

Hızlı Kurulum: Mac Studio + Ollama + LemonClaw

# 1. Ollama'yı kurun
brew install ollama

# 2. Bir model çekin (hızlı bir modelle başlayın)
ollama pull qwen3:30b

# 3. LemonClaw'u kurun
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. LemonClaw'u yerel Ollama'yı kullanacak şekilde yapılandırın
# ~/.lemonclaw/config.json dosyasında şunları ayarlayın:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw, macOS üzerinde bir launchd servisi olarak çalışır. Açılışta başlar ve arka planda 7/24 çalışır. Telegram veya Slack'inizi bağlayın ve her zaman erişilebilir, kalıcı bir yapay zeka asistanına sahip olun.

512GB'lık M5 Ultra için daha büyük modellere geçebilirsiniz:

# DeepSeek R1 671B çekin (~336GB RAM gerektirir)
ollama pull deepseek-r1:671b-q4

# Veya multimodal görevler için mükemmel olan Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

Ekonomi: Yerel Ne Zaman Bulutu Geçer?

Gelin hesap yapalım.

Bulut API maliyetleri (yoğun kullanıcı)

Kullanım şekli Aylık maliyet
Claude Sonnet 4.6 ile LemonClaw (yoğun) 200–400$/ay
Geliştirme + kodlama asistanı 50–100$/ay
Araştırma + belge analizi 50–100$/ay
Toplam 300–600$/ay

Mac Studio M5 Ultra (tek seferlik + işletme)

Kalem Maliyet
Mac Studio M5 Ultra 512GB (öngörülen) ~10,000$
Elektrik (~200W, 7/24) ~3$/ay
İnternet (zaten var) 0$
400$/ay bulut maliyetine göre amortisman ~25 ay

25 ay sonra, frontier sınıfı yapay zekayı ayda 3 dolara çalıştırıyor olacaksınız. Ve hala diğer her şey için kullanabileceğiniz 10.000 dolarlık bir iş istasyonuna sahipsiniz.

Hibrit Yaklaşım (Önerilen)

Tamamen yerel veya tamamen bulut olmak zorunda değilsiniz. En akıllı kurulum:

  • Yüksek hacimli, gizlilik gerektiren veya gecikme hassasiyeti olan görevler (kodlama, belge analizi, beyin fırtınası) için yerel modeller.
  • Yerel olarak çalıştıramayacağınız frontier yetenekler (GPT-5, tam hızda 200K bağlamlı Claude Opus 4.6) için bulut API'leri.

LemonClaw bunu yerel olarak destekler: birden fazla model sağlayıcısı yapılandırın ve konuşma veya görev başına yerel Ollama ile bulut API'leri arasında geçiş yapın.

Bulut API erişimi için LemonData, tek bir API key ile 300'den fazla modele kullandığın kadar öde modeliyle, abonelik veya minimum tutar olmadan erişim sağlar. Yerel modellerin yetmediği durumlarda bulut yedeğiniz olarak kullanın.


Yapılandırma Kılavuzu: Üç Seviye

1. Seviye: Başlangıç (4.000–5.000$)

Mac Studio M3/M5 Ultra 96GB

  • Çalıştırdıkları: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • Hız: 30B modellerde 30–50 tok/s
  • Şunun için en iyisi: Kişisel asistan, kodlama yardımı, hafif araştırma
  • LemonClaw yapılandırması: Varsayılan olarak qwen3:30b, karmaşık görevler için bulut yedeği

2. Seviye: İleri Düzey Kullanıcı (7.000–9.000$)

Mac Studio M5 Ultra 256GB

  • Çalıştırdıkları: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • Hız: 200B+ modellerde 15–30 tok/s
  • Şunun için en iyisi: Profesyonel geliştirme, multimodal görevler, ekip yapay zeka sunucusu
  • LemonClaw yapılandırması: Vision için qwen3-vl:235b, akıl yürütme için deepseek-r1:70b

3. Seviye: Yapay Zeka İş İstasyonu (10.000–14.000$)

Mac Studio M5 Ultra 512GB

  • Çalıştırdıkları: DeepSeek R1 671B (Q4) ve altındaki her şey
  • Hız: 671B'de 25–35 tok/s
  • Şunun için en iyisi: En büyük açık kaynaklı modelleri çalıştırmak, çok kullanıcılı sunucu, araştırma
  • LemonClaw yapılandırması: Derin akıl yürütme için deepseek-r1:671b, hızlı görevler için daha küçük modeller

7/24 Yapay Zeka Sunucusu Olarak Çalıştırma

Mac Studio, her zaman açık çalışma için tasarlanmıştır. İşte onu headless bir yapay zeka sunucusu olarak nasıl kuracağınız:

Yerel inference'ın karmaşıklığa değip değmeyeceğine karar veriyorsanız, bu sayfayı self-hosted LemonClaw kılavuzu ve DeepSeek R1 kılavuzu ile birlikte inceleyin. Biri çalışma süresi sorusunu, diğeri model uyumu sorusunu yanıtlar.

Güç ve Termal

  • 190W TDP, standart priz ve özel kablolama gerektirmediği anlamına gelir
  • Boşta fan sesi duyulmaz, yük altında fısıltı sessizliğindedir
  • Sürekli iş yüklerinde thermal throttling olmaz (Apple'ın termal tasarımı bunu yönetir)

Uzaktan Erişim

  • Terminal erişimi için SSH
  • Her yerden güvenli uzaktan erişim için Tailscale
  • LemonClaw'un mesajlaşma entegrasyonu, makineye doğrudan erişime ihtiyacınız olmadığı anlamına gelir. Yapay zekanıza Telegram üzerinden mesaj atmanız yeterlidir.

Güvenilirlik

  • macOS launchd, çökerse LemonClaw'u otomatik olarak yeniden başlatır
  • Ollama bir arka plan servisi olarak çalışır
  • Güç kesintileri için UPS önerilir (Mac Studio otomatik olarak açılır ve servisleri devam ettirir)
# SSH'ı etkinleştirin
sudo systemsetup -setremotelogin on

# Uzaktan erişim için Tailscale kurun
brew install tailscale
sudo tailscale up

# LemonClaw, onboarding sonrası zaten launchd servisi olarak çalışır
# Durumu kontrol edin:
launchctl list | grep lemonclaw

Gelecek: M5 Ultra Yol Haritası

M5 Ultra Mac Studio'nun 2026'nın ikinci yarısında çıkması bekleniyor. İşte zaman çizelgesi:

  • 4 Mart 2026: Apple "Experience" etkinliği, M5 Pro/Max MacBook Pro bekleniyor
  • 2026 2. Yarı: M5 Ultra'lı Mac Studio
  • M3 Ultra'ya göre temel iyileştirmeler: GPU Neural Accelerator'lar (3–4 kat TTFT), daha yüksek bellek bant genişliği (~1.1–1.4 TB/s), aynı veya daha yüksek maksimum bellek

Beklemeli misiniz yoksa Şimdi mi Almalısınız?

Şu durumlarda M3 Ultra 512GB'ı şimdi alın:

  • Bugün yerel yapay zeka inference'ına ihtiyacınız varsa
  • Bulut API'lerine ayda 300$+ harcıyorsanız
  • DeepSeek R1 671B'deki 17–20 tok/s hız kullanım durumunuz için yeterliyse

Şu durumlarda M5 Ultra'yı bekleyin:

  • 6–9 ay daha bulut API'lerine tahammül edebiliyorsanız
  • 3–4 kat TTFT iyileştirmesini istiyorsanız (agent iş yükleri için kritik)
  • 10.000$+ harcamadan önce gerçek benchmark sonuçlarını görmek istiyorsanız

Her iki durumda da, LemonData üzerinden bulut API'lerini kullanarak bugün LemonClaw ile başlayabilirsiniz. Kayıtta 1$ ücretsiz kredi, 300+ model ve sadece kullandığınız kadar ödeme. Mac Studio'nuz geldiğinde, LemonClaw'u yerel Ollama örneğinize yönlendirmeniz yeterlidir; maliyetleriniz neredeyse sıfıra düşer.


Özet (TL;DR)

Bulut API'leri Mac Studio M5 Ultra + LemonClaw
Maksimum model boyutu Sınırsız (sağlayıcı yönetir) 671B Q4 (512GB yapılandırma)
Aylık maliyet 300–600$ (yoğun kullanım) ~3$ elektrik
Gizlilik Veriler üçüncü taraflara gönderilir Her şey yerelde kalır
Gecikme 200–500ms ağ + inference Sadece inference
Rate limitler Evet Hayır
Ön maliyet 0$ ~10,000$
Amortisman ~25 ay

Mac Studio M5 Ultra, kişisel bir yapay zeka altyapısıdır. Onu LemonClaw ile eşleştirin ve frontier sınıfı modelleri çalıştıran, gizliliğinize saygı duyan ve işletme maliyeti ayda 3 dolar olan 7/24 bir yapay zeka asistanına sahip olun.

"Yerel yapay zeka bir oyuncaktır" dönemi sona erdi. 1.2+ TB/s bant genişliğinde 512GB unified memory, bulut tekliflerine rakip modelleri çalıştırabileceğiniz anlamına gelir. Tek soru, kendi yapay zeka stack'inize sahip olmaya hazır olup olmadığınızdır.


Yapay zeka altyapınızı kurmaya başlamaya hazır mısınız? LemonData ile LemonClaw'u deneyin: 1$ ücretsiz kredi ile 300'den fazla bulut modeli. Mac Studio'nuz geldiğinde, sıfır kod değişikliği ile yerel modellere geçin.

Share: