Pengaturan

Bahasa

Mac Studio M5 Ultra: Jalankan Model 671B secara Lokal dan Bangun Infrastruktur AI Anda Sendiri dengan LemonClaw

L
LemonData
ยท8 April 2026ยท145 tampilan
Mac Studio M5 Ultra: Jalankan Model 671B secara Lokal dan Bangun Infrastruktur AI Anda Sendiri dengan LemonClaw

Perangkat keras konsumen pertama yang memuat parameter penuh 671B DeepSeek R1 di dalam memori, dan apa yang sebenarnya bisa Anda lakukan dengannya.


Mac Studio M5 Ultra dengan unified memory 512GB adalah mesin kelas konsumen pertama yang dapat menjalankan DeepSeek R1 671B (model open-source terbesar) sepenuhnya di RAM. Tanpa offloading, tanpa rig multi-GPU, tanpa pendingin air. Hanya sebuah kotak yang duduk di meja Anda dan mengonsumsi daya lebih sedikit daripada pengering rambut.

Ini mengubah perhitungan pada AI lokal. Ketika Anda dapat menjalankan model kelas frontier di rumah, pertanyaannya bergeser dari "bisakah saya?" menjadi "haruskah saya?" Bagi semakin banyak developer, jawabannya adalah ya.

Di bawah ini: apa yang ditawarkan M5 Ultra untuk inferensi LLM, cara memasangkannya dengan LemonClaw untuk asisten AI pribadi 24/7, dan kapan ini masuk akal secara finansial dibandingkan cloud API.


Apa yang Ditawarkan M5 Ultra

M5 Ultra adalah dua chip M5 Max yang digabungkan melalui interkoneksi UltraFusion Apple. Inilah yang penting untuk inferensi LLM:

Spek M3 Ultra M5 Ultra (proyeksi) Mengapa ini penting
Bandwidth memori 819 GB/s ~1.100โ€“1.400 GB/s Kecepatan pembuatan token dibatasi oleh bandwidth
Unified memory Hingga 512GB Hingga 512GB+ Menentukan ukuran model maksimal
Core GPU 80 ~80 Komputasi paralel untuk prefill
Neural Accelerator Tidak ada Per-core-GPU Latensi token pertama 3โ€“4x lebih cepat
Node proses 3nm 3nm (N3P) Performa/watt lebih baik
TDP ~200W ~190W Berjalan senyap, mampu beroperasi 24/7

Peningkatan tunggal terbesar untuk beban kerja AI: M5 menanamkan Neural Accelerator di dalam setiap core GPU. Benchmark MLX milik Apple sendiri menunjukkan time-to-first-token (TTFT) 3,3โ€“4,1x lebih cepat dibandingkan M4. Pembuatan token meningkat ~25%, masih dibatasi bandwidth, tetapi batas atas bandwidth-nya lebih tinggi.

Untuk beban kerja agen yang melibatkan perpindahan konteks yang sering dan system prompt yang panjang, hal ini sangat penting. M3 Ultra membutuhkan waktu ~2,3 detik untuk memproses konteks 120K token (diperkirakan dari benchmark prefill); M5 Ultra seharusnya dapat melakukannya dalam waktu kurang dari 0,7 detik.


Apa yang Sebenarnya Bisa Dijalankan oleh Unified Memory 512GB?

Inilah tabel yang penting. Unified memory berarti GPU dan CPU berbagi RAM yang sama, tanpa bottleneck PCIe, tanpa batasan VRAM.

Model Kuantisasi Memori yang dibutuhkan M3 Ultra 512GB M5 Ultra (proyeksi)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17โ€“20 tok/s ~25โ€“35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3โ€“5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40โ€“55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20โ€“28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

Sumber: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmark komunitas HN

Sebagai konteks: 20โ€“30 tok/s nyaman untuk chat interaktif. 15 tok/s masih bisa digunakan. Di bawah 5 tok/s terasa lambat tetapi berfungsi untuk tugas batch.

Konfigurasi 512GB berarti Anda dapat menjalankan DeepSeek R1 671B Q4 (~336GB) dan masih memiliki sisa ~176GB untuk KV cache dan konteks. Itu cukup untuk percakapan multi-turn dengan konteks 100K+ token.

Mengapa Tidak Menggunakan NVIDIA Saja?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
Memori 512GB unified 32GB VRAM 128GB VRAM
Bandwidth ~1.200 GB/s 1.792 GB/s 7.168 GB/s
DeepSeek R1 671B โœ… Berjalan di memori โŒ Tidak muat โŒ Masih tidak muat
Kecepatan Llama 70B ~18 tok/s ~80 tok/s ~240 tok/s
Konsumsi daya ~190W ~450W ~1.800W
Kebisingan Senyap Berisik Pusat data
Harga ~$10.000 ~$2.000 ~$8.000 + motherboard

NVIDIA menang dalam kecepatan murni saat model muat di VRAM. Namun saat model melebihi 32GB, NVIDIA tertinggal jauh: offloading ke RAM sistem menurunkan throughput dari 100+ tok/s menjadi ~3 tok/s. Arsitektur unified memory Mac berarti tidak ada penurunan drastis tersebut. Model 400GB berjalan pada bandwidth yang sama dengan model 40GB.

Untuk model di bawah 70B, belilah GPU. Untuk model di atas 200B, Mac Studio saat ini merupakan satu-satunya pilihan praktis bagi konsumen.


Masuk ke LemonClaw: Mengubah Perangkat Keras menjadi Asisten AI

Menjalankan model secara lokal adalah langkah pertama. Menjadikannya berguna 24/7 adalah langkah kedua.

LemonClaw adalah platform agen AI open-source yang di-host sendiri. Ini mengubah Mac Anda menjadi asisten AI persisten yang berinteraksi dengan Anda melalui aplikasi perpesanan yang sudah ada โ€” Telegram, Slack, Discord, WhatsApp, bahkan iMessage.

Mengapa LemonClaw + Mac Studio?

Kebanyakan orang berinteraksi dengan AI melalui tab browser. LemonClaw menempatkannya di aplikasi perpesanan Anda: asisten Anda berjalan di perangkat keras Anda, mengingat konteks Anda di berbagai percakapan, dan bekerja saat Anda tidur.

Apa yang Dilakukan LemonClaw

  • Memori persisten: File memori berbasis Markdown dengan pencarian semantik. Asisten Anda mengingat apa yang Anda diskusikan minggu lalu.
  • Kotak masuk multi-saluran: Bicara dengannya via Telegram, Slack, Discord, WhatsApp, atau platform apa pun yang didukung. Konteks yang sama, di perangkat apa pun.
  • Tugas otonom: Jadwalkan cron jobs, atur webhooks, biarkan ia bekerja semalaman untuk tugas riset atau kode.
  • Otomatisasi browser: Penjelajahan web berbasis CDP untuk riset, ekstraksi data, pengisian formulir.
  • Ekosistem skill: Instal skill komunitas dari ClawHub, atau tulis skill Anda sendiri.
  • Dukungan server MCP: Terhubung ke alat dan API eksternal.

Keuntungan Model Lokal

Saat Anda menjalankan LemonClaw di Mac Studio dengan model lokal melalui Ollama atau MLX:

  1. Biaya API nol. Tidak ada penagihan per-token. Jalankan DeepSeek R1 671B sepanjang hari, setiap hari, seharga biaya listrik (~$3/bulan).
  2. Privasi penuh. Prompt, dokumen, dan kode Anda tidak pernah meninggalkan mesin Anda. Proses kontrak sensitif, kode kepemilikan, catatan medis, tanpa pemrosesan data pihak ketiga.
  3. Tanpa batasan rate limit. Cloud API membatasi Anda pada 1.000โ€“10.000 permintaan/menit. Inferensi lokal tidak memiliki batasan selain perangkat keras Anda.
  4. Tidak bergantung pada downtime. OpenAI sedang down? Anthropic mengalami gangguan? Pengaturan lokal Anda tetap berjalan.
  5. Latensi. Tidak ada perjalanan pulang-pergi jaringan. Token pertama muncul dalam milidetik untuk model kecil.

Pengaturan Cepat: Mac Studio + Ollama + LemonClaw

# 1. Instal Ollama
brew install ollama

# 2. Tarik model (mulai dengan yang cepat)
ollama pull qwen3:30b

# 3. Instal LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Konfigurasi LemonClaw untuk menggunakan Ollama lokal
# Di ~/.lemonclaw/config.json, atur:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw berjalan sebagai layanan launchd di macOS. Ia mulai saat booting dan berjalan 24/7 di latar belakang. Hubungkan Telegram atau Slack Anda, dan Anda memiliki asisten AI persisten yang selalu tersedia.

Untuk M5 Ultra dengan 512GB, Anda bisa menggunakan yang lebih besar:

# Tarik DeepSeek R1 671B (membutuhkan ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# Atau Qwen3-VL 235B yang luar biasa untuk tugas multimodal
ollama pull qwen3-vl:235b-q4

Ekonomi: Kapan Lokal Mengalahkan Cloud?

Mari kita hitung.

Biaya Cloud API (pengguna berat)

Pola penggunaan Biaya bulanan
LemonClaw dengan Claude Sonnet 4.6 (berat) $200โ€“400/bulan
Asisten pengembangan + coding $50โ€“100/bulan
Riset + analisis dokumen $50โ€“100/bulan
Total $300โ€“600/bulan

Mac Studio M5 Ultra (sekali bayar + operasional)

Item Biaya
Mac Studio M5 Ultra 512GB (proyeksi) ~$10.000
Listrik (~200W, 24/7) ~$3/bulan
Internet (sudah ada) $0
Titik impas vs cloud $400/bulan ~25 bulan

Setelah 25 bulan, Anda menjalankan AI kelas frontier seharga $3/bulan. Dan Anda masih memiliki workstation seharga $10.000 untuk hal lainnya.

Pendekatan Hibrida (Direkomendasikan)

Anda tidak harus memilih antara sepenuhnya lokal atau sepenuhnya cloud. Pengaturan paling cerdas:

  • Model lokal untuk tugas bervolume tinggi, sensitif terhadap privasi, atau kritis terhadap latensi (coding, analisis dokumen, brainstorming)
  • Cloud API untuk kemampuan frontier yang tidak dapat Anda jalankan secara lokal (GPT-5, Claude Opus 4.6 dengan konteks 200K pada kecepatan penuh)

LemonClaw mendukung hal ini secara native: konfigurasikan beberapa penyedia model dan beralihlah antara Ollama lokal dan cloud API per percakapan atau per tugas.

Dan untuk akses cloud API, LemonData memberi Anda 300+ model melalui satu API key dengan harga pay-as-you-go, tanpa langganan, tanpa minimum. Gunakan sebagai cadangan cloud Anda saat model lokal tidak mencukupi.


Panduan Konfigurasi: Tiga Tingkatan

Tingkat 1: Pemula ($4.000โ€“5.000)

Mac Studio M3/M5 Ultra 96GB

  • Menjalankan: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • Kecepatan: 30โ€“50 tok/s pada model 30B
  • Terbaik untuk: Asisten pribadi, bantuan coding, riset ringan
  • Konfigurasi LemonClaw: qwen3:30b sebagai default, cadangan cloud untuk tugas kompleks

Tingkat 2: Pengguna Power ($7.000โ€“9.000)

Mac Studio M5 Ultra 256GB

  • Menjalankan: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • Kecepatan: 15โ€“30 tok/s pada model 200B+
  • Terbaik untuk: Pengembangan profesional, tugas multimodal, server AI tim
  • Konfigurasi LemonClaw: qwen3-vl:235b untuk visi, deepseek-r1:70b untuk penalaran

Tingkat 3: Workstation AI ($10.000โ€“14.000)

Mac Studio M5 Ultra 512GB

  • Menjalankan: DeepSeek R1 671B (Q4), dan semua yang di bawahnya
  • Kecepatan: 25โ€“35 tok/s pada 671B
  • Terbaik untuk: Menjalankan model open-source terbesar, server multi-pengguna, riset
  • Konfigurasi LemonClaw: deepseek-r1:671b untuk penalaran mendalam, model yang lebih kecil untuk tugas cepat

Menjalankannya sebagai Server AI 24/7

Mac Studio dirancang untuk operasi yang selalu menyala. Inilah cara mengaturnya sebagai server AI headless:

Jika Anda sedang memutuskan apakah inferensi lokal sepadan dengan kerumitannya, pasangkan halaman ini dengan panduan LemonClaw yang di-host sendiri dan panduan DeepSeek R1. Yang satu menjawab pertanyaan runtime. Yang lainnya menjawab pertanyaan kesesuaian model.

Daya & Termal

  • TDP 190W berarti stopkontak standar, tidak perlu kabel khusus
  • Tanpa kipas saat idle, sangat senyap di bawah beban
  • Tidak ada thermal throttling dalam beban kerja berkelanjutan (desain termal Apple menanganinya)

Akses Jarak Jauh

  • SSH untuk akses terminal
  • Tailscale untuk akses jarak jauh yang aman dari mana saja
  • Integrasi perpesanan LemonClaw berarti Anda tidak memerlukan akses mesin langsung. Cukup kirim pesan ke AI Anda melalui Telegram.

Keandalan

  • macOS launchd secara otomatis memulai ulang LemonClaw jika terjadi crash
  • Ollama berjalan sebagai layanan latar belakang
  • UPS direkomendasikan untuk pemadaman listrik (Mac Studio akan booting dan melanjutkan layanan secara otomatis)
# Aktifkan SSH
sudo systemsetup -setremotelogin on

# Instal Tailscale untuk akses jarak jauh
brew install tailscale
sudo tailscale up

# LemonClaw sudah berjalan sebagai layanan launchd setelah onboarding
# Periksa status:
launchctl list | grep lemonclaw

Apa yang Akan Datang: Roadmap M5 Ultra

Mac Studio M5 Ultra diharapkan hadir pada paruh kedua tahun 2026. Inilah linimasanya:

  • 4 Maret 2026: Acara "Experience" Apple, M5 Pro/Max MacBook Pro diharapkan hadir
  • H2 2026: Mac Studio dengan M5 Ultra
  • Peningkatan utama dibanding M3 Ultra: GPU Neural Accelerator (3โ€“4x TTFT), bandwidth memori lebih tinggi (~1,1โ€“1,4 TB/s), memori maksimal yang sama atau lebih tinggi

Haruskah Anda Menunggu atau Membeli Sekarang?

Beli M3 Ultra 512GB sekarang jika:

  • Anda membutuhkan inferensi AI lokal hari ini
  • Anda menghabiskan $300+/bulan untuk cloud API
  • Kecepatan 17โ€“20 tok/s pada DeepSeek R1 671B sudah cukup cepat untuk kebutuhan Anda

Tunggu M5 Ultra jika:

  • Anda bisa menoleransi cloud API selama 6โ€“9 bulan lagi
  • Anda menginginkan peningkatan TTFT 3โ€“4x (penting untuk beban kerja agen)
  • Anda ingin melihat benchmark aktual sebelum mengeluarkan $10K+

Apa pun pilihannya, Anda dapat mulai dengan LemonClaw hari ini menggunakan cloud API melalui LemonData. Kredit gratis $1 saat pendaftaran, 300+ model, bayar hanya untuk yang Anda gunakan. Saat Mac Studio Anda tiba, cukup arahkan LemonClaw ke instance Ollama lokal Anda dan biaya Anda akan turun hingga mendekati nol.


TL;DR

Cloud API Mac Studio M5 Ultra + LemonClaw
Ukuran model maks Tidak terbatas (ditangani penyedia) 671B Q4 (konfigurasi 512GB)
Biaya bulanan $300โ€“600 (penggunaan berat) ~$3 listrik
Privasi Data dikirim ke pihak ketiga Semuanya tetap lokal
Latensi 200โ€“500ms jaringan + inferensi Hanya inferensi
Batasan rate limit Ya Tidak
Biaya awal $0 ~$10.000
Titik impas โ€” ~25 bulan

Mac Studio M5 Ultra adalah infrastruktur AI pribadi. Pasangkan dengan LemonClaw, dan Anda memiliki asisten AI 24/7 yang menjalankan model kelas frontier, menghormati privasi Anda, dan hanya memakan biaya operasional $3/bulan.

Era "AI lokal adalah mainan" telah berakhir. Unified memory 512GB pada bandwidth 1,2+ TB/s berarti Anda dapat menjalankan model yang menyaingi penawaran cloud. Satu-satunya pertanyaan adalah apakah Anda siap untuk memiliki stack AI Anda sendiri.


Siap untuk mulai membangun infrastruktur AI Anda? Coba LemonClaw dengan LemonData: 300+ model cloud dengan kredit gratis $1. Saat Mac Studio Anda tiba, beralihlah ke model lokal tanpa perubahan kode.

Share: