Mac Studio M5 Ultra: Jalankan Model 671B secara Lokal dan Bangun Infrastruktur AI Anda Sendiri dengan LemonClaw

Perangkat keras konsumen pertama yang memuat parameter penuh 671B DeepSeek R1 di dalam memori, dan apa yang sebenarnya bisa Anda lakukan dengannya.

Mac Studio M5 Ultra dengan unified memory 512GB adalah mesin kelas konsumen pertama yang dapat menjalankan DeepSeek R1 671B (model open-source terbesar) sepenuhnya di RAM. Tanpa offloading, tanpa rig multi-GPU, tanpa pendingin air. Hanya sebuah kotak yang duduk di meja Anda dan mengonsumsi daya lebih sedikit daripada pengering rambut.

Ini mengubah perhitungan pada AI lokal. Ketika Anda dapat menjalankan model kelas frontier di rumah, pertanyaannya bergeser dari "bisakah saya?" menjadi "haruskah saya?" Bagi semakin banyak developer, jawabannya adalah ya.

Di bawah ini: apa yang ditawarkan M5 Ultra untuk inferensi LLM, cara memasangkannya dengan LemonClaw untuk asisten AI pribadi 24/7, dan kapan ini masuk akal secara finansial dibandingkan cloud API.

Apa yang Ditawarkan M5 Ultra

M5 Ultra adalah dua chip M5 Max yang digabungkan melalui interkoneksi UltraFusion Apple. Inilah yang penting untuk inferensi LLM:

Spek	M3 Ultra	M5 Ultra (proyeksi)	Mengapa ini penting
Bandwidth memori	819 GB/s	~1.100–1.400 GB/s	Kecepatan pembuatan token dibatasi oleh bandwidth
Unified memory	Hingga 512GB	Hingga 512GB+	Menentukan ukuran model maksimal
Core GPU	80	~80	Komputasi paralel untuk prefill
Neural Accelerator	Tidak ada	Per-core-GPU	Latensi token pertama 3–4x lebih cepat
Node proses	3nm	3nm (N3P)	Performa/watt lebih baik
TDP	~200W	~190W	Berjalan senyap, mampu beroperasi 24/7

Peningkatan tunggal terbesar untuk beban kerja AI: M5 menanamkan Neural Accelerator di dalam setiap core GPU. Benchmark MLX milik Apple sendiri menunjukkan time-to-first-token (TTFT) 3,3–4,1x lebih cepat dibandingkan M4. Pembuatan token meningkat ~25%, masih dibatasi bandwidth, tetapi batas atas bandwidth-nya lebih tinggi.

Untuk beban kerja agen yang melibatkan perpindahan konteks yang sering dan system prompt yang panjang, hal ini sangat penting. M3 Ultra membutuhkan waktu ~2,3 detik untuk memproses konteks 120K token (diperkirakan dari benchmark prefill); M5 Ultra seharusnya dapat melakukannya dalam waktu kurang dari 0,7 detik.

Apa yang Sebenarnya Bisa Dijalankan oleh Unified Memory 512GB?

Inilah tabel yang penting. Unified memory berarti GPU dan CPU berbagi RAM yang sama, tanpa bottleneck PCIe, tanpa batasan VRAM.

Model	Kuantisasi	Memori yang dibutuhkan	M3 Ultra 512GB	M5 Ultra (proyeksi)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Sumber: geerlingguy/ai-benchmarks, Apple MLX Research, Benchmark komunitas HN

Sebagai konteks: 20–30 tok/s nyaman untuk chat interaktif. 15 tok/s masih bisa digunakan. Di bawah 5 tok/s terasa lambat tetapi berfungsi untuk tugas batch.

Konfigurasi 512GB berarti Anda dapat menjalankan DeepSeek R1 671B Q4 (~336GB) dan masih memiliki sisa ~176GB untuk KV cache dan konteks. Itu cukup untuk percakapan multi-turn dengan konteks 100K+ token.

Mengapa Tidak Menggunakan NVIDIA Saja?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Memori	512GB unified	32GB VRAM	128GB VRAM
Bandwidth	~1.200 GB/s	1.792 GB/s	7.168 GB/s
DeepSeek R1 671B	✅ Berjalan di memori	❌ Tidak muat	❌ Masih tidak muat
Kecepatan Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Konsumsi daya	~190W	~450W	~1.800W
Kebisingan	Senyap	Berisik	Pusat data
Harga	~$10.000	~$2.000	~$8.000 + motherboard

NVIDIA menang dalam kecepatan murni saat model muat di VRAM. Namun saat model melebihi 32GB, NVIDIA tertinggal jauh: offloading ke RAM sistem menurunkan throughput dari 100+ tok/s menjadi ~3 tok/s. Arsitektur unified memory Mac berarti tidak ada penurunan drastis tersebut. Model 400GB berjalan pada bandwidth yang sama dengan model 40GB.

Untuk model di bawah 70B, belilah GPU. Untuk model di atas 200B, Mac Studio saat ini merupakan satu-satunya pilihan praktis bagi konsumen.

Masuk ke LemonClaw: Mengubah Perangkat Keras menjadi Asisten AI

Menjalankan model secara lokal adalah langkah pertama. Menjadikannya berguna 24/7 adalah langkah kedua.

LemonClaw adalah platform agen AI open-source yang di-host sendiri. Ini mengubah Mac Anda menjadi asisten AI persisten yang berinteraksi dengan Anda melalui aplikasi perpesanan yang sudah ada — Telegram, Slack, Discord, WhatsApp, bahkan iMessage.

Mengapa LemonClaw + Mac Studio?

Kebanyakan orang berinteraksi dengan AI melalui tab browser. LemonClaw menempatkannya di aplikasi perpesanan Anda: asisten Anda berjalan di perangkat keras Anda, mengingat konteks Anda di berbagai percakapan, dan bekerja saat Anda tidur.

Apa yang Dilakukan LemonClaw

Memori persisten: File memori berbasis Markdown dengan pencarian semantik. Asisten Anda mengingat apa yang Anda diskusikan minggu lalu.
Kotak masuk multi-saluran: Bicara dengannya via Telegram, Slack, Discord, WhatsApp, atau platform apa pun yang didukung. Konteks yang sama, di perangkat apa pun.
Tugas otonom: Jadwalkan cron jobs, atur webhooks, biarkan ia bekerja semalaman untuk tugas riset atau kode.
Otomatisasi browser: Penjelajahan web berbasis CDP untuk riset, ekstraksi data, pengisian formulir.
Ekosistem skill: Instal skill komunitas dari ClawHub, atau tulis skill Anda sendiri.
Dukungan server MCP: Terhubung ke alat dan API eksternal.

Keuntungan Model Lokal

Saat Anda menjalankan LemonClaw di Mac Studio dengan model lokal melalui Ollama atau MLX:

Biaya API nol. Tidak ada penagihan per-token. Jalankan DeepSeek R1 671B sepanjang hari, setiap hari, seharga biaya listrik (~$3/bulan).
Privasi penuh. Prompt, dokumen, dan kode Anda tidak pernah meninggalkan mesin Anda. Proses kontrak sensitif, kode kepemilikan, catatan medis, tanpa pemrosesan data pihak ketiga.
Tanpa batasan rate limit. Cloud API membatasi Anda pada 1.000–10.000 permintaan/menit. Inferensi lokal tidak memiliki batasan selain perangkat keras Anda.
Tidak bergantung pada downtime. OpenAI sedang down? Anthropic mengalami gangguan? Pengaturan lokal Anda tetap berjalan.
Latensi. Tidak ada perjalanan pulang-pergi jaringan. Token pertama muncul dalam milidetik untuk model kecil.

Pengaturan Cepat: Mac Studio + Ollama + LemonClaw

# 1. Instal Ollama
brew install ollama

# 2. Tarik model (mulai dengan yang cepat)
ollama pull qwen3:30b

# 3. Instal LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Konfigurasi LemonClaw untuk menggunakan Ollama lokal
# Di ~/.lemonclaw/config.json, atur:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw berjalan sebagai layanan launchd di macOS. Ia mulai saat booting dan berjalan 24/7 di latar belakang. Hubungkan Telegram atau Slack Anda, dan Anda memiliki asisten AI persisten yang selalu tersedia.

Untuk M5 Ultra dengan 512GB, Anda bisa menggunakan yang lebih besar:

# Tarik DeepSeek R1 671B (membutuhkan ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# Atau Qwen3-VL 235B yang luar biasa untuk tugas multimodal
ollama pull qwen3-vl:235b-q4

Ekonomi: Kapan Lokal Mengalahkan Cloud?

Mari kita hitung.

Biaya Cloud API (pengguna berat)

Pola penggunaan	Biaya bulanan
LemonClaw dengan Claude Sonnet 4.6 (berat)	$200–400/bulan
Asisten pengembangan + coding	$50–100/bulan
Riset + analisis dokumen	$50–100/bulan
Total	$300–600/bulan

Mac Studio M5 Ultra (sekali bayar + operasional)

Item	Biaya
Mac Studio M5 Ultra 512GB (proyeksi)	~$10.000
Listrik (~200W, 24/7)	~$3/bulan
Internet (sudah ada)	$0
Titik impas vs cloud $400/bulan	~25 bulan

Setelah 25 bulan, Anda menjalankan AI kelas frontier seharga $3/bulan. Dan Anda masih memiliki workstation seharga $10.000 untuk hal lainnya.

Pendekatan Hibrida (Direkomendasikan)

Anda tidak harus memilih antara sepenuhnya lokal atau sepenuhnya cloud. Pengaturan paling cerdas:

Model lokal untuk tugas bervolume tinggi, sensitif terhadap privasi, atau kritis terhadap latensi (coding, analisis dokumen, brainstorming)
Cloud API untuk kemampuan frontier yang tidak dapat Anda jalankan secara lokal (GPT-5, Claude Opus 4.6 dengan konteks 200K pada kecepatan penuh)

LemonClaw mendukung hal ini secara native: konfigurasikan beberapa penyedia model dan beralihlah antara Ollama lokal dan cloud API per percakapan atau per tugas.

Dan untuk akses cloud API, LemonData memberi Anda 300+ model melalui satu API key dengan harga pay-as-you-go, tanpa langganan, tanpa minimum. Gunakan sebagai cadangan cloud Anda saat model lokal tidak mencukupi.

Panduan Konfigurasi: Tiga Tingkatan

Tingkat 1: Pemula ($4.000–5.000)

Mac Studio M3/M5 Ultra 96GB

Menjalankan: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Kecepatan: 30–50 tok/s pada model 30B
Terbaik untuk: Asisten pribadi, bantuan coding, riset ringan
Konfigurasi LemonClaw: qwen3:30b sebagai default, cadangan cloud untuk tugas kompleks

Tingkat 2: Pengguna Power ($7.000–9.000)

Mac Studio M5 Ultra 256GB

Menjalankan: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Kecepatan: 15–30 tok/s pada model 200B+
Terbaik untuk: Pengembangan profesional, tugas multimodal, server AI tim
Konfigurasi LemonClaw: qwen3-vl:235b untuk visi, deepseek-r1:70b untuk penalaran

Tingkat 3: Workstation AI ($10.000–14.000)

Mac Studio M5 Ultra 512GB

Menjalankan: DeepSeek R1 671B (Q4), dan semua yang di bawahnya
Kecepatan: 25–35 tok/s pada 671B
Terbaik untuk: Menjalankan model open-source terbesar, server multi-pengguna, riset
Konfigurasi LemonClaw: deepseek-r1:671b untuk penalaran mendalam, model yang lebih kecil untuk tugas cepat

Menjalankannya sebagai Server AI 24/7

Mac Studio dirancang untuk operasi yang selalu menyala. Inilah cara mengaturnya sebagai server AI headless:

Jika Anda sedang memutuskan apakah inferensi lokal sepadan dengan kerumitannya, pasangkan halaman ini dengan panduan LemonClaw yang di-host sendiri dan panduan DeepSeek R1. Yang satu menjawab pertanyaan runtime. Yang lainnya menjawab pertanyaan kesesuaian model.

Daya & Termal

TDP 190W berarti stopkontak standar, tidak perlu kabel khusus
Tanpa kipas saat idle, sangat senyap di bawah beban
Tidak ada thermal throttling dalam beban kerja berkelanjutan (desain termal Apple menanganinya)

Akses Jarak Jauh

SSH untuk akses terminal
Tailscale untuk akses jarak jauh yang aman dari mana saja
Integrasi perpesanan LemonClaw berarti Anda tidak memerlukan akses mesin langsung. Cukup kirim pesan ke AI Anda melalui Telegram.

Keandalan

macOS launchd secara otomatis memulai ulang LemonClaw jika terjadi crash
Ollama berjalan sebagai layanan latar belakang
UPS direkomendasikan untuk pemadaman listrik (Mac Studio akan booting dan melanjutkan layanan secara otomatis)

# Aktifkan SSH
sudo systemsetup -setremotelogin on

# Instal Tailscale untuk akses jarak jauh
brew install tailscale
sudo tailscale up

# LemonClaw sudah berjalan sebagai layanan launchd setelah onboarding
# Periksa status:
launchctl list | grep lemonclaw

Apa yang Akan Datang: Roadmap M5 Ultra

Mac Studio M5 Ultra diharapkan hadir pada paruh kedua tahun 2026. Inilah linimasanya:

4 Maret 2026: Acara "Experience" Apple, M5 Pro/Max MacBook Pro diharapkan hadir
H2 2026: Mac Studio dengan M5 Ultra
Peningkatan utama dibanding M3 Ultra: GPU Neural Accelerator (3–4x TTFT), bandwidth memori lebih tinggi (~1,1–1,4 TB/s), memori maksimal yang sama atau lebih tinggi

Haruskah Anda Menunggu atau Membeli Sekarang?

Beli M3 Ultra 512GB sekarang jika:

Anda membutuhkan inferensi AI lokal hari ini
Anda menghabiskan $300+/bulan untuk cloud API
Kecepatan 17–20 tok/s pada DeepSeek R1 671B sudah cukup cepat untuk kebutuhan Anda

Tunggu M5 Ultra jika:

Anda bisa menoleransi cloud API selama 6–9 bulan lagi
Anda menginginkan peningkatan TTFT 3–4x (penting untuk beban kerja agen)
Anda ingin melihat benchmark aktual sebelum mengeluarkan $10K+

Apa pun pilihannya, Anda dapat mulai dengan LemonClaw hari ini menggunakan cloud API melalui LemonData. Kredit gratis $1 saat pendaftaran, 300+ model, bayar hanya untuk yang Anda gunakan. Saat Mac Studio Anda tiba, cukup arahkan LemonClaw ke instance Ollama lokal Anda dan biaya Anda akan turun hingga mendekati nol.

TL;DR

	Cloud API	Mac Studio M5 Ultra + LemonClaw
Ukuran model maks	Tidak terbatas (ditangani penyedia)	671B Q4 (konfigurasi 512GB)
Biaya bulanan	$300–600 (penggunaan berat)	~$3 listrik
Privasi	Data dikirim ke pihak ketiga	Semuanya tetap lokal
Latensi	200–500ms jaringan + inferensi	Hanya inferensi
Batasan rate limit	Ya	Tidak
Biaya awal	$0	~$10.000
Titik impas	—	~25 bulan

Mac Studio M5 Ultra adalah infrastruktur AI pribadi. Pasangkan dengan LemonClaw, dan Anda memiliki asisten AI 24/7 yang menjalankan model kelas frontier, menghormati privasi Anda, dan hanya memakan biaya operasional $3/bulan.

Era "AI lokal adalah mainan" telah berakhir. Unified memory 512GB pada bandwidth 1,2+ TB/s berarti Anda dapat menjalankan model yang menyaingi penawaran cloud. Satu-satunya pertanyaan adalah apakah Anda siap untuk memiliki stack AI Anda sendiri.

Siap untuk mulai membangun infrastruktur AI Anda? Coba LemonClaw dengan LemonData: 300+ model cloud dengan kredit gratis $1. Saat Mac Studio Anda tiba, beralihlah ke model lokal tanpa perubahan kode.