Mac Studio M5 Ultra: Chạy các mô hình 671B cục bộ và xây dựng hạ tầng AI của riêng bạn với LemonClaw

Thiết bị phần cứng tiêu dùng đầu tiên có thể chứa toàn bộ 671 tỷ tham số của DeepSeek R1 trong bộ nhớ, và những gì bạn thực sự có thể làm với nó.

Mac Studio M5 Ultra với 512GB unified memory là cỗ máy cấp độ tiêu dùng đầu tiên có thể chạy DeepSeek R1 671B (mô hình mã nguồn mở lớn nhất) hoàn toàn trong RAM. Không cần offloading, không cần dàn máy đa GPU, không cần tản nhiệt nước. Chỉ là một chiếc hộp đặt trên bàn làm việc và tiêu thụ ít điện năng hơn cả một chiếc máy sấy tóc.

Điều này thay đổi bài toán về AI cục bộ. Khi bạn có thể chạy các mô hình đẳng cấp hàng đầu (frontier-class) tại nhà, câu hỏi chuyển từ "tôi có thể không?" sang "tôi có nên không?". Với số lượng nhà phát triển ngày càng tăng, câu trả lời là có.

Dưới đây là: những gì M5 Ultra mang lại cho việc inference LLM, cách kết hợp nó với LemonClaw để tạo ra một trợ lý AI cá nhân hoạt động 24/7, và khi nào việc đầu tư này có ý nghĩa về mặt tài chính so với các cloud API.

Những gì M5 Ultra mang lại

M5 Ultra là hai chip M5 Max được kết nối thông qua công nghệ UltraFusion của Apple. Đây là những điểm quan trọng đối với việc inference LLM:

Thông số	M3 Ultra	M5 Ultra (dự kiến)	Tại sao nó quan trọng
Băng thông bộ nhớ (Memory bandwidth)	819 GB/s	~1,100–1,400 GB/s	Tốc độ tạo token bị giới hạn bởi băng thông
Unified memory	Lên đến 512GB	Lên đến 512GB+	Quyết định kích thước mô hình tối đa
GPU cores	80	~80	Tính toán song song cho quá trình prefill
Neural Accelerator	Không có	Trên mỗi nhân GPU	Độ trễ token đầu tiên (TTFT) nhanh hơn 3–4 lần
Tiến trình sản xuất (Process node)	3nm	3nm (N3P)	Hiệu suất trên mỗi watt tốt hơn
TDP	~200W	~190W	Chạy êm ái, khả năng hoạt động 24/7

Cải tiến lớn nhất cho khối lượng công việc AI: M5 tích hợp một Neural Accelerator bên trong mỗi nhân GPU. Các điểm chuẩn MLX của chính Apple cho thấy thời gian tạo token đầu tiên (TTFT) nhanh hơn 3,3–4,1 lần so với M4. Tốc độ tạo token cải thiện khoảng 25%, vẫn bị giới hạn bởi băng thông, nhưng trần băng thông đã cao hơn.

Đối với các tác vụ agent liên quan đến việc chuyển đổi ngữ cảnh thường xuyên và các system prompt dài, điều này là quan trọng nhất. Một chiếc M3 Ultra mất khoảng 2,3 giây để xử lý ngữ cảnh 120K token (ước tính từ các điểm chuẩn prefill); M5 Ultra sẽ thực hiện việc đó trong chưa đầy 0,7 giây.

512GB Unified Memory thực sự có thể chạy được gì?

Đây là bảng thông số quan trọng. Unified memory có nghĩa là GPU và CPU chia sẻ cùng một lượng RAM, không có nút thắt cổ chai PCIe, không có giới hạn VRAM.

Mô hình	Quantization	Bộ nhớ cần thiết	M3 Ultra 512GB	M5 Ultra (dự kiến)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Nguồn: geerlingguy/ai-benchmarks, Apple MLX Research, HN community benchmarks

Để dễ hình dung: 20–30 tok/s là mức thoải mái cho chat tương tác. 15 tok/s là mức có thể sử dụng được. Dưới 5 tok/s cảm giác sẽ chậm chạp nhưng vẫn hoạt động tốt cho các tác vụ hàng loạt (batch tasks).

Cấu hình 512GB có nghĩa là bạn có thể chạy DeepSeek R1 671B Q4 (~336GB) và vẫn còn khoảng 176GB cho KV cache và ngữ cảnh. Như vậy là đủ cho các cuộc hội thoại nhiều lượt với ngữ cảnh hơn 100K token.

Tại sao không dùng NVIDIA?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Bộ nhớ	512GB unified	32GB VRAM	128GB VRAM
Băng thông	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Chạy được trong bộ nhớ	❌ Không vừa	❌ Vẫn không vừa
Tốc độ Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Tiêu thụ điện năng	~190W	~450W	~1,800W
Tiếng ồn	Yên tĩnh	Ồn	Cấp độ trung tâm dữ liệu
Giá	~$10,000	~$2,000	~$8,000 + mainboard

NVIDIA thắng về tốc độ thô khi mô hình nằm vừa trong VRAM. Nhưng ngay khi mô hình vượt quá 32GB, NVIDIA sẽ gặp khó khăn: việc offloading sang RAM hệ thống khiến hiệu suất giảm từ hơn 100 tok/s xuống còn khoảng 3 tok/s. Kiến trúc unified memory của Mac giúp loại bỏ rào cản này. Một mô hình 400GB chạy với cùng băng thông như một mô hình 40GB.

Đối với các mô hình dưới 70B, hãy mua GPU. Đối với các mô hình trên 200B, Mac Studio hiện là lựa chọn tiêu dùng thực tế duy nhất.

Giới thiệu LemonClaw: Biến phần cứng thành một trợ lý AI

Chạy một mô hình cục bộ là bước đầu tiên. Làm cho nó hữu ích 24/7 là bước thứ hai.

LemonClaw là một nền tảng AI agent mã nguồn mở, tự lưu trữ (self-hosted). Nó biến chiếc Mac của bạn thành một trợ lý AI bền bỉ mà bạn có thể tương tác thông qua các ứng dụng nhắn tin hiện có — Telegram, Slack, Discord, WhatsApp, thậm chí cả iMessage.

Tại sao nên dùng LemonClaw + Mac Studio?

Hầu hết mọi người tương tác với AI qua một tab trình duyệt. LemonClaw đưa nó vào ứng dụng nhắn tin của bạn: trợ lý của bạn chạy trên phần cứng của riêng bạn, ghi nhớ ngữ cảnh qua các cuộc hội thoại và làm việc ngay cả khi bạn đang ngủ.

LemonClaw làm được những gì

Bộ nhớ vĩnh cửu: Các tệp bộ nhớ dựa trên Markdown với tìm kiếm ngữ nghĩa. Trợ lý của bạn sẽ nhớ những gì bạn đã thảo luận vào tuần trước.
Hộp thư đa kênh: Trò chuyện qua Telegram, Slack, Discord, WhatsApp hoặc bất kỳ nền tảng nào được hỗ trợ. Cùng một ngữ cảnh, trên mọi thiết bị.
Tác vụ tự động: Lập lịch cron jobs, thiết lập webhooks, để nó làm việc qua đêm cho các tác vụ nghiên cứu hoặc viết code.
Tự động hóa trình duyệt: Duyệt web dựa trên CDP để nghiên cứu, trích xuất dữ liệu, điền biểu mẫu.
Hệ sinh thái kỹ năng: Cài đặt các kỹ năng từ cộng đồng thông qua ClawHub, hoặc tự viết kỹ năng của riêng bạn.
Hỗ trợ MCP server: Kết nối với các công cụ và API bên ngoài.

Lợi thế của mô hình cục bộ

Khi bạn chạy LemonClaw trên Mac Studio với các mô hình cục bộ thông qua Ollama hoặc MLX:

Chi phí API bằng không. Không tính phí theo token. Chạy DeepSeek R1 671B cả ngày, mỗi ngày, chỉ với chi phí tiền điện (~3 USD/tháng).
Quyền riêng tư tuyệt đối. Prompt, tài liệu và mã nguồn của bạn không bao giờ rời khỏi máy. Xử lý các hợp đồng nhạy cảm, mã nguồn độc quyền, hồ sơ y tế mà không qua bên thứ ba.
Không giới hạn tốc độ (rate limits). Các cloud API giới hạn bạn ở mức 1,000–10,000 yêu cầu/phút. Inference cục bộ không có giới hạn nào ngoài phần cứng của bạn.
Không phụ thuộc vào thời gian ngừng hoạt động (downtime). OpenAI bị sập? Anthropic gặp sự cố? Hệ thống cục bộ của bạn vẫn tiếp tục chạy.
Độ trễ. Không có độ trễ vòng lặp mạng. Token đầu tiên xuất hiện trong vài mili giây đối với các mô hình nhỏ.

Thiết lập nhanh: Mac Studio + Ollama + LemonClaw

# 1. Cài đặt Ollama
brew install ollama

# 2. Tải một mô hình (bắt đầu với thứ gì đó nhanh)
ollama pull qwen3:30b

# 3. Cài đặt LemonClaw
npm install -g lemonclaw@latest
lemonclaw onboard --install-daemon

# 4. Cấu hình LemonClaw để sử dụng Ollama cục bộ
# Trong tệp ~/.lemonclaw/config.json, thiết lập:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

LemonClaw chạy như một dịch vụ launchd trên macOS. Nó tự khởi động cùng hệ thống và chạy ngầm 24/7. Kết nối Telegram hoặc Slack của bạn, và bạn sẽ có một trợ lý AI luôn sẵn sàng.

Đối với M5 Ultra với 512GB, bạn có thể dùng các mô hình lớn hơn:

# Tải DeepSeek R1 671B (yêu cầu ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# Hoặc Qwen3-VL 235B tuyệt vời cho các tác vụ đa phương thức
ollama pull qwen3-vl:235b-q4

Bài toán kinh tế: Khi nào AI cục bộ vượt trội hơn Cloud?

Hãy cùng làm một phép tính.

Chi phí Cloud API (người dùng cường độ cao)

Cách thức sử dụng	Chi phí hàng tháng
LemonClaw với Claude Sonnet 4.6 (nhiều)	200–400 USD/tháng
Hỗ trợ phát triển + viết code	50–100 USD/tháng
Nghiên cứu + phân tích tài liệu	50–100 USD/tháng
Tổng cộng	300–600 USD/tháng

Mac Studio M5 Ultra (chi phí một lần + vận hành)

Hạng mục	Chi phí
Mac Studio M5 Ultra 512GB (dự kiến)	~10,000 USD
Tiền điện (~200W, 24/7)	~3 USD/tháng
Internet (đã có sẵn)	0 USD
Điểm hòa vốn so với 400 USD/tháng cloud	~25 tháng

Sau 25 tháng, bạn đang chạy AI đẳng cấp hàng đầu với giá 3 USD/tháng. Và bạn vẫn sở hữu một trạm làm việc trị giá 10,000 USD cho mọi việc khác.

Cách tiếp cận kết hợp (Khuyên dùng)

Bạn không nhất thiết phải chọn hoàn toàn cục bộ hoặc hoàn toàn cloud. Thiết lập thông minh nhất là:

Mô hình cục bộ cho các tác vụ khối lượng lớn, nhạy cảm về quyền riêng tư hoặc yêu cầu độ trễ thấp (viết code, phân tích tài liệu, lên ý tưởng).
Cloud API cho các khả năng tiên tiến nhất mà bạn không thể chạy cục bộ (GPT-5, Claude Opus 4.6 với ngữ cảnh 200K ở tốc độ tối đa).

LemonClaw hỗ trợ việc này một cách tự nhiên: cấu hình nhiều nhà cung cấp mô hình và chuyển đổi giữa Ollama cục bộ và cloud API theo từng cuộc hội thoại hoặc từng tác vụ.

Và để truy cập cloud API, LemonData cung cấp cho bạn hơn 300 mô hình thông qua một API key duy nhất với hình thức trả tiền theo mức sử dụng (pay-as-you-go), không cần đăng ký gói tháng, không có mức tối thiểu. Hãy sử dụng nó như một phương án dự phòng cloud khi các mô hình cục bộ là chưa đủ.

Hướng dẫn cấu hình: Ba cấp độ

Cấp độ 1: Người mới bắt đầu (4,000–5,000 USD)

Mac Studio M3/M5 Ultra 96GB

Chạy được: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Tốc độ: 30–50 tok/s trên các mô hình 30B
Phù hợp nhất cho: Trợ lý cá nhân, hỗ trợ viết code, nghiên cứu nhẹ nhàng
Cấu hình LemonClaw: qwen3:30b làm mặc định, dự phòng bằng cloud cho các tác vụ phức tạp

Cấp độ 2: Người dùng chuyên sâu (7,000–9,000 USD)

Mac Studio M5 Ultra 256GB

Chạy được: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Tốc độ: 15–30 tok/s trên các mô hình 200B+
Phù hợp nhất cho: Phát triển chuyên nghiệp, tác vụ đa phương thức, máy chủ AI cho nhóm
Cấu hình LemonClaw: qwen3-vl:235b cho thị giác máy tính, deepseek-r1:70b cho suy luận

Cấp độ 3: Trạm làm việc AI (10,000–14,000 USD)

Mac Studio M5 Ultra 512GB

Chạy được: DeepSeek R1 671B (Q4), và tất cả các mô hình bên dưới
Tốc độ: 25–35 tok/s trên 671B
Phù hợp nhất cho: Chạy các mô hình mã nguồn mở lớn nhất, máy chủ đa người dùng, nghiên cứu
Cấu hình LemonClaw: deepseek-r1:671b cho suy luận sâu, các mô hình nhỏ hơn cho tác vụ nhanh

Chạy như một máy chủ AI 24/7

Mac Studio được thiết kế để hoạt động liên tục. Đây là cách thiết lập nó như một máy chủ AI không màn hình (headless):

Nếu bạn đang cân nhắc liệu inference cục bộ có xứng đáng với sự phức tạp của nó hay không, hãy kết hợp trang này với hướng dẫn tự lưu trữ LemonClaw và hướng dẫn mô hình suy luận DeepSeek R1. Một cái trả lời câu hỏi về vận hành, cái còn lại trả lời câu hỏi về sự phù hợp của mô hình.

Điện năng & Nhiệt độ

TDP 190W nghĩa là có thể dùng ổ cắm tiêu chuẩn, không cần đi dây đặc biệt
Quạt không quay khi ở chế độ nghỉ, cực kỳ yên tĩnh khi tải nặng
Không bị giảm xung nhịp do nhiệt (thermal throttling) trong các khối lượng công việc kéo dài (thiết kế tản nhiệt của Apple xử lý tốt việc này)

Truy cập từ xa

SSH để truy cập terminal
Tailscale để truy cập từ xa an toàn từ bất cứ đâu
Tích hợp nhắn tin của LemonClaw có nghĩa là bạn không cần truy cập trực tiếp vào máy. Chỉ cần nhắn tin cho AI của bạn qua Telegram.

Độ tin cậy

macOS launchd tự động khởi động lại LemonClaw nếu nó bị lỗi
Ollama chạy như một dịch vụ nền
Khuyên dùng UPS cho các trường hợp mất điện (Mac Studio sẽ khởi động và tiếp tục các dịch vụ tự động)

# Bật SSH
sudo systemsetup -setremotelogin on

# Cài đặt Tailscale để truy cập từ xa
brew install tailscale
sudo tailscale up

# LemonClaw đã chạy như dịch vụ launchd sau khi onboard
# Kiểm tra trạng thái:
launchctl list | grep lemonclaw

Sắp tới: Lộ trình của M5 Ultra

Mac Studio M5 Ultra dự kiến sẽ ra mắt vào nửa cuối năm 2026. Đây là dòng thời gian:

Ngày 4 tháng 3 năm 2026: Sự kiện "Experience" của Apple, dự kiến ra mắt MacBook Pro M5 Pro/Max
Nửa cuối năm 2026: Mac Studio với M5 Ultra
Các cải tiến chính so với M3 Ultra: GPU Neural Accelerators (TTFT nhanh hơn 3–4 lần), băng thông bộ nhớ cao hơn (~1.1–1.4 TB/s), bộ nhớ tối đa tương đương hoặc cao hơn

Nên đợi hay mua ngay bây giờ?

Mua M3 Ultra 512GB ngay bây giờ nếu:

Bạn cần inference AI cục bộ ngay hôm nay
Bạn đang chi tiêu hơn 300 USD/tháng cho các cloud API
Tốc độ 17–20 tok/s trên DeepSeek R1 671B là đủ nhanh cho nhu cầu của bạn

Đợi M5 Ultra nếu:

Bạn có thể chấp nhận dùng cloud API thêm 6–9 tháng nữa
Bạn muốn cải thiện TTFT gấp 3–4 lần (quan trọng cho các tác vụ agent)
Bạn muốn xem các điểm chuẩn thực tế trước khi chi hơn 10,000 USD

Dù bằng cách nào, bạn có thể bắt đầu với LemonClaw ngay hôm nay bằng cách sử dụng cloud API thông qua LemonData. Tặng 1 USD miễn phí khi đăng ký, hơn 300 mô hình, chỉ trả tiền cho những gì bạn dùng. Khi Mac Studio của bạn về, chỉ cần trỏ LemonClaw vào instance Ollama cục bộ và chi phí của bạn sẽ giảm xuống gần như bằng không.

TL;DR

	Cloud APIs	Mac Studio M5 Ultra + LemonClaw
Kích thước mô hình tối đa	Không giới hạn (nhà cung cấp xử lý)	671B Q4 (cấu hình 512GB)
Chi phí hàng tháng	300–600 USD (dùng nhiều)	~3 USD tiền điện
Quyền riêng tư	Dữ liệu gửi cho bên thứ ba	Mọi thứ nằm cục bộ
Độ trễ	200–500ms mạng + inference	Chỉ inference
Giới hạn tốc độ	Có	Không
Chi phí ban đầu	0 USD	~10,000 USD
Điểm hòa vốn	—	~25 tháng

Mac Studio M5 Ultra là một hạ tầng AI cá nhân. Kết hợp nó với LemonClaw, bạn sẽ có một trợ lý AI 24/7 chạy các mô hình đẳng cấp hàng đầu, tôn trọng quyền riêng tư của bạn và chỉ tốn 3 USD/tháng để vận hành.

Thời đại của "AI cục bộ chỉ là đồ chơi" đã kết thúc. 512GB unified memory với băng thông hơn 1.2 TB/s có nghĩa là bạn có thể chạy các mô hình đối trọng với các dịch vụ cloud. Câu hỏi duy nhất là liệu bạn đã sẵn sàng để sở hữu AI stack của riêng mình hay chưa.

Sẵn sàng xây dựng hạ tầng AI của bạn? Thử LemonClaw với LemonData: hơn 300 mô hình cloud với 1 USD miễn phí. Khi Mac Studio của bạn sẵn sàng, hãy chuyển sang mô hình cục bộ mà không cần thay đổi code.