Mac Studio M5 Ultra: Chạy Model 671B cục bộ và tự xây dựng hạ tầng AI với OpenClaw

Phần cứng tiêu dùng đầu tiên có thể chứa toàn bộ 671 tỷ tham số của DeepSeek R1 trong bộ nhớ, và những gì bạn thực sự có thể làm với nó.

Mac Studio M5 Ultra với 512GB Unified memory là cỗ máy cấp độ tiêu dùng đầu tiên có thể chạy DeepSeek R1 671B (model mã nguồn mở lớn nhất hiện nay) hoàn toàn trên RAM. Không cần offloading, không cần dàn máy nhiều GPU, không cần tản nhiệt nước. Chỉ là một chiếc hộp nhỏ đặt trên bàn làm việc và tiêu thụ ít điện năng hơn cả một chiếc máy sấy tóc.

Điều này thay đổi hoàn toàn bài toán về AI tại chỗ (local AI). Khi bạn có thể chạy các model đẳng cấp hàng đầu (frontier-class) ngay tại nhà, câu hỏi chuyển từ "tôi có thể không?" sang "tôi có nên không?". Với số lượng lập trình viên ngày càng tăng, câu trả lời là có.

Dưới đây là những gì M5 Ultra mang lại cho việc suy luận LLM, cách kết hợp nó với OpenClaw để tạo ra một trợ lý AI cá nhân hoạt động 24/7, và khi nào việc đầu tư này có ý nghĩa về mặt tài chính so với các Cloud API.

Những gì M5 Ultra mang lại

M5 Ultra là hai chip M5 Max được kết nối thông qua công nghệ UltraFusion của Apple. Đây là những thông số quan trọng cho việc suy luận LLM:

Thông số	M3 Ultra	M5 Ultra (dự kiến)	Tại sao nó quan trọng
Băng thông bộ nhớ	819 GB/s	~1,100–1,400 GB/s	Tốc độ tạo token bị giới hạn bởi băng thông
Unified memory	Lên đến 512GB	Lên đến 512GB+	Quyết định kích thước model tối đa
Nhân GPU	80	~80	Tính toán song song cho quá trình prefill
Neural Accelerator	Không có	Tích hợp trong mỗi nhân GPU	Độ trễ token đầu tiên nhanh hơn 3–4 lần
Tiến trình sản xuất	3nm	3nm (N3P)	Hiệu suất/watt tốt hơn
TDP	~200W	~190W	Hoạt động yên tĩnh, khả năng chạy 24/7

Cải tiến lớn nhất cho khối lượng công việc AI: M5 tích hợp một Neural Accelerator bên trong mỗi nhân GPU. Các điểm chuẩn MLX của chính Apple cho thấy thời gian tạo token đầu tiên (TTFT) nhanh hơn 3,3–4,1 lần so với M4. Tốc độ tạo token cải thiện khoảng 25%, vẫn bị giới hạn bởi băng thông, nhưng trần băng thông đã cao hơn.

Đối với các tác vụ agent liên quan đến việc chuyển đổi ngữ cảnh thường xuyên và các system prompt dài, điều này là quan trọng nhất. Một chiếc M3 Ultra mất khoảng 2,3 giây để xử lý ngữ cảnh 120K token (ước tính từ các điểm chuẩn prefill); M5 Ultra sẽ thực hiện việc đó trong chưa đầy 0,7 giây.

512GB Unified Memory Thực sự có thể chạy được gì?

Đây là bảng thông số quan trọng nhất. Unified memory có nghĩa là GPU và CPU chia sẻ cùng một lượng RAM, không có điểm nghẽn PCIe, không có giới hạn VRAM.

Model	Quantization	Bộ nhớ cần thiết	M3 Ultra 512GB	M5 Ultra (dự kiến)
DeepSeek R1 671B (MoE)	Q4	~336 GB	17–20 tok/s	~25–35 tok/s
Llama 3.1 405B	Q4	~203 GB	~2 tok/s	~3–5 tok/s
Qwen3-VL 235B	Q4	~118 GB	~30 tok/s	~40–55 tok/s
GLM-4.7 358B	Q3	~180 GB	~15 tok/s	~20–28 tok/s
Qwen3 30B (MoE)	4-bit	~17 GB	~45 tok/s	~60+ tok/s
Mistral Small 24B	BF16	~48 GB	95 tok/s	~130+ tok/s

Nguồn: geerlingguy/ai-benchmarks, Apple MLX Research, Cộng đồng HN benchmarks

Để dễ hình dung: 20–30 tok/s là mức thoải mái cho chat tương tác. 15 tok/s là mức có thể sử dụng được. Dưới 5 tok/s sẽ cảm thấy chậm chạp nhưng vẫn hoạt động tốt cho các tác vụ xử lý hàng loạt (batch tasks).

Cấu hình 512GB có nghĩa là bạn có thể chạy DeepSeek R1 671B Q4 (~336GB) và vẫn còn khoảng 176GB cho KV cache và ngữ cảnh. Lượng bộ nhớ đó đủ cho các cuộc hội thoại nhiều lượt với ngữ cảnh hơn 100K token.

Tại sao không dùng NVIDIA?

	Mac Studio M5 Ultra	NVIDIA RTX 5090	4x RTX 5090
Bộ nhớ	512GB unified	32GB VRAM	128GB VRAM
Băng thông	~1,200 GB/s	1,792 GB/s	7,168 GB/s
DeepSeek R1 671B	✅ Chạy được trong bộ nhớ	❌ Không đủ chỗ	❌ Vẫn không đủ chỗ
Tốc độ Llama 70B	~18 tok/s	~80 tok/s	~240 tok/s
Điện năng tiêu thụ	~190W	~450W	~1,800W
Tiếng ồn	Yên tĩnh	Ồn	Như trung tâm dữ liệu
Giá	~$10,000	~$2,000	~$8,000 + mainboard

NVIDIA thắng về tốc độ thô khi model nằm gọn trong VRAM. Nhưng ngay khi một model vượt quá 32GB, NVIDIA sẽ gặp khó khăn: việc offloading sang RAM hệ thống khiến hiệu suất giảm từ hơn 100 tok/s xuống còn khoảng 3 tok/s. Kiến trúc Unified memory của Mac giúp loại bỏ tình trạng này. Một model 400GB chạy với cùng băng thông như một model 40GB.

Đối với các model dưới 70B, hãy mua GPU. Đối với các model trên 200B, Mac Studio hiện là lựa chọn tiêu dùng thực tế duy nhất.

Giới thiệu OpenClaw: Biến phần cứng thành trợ lý AI

Chạy một model tại chỗ là bước đầu tiên. Làm cho nó hữu ích 24/7 là bước thứ hai.

OpenClaw là một nền tảng AI agent mã nguồn mở, tự lưu trữ. Nó biến chiếc Mac của bạn thành một trợ lý AI bền bỉ mà bạn có thể tương tác thông qua các ứng dụng nhắn tin hiện có — Telegram, Slack, Discord, WhatsApp, thậm chí cả iMessage.

Tại sao nên dùng OpenClaw + Mac Studio?

Hầu hết mọi người tương tác với AI thông qua một tab trình duyệt. OpenClaw đưa nó vào ứng dụng nhắn tin của bạn: trợ lý của bạn chạy trên phần cứng của riêng bạn, ghi nhớ ngữ cảnh qua các cuộc hội thoại và làm việc ngay cả khi bạn đang ngủ.

OpenClaw làm được gì

Bộ nhớ bền bỉ: Các tệp bộ nhớ dựa trên Markdown với tìm kiếm ngữ nghĩa. Trợ lý của bạn sẽ nhớ những gì bạn đã thảo luận tuần trước.
Hộp thư đến đa kênh: Trò chuyện qua Telegram, Slack, Discord, WhatsApp hoặc bất kỳ nền tảng nào được hỗ trợ. Cùng một ngữ cảnh trên mọi thiết bị.
Tác vụ tự trị: Lập lịch các cron job, thiết lập webhook, để nó làm việc qua đêm cho các tác vụ nghiên cứu hoặc lập trình.
Tự động hóa trình duyệt: Duyệt web dựa trên CDP để nghiên cứu, trích xuất dữ liệu, điền biểu mẫu.
Hệ sinh thái kỹ năng: Cài đặt các kỹ năng từ cộng đồng ClawHub hoặc tự viết kỹ năng của riêng bạn.
Hỗ trợ MCP server: Kết nối với các công cụ và API bên ngoài.

Lợi thế của Model tại chỗ

Khi bạn chạy OpenClaw trên Mac Studio với các model tại chỗ thông qua Ollama hoặc MLX:

Chi phí API bằng không. Không tính phí theo token. Chạy DeepSeek R1 671B cả ngày, mỗi ngày, chỉ với chi phí tiền điện (~3 USD/tháng).
Quyền riêng tư tuyệt đối. Prompt, tài liệu và mã nguồn của bạn không bao giờ rời khỏi máy. Xử lý các hợp đồng nhạy cảm, mã nguồn độc quyền, hồ sơ y tế mà không cần bên thứ ba xử lý dữ liệu.
Không giới hạn tốc độ (rate limits). Các Cloud API giới hạn bạn ở mức 1.000–10.000 yêu cầu/phút. Suy luận tại chỗ không có giới hạn nào ngoài phần cứng của bạn.
Không phụ thuộc vào thời gian ngừng hoạt động. OpenAI bị sập? Anthropic gặp sự cố? Hệ thống tại chỗ của bạn vẫn tiếp tục chạy.
Độ trễ. Không có độ trễ truyền tải mạng. Token đầu tiên xuất hiện trong vài mili giây đối với các model nhỏ.

Thiết lập nhanh: Mac Studio + Ollama + OpenClaw

# 1. Cài đặt Ollama
brew install ollama

# 2. Tải một model (bắt đầu với thứ gì đó nhanh)
ollama pull qwen3:30b

# 3. Cài đặt OpenClaw
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. Cấu hình OpenClaw để sử dụng Ollama tại chỗ
# Trong file ~/.openclaw/openclaw.json, thiết lập:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw chạy như một dịch vụ launchd trên macOS. Nó tự khởi động cùng hệ thống và chạy ngầm 24/7. Kết nối Telegram hoặc Slack của bạn, và bạn sẽ có một trợ lý AI luôn sẵn sàng.

Với M5 Ultra 512GB, bạn có thể chạy các model lớn hơn:

# Tải DeepSeek R1 671B (yêu cầu khoảng 336GB RAM)
ollama pull deepseek-r1:671b-q4

# Hoặc Qwen3-VL 235B tuyệt vời cho các tác vụ đa phương thức
ollama pull qwen3-vl:235b-q4

Bài toán kinh tế: Khi nào chạy tại chỗ tốt hơn Cloud?

Hãy cùng làm một phép tính.

Chi phí Cloud API (người dùng cường độ cao)

Mô hình sử dụng	Chi phí hàng tháng
OpenClaw với Claude Sonnet 4.6 (nhiều)	200–400 USD/tháng
Trợ lý lập trình + phát triển	50–100 USD/tháng
Nghiên cứu + phân tích tài liệu	50–100 USD/tháng
Tổng cộng	300–600 USD/tháng

Mac Studio M5 Ultra (chi phí một lần + vận hành)

Hạng mục	Chi phí
Mac Studio M5 Ultra 512GB (dự kiến)	~10,000 USD
Tiền điện (~200W, 24/7)	~3 USD/tháng
Internet (đã có sẵn)	0 USD
Điểm hòa vốn so với 400 USD/tháng cloud	~25 tháng

Sau 25 tháng, bạn sẽ chạy AI đẳng cấp hàng đầu với giá 3 USD/tháng. Và bạn vẫn sở hữu một máy trạm trị giá 10.000 USD cho mọi công việc khác.

Cách tiếp cận kết hợp (Khuyên dùng)

Bạn không nhất thiết phải chọn hoàn toàn tại chỗ hoặc hoàn toàn cloud. Thiết lập thông minh nhất là:

Model tại chỗ cho các tác vụ khối lượng lớn, nhạy cảm về quyền riêng tư hoặc yêu cầu độ trễ thấp (lập trình, phân tích tài liệu, lên ý tưởng).
Cloud API cho các khả năng vượt trội mà bạn không thể chạy tại chỗ (GPT-5, Claude Opus 4.6 với ngữ cảnh 200K ở tốc độ tối đa).

OpenClaw hỗ trợ điều này một cách tự nhiên: cấu hình nhiều nhà cung cấp model và chuyển đổi giữa Ollama tại chỗ và Cloud API cho mỗi cuộc hội thoại hoặc mỗi tác vụ.

Và để truy cập Cloud API, LemonData cung cấp cho bạn hơn 300 model thông qua một API key duy nhất với hình thức trả phí theo mức sử dụng, không cần đăng ký gói tháng, không có mức tối thiểu. Hãy sử dụng nó như một phương án dự phòng cloud khi các model tại chỗ không đủ đáp ứng.

Hướng dẫn cấu hình: Ba cấp độ

Cấp độ 1: Người mới bắt đầu (4.000–5.000 USD)

Mac Studio M3/M5 Ultra 96GB

Chạy được: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
Tốc độ: 30–50 tok/s trên các model 30B
Phù hợp nhất cho: Trợ lý cá nhân, hỗ trợ lập trình, nghiên cứu nhẹ nhàng
Cấu hình OpenClaw: qwen3:30b làm mặc định, dự phòng cloud cho các tác vụ phức tạp

Cấp độ 2: Người dùng chuyên sâu (7.000–9.000 USD)

Mac Studio M5 Ultra 256GB

Chạy được: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
Tốc độ: 15–30 tok/s trên các model 200B+
Phù hợp nhất cho: Phát triển chuyên nghiệp, tác vụ đa phương thức, AI server cho nhóm
Cấu hình OpenClaw: qwen3-vl:235b cho thị giác, deepseek-r1:70b cho suy luận

Cấp độ 3: Máy trạm AI (10.000–14.000 USD)

Mac Studio M5 Ultra 512GB

Chạy được: DeepSeek R1 671B (Q4) và tất cả các model nhỏ hơn
Tốc độ: 25–35 tok/s trên 671B
Phù hợp nhất cho: Chạy các model mã nguồn mở lớn nhất, server đa người dùng, nghiên cứu
Cấu hình OpenClaw: deepseek-r1:671b cho suy luận sâu, các model nhỏ hơn cho tác vụ nhanh

Vận hành như một AI Server 24/7

Mac Studio được thiết kế để hoạt động liên tục. Đây là cách thiết lập nó như một AI server không cần màn hình (headless):

Nguồn điện & Nhiệt độ

TDP 190W có nghĩa là dùng ổ cắm tiêu chuẩn, không cần đi dây đặc biệt
Không dùng quạt khi nghỉ, cực kỳ yên tĩnh khi tải nặng
Không bị giảm hiệu năng do nhiệt (thermal throttling) trong các khối lượng công việc kéo dài (thiết kế tản nhiệt của Apple xử lý tốt việc này)

Truy cập từ xa

SSH để truy cập terminal
Tailscale để truy cập từ xa an toàn từ bất cứ đâu
Tích hợp tin nhắn của OpenClaw có nghĩa là bạn không cần truy cập trực tiếp vào máy. Chỉ cần nhắn tin cho AI của bạn qua Telegram.

Độ tin cậy

macOS launchd tự động khởi động lại OpenClaw nếu nó bị lỗi
Ollama chạy như một dịch vụ nền
Khuyên dùng UPS cho các trường hợp mất điện (Mac Studio sẽ tự khởi động và tiếp tục các dịch vụ tự động)

# Bật SSH
sudo systemsetup -setremotelogin on

# Cài đặt Tailscale để truy cập từ xa
brew install tailscale
sudo tailscale up

# OpenClaw đã chạy như dịch vụ launchd sau khi cài đặt
# Kiểm tra trạng thái:
launchctl list | grep openclaw

Sắp tới: Lộ trình của M5 Ultra

Mac Studio M5 Ultra dự kiến sẽ ra mắt vào nửa cuối năm 2026. Đây là mốc thời gian:

Ngày 4 tháng 3 năm 2026: Sự kiện "Experience" của Apple, dự kiến ra mắt M5 Pro/Max MacBook Pro
Nửa cuối năm 2026: Mac Studio với M5 Ultra
Những cải tiến chính so với M3 Ultra: GPU Neural Accelerators (TTFT nhanh hơn 3–4 lần), băng thông bộ nhớ cao hơn (~1.1–1.4 TB/s), bộ nhớ tối đa giữ nguyên hoặc cao hơn

Nên đợi hay mua ngay bây giờ?

Mua M3 Ultra 512GB ngay bây giờ nếu:

Bạn cần suy luận AI tại chỗ ngay hôm nay
Bạn đang chi hơn 300 USD/tháng cho các Cloud API
Tốc độ 17–20 tok/s trên DeepSeek R1 671B là đủ nhanh cho nhu cầu của bạn

Đợi M5 Ultra nếu:

Bạn có thể chấp nhận dùng Cloud API thêm 6–9 tháng nữa
Bạn muốn cải thiện TTFT gấp 3–4 lần (quan trọng cho các tác vụ agent)
Bạn muốn xem các điểm chuẩn thực tế trước khi chi hơn 10.000 USD

Dù bằng cách nào, bạn có thể bắt đầu với OpenClaw ngay hôm nay bằng cách sử dụng Cloud API thông qua LemonData. Tặng 1 USD miễn phí khi đăng ký, hơn 300 model, chỉ trả tiền cho những gì bạn dùng. Khi Mac Studio của bạn về, chỉ cần trỏ OpenClaw vào instance Ollama tại chỗ và chi phí của bạn sẽ giảm xuống gần như bằng không.

Tóm tắt nhanh

	Cloud API	Mac Studio M5 Ultra + OpenClaw
Kích thước model tối đa	Không giới hạn (nhà cung cấp xử lý)	671B Q4 (cấu hình 512GB)
Chi phí hàng tháng	300–600 USD (dùng nhiều)	~3 USD tiền điện
Quyền riêng tư	Dữ liệu gửi cho bên thứ ba	Mọi thứ ở lại tại chỗ
Độ trễ	200–500ms mạng + suy luận	Chỉ suy luận
Giới hạn tốc độ	Có	Không
Chi phí ban đầu	0 USD	~10,000 USD
Điểm hòa vốn	—	~25 tháng

Mac Studio M5 Ultra là một hạ tầng AI cá nhân. Kết hợp nó với OpenClaw, bạn sẽ có một trợ lý AI 24/7 chạy các model đẳng cấp hàng đầu, tôn trọng quyền riêng tư của bạn và chỉ tốn 3 USD/tháng để vận hành.

Kỷ nguyên của "AI tại chỗ chỉ là đồ chơi" đã kết thúc. 512GB Unified memory với băng thông hơn 1.2 TB/s có nghĩa là bạn có thể chạy các model đối trọng với các dịch vụ đám mây. Câu hỏi duy nhất là liệu bạn đã sẵn sàng sở hữu toàn bộ hệ thống AI của riêng mình hay chưa.

Sẵn sàng xây dựng hạ tầng AI của bạn? Thử OpenClaw với LemonData: hơn 300 model cloud với 1 USD tặng kèm. Khi Mac Studio của bạn sẵn sàng, hãy chuyển sang model tại chỗ mà không cần thay đổi mã nguồn.

Mac Studio M5 Ultra: Chạy các mô hình 671B tại chỗ và xây dựng hạ tầng AI của riêng bạn với OpenClaw