설정

언어

Mac Studio M5 Ultra: 671B 모델 로컬 실행 및 OpenClaw로 나만의 AI 인프라 구축하기

L
LemonData
·2026년 2월 26일·29 조회수
#Mac Studio#M5 Ultra#로컬 AI#OpenClaw#셀프 호스팅#LLM 추론
Mac Studio M5 Ultra: 671B 모델 로컬 실행 및 OpenClaw로 나만의 AI 인프라 구축하기

Mac Studio M5 Ultra: 671B 모델을 로컬에서 실행하고 OpenClaw로 나만의 AI 인프라 구축하기

DeepSeek R1의 전체 671B 파라미터를 메모리에 담을 수 있는 최초의 소비자용 하드웨어와 이를 실제로 활용하는 방법.


512GB 통합 메모리를 탑재한 Mac Studio M5 Ultra는 최대 오픈 소스 모델인 DeepSeek R1 671B를 RAM에서 완전히 실행할 수 있는 최초의 소비자급 머신입니다. 오프로딩도, 멀티 GPU 리그도, 수냉식 쿨링도 필요 없습니다. 책상 위에 놓여 있으며 헤어드라이어보다 적은 전력을 소모하는 박스 하나면 충분합니다.

이는 로컬 AI에 대한 계산법을 바꿉니다. 집에서 프런티어급 모델을 실행할 수 있게 되면, 질문은 "할 수 있을까?"에서 "해야 할까?"로 바뀝니다. 점점 더 많은 개발자들에게 그 대답은 "예"입니다.

아래에서는 M5 Ultra가 LLM 추론을 위해 제공하는 기능, 24시간 연중무휴 개인 AI 어시스턴트를 위해 OpenClaw와 결합하는 방법, 그리고 클라우드 API 대비 경제적 타당성을 살펴봅니다.


M5 Ultra가 제공하는 가치

M5 Ultra는 Apple의 UltraFusion 인터커넥트를 통해 두 개의 M5 Max 칩을 결합한 것입니다. LLM 추론에서 중요한 점은 다음과 같습니다.

사양 M3 Ultra M5 Ultra (예상) 중요한 이유
메모리 대역폭 819 GB/s ~1,100–1,400 GB/s token 생성 속도는 대역폭에 제한됨
통합 메모리 최대 512GB 최대 512GB+ 최대 모델 크기 결정
GPU 코어 80 ~80 prefill을 위한 병렬 연산
Neural Accelerator 없음 GPU 코어당 탑재 3–4배 빠른 first-token latency
공정 노드 3nm 3nm (N3P) 와트당 성능 향상
TDP ~200W ~190W 무소음 작동, 24/7 가동 가능

AI 워크로드에서 가장 큰 개선 사항은 M5가 모든 GPU 코어 내부에 Neural Accelerator를 내장했다는 점입니다. Apple의 자체 MLX 벤치마크에 따르면 M4 대비 time-to-first-token (TTFT)이 3.3~4.1배 빨라졌습니다. token 생성 속도는 약 25% 향상되었으며, 여전히 대역폭에 제한을 받지만 대역폭 상한선 자체가 높아졌습니다.

잦은 컨텍스트 전환과 긴 시스템 프롬프트가 포함된 에이전트 워크로드에서 이 점이 가장 중요합니다. M3 Ultra는 120K token 컨텍스트를 처리하는 데 약 2.3초가 걸리지만(prefill 벤치마크 기준 예상), M5 Ultra는 0.7초 미만에 처리할 수 있을 것입니다.


512GB 통합 메모리에서 실제로 무엇을 실행할 수 있을까?

이 표가 가장 중요합니다. 통합 메모리는 GPU와 CPU가 동일한 RAM을 공유함을 의미하며, PCIe 병목 현상이나 VRAM 제한이 없습니다.

모델 양자화 필요 메모리 M3 Ultra 512GB M5 Ultra (예상)
DeepSeek R1 671B (MoE) Q4 ~336 GB 17–20 tok/s ~25–35 tok/s
Llama 3.1 405B Q4 ~203 GB ~2 tok/s ~3–5 tok/s
Qwen3-VL 235B Q4 ~118 GB ~30 tok/s ~40–55 tok/s
GLM-4.7 358B Q3 ~180 GB ~15 tok/s ~20–28 tok/s
Qwen3 30B (MoE) 4-bit ~17 GB ~45 tok/s ~60+ tok/s
Mistral Small 24B BF16 ~48 GB 95 tok/s ~130+ tok/s

출처: geerlingguy/ai-benchmarks, Apple MLX Research, HN 커뮤니티 벤치마크

참고: 20–30 tok/s는 대화형 채팅에 쾌적한 수준입니다. 15 tok/s는 사용 가능한 수준이며, 5 tok/s 미만은 느리게 느껴지지만 배치 작업에는 적합합니다.

512GB 구성은 DeepSeek R1 671B Q4 (~336GB)를 실행하고도 KV 캐시와 컨텍스트를 위해 약 176GB를 남겨둘 수 있음을 의미합니다. 이는 100K 이상의 token 컨텍스트를 가진 멀티턴 대화에 충분한 양입니다.

왜 그냥 NVIDIA를 사용하지 않을까?

Mac Studio M5 Ultra NVIDIA RTX 5090 4x RTX 5090
메모리 512GB 통합 32GB VRAM 128GB VRAM
대역폭 ~1,200 GB/s 1,792 GB/s 7,168 GB/s
DeepSeek R1 671B ✅ 메모리 내 실행 가능 ❌ 실행 불가 ❌ 여전히 실행 불가
Llama 70B 속도 ~18 tok/s ~80 tok/s ~240 tok/s
소비 전력 ~190W ~450W ~1,800W
소음 무소음 소음 있음 데이터 센터 수준
가격 ~$10,000 ~$2,000 ~$8,000 + 메인보드

모델이 VRAM에 들어갈 때 NVIDIA는 순수 속도에서 승리합니다. 하지만 모델이 32GB를 초과하는 순간 NVIDIA의 성능은 급락합니다. 시스템 RAM으로 오프로딩하면 처리량이 100+ tok/s에서 ~3 tok/s로 떨어집니다. Mac의 통합 메모리 아키텍처는 이러한 급격한 성능 저하가 없습니다. 400GB 모델도 40GB 모델과 동일한 대역폭에서 실행됩니다.

70B 미만의 모델의 경우 GPU를 구매하십시오. 200B 이상의 모델의 경우 현재 Mac Studio가 유일한 실용적인 소비자용 옵션입니다.


OpenClaw 도입: 하드웨어를 AI 어시스턴트로 바꾸기

모델을 로컬에서 실행하는 것이 첫 번째 단계입니다. 이를 24시간 내내 유용하게 만드는 것이 두 번째 단계입니다.

OpenClaw는 오픈 소스이며 자체 호스팅이 가능한 AI 에이전트 플랫폼입니다. Mac을 Telegram, Slack, Discord, WhatsApp, 심지어 iMessage와 같은 기존 메시징 앱을 통해 상호 작용하는 상시 대기형 AI 어시스턴트로 바꿔줍니다.

왜 OpenClaw + Mac Studio인가?

대부분의 사람들은 브라우저 탭을 통해 AI와 상호 작용합니다. OpenClaw는 이를 메시징 앱으로 가져옵니다. 어시스턴트는 사용자의 하드웨어에서 실행되며, 대화 전반의 컨텍스트를 기억하고 사용자가 잠든 사이에도 작동합니다.

OpenClaw의 기능

  • 지속성 메모리: 시맨틱 검색 기능이 있는 Markdown 기반 메모리 파일. 어시스턴트가 지난주에 논의한 내용을 기억합니다.
  • 멀티 채널 인박스: Telegram, Slack, Discord, WhatsApp 또는 지원되는 모든 플랫폼을 통해 대화하세요. 어떤 기기에서든 동일한 컨텍스트가 유지됩니다.
  • 자율 작업: cron 작업을 예약하고, webhook을 설정하고, 밤새 연구나 코드 작업을 수행하도록 하세요.
  • 브라우저 자동화: 연구, 데이터 추출, 양식 작성을 위한 CDP 기반 웹 브라우징.
  • 스킬 생태계: ClawHub에서 커뮤니티 스킬을 설치하거나 직접 작성하세요.
  • MCP 서버 지원: 외부 도구 및 API에 연결하세요.

로컬 모델의 장점

Ollama 또는 MLX를 통해 Mac Studio에서 로컬 모델로 OpenClaw를 실행할 때의 장점은 다음과 같습니다.

  1. API 비용 제로. token당 과금이 없습니다. 전기료(월 약 $3)만으로 DeepSeek R1 671B를 매일 하루 종일 실행하세요.
  2. 완벽한 프라이버시. 프롬프트, 문서, 코드가 머신을 떠나지 않습니다. 민감한 계약서, 독점 코드, 의료 기록을 제3자 데이터 처리 없이 처리하세요.
  3. 속도 제한 없음. 클라우드 API는 분당 1,000~10,000개의 요청으로 제한을 둡니다. 로컬 추론은 하드웨어 성능 외에는 제한이 없습니다.
  4. 다운타임 의존성 없음. OpenAI가 중단되나요? Anthropic에 장애가 발생했나요? 로컬 설정은 계속 작동합니다.
  5. 레이턴시. 네트워크 왕복이 없습니다. 소형 모델의 경우 첫 번째 token이 수 밀리초 내에 나타납니다.

빠른 설정: Mac Studio + Ollama + OpenClaw

# 1. Ollama 설치
brew install ollama

# 2. 모델 다운로드 (빠른 모델로 시작)
ollama pull qwen3:30b

# 3. OpenClaw 설치
npm install -g openclaw@latest
openclaw onboard --install-daemon

# 4. 로컬 Ollama를 사용하도록 OpenClaw 구성
# ~/.openclaw/openclaw.json 파일에서 다음과 같이 설정:
# "defaultModel": "ollama/qwen3:30b"
# "providers": [{ "type": "ollama", "baseUrl": "http://127.0.0.1:11434" }]

OpenClaw는 macOS에서 launchd 서비스로 실행됩니다. 부팅 시 시작되어 백그라운드에서 24시간 내내 작동합니다. Telegram이나 Slack을 연결하면 언제 어디서나 사용할 수 있는 지속적인 AI 어시스턴트가 생깁니다.

512GB의 M5 Ultra라면 더 큰 모델을 사용할 수 있습니다.

# DeepSeek R1 671B 다운로드 (~336GB RAM 필요)
ollama pull deepseek-r1:671b-q4

# 또는 멀티모달 작업을 위한 우수한 Qwen3-VL 235B
ollama pull qwen3-vl:235b-q4

경제성: 로컬이 클라우드를 이기는 시점은?

계산을 해봅시다.

클라우드 API 비용 (헤비 유저)

사용 패턴 월 비용
Claude Sonnet 4.6과 OpenClaw 연동 (헤비 사용) $200–400/월
개발 + 코딩 어시스턴트 $50–100/월
연구 + 문서 분석 $50–100/월
합계 $300–600/월

Mac Studio M5 Ultra (일시불 + 운영비)

항목 비용
Mac Studio M5 Ultra 512GB (예상) ~$10,000
전기료 (~200W, 24/7) ~$3/월
인터넷 (기존 사용분) $0
월 $400 클라우드 대비 손익분기점 ~25개월

25개월 후에는 월 $3의 비용으로 프런티어급 AI를 실행하게 됩니다. 그리고 다른 모든 용도로 사용할 수 있는 $10,000 가치의 워크스테이션이 여전히 남아 있습니다.

하이브리드 접근 방식 (권장)

반드시 로컬이나 클라우드 중 하나만 선택할 필요는 없습니다. 가장 스마트한 설정은 다음과 같습니다.

  • 대량의 작업, 프라이버시가 중요한 작업, 레이턴시가 중요한 작업(코딩, 문서 분석, 브레인스토밍)에는 로컬 모델 사용
  • 로컬에서 실행할 수 없는 최첨단 기능(GPT-5, 200K 컨텍스트를 풀 스피드로 지원하는 Claude Opus 4.6 등)에는 클라우드 API 사용

OpenClaw는 이를 기본적으로 지원합니다. 여러 모델 제공자를 구성하고 대화나 작업별로 로컬 Ollama와 클라우드 API 사이를 전환할 수 있습니다.

클라우드 API 액세스의 경우, LemonData를 통해 단일 API 키로 300개 이상의 모델을 사용할 수 있습니다. 구독이나 최소 비용 없이 사용한 만큼만 지불하세요. 로컬 모델로 부족할 때 클라우드 백업으로 활용하기 좋습니다.


구성 가이드: 세 가지 등급

Tier 1: 입문자용 ($4,000–5,000)

Mac Studio M3/M5 Ultra 96GB

  • 실행 가능 모델: Qwen3 30B, Llama 70B (Q4), DeepSeek R1 14B
  • 속도: 30B 모델에서 30–50 tok/s
  • 적합한 용도: 개인 어시스턴트, 코딩 지원, 가벼운 연구
  • OpenClaw 설정: qwen3:30b를 기본으로 사용, 복잡한 작업은 클라우드 백업 활용

Tier 2: 파워 유저용 ($7,000–9,000)

Mac Studio M5 Ultra 256GB

  • 실행 가능 모델: Qwen3-VL 235B, GLM-4.7 358B (Q3), Llama 405B (Q4)
  • 속도: 200B+ 모델에서 15–30 tok/s
  • 적합한 용도: 전문 개발, 멀티모달 작업, 팀 AI 서버
  • OpenClaw 설정: 비전 작업에 qwen3-vl:235b, 추론 작업에 deepseek-r1:70b 사용

Tier 3: AI 워크스테이션 ($10,000–14,000)

Mac Studio M5 Ultra 512GB

  • 실행 가능 모델: DeepSeek R1 671B (Q4) 및 하위 모든 모델
  • 속도: 671B 모델에서 25–35 tok/s
  • 적합한 용도: 최대 규모의 오픈 소스 모델 실행, 다중 사용자 서버, 연구
  • OpenClaw 설정: 심층 추론에 deepseek-r1:671b, 빠른 작업에는 소형 모델 사용

24/7 AI 서버로 운영하기

Mac Studio는 상시 가동을 위해 설계되었습니다. 헤드리스 AI 서버로 설정하는 방법은 다음과 같습니다.

전력 및 발열

  • 190W TDP는 특수 배선 없이 표준 콘센트에서 사용 가능함을 의미합니다.
  • 유휴 상태에서는 팬이 돌지 않으며, 부하가 걸려도 속삭이는 듯 조용합니다.
  • 지속적인 워크로드에서도 써멀 쓰로틀링이 발생하지 않습니다 (Apple의 열 설계가 이를 처리합니다).

원격 접속

  • 터미널 접속을 위한 SSH
  • 어디서나 안전한 원격 접속을 위한 Tailscale
  • OpenClaw의 메시징 통합 덕분에 머신에 직접 접속할 필요가 없습니다. Telegram을 통해 AI에게 메시지를 보내기만 하면 됩니다.

신뢰성

  • macOS launchd는 OpenClaw가 충돌할 경우 자동으로 재시작합니다.
  • Ollama는 백그라운드 서비스로 실행됩니다.
  • 정전에 대비해 UPS를 권장합니다 (Mac Studio는 부팅 시 서비스를 자동으로 재개합니다).
# SSH 활성화
sudo systemsetup -setremotelogin on

# 원격 접속을 위한 Tailscale 설치
brew install tailscale
sudo tailscale up

# OpenClaw는 온보딩 후 이미 launchd 서비스로 실행 중입니다.
# 상태 확인:
launchctl list | grep openclaw

향후 전망: M5 Ultra 로드맵

M5 Ultra Mac Studio는 2026년 하반기에 출시될 것으로 예상됩니다. 일정은 다음과 같습니다.

  • 2026년 3월 4일: Apple "Experience" 이벤트, M5 Pro/Max MacBook Pro 예상
  • 2026년 하반기: M5 Ultra 탑재 Mac Studio
  • M3 Ultra 대비 주요 개선 사항: GPU Neural Accelerator (3–4배 빠른 TTFT), 더 높은 메모리 대역폭 (~1.1–1.4 TB/s), 동일하거나 더 높은 최대 메모리

지금 살까, 기다릴까?

다음의 경우 지금 M3 Ultra 512GB를 구매하세요.

  • 지금 당장 로컬 AI 추론이 필요한 경우
  • 클라우드 API에 월 $300 이상 지출하고 있는 경우
  • DeepSeek R1 671B에서 17–20 tok/s의 속도가 본인의 용도에 충분한 경우

다음의 경우 M5 Ultra를 기다리세요.

  • 6~9개월 더 클라우드 API를 사용하는 것을 감수할 수 있는 경우
  • 3~4배의 TTFT 개선을 원하는 경우 (에이전트 워크로드에 중요)
  • $10,000 이상을 투자하기 전에 실제 벤치마크를 확인하고 싶은 경우

어느 쪽이든, LemonData를 통한 클라우드 API를 사용하여 오늘 바로 OpenClaw를 시작할 수 있습니다. 가입 시 $1 무료 크레딧이 제공되며, 300개 이상의 모델을 사용한 만큼만 지불하면 됩니다. Mac Studio가 도착하면 OpenClaw의 대상을 로컬 Ollama 인스턴스로 바꾸기만 하면 비용이 거의 제로로 떨어집니다.


요약 (TL;DR)

클라우드 API Mac Studio M5 Ultra + OpenClaw
최대 모델 크기 제한 없음 (제공업체가 처리) 671B Q4 (512GB 구성)
월 비용 $300–600 (헤비 사용) ~$3 전기료
프라이버시 데이터가 제3자에게 전송됨 모든 것이 로컬에 유지됨
레이턴시 200–500ms 네트워크 + 추론 추론 시간만 소요
속도 제한 있음 없음
초기 비용 $0 ~$10,000
손익분기점 ~25개월

Mac Studio M5 Ultra는 개인용 AI 인프라입니다. OpenClaw와 결합하면 프라이버시를 존중하고 월 $3의 운영비로 프런티어급 모델을 실행하는 24시간 AI 어시스턴트를 갖게 됩니다.

"로컬 AI는 장난감이다"라는 시대는 끝났습니다. 1.2+ TB/s 대역폭의 512GB 통합 메모리는 클라우드 서비스에 필적하는 모델을 실행할 수 있음을 의미합니다. 유일한 질문은 여러분이 자신만의 AI 스택을 소유할 준비가 되었느냐는 것입니다.


AI 인프라 구축을 시작할 준비가 되셨나요? LemonData와 함께 OpenClaw를 사용해 보세요: $1 무료 크레딧으로 300개 이상의 클라우드 모델을 이용할 수 있습니다. Mac Studio가 준비되면 코드 변경 없이 로컬 모델로 전환하세요.

Share: