DeepSeek R1은 오픈 소스 모델이 폐쇄형 소스 모델의 추론 능력에 필적할 수 있음을 증명했습니다. 2025년 1월 MIT 라이선스로 출시된 이 모델은 AIME 2024에서 79.8%, MATH-500에서 97.3%를 기록하며 OpenAI의 o1 시리즈와 대등한 수준에 올랐습니다.
1년이 지난 지금도 R1은 가장 비용 효율적인 추론 모델 중 하나로 남아 있습니다. 1M token당 $0.55/$2.19의 가격으로, 유사한 성능의 폐쇄형 소스 대안들보다 5~10배 저렴합니다. 효과적인 사용을 위해 알아야 할 사항은 다음과 같습니다.
R1을 더 넓은 코딩 및 플래그십 모델들과 비교하고 싶다면, 이 페이지와 함께 코딩 모델 비교 및 가격 비교를 참고하세요. R1은 모든 일을 혼자 수행할 때보다 혼합 모델 스택에 배치했을 때 가장 빛을 발합니다.
아키텍처: 671B 파라미터가 671B의 비용을 의미하지 않는 이유
DeepSeek R1은 Mixture of Experts (MoE) 아키텍처를 사용합니다:
- 전체 파라미터 6710억 개 (671B)
- 순방향 패스당 활성화되는 파라미터 370억 개 (37B)
- DeepSeek-V3-Base 기반
- 128K token 컨텍스트 윈도우
MoE 설계 덕분에 R1은 671B 모델의 지식 용량을 갖추면서도 추론 비용은 약 37B 모델 수준으로 유지합니다. 각 입력 token은 "전문가(expert)" 네트워크의 일부만 활성화하므로 연산 요구 사항을 관리 가능한 수준으로 낮춥니다.
비교하자면, 밀집형(dense) 671B 모델을 실행하려면 약 1.3TB의 메모리가 필요합니다. R1의 MoE 아키텍처는 Q4 양자화 시 이를 약 336GB까지 줄여주어, 고사양 소비자용 하드웨어(512GB 메모리를 탑재한 Mac Studio M3/M5 Ultra 등)에서도 실행 가능하게 합니다.
벤치마크 성능
수학
| 벤치마크 | DeepSeek R1 | OpenAI o1 | Claude Opus 4.6 |
|---|---|---|---|
| AIME 2024 | 79.8% | 83.3% | ~65% |
| MATH-500 | 97.3% | 96.4% | ~90% |
| Codeforces Elo | 2,029 | 1,891 | ~1,600 |
R1은 대부분의 수학 벤치마크에서 o1과 대등하거나 이를 능가합니다. Codeforces 레이팅 2,029점은 "Candidate Master" 등급에 해당하며, 숙련된 인간 프로그래머와 경쟁할 수 있는 수준입니다.
코딩
R1은 알고리즘 코딩(경쟁 프로그래밍, 수학적 증명)에는 강하지만, 소프트웨어 엔지니어링 작업(다중 파일 리팩토링, API 설계)에는 덜 최적화되어 있습니다. SWE-Bench Verified에서 Claude Sonnet 4.6(72.7%)은 R1을 크게 앞섭니다.
알고리즘 구현 및 수학적 코드에는 R1을 사용하세요. 일반적인 소프트웨어 엔지니어링에는 Claude 또는 GPT-5를 권장합니다.
추론
R1의 사고 사슬(chain-of-thought) 추론은 투명하고 검토 가능합니다. 추론이 숨겨진 "생각(thinking)" 단계에서 일어나는 폐쇄형 소스 모델과 달리, R1의 추론 과정은 출력의 일부로 포함됩니다. 이는 다음과 같은 경우에 유용합니다:
- 추론 오류 디버깅 (모델이 어디서 잘못되었는지 확인 가능)
- 교육용 애플리케이션 (학생들이 추론 과정을 따라갈 수 있음)
- 연구 (LLM이 문제에 접근하는 방식 분석)
학습 혁신: 인간의 라벨링 없는 순수 RL
R1의 학습 방식은 이 분야에 대한 가장 중요한 기여였습니다.
전통적인 방식: 인간이 라벨링한 추론 예시를 수집한 후, 모델이 이를 모방하도록 미세 조정(fine-tuning).
DeepSeek의 방식: 지도 학습 추론 데이터 없이 대규모 강화 학습(RL)을 통해 학습. 모델(DeepSeek-R1-Zero)은 RL만으로 자가 검증, 성찰, 긴 사고 사슬 추론 능력을 개발했습니다.
실질적인 시사점: R1은 값비싼 인간의 주석 없이도 RL 학습을 통해 추론 능력이 발현될 수 있음을 입증했습니다. 이는 다른 연구소들이 추론 모델을 더 효율적으로 학습시킬 수 있는 길을 열어주었습니다.
최종 R1 모델은 2단계 파이프라인을 사용합니다:
- 추론 패턴 개발을 위한 RL 단계
- 출력 품질을 정제하고 반복 및 언어 혼용 문제를 줄이기 위한 SFT(지도 미세 조정) 단계
실전 활용법
R1을 사용해야 할 때
- 수학적 증명 및 유도
- 경쟁 프로그래밍 문제
- 알고리즘 설계 및 최적화
- 단계별 추론이 필요한 데이터 분석
- 투명한 추론이 중요한 연구 작업
- 추론 능력이 필요하면서도 예산에 민감한 애플리케이션
R1을 사용하지 말아야 할 때
- 일반적인 소프트웨어 엔지니어링 (Claude Sonnet 4.6 사용 권장)
- 창의적 글쓰기 (Claude 또는 GPT-5 사용 권장)
- 추론 오버헤드가 불필요한 빠른 Q&A (GPT-4.1-mini 사용 권장)
- UI/프론트엔드 코드 생성 (R1은 이 분야에 약함)
- 최신 정보가 필요한 작업 (R1의 학습 데이터에는 컷오프가 있음)
R1 사용 최적화
R1의 추론 과정은 매우 장황할 수 있습니다. 간단한 수학 문제도 최종 답변 전에 500개 이상의 사고 사슬 token을 생성할 수 있습니다. 이를 관리하기 위한 팁:
max_tokens를 적절하게 설정하세요. R1의 출력은 동일한 작업에 대해 비추론 모델보다 3~5배 더 길 수 있습니다.- 최종 답변을 파싱하세요. R1은 일반적으로 추론 과정 후에 명확한 형식으로 결론을 묶어 제공합니다.
- 간단한 작업에는 증류(distilled) 버전을 사용하세요. DeepSeek은 1.5B, 7B, 8B, 14B, 32B, 70B 파라미터의 R1 증류 모델을 제공합니다. 32B 및 70B 버전은 훨씬 낮은 비용으로 대부분의 추론 능력을 유지합니다.
가격 비교
| 모델 | 입력 / 1M | 출력 / 1M | 추론 능력 |
|---|---|---|---|
| DeepSeek R1 | $0.55 | $2.19 | 강력함 (79.8% AIME) |
| OpenAI o3 | $2.00 | $8.00 | 강력함 (~83% AIME) |
| Claude Opus 4.6 | $5.00 | $25.00 | 양호 (~65% AIME) |
| OpenAI o4-mini | $1.10 | $4.40 | 양호 (속도 최적화) |
R1은 입력 비용과 출력 비용 모두 o3보다 4배 저렴합니다. 추론 품질이 비슷한 작업(수학, 알고리즘)의 경우 R1은 상당한 비용 절감 효과를 제공합니다.
오픈 소스 생태계
R1은 MIT 라이선스입니다. 다음이 가능합니다:
- 제한 없는 상업적 이용
- 자체 데이터로 미세 조정
- 더 작은 모델 학습을 위한 증류
- 로컬 실행 (전체 모델의 경우 Q4 양자화 시 약 336GB RAM 필요)
- 자체 인프라에 배포
사용 가능한 증류 버전:
| 버전 | 파라미터 | 활용 사례 |
|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | 엣지 디바이스, 모바일 |
| R1-Distill-Qwen-7B | 7B | 로컬 개발, 테스트 |
| R1-Distill-Llama-8B | 8B | 로컬 개발 |
| R1-Distill-Qwen-14B | 14B | 프로덕션 (가벼운 추론) |
| R1-Distill-Qwen-32B | 32B | 프로덕션 (강력한 추론) |
| R1-Distill-Llama-70B | 70B | 프로덕션 (전체에 근접한 성능) |
32B 증류 버전은 대부분의 프로덕션 배포에 가장 적합한 선택지(sweet spot)입니다. 전체 모델 비용의 일부만으로 강력한 추론 성능을 제공합니다.
이 버전은 대부분의 팀이 가장 먼저 평가해야 할 모델이기도 합니다. 곧바로 671B 모델로 가는 것은 실제 운영 비용을 필요 이상으로 비싸게 보이게 만들 수 있습니다.
많은 팀에게 증류 모델을 선택하는 것이 실제적인 제품 결정입니다. 전체 모델은 가능성을 증명하고, 증류 라인업은 실용성을 결정합니다.
이 차이는 놓치기 쉽지만, 무시할 경우 큰 비용을 초래할 수 있습니다.
2026년 스택에서 R1의 실제 위치
많은 팀이 저지르는 실수는 R1을 모든 폐쇄형 모델을 대체할 범용 모델로 취급하는 것입니다.
R1이 가장 강력할 때:
- 작업이 알고리즘, 수학 또는 사고 사슬 중심일 때
- 비용이 매우 중요할 때
- 긴 추론 과정을 감수할 수 있을 때
- 숨겨진 "생각" 대신 투명한 추론 과정을 원할 때
R1이 약할 때:
- 작업이 정교한 프론트엔드 생성일 때
- 워크플로우가 추론보다는 검토(review) 중심일 때
- 최고 수준의 다중 파일 소프트웨어 엔지니어링 성능이 필요할 때
이것이 바로 많은 팀이 DeepSeek R1을 스택의 유일한 모델이 아니라, 더 넓은 모델 풀 내의 추론 전문가로 사용하는 이유입니다.
시작하기
API 이용
from openai import OpenAI
client = OpenAI(
api_key="sk-lemon-xxx",
base_url="https://api.lemondata.cc/v1"
)
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "Prove that the sum of the first n odd numbers equals n²."
}],
max_tokens=4096 # R1 추론 과정은 길어질 수 있습니다
)
print(response.choices[0].message.content)
로컬 실행
# Ollama 이용 (전체 모델 실행 시 약 336GB RAM 필요)
ollama pull deepseek-r1:671b-q4
# 또는 32B 증류 버전 사용 (약 20GB RAM 필요)
ollama pull deepseek-r1:32b
향후 전망: DeepSeek V3 및 그 이후
일반 성능이 개선된 DeepSeek V3(비추론 후속 모델)가 이미 출시되었습니다. DeepSeek 팀은 오픈 소스 모델이 달성할 수 있는 한계를 계속해서 넓히고 있습니다.
추론 작업의 경우 R1은 여전히 최고의 오픈 소스 옵션입니다. 일반적인 작업의 경우, 1M token당 $0.28/$0.42인 DeepSeek V3가 가장 비용 효율적인 모델 중 하나입니다.
두 모델 모두 하나의 API key로 LemonData를 통해 이용할 수 있습니다. 가입 시 $1의 무료 크레딧이 제공됩니다.
R1을 로컬에서 실행할 계획이라면 Mac Studio 로컬 AI 가이드를 읽어보세요. 게이트웨이를 통해 라우팅할 계획이라면 통합 AI API 게이트웨이 가이드가 다음 단계로 적합합니다.
벤치마크 기준일: 2026년 2월. DeepSeek R1 가중치는 huggingface.co/deepseek-ai에서 확인할 수 있습니다.
