DeepSeek R1 ガイド:アーキテクチャ、ベンチマーク、2026年の実用例
DeepSeek R1は、オープンソースモデルがクローズドソースの推論能力に匹敵できることを証明しました。2025年1月にMITライセンスでリリースされ、AIME 2024で79.8%、MATH-500で97.3%のスコアを記録し、OpenAIのo1シリーズと同等のレベルに位置しています。
1年経った今でも、R1は最もコスト効率の高い推論モデルの一つです。1Mトークンあたり$0.55/$2.19で、同等のクローズドソースモデルより5〜10倍安価です。効果的に使うために知っておくべきポイントを紹介します。
アーキテクチャ:671Bパラメータが671Bのコストを意味しない理由
DeepSeek R1はMixture of Experts(MoE)アーキテクチャを採用しています:
- 合計6710億パラメータ
- 1回のフォワードパスで活性化されるのは370億パラメータのみ
- DeepSeek-V3-Baseを基盤に構築
- 128Kトークンのコンテキストウィンドウ
MoE設計により、R1は671Bモデルの知識容量を持ちながら、推論コストは約37Bモデルと同等です。各入力トークンは「エキスパート」ネットワークの一部のみを活性化し、計算負荷を抑えています。
比較すると、密な671Bモデルを動かすには約1.3TBのメモリが必要です。R1のMoEアーキテクチャはQ4量子化で約336GBに抑えられ、高性能なコンシューマーハードウェア(Mac Studio M3/M5 Ultra 512GB搭載)での実行が可能です。
ベンチマーク性能
数学
| ベンチマーク | DeepSeek R1 | OpenAI o1 | Claude Opus 4.6 |
|---|---|---|---|
| AIME 2024 | 79.8% | 83.3% | 約65% |
| MATH-500 | 97.3% | 96.4% | 約90% |
| Codeforces Elo | 2,029 | 1,891 | 約1,600 |
R1はほとんどの数学ベンチマークでo1に匹敵または上回っています。Codeforcesのレーティング2,029は「Candidate Master」レベルに相当し、強力な人間プログラマーと競合できる水準です。
コーディング
R1はアルゴリズムコーディング(競技プログラミング、数学的証明)に強みがありますが、ソフトウェアエンジニアリングタスク(複数ファイルのリファクタリング、API設計)には最適化されていません。SWE-Bench VerifiedではClaude Sonnet 4.6(72.7%)がR1を大きく上回ります。
アルゴリズム実装や数学的コードにはR1を使用し、一般的なソフトウェアエンジニアリングにはClaudeやGPT-5を使うのが良いでしょう。
推論
R1のチェーン・オブ・ソート推論は透明かつ検査可能です。クローズドソースモデルのように推論が隠れた「思考」フェーズで行われるのではなく、R1の推論過程は出力の一部として示されます。これにより以下に有用です:
- 推論エラーのデバッグ(モデルの誤り箇所が見える)
- 教育用途(学生が推論過程を追える)
- 研究(LLMが問題にどうアプローチするかの分析)
トレーニングの革新:人間ラベルなしの純RL
R1のトレーニング手法はこの分野で最も重要な貢献でした。
従来の方法:人間がラベル付けした推論例を収集し、それを模倣するようにモデルをファインチューニング。
DeepSeekの方法:監督付き推論データを一切使わず、大規模な強化学習(RL)でトレーニング。モデル(DeepSeek-R1-Zero)はRLのみで自己検証、反省、長いチェーン・オブ・ソート推論を獲得しました。
実務的な意味は、推論能力は高価な人間注釈なしでRLトレーニングから自然に現れることを示した点です。これにより他の研究所もより効率的に推論モデルを訓練できる道が開かれました。
最終的なR1モデルは2段階のパイプラインを採用しています:
- 推論パターンを形成するRL段階
- 出力品質を整え、繰り返しや言語混在などの問題を減らすSFT(監督付きファインチューニング)段階
実用的な使い方
R1を使うべき場面
- 数学的証明や導出
- 競技プログラミング問題
- アルゴリズム設計と最適化
- 段階的推論を要するデータ分析
- 透明な推論が重要な研究タスク
- 推論能力が必要でコストを抑えたい用途
R1を使わない方が良い場面
- 一般的なソフトウェアエンジニアリング(Claude Sonnet 4.6を推奨)
- クリエイティブライティング(ClaudeやGPT-5を推奨)
- 推論オーバーヘッドが不要な簡単なQ&A(GPT-4.1-miniを推奨)
- UI/フロントエンドコード生成(R1は弱い)
- 最新情報が必要なタスク(R1のトレーニングデータはカットオフあり)
R1の使用最適化
R1の推論過程は冗長になりがちです。簡単な数学問題でも最終回答前に500トークン以上のチェーン・オブ・ソートが生成されることがあります。管理のコツ:
max_tokensを適切に設定。R1の出力は同じタスクでも非推論モデルの3〜5倍長くなることがあります。- 最終回答をパース。R1は通常、推論過程の後に明確な形式で結論を示します。
- 簡単なタスクには蒸留版を利用。DeepSeekは1.5B、7B、8B、14B、32B、70BパラメータのR1蒸留版を提供。32Bと70Bはほぼ同等の推論能力を低コストで維持します。
価格比較
| モデル | 入力 / 1M | 出力 / 1M | 推論能力 |
|---|---|---|---|
| DeepSeek R1 | $0.55 | $2.19 | 強力(AIME 79.8%) |
| OpenAI o3 | $2.00 | $8.00 | 強力(AIME 約83%) |
| Claude Opus 4.6 | $5.00 | $25.00 | 良好(AIME 約65%) |
| OpenAI o4-mini | $1.10 | $4.40 | 良好(速度最適化) |
R1は入力・出力ともにo3の4分の1のコストです。推論品質が同等の数学やアルゴリズムのワークロードでは、R1は大幅なコスト削減を実現します。
オープンソースエコシステム
R1はMITライセンスです。以下が可能です:
- 商用利用に制限なし
- 独自データでのファインチューニング
- 蒸留して小型モデルのトレーニング
- ローカル実行(フルモデルはQ4で約336GB RAM必要)
- 自社インフラでのデプロイ
利用可能な蒸留版:
| バージョン | パラメータ数 | 用途 |
|---|---|---|
| R1-Distill-Qwen-1.5B | 1.5B | エッジデバイス、モバイル |
| R1-Distill-Qwen-7B | 7B | ローカル開発、テスト |
| R1-Distill-Llama-8B | 8B | ローカル開発 |
| R1-Distill-Qwen-14B | 14B | 本番運用(軽い推論) |
| R1-Distill-Qwen-32B | 32B | 本番運用(強力な推論) |
| R1-Distill-Llama-70B | 70B | 本番運用(ほぼフル能力) |
32B蒸留版は多くの本番環境での最適解です:フルモデルのコストの一部で強力な推論能力を提供します。
はじめに
API経由
from openai import OpenAI
client = OpenAI(
api_key="sk-lemon-xxx",
base_url="https://api.lemondata.cc/v1"
)
response = client.chat.completions.create(
model="deepseek-r1",
messages=[{
"role": "user",
"content": "最初のn個の奇数の和がn²に等しいことを証明してください。"
}],
max_tokens=4096 # R1の推論過程は長くなることがあります
)
print(response.choices[0].message.content)
ローカル実行
# Ollama経由(フルモデルは約336GB RAM必要)
ollama pull deepseek-r1:671b-q4
# または32B蒸留版を使用(約20GB RAM必要)
ollama pull deepseek-r1:32b
今後の展望:DeepSeek V3とその先へ
DeepSeek V3(推論機能なしの後継モデル)はすでにリリースされ、一般的な能力が向上しています。DeepSeekチームはオープンソースモデルの可能性をさらに押し広げ続けています。
推論タスクにはR1が最良のオープンソース選択肢です。一般タスクには1Mトークンあたり$0.28/$0.42のDeepSeek V3が最もコスト効率の良いモデルの一つです。
どちらもLemonDataで単一のAPIキーで利用可能。サインアップで$1の無料クレジット付き。
ベンチマークは2026年2月時点。DeepSeek R1の重みはhuggingface.co/deepseek-aiで入手可能です。
