DeepSeek R1 指南：2026 年架構、基準測試與實際應用

DeepSeek R1 證明了開源模型可以與閉源模型的推理能力相媲美。它於 2025 年 1 月以 MIT 授權發佈，在 AIME 2024 上獲得 79.8% 的分數，在 MATH-500 上獲得 97.3% 的分數，使其與 OpenAI 的 o1 系列處於同一梯隊。

一年後，R1 仍然是市面上最具成本效益的推理模型之一。每 1M token 的價格為 $0.55/$2.19，比同類閉源替代方案便宜 5 到 10 倍。以下是您有效使用它所需了解的資訊。

如果您正在將 R1 與更廣泛的程式開發和旗艦模型進行比較，請在閱讀本頁的同時參考程式開發模型比較和價格比較。當您將 R1 放在混合模型堆疊中，而不是要求它處理所有事情時，它的表現最為出色。

架構：為什麼 671B 參數並不代表 671B 的成本

DeepSeek R1 採用混合專家（Mixture of Experts, MoE）架構：

總參數 6710 億
每次前向傳播激活 370 億參數
基於 DeepSeek-V3-Base 基礎模型構建
128K token 上下文視窗

MoE 設計意味著 R1 擁有 671B 模型的知識容量，但推理成本僅相當於約 37B 的模型。每個輸入 token 僅激活「專家」網路的一個子集，從而使計算需求保持在可控範圍內。

作為對比：運行一個稠密（dense）的 671B 模型需要約 1.3TB 的記憶體。R1 的 MoE 架構在 Q4 量化下將此需求降至約 336GB，使其可以在高端消費級硬體（如配備 512GB 記憶體的 Mac Studio M3/M5 Ultra）上運行。

基準測試表現

數學

基準測試	DeepSeek R1	OpenAI o1	Claude Opus 4.6
AIME 2024	79.8%	83.3%	~65%
MATH-500	97.3%	96.4%	~90%
Codeforces Elo	2,029	1,891	~1,600

R1 在大多數數學基準測試中與 o1 持平或超越。Codeforces 評分為 2,029，使其處於「候選大師（Candidate Master）」範圍，可與強大的真人程式設計師競爭。

程式開發

R1 在演算法程式開發（競賽編程、數學證明）方面表現強勁，但在軟體工程任務（多文件重構、API 設計）方面的優化較少。在 SWE-Bench Verified 上，Claude Sonnet 4.6 (72.7%) 的表現明顯優於 R1。

對於演算法實現和數學代碼，請使用 R1。對於一般的軟體工程，請使用 Claude 或 GPT-5。

推理

R1 的思維鏈（chain-of-thought）推理是透明且可檢查的。與推理發生在隱藏「思考」階段的閉源模型不同，R1 的推理軌跡是輸出的一部分。這使其在以下方面具有價值：

調試推理錯誤（您可以看到模型在哪裡出錯）
教育應用（學生可以跟隨推理過程）
研究（分析 LLM 如何處理問題）

訓練創新：純強化學習，無需人類標籤

R1 的訓練方法是其對該領域最重要的貢獻。

傳統方法：收集人類標記的推理範例，然後微調模型進行模仿。

DeepSeek 的方法：透過大規模強化學習（RL）進行訓練，無需任何監督式推理數據。模型（DeepSeek-R1-Zero）僅透過 RL 就發展出了自我驗證、反思和長思維鏈推理能力。

實際意義：R1 證明了推理能力可以從 RL 訓練中產生，而不需要昂貴的人類標註。這為其他實驗室更有效地訓練推理模型打開了大門。

最終的 R1 模型使用兩階段流水線：

RL 階段以發展推理模式
SFT（監督式微調）階段以優化輸出品質，並減少重複和語言混雜等問題

實際應用

何時使用 R1

數學證明與推導
競賽編程問題
演算法設計與優化
需要逐步推理的數據分析
透明推理至關重要的研究任務
需要推理能力且預算有限的應用

何時不使用 R1

一般軟體工程（使用 Claude Sonnet 4.6）
創意寫作（使用 Claude 或 GPT-5）
不需要推理開銷的快速問答（使用 GPT-4.1-mini）
UI/前端代碼生成（R1 在這方面較弱）
需要最新資訊的任務（R1 的訓練數據有截止日期）

優化 R1 使用

R1 的推理軌跡可能非常冗長。一個簡單的數學問題在給出最終答案之前，可能會產生 500 個以上的思維鏈 token。管理建議：

適當設置 max_tokens。對於相同的任務，R1 的輸出可能比非推理模型長 3 到 5 倍。
解析最終答案。R1 通常會在推理軌跡之後以清晰的格式包裝其結論。
對於較簡單的任務使用蒸餾版本。DeepSeek 提供 1.5B、7B、8B、14B、32B 和 70B 參數的 R1 蒸餾版本。32B 和 70B 版本以更低的成本保留了大部分推理能力。

價格比較

模型	輸入 / 1M	輸出 / 1M	推理能力
DeepSeek R1	$0.55	$2.19	強 (79.8% AIME)
OpenAI o3	$2.00	$8.00	強 (~83% AIME)
Claude Opus 4.6	$5.00	$25.00	良好 (~65% AIME)
OpenAI o4-mini	$1.10	$4.40	良好 (針對速度優化)

R1 的輸入價格比 o3 便宜 4 倍，輸出價格也便宜 4 倍。對於推理品質相當的工作負載（數學、演算法），R1 提供了顯著的成本節省。

開源生態系統

R1 採用 MIT 授權。您可以：

無限制地進行商業使用
在您自己的數據上進行微調
對其進行蒸餾以訓練較小的模型
本地運行（完整模型在 Q4 量化下需要約 336GB RAM）
部署在您自己的基礎設施上

可用的蒸餾版本：

版本	參數	使用場景
R1-Distill-Qwen-1.5B	1.5B	邊緣設備、行動端
R1-Distill-Qwen-7B	7B	本地開發、測試
R1-Distill-Llama-8B	8B	本地開發
R1-Distill-Qwen-14B	14B	生產環境（輕度推理）
R1-Distill-Qwen-32B	32B	生產環境（強推理）
R1-Distill-Llama-70B	70B	生產環境（接近完整能力）

32B 蒸餾版本是大多數生產部署的最佳平衡點：以完整模型成本的一小部分提供強大的推理能力。

這也是大多數團隊應該首先評估的版本。直接使用完整的 671B 模型會讓模型在實際操作中看起來比通常情況更昂貴。

對於許多團隊來說，蒸餾路徑才是真正的產品決策。完整模型證明了可能性，而蒸餾系列決定了實用性。

這種區別很容易被忽視，且忽視它的代價很高。

R1 在 2026 年技術堆疊中的實際位置

團隊常犯的錯誤是將 R1 視為所有閉源模型的通用替代品。

R1 在以下情況最強：

工作內容是演算法、數學或重度思維鏈推理
成本非常重要
您可以容忍較長的推理軌跡
您想要透明的推理，而不是隱藏的「思考」

R1 在以下情況較弱：

任務是高品質的前端生成
工作流程偏重審查而非推理
您需要最佳的多文件軟體工程表現

這就是為什麼許多團隊現在將 DeepSeek R1 作為更廣泛模型池中的推理專家，而不是堆疊中唯一的模型。

開始使用

透過 API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "證明前 n 個奇數之和等於 n²。"
    }],
    max_tokens=4096  # R1 推理軌跡可能很長
)

print(response.choices[0].message.content)

本地運行

# 透過 Ollama (完整模型需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或使用 32B 蒸餾版本 (需要約 20GB RAM)
ollama pull deepseek-r1:32b

下一步：DeepSeek V3 及更多

DeepSeek V3（非推理後續版本）已經發佈，具有改進的通用能力。DeepSeek 團隊繼續挑戰開源模型所能達到的極限。

對於推理任務，R1 仍然是最佳的開源選擇。對於通用任務，DeepSeek V3 每 1M token $0.28/$0.42 的價格是目前最具成本效益的模型之一。

兩者都可以透過 LemonData 使用單一 API key 存取。註冊即享 $1 免費額度。

如果您計劃在本地運行 R1，Mac Studio 本地 AI 指南是下一篇值得閱讀的文章。如果您計劃透過網關進行路由，統一 AI 網關指南則是更好的下一步。

基準測試數據截至 2026 年 2 月。DeepSeek R1 權重可在 huggingface.co/deepseek-ai 獲取。

DeepSeek R1 指南：2026 年的 Architecture、Benchmarks 與實務應用