設定

語言

DeepSeek R1 指南:2026 年的 Architecture、Benchmarks 與實務應用

L
LemonData
·2026年2月26日·582 次瀏覽
DeepSeek R1 指南:2026 年的 Architecture、Benchmarks 與實務應用

DeepSeek R1 證明了開源模型可以與閉源模型的推理能力相媲美。它於 2025 年 1 月以 MIT 授權發佈,在 AIME 2024 上獲得 79.8% 的分數,在 MATH-500 上獲得 97.3% 的分數,使其與 OpenAI 的 o1 系列處於同一梯隊。

一年後,R1 仍然是市面上最具成本效益的推理模型之一。每 1M token 的價格為 $0.55/$2.19,比同類閉源替代方案便宜 5 到 10 倍。以下是您有效使用它所需了解的資訊。

如果您正在將 R1 與更廣泛的程式開發和旗艦模型進行比較,請在閱讀本頁的同時參考程式開發模型比較價格比較。當您將 R1 放在混合模型堆疊中,而不是要求它處理所有事情時,它的表現最為出色。


架構:為什麼 671B 參數並不代表 671B 的成本

DeepSeek R1 採用混合專家(Mixture of Experts, MoE)架構:

  • 總參數 6710 億
  • 每次前向傳播激活 370 億參數
  • 基於 DeepSeek-V3-Base 基礎模型構建
  • 128K token 上下文視窗

MoE 設計意味著 R1 擁有 671B 模型的知識容量,但推理成本僅相當於約 37B 的模型。每個輸入 token 僅激活「專家」網路的一個子集,從而使計算需求保持在可控範圍內。

作為對比:運行一個稠密(dense)的 671B 模型需要約 1.3TB 的記憶體。R1 的 MoE 架構在 Q4 量化下將此需求降至約 336GB,使其可以在高端消費級硬體(如配備 512GB 記憶體的 Mac Studio M3/M5 Ultra)上運行。


基準測試表現

數學

基準測試 DeepSeek R1 OpenAI o1 Claude Opus 4.6
AIME 2024 79.8% 83.3% ~65%
MATH-500 97.3% 96.4% ~90%
Codeforces Elo 2,029 1,891 ~1,600

R1 在大多數數學基準測試中與 o1 持平或超越。Codeforces 評分為 2,029,使其處於「候選大師(Candidate Master)」範圍,可與強大的真人程式設計師競爭。

程式開發

R1 在演算法程式開發(競賽編程、數學證明)方面表現強勁,但在軟體工程任務(多文件重構、API 設計)方面的優化較少。在 SWE-Bench Verified 上,Claude Sonnet 4.6 (72.7%) 的表現明顯優於 R1。

對於演算法實現和數學代碼,請使用 R1。對於一般的軟體工程,請使用 Claude 或 GPT-5。

推理

R1 的思維鏈(chain-of-thought)推理是透明且可檢查的。與推理發生在隱藏「思考」階段的閉源模型不同,R1 的推理軌跡是輸出的一部分。這使其在以下方面具有價值:

  • 調試推理錯誤(您可以看到模型在哪裡出錯)
  • 教育應用(學生可以跟隨推理過程)
  • 研究(分析 LLM 如何處理問題)

訓練創新:純強化學習,無需人類標籤

R1 的訓練方法是其對該領域最重要的貢獻。

傳統方法:收集人類標記的推理範例,然後微調模型進行模仿。

DeepSeek 的方法:透過大規模強化學習(RL)進行訓練,無需任何監督式推理數據。模型(DeepSeek-R1-Zero)僅透過 RL 就發展出了自我驗證、反思和長思維鏈推理能力。

實際意義:R1 證明了推理能力可以從 RL 訓練中產生,而不需要昂貴的人類標註。這為其他實驗室更有效地訓練推理模型打開了大門。

最終的 R1 模型使用兩階段流水線:

  1. RL 階段以發展推理模式
  2. SFT(監督式微調)階段以優化輸出品質,並減少重複和語言混雜等問題

實際應用

何時使用 R1

  • 數學證明與推導
  • 競賽編程問題
  • 演算法設計與優化
  • 需要逐步推理的數據分析
  • 透明推理至關重要的研究任務
  • 需要推理能力且預算有限的應用

何時不使用 R1

  • 一般軟體工程(使用 Claude Sonnet 4.6)
  • 創意寫作(使用 Claude 或 GPT-5)
  • 不需要推理開銷的快速問答(使用 GPT-4.1-mini)
  • UI/前端代碼生成(R1 在這方面較弱)
  • 需要最新資訊的任務(R1 的訓練數據有截止日期)

優化 R1 使用

R1 的推理軌跡可能非常冗長。一個簡單的數學問題在給出最終答案之前,可能會產生 500 個以上的思維鏈 token。管理建議:

  1. 適當設置 max_tokens。對於相同的任務,R1 的輸出可能比非推理模型長 3 到 5 倍。
  2. 解析最終答案。R1 通常會在推理軌跡之後以清晰的格式包裝其結論。
  3. 對於較簡單的任務使用蒸餾版本。DeepSeek 提供 1.5B、7B、8B、14B、32B 和 70B 參數的 R1 蒸餾版本。32B 和 70B 版本以更低的成本保留了大部分推理能力。

價格比較

模型 輸入 / 1M 輸出 / 1M 推理能力
DeepSeek R1 $0.55 $2.19 強 (79.8% AIME)
OpenAI o3 $2.00 $8.00 強 (~83% AIME)
Claude Opus 4.6 $5.00 $25.00 良好 (~65% AIME)
OpenAI o4-mini $1.10 $4.40 良好 (針對速度優化)

R1 的輸入價格比 o3 便宜 4 倍,輸出價格也便宜 4 倍。對於推理品質相當的工作負載(數學、演算法),R1 提供了顯著的成本節省。


開源生態系統

R1 採用 MIT 授權。您可以:

  • 無限制地進行商業使用
  • 在您自己的數據上進行微調
  • 對其進行蒸餾以訓練較小的模型
  • 本地運行(完整模型在 Q4 量化下需要約 336GB RAM)
  • 部署在您自己的基礎設施上

可用的蒸餾版本:

版本 參數 使用場景
R1-Distill-Qwen-1.5B 1.5B 邊緣設備、行動端
R1-Distill-Qwen-7B 7B 本地開發、測試
R1-Distill-Llama-8B 8B 本地開發
R1-Distill-Qwen-14B 14B 生產環境(輕度推理)
R1-Distill-Qwen-32B 32B 生產環境(強推理)
R1-Distill-Llama-70B 70B 生產環境(接近完整能力)

32B 蒸餾版本是大多數生產部署的最佳平衡點:以完整模型成本的一小部分提供強大的推理能力。

這也是大多數團隊應該首先評估的版本。直接使用完整的 671B 模型會讓模型在實際操作中看起來比通常情況更昂貴。

對於許多團隊來說,蒸餾路徑才是真正的產品決策。完整模型證明了可能性,而蒸餾系列決定了實用性。

這種區別很容易被忽視,且忽視它的代價很高。

R1 在 2026 年技術堆疊中的實際位置

團隊常犯的錯誤是將 R1 視為所有閉源模型的通用替代品。

R1 在以下情況最強:

  • 工作內容是演算法、數學或重度思維鏈推理
  • 成本非常重要
  • 您可以容忍較長的推理軌跡
  • 您想要透明的推理,而不是隱藏的「思考」

R1 在以下情況較弱:

  • 任務是高品質的前端生成
  • 工作流程偏重審查而非推理
  • 您需要最佳的多文件軟體工程表現

這就是為什麼許多團隊現在將 DeepSeek R1 作為更廣泛模型池中的推理專家,而不是堆疊中唯一的模型。


開始使用

透過 API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "證明前 n 個奇數之和等於 n²。"
    }],
    max_tokens=4096  # R1 推理軌跡可能很長
)

print(response.choices[0].message.content)

本地運行

# 透過 Ollama (完整模型需要約 336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或使用 32B 蒸餾版本 (需要約 20GB RAM)
ollama pull deepseek-r1:32b

下一步:DeepSeek V3 及更多

DeepSeek V3(非推理後續版本)已經發佈,具有改進的通用能力。DeepSeek 團隊繼續挑戰開源模型所能達到的極限。

對於推理任務,R1 仍然是最佳的開源選擇。對於通用任務,DeepSeek V3 每 1M token $0.28/$0.42 的價格是目前最具成本效益的模型之一。

兩者都可以透過 LemonData 使用單一 API key 存取。註冊即享 $1 免費額度。

如果您計劃在本地運行 R1,Mac Studio 本地 AI 指南是下一篇值得閱讀的文章。如果您計劃透過網關進行路由,統一 AI 網關指南則是更好的下一步。


基準測試數據截至 2026 年 2 月。DeepSeek R1 權重可在 huggingface.co/deepseek-ai 獲取。

Share: