DeepSeek R1 指南：2026 年 Architecture、Benchmarks 与 Practical Usage

DeepSeek R1 证明了开源模型可以匹配闭源模型的推理能力。该模型于 2025 年 1 月在 MIT 许可证下发布，在 AIME 2024 上得分为 79.8%，在 MATH-500 上得分为 97.3%，使其与 OpenAI 的 o1 系列处于同一梯队。

一年后，R1 仍然是市面上最具成本效益的推理模型之一。其价格为每 1M token $0.55/$2.19，比同类闭源替代方案便宜 5-10 倍。以下是有效使用它需要了解的信息。

如果您正在将 R1 与更广泛的编程和旗舰模型进行比较，请在阅读本页的同时参考编程模型对比和价格对比。当您将 R1 置于混合模型栈中，而不是要求它处理所有事务时，它的表现最为出色。

架构：为什么 671B 参数并不意味着 671B 的成本

DeepSeek R1 采用了混合专家（MoE）架构：

总参数量 6710 亿
每次前向传播激活 370 亿参数
基于 DeepSeek-V3-Base 基座构建
128K token 上下文窗口

MoE 设计意味着 R1 拥有 671B 模型的知识容量，但推理成本仅相当于约 37B 的模型。每个输入的 token 仅激活“专家”网络的一个子集，从而将计算需求保持在可控范围内。

作为对比：运行一个稠密的 671B 模型需要约 1.3TB 内存。R1 的 MoE 架构在 Q4 量化下将这一需求降至约 336GB，使其能够在高端消费级硬件（如配备 512GB 内存的 Mac Studio M3/M5 Ultra）上运行。

基准测试表现

数学

基准测试	DeepSeek R1	OpenAI o1	Claude Opus 4.6
AIME 2024	79.8%	83.3%	~65%
MATH-500	97.3%	96.4%	~90%
Codeforces Elo	2,029	1,891	~1,600

在大多数数学基准测试中，R1 与 o1 持平或超过后者。2,029 的 Codeforces 评分使其处于“候选大师（Candidate Master）”范围，可与人类优秀程序员竞争。

编程

R1 擅长算法编程（竞赛编程、数学证明），但在软件工程任务（多文件重构、API 设计）方面优化较少。在 SWE-Bench Verified 上，Claude Sonnet 4.6 (72.7%) 的表现显著优于 R1。

对于算法实现和数学代码，请使用 R1。对于通用的软件工程任务，请使用 Claude 或 GPT-5。

推理

R1 的思维链推理是透明且可检查的。与闭源模型在隐藏的“思考”阶段进行推理不同，R1 的推理轨迹是输出的一部分。这使得它在以下方面极具价值：

调试推理错误（您可以查看模型在哪里出错）
教育应用（学生可以跟随推理过程）
研究（分析 LLM 如何处理问题）

训练创新：无需人类标签的纯 RL

R1 的训练方法是其对该领域最重要的贡献。

传统方法：收集人类标注的推理示例，然后微调模型以模仿它们。

DeepSeek 的方法：通过大规模强化学习（RL）进行训练，无需任何监督推理数据。模型（DeepSeek-R1-Zero）仅通过 RL 就发展出了自我验证、反思和长思维链推理能力。

实际意义：R1 证明了推理能力可以从 RL 训练中产生，而无需昂贵的人类标注。这为其他实验室更高效地训练推理模型打开了大门。

最终的 R1 模型采用了两阶段流水线：

RL 阶段用于培养推理模式
SFT（有监督微调）阶段用于清理输出质量，并减少重复和语言混杂等问题

实践应用

何时使用 R1

数学证明和推导
竞赛编程问题
算法设计与优化
需要逐步推理的数据分析
透明推理至关重要的研究任务
需要推理能力且对预算敏感的应用

何时不使用 R1

通用软件工程（使用 Claude Sonnet 4.6）
创意写作（使用 Claude 或 GPT-5）
不需要推理开销的快速问答（使用 GPT-4.1-mini）
UI/前端代码生成（R1 在这方面较弱）
需要最新信息的任务（R1 的训练数据有截止日期）

优化 R1 使用

R1 的推理轨迹可能非常冗长。一个简单的数学问题在给出最终答案前可能会生成 500+ token 的思维链。管理建议：

适当设置 max_tokens。对于同一任务，R1 的输出可能比非推理模型长 3-5 倍。
解析最终答案。R1 通常会在推理轨迹之后以清晰的格式包裹其结论。
对于较简单的任务使用蒸馏版本。DeepSeek 提供了 1.5B、7B、8B、14B、32B 和 70B 参数的 R1 蒸馏版。32B 和 70B 版本以更低的成本保留了大部分推理能力。

价格对比

模型	输入 / 1M	输出 / 1M	推理能力
DeepSeek R1	$0.55	$2.19	强 (79.8% AIME)
OpenAI o3	$2.00	$8.00	强 (~83% AIME)
Claude Opus 4.6	$5.00	$25.00	好 (~65% AIME)
OpenAI o4-mini	$1.10	$4.40	好 (针对速度优化)

R1 的输入价格比 o3 便宜 4 倍，输出价格也便宜 4 倍。对于推理质量相当的工作负载（数学、算法），R1 提供了显著的成本节约。

开源生态系统

R1 采用 MIT 许可证。您可以：

无限制地进行商业使用
在您自己的数据上进行微调
对其进行蒸馏以训练更小的模型
本地运行（全模型在 Q4 量化下需要约 336GB RAM）
部署在您自己的基础设施上

可用的蒸馏版本：

版本	参数量	使用场景
R1-Distill-Qwen-1.5B	1.5B	边缘设备、移动端
R1-Distill-Qwen-7B	7B	本地开发、测试
R1-Distill-Llama-8B	8B	本地开发
R1-Distill-Qwen-14B	14B	生产环境（轻量推理）
R1-Distill-Qwen-32B	32B	生产环境（强推理）
R1-Distill-Llama-70B	70B	生产环境（接近完整能力）

32B 蒸馏版是大多数生产部署的最佳平衡点：以全模型成本的一小部分提供强大的推理能力。

这也是大多数团队应该首先评估的版本。直接使用完整的 671B 模型会使模型在实际操作中看起来比实际情况更昂贵。

对于许多团队来说，蒸馏路径才是真正的产品决策。全模型证明了可能性，而蒸馏系列决定了实用性。

这种区别很容易被忽视，而且忽视它的代价很高。

R1 在 2026 年技术栈中的实际位置

团队常犯的错误是将 R1 视为所有闭源模型的通用替代品。

R1 在以下情况最强：

工作内容是算法、数学或重度思维链
成本非常重要
可以容忍较长的推理轨迹
需要透明的推理过程而非隐藏的“思考”

R1 在以下情况较弱：

任务是高精度的前端生成
工作流偏重审查而非推理
需要最佳的多文件软件工程表现

这就是为什么许多团队现在将 DeepSeek R1 作为更广泛模型池中的推理专家，而不是栈中唯一的模型。

开始使用

通过 API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "证明前 n 个奇数之和等于 n²。"
    }],
    max_tokens=4096  # R1 推理轨迹可能很长
)

print(response.choices[0].message.content)

本地运行

# 通过 Ollama (全模型需要 ~336GB RAM)
ollama pull deepseek-r1:671b-q4

# 或使用 32B 蒸馏版 (需要 ~20GB RAM)
ollama pull deepseek-r1:32b

下一步：DeepSeek V3 及以后

DeepSeek V3（非推理继任者）已经发布，具有改进的通用能力。DeepSeek 团队继续推向开源模型所能达到的极限。

对于推理任务，R1 仍然是最佳的开源选择。对于通用任务，价格为每 1M token $0.28/$0.42 的 DeepSeek V3 是目前最具成本效益的模型之一。

两者都可以通过 LemonData 使用单个 API key 访问。注册即送 $1 免费额度。

如果您计划在本地运行 R1，Mac Studio 本地 AI 指南是下一篇值得阅读的文章。如果您计划通过网关路由到它，统一 AI API 网关指南是更好的下一步。

基准测试数据截至 2026 年 2 月。DeepSeek R1 权重可在 huggingface.co/deepseek-ai 获取。

DeepSeek R1 指南：架构、基准测试与 2026 年实际应用