Einstellungen

Sprache

DeepSeek R1 Anleitung: Architektur, Benchmarks und praktische Anwendung im Jahr 2026

L
LemonData
·26. Februar 2026·49 Aufrufe
#DeepSeek#DeepSeek R1#Logisches Denken#Open Source#Mathematik#KI Modelle#2026
DeepSeek R1 Anleitung: Architektur, Benchmarks und praktische Anwendung im Jahr 2026

DeepSeek R1 Leitfaden: Architektur, Benchmarks und Praktische Anwendung im Jahr 2026

DeepSeek R1 hat bewiesen, dass Open-Source-Modelle mit Closed-Source-Reasoning-Fähigkeiten mithalten können. Im Januar 2025 unter der MIT-Lizenz veröffentlicht, erreicht es 79,8 % bei AIME 2024 und 97,3 % bei MATH-500 und befindet sich damit auf dem gleichen Niveau wie OpenAIs o1-Serie.

Ein Jahr später bleibt R1 eines der kosteneffizientesten Reasoning-Modelle auf dem Markt. Mit $0,55/$2,19 pro 1 Mio. Tokens ist es 5-10x günstiger als vergleichbare Closed-Source-Alternativen. Hier erfahren Sie, was Sie wissen müssen, um es effektiv zu nutzen.


Architektur: Warum 671 Milliarden Parameter nicht 671 Milliarden Kosten bedeuten

DeepSeek R1 verwendet eine Mixture of Experts (MoE) Architektur:

  • 671 Milliarden Gesamtparameter
  • 37 Milliarden aktiviert pro Vorwärtsdurchlauf
  • Basierend auf der DeepSeek-V3-Base Grundlage
  • 128K Token Kontextfenster

Das MoE-Design bedeutet, dass R1 die Wissenskapazität eines 671B-Modells besitzt, aber die Inferenzkosten eines ~37B-Modells hat. Jeder Eingabetoken aktiviert nur eine Teilmenge von „Expert“-Netzwerken, wodurch die Rechenanforderungen überschaubar bleiben.

Zum Vergleich: Ein dichtes 671B-Modell würde etwa 1,3 TB Speicher benötigen. Die MoE-Architektur von R1 reduziert dies auf etwa 336 GB bei Q4-Quantisierung, was den Betrieb auf High-End-Verbraucherhardware (Mac Studio M3/M5 Ultra mit 512 GB) ermöglicht.


Benchmark-Leistung

Mathematik

Benchmark DeepSeek R1 OpenAI o1 Claude Opus 4.6
AIME 2024 79,8 % 83,3 % ~65 %
MATH-500 97,3 % 96,4 % ~90 %
Codeforces Elo 2.029 1.891 ~1.600

R1 erreicht bei den meisten mathematischen Benchmarks die gleiche oder eine bessere Leistung als o1. Die Codeforces-Bewertung von 2.029 entspricht dem Bereich „Candidate Master“ und ist wettbewerbsfähig mit starken menschlichen Programmierern.

Programmierung

R1 ist stark in algorithmischer Programmierung (Wettbewerbsprogrammierung, mathematische Beweise), aber weniger optimiert für Software-Engineering-Aufgaben (Mehrdatei-Refactoring, API-Design). Beim SWE-Bench Verified übertrifft Claude Sonnet 4.6 (72,7 %) R1 deutlich.

Verwenden Sie R1 für Algorithmusimplementierung und mathematischen Code. Für allgemeines Software-Engineering eignen sich Claude oder GPT-5 besser.

Reasoning

R1s Chain-of-Thought-Reasoning ist transparent und nachvollziehbar. Anders als bei Closed-Source-Modellen, bei denen das Reasoning in einer verborgenen „Denkphase“ abläuft, sind bei R1 die Reasoning-Spuren Teil der Ausgabe. Das macht es wertvoll für:

  • Fehlerbehebung bei Reasoning-Fehlern (man sieht, wo das Modell falsch lag)
  • Bildungsanwendungen (Schüler können dem Denkprozess folgen)
  • Forschung (Analyse, wie LLMs Probleme angehen)

Training Innovation: Reines RL ohne menschliche Labels

Der Trainingsansatz von R1 war sein bedeutendster Beitrag zum Feld.

Traditioneller Ansatz: Sammlung menschlich gelabelter Reasoning-Beispiele, anschließend Feinabstimmung des Modells zur Nachahmung.

DeepSeeks Ansatz: Training mittels groß angelegtem Reinforcement Learning ohne jegliche überwachte Reasoning-Daten. Das Modell (DeepSeek-R1-Zero) entwickelte Selbstverifikation, Reflexion und langkettiges Chain-of-Thought-Reasoning ausschließlich durch RL.

Die praktische Konsequenz: R1 zeigte, dass Reasoning-Fähigkeiten durch RL-Training ohne teure menschliche Annotation entstehen können. Dies öffnete anderen Laboren die Tür, Reasoning-Modelle effizienter zu trainieren.

Das finale R1-Modell nutzt eine zweistufige Pipeline:

  1. RL-Phasen zur Entwicklung von Reasoning-Mustern
  2. SFT (überwachtes Fine-Tuning) zur Verbesserung der Ausgabequalität und zur Reduzierung von Problemen wie Wiederholungen und Sprachmischungen

Praktische Anwendung

Wann man R1 verwenden sollte

  • Mathematische Beweise und Herleitungen
  • Wettbewerbsprogrammieraufgaben
  • Algorithmendesign und -optimierung
  • Datenanalyse mit schrittweisem Reasoning
  • Forschungsaufgaben, bei denen transparentes Reasoning wichtig ist
  • Kostensensible Anwendungen, die Reasoning-Fähigkeiten benötigen

Wann man R1 nicht verwenden sollte

  • Allgemeines Software-Engineering (verwenden Sie Claude Sonnet 4.6)
  • Kreatives Schreiben (verwenden Sie Claude oder GPT-5)
  • Schnelle Q&A, bei denen Reasoning-Overhead unnötig ist (verwenden Sie GPT-4.1-mini)
  • UI-/Frontend-Code-Generierung (R1 ist hier schwächer)
  • Aufgaben, die aktuelle Informationen erfordern (R1s Trainingsdaten haben einen Cutoff)

Optimierung der R1-Nutzung

R1s Reasoning-Spuren können umfangreich sein. Ein einfaches Mathematikproblem kann über 500 Tokens Chain-of-Thought erzeugen, bevor die finale Antwort kommt. Tipps zur Handhabung:

  1. Setzen Sie max_tokens angemessen. R1-Ausgaben können 3-5x länger sein als bei Nicht-Reasoning-Modellen für dieselbe Aufgabe.
  2. Parsen Sie die finale Antwort. R1 fasst seine Schlussfolgerung in der Regel in einem klaren Format nach der Reasoning-Spur zusammen.
  3. Verwenden Sie distillierte Versionen für einfachere Aufgaben. DeepSeek bietet R1 distilliert mit 1,5B, 7B, 8B, 14B, 32B und 70B Parametern an. Die 32B- und 70B-Versionen behalten die meisten Reasoning-Fähigkeiten bei deutlich geringeren Kosten.

Preisvergleich

Modell Eingabe / 1M Ausgabe / 1M Reasoning-Fähigkeit
DeepSeek R1 $0,55 $2,19 Stark (79,8 % AIME)
OpenAI o3 $2,00 $8,00 Stark (~83 % AIME)
Claude Opus 4.6 $5,00 $25,00 Gut (~65 % AIME)
OpenAI o4-mini $1,10 $4,40 Gut (auf Geschwindigkeit optimiert)

R1 ist 4x günstiger als o3 bei Eingabe und 4x günstiger bei Ausgabe. Für Workloads, bei denen die Reasoning-Qualität vergleichbar ist (Mathematik, Algorithmen), bietet R1 erhebliche Kosteneinsparungen.


Open-Source-Ökosystem

R1 ist MIT-lizenziert. Sie können:

  • Es kommerziell ohne Einschränkungen nutzen
  • Es mit eigenen Daten feinabstimmen
  • Es destillieren, um kleinere Modelle zu trainieren
  • Es lokal ausführen (benötigt ~336 GB RAM bei Q4 für das Vollmodell)
  • Es auf eigener Infrastruktur bereitstellen

Verfügbare destillierte Versionen:

Version Parameter Anwendungsfall
R1-Distill-Qwen-1.5B 1,5B Edge-Geräte, mobil
R1-Distill-Qwen-7B 7B Lokale Entwicklung, Tests
R1-Distill-Llama-8B 8B Lokale Entwicklung
R1-Distill-Qwen-14B 14B Produktion (leichtes Reasoning)
R1-Distill-Qwen-32B 32B Produktion (starkes Reasoning)
R1-Distill-Llama-70B 70B Produktion (nahezu volle Fähigkeit)

Die 32B destillierte Version ist der Sweet Spot für die meisten Produktionseinsätze: starkes Reasoning bei einem Bruchteil der Kosten des Vollmodells.


Erste Schritte

Über API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "Beweise, dass die Summe der ersten n ungeraden Zahlen n² ergibt."
    }],
    max_tokens=4096  # R1 Reasoning-Spuren können lang sein
)

print(response.choices[0].message.content)

Lokale Ausführung

# Über Ollama (benötigt ~336GB RAM für das Vollmodell)
ollama pull deepseek-r1:671b-q4

# Oder die 32B destillierte Version verwenden (benötigt ~20GB RAM)
ollama pull deepseek-r1:32b

Was kommt als Nächstes: DeepSeek V3 und darüber hinaus

DeepSeek V3 (der nicht-Reasoning-Nachfolger) wurde bereits mit verbesserten allgemeinen Fähigkeiten veröffentlicht. Das DeepSeek-Team treibt weiterhin die Grenzen dessen voran, was Open-Source-Modelle erreichen können.

Für Reasoning-Aufgaben bleibt R1 die beste Open-Source-Option. Für allgemeine Aufgaben ist DeepSeek V3 mit $0,28/$0,42 pro 1 Mio. Tokens eines der kosteneffizientesten Modelle.

Beide sind über LemonData mit einem einzigen API-Schlüssel zugänglich. $1 Gratisguthaben bei Anmeldung.


Benchmarks Stand Februar 2026. DeepSeek R1 Gewichte verfügbar unter huggingface.co/deepseek-ai.

Share: