DeepSeek R1 Guide: Architektur, Benchmarks und praktische Anwendung in 2026

DeepSeek R1 hat bewiesen, dass Open-Source-Modelle mit den Reasoning-Fähigkeiten von Closed-Source-Modellen mithalten können. Veröffentlicht im Januar 2025 unter der MIT-Lizenz, erzielt es 79,8 % bei AIME 2024 und 97,3 % bei MATH-500, womit es in derselben Liga wie die o1-Serie von OpenAI spielt.

Ein Jahr später ist R1 nach wie vor eines der kosteneffizientesten Reasoning-Modelle auf dem Markt. Mit 0,55 $/2,19 $ pro 1 Mio. Token ist es 5- bis 10-mal günstiger als vergleichbare Closed-Source-Alternativen. Hier ist alles, was Sie wissen müssen, um es effektiv einzusetzen.

Wenn Sie R1 mit der breiteren Coding- und Flaggschiff-Landschaft vergleichen, sollten Sie den Coding-Modell-Vergleich und den Preisvergleich parallel zu dieser Seite offen halten. R1 glänzt am meisten, wenn man es in einem Mixed-Model-Stack einsetzt, anstatt es für alles zu verwenden.

Architektur: Warum 671B Parameter nicht 671B Kosten bedeuten

DeepSeek R1 verwendet eine Mixture of Experts (MoE) Architektur:

671 Milliarden Gesamtparameter
37 Milliarden pro Forward Pass aktiviert
Basiert auf dem DeepSeek-V3-Base Fundament
128K Token Kontextfenster

Das MoE-Design bedeutet, dass R1 die Wissenskapazität eines 671B-Modells besitzt, aber die Inferenzkosten eines ~37B-Modells verursacht. Jeder Input-Token aktiviert nur eine Teilmenge von „Experten“-Netzwerken, wodurch die Rechenanforderungen überschaubar bleiben.

Zum Vergleich: Der Betrieb eines dichten 671B-Modells würde ~1,3 TB Speicher erfordern. Die MoE-Architektur von R1 reduziert dies bei Q4-Quantisierung auf ~336 GB, wodurch es auf High-End-Consumer-Hardware (Mac Studio M3/M5 Ultra mit 512 GB) ausführbar ist.

Benchmark-Leistung

Mathematik

Benchmark	DeepSeek R1	OpenAI o1	Claude Opus 4.6
AIME 2024	79,8 %	83,3 %	~65 %
MATH-500	97,3 %	96,4 %	~90 %
Codeforces Elo	2.029	1.891	~1.600

R1 erreicht oder übertrifft o1 in den meisten mathematischen Benchmarks. Das Codeforces-Rating von 2.029 platziert es im Bereich „Candidate Master“, was mit starken menschlichen Programmierern vergleichbar ist.

Coding

R1 ist stark im algorithmischen Coding (kompetitive Programmierung, mathematische Beweise), aber weniger optimiert für Software-Engineering-Aufgaben (Multi-File-Refactoring, API-Design). Bei SWE-Bench Verified schneidet Claude Sonnet 4.6 (72,7 %) deutlich besser ab als R1.

Verwenden Sie R1 für die Implementierung von Algorithmen und mathematischen Code. Verwenden Sie Claude oder GPT-5 für allgemeines Software-Engineering.

Reasoning

Das Chain-of-Thought Reasoning von R1 ist transparent und überprüfbar. Im Gegensatz zu Closed-Source-Modellen, bei denen das Reasoning in einer verborgenen „Thinking“-Phase stattfindet, sind die Reasoning-Traces von R1 Teil des Outputs. Dies macht es wertvoll für:

Debugging von Reasoning-Fehlern (man kann sehen, wo das Modell falsch abgebogen ist)
Bildungsanwendungen (Schüler können den Denkprozess nachvollziehen)
Forschung (Analyse, wie LLMs Probleme angehen)

Training-Innovation: Reines RL ohne menschliche Labels

Der Trainingsansatz von R1 war sein bedeutendster Beitrag für die Branche.

Traditioneller Ansatz: Sammeln von von Menschen gelabelten Reasoning-Beispielen, dann Fine-Tuning des Modells, um diese zu imitieren.

DeepSeek-Ansatz: Training über groß angelegtes Reinforcement Learning (RL) ohne jegliche überwachte Reasoning-Daten. Das Modell (DeepSeek-R1-Zero) entwickelte Selbstverifizierung, Reflexion und langes Chain-of-Thought Reasoning allein durch RL.

Die praktische Bedeutung: R1 hat gezeigt, dass Reasoning-Fähigkeiten aus RL-Training ohne teure menschliche Annotationen entstehen können. Dies öffnete die Tür für andere Labore, Reasoning-Modelle effizienter zu trainieren.

Das finale R1-Modell verwendet eine zweistufige Pipeline:

RL-Stufen zur Entwicklung von Reasoning-Mustern
SFT-Stufen (Supervised Fine-Tuning), um die Ausgabequalität zu verbessern und Probleme wie Wiederholungen und Sprachmischung zu reduzieren

Praktische Anwendung

Wann man R1 verwenden sollte

Mathematische Beweise und Herleitungen
Kompetitive Programmieraufgaben
Algorithmus-Design und Optimierung
Datenanalyse, die schrittweises Reasoning erfordert
Forschungsaufgaben, bei denen transparentes Reasoning wichtig ist
Budgetbewusste Anwendungen, die Reasoning-Fähigkeiten benötigen

Wann man R1 nicht verwenden sollte

Allgemeines Software-Engineering (verwenden Sie Claude Sonnet 4.6)
Kreatives Schreiben (verwenden Sie Claude oder GPT-5)
Schnelle Q&A, bei denen Reasoning-Overhead unnötig ist (verwenden Sie GPT-4.1-mini)
UI/Frontend-Code-Generierung (R1 ist hier schwächer)
Aufgaben, die topaktuelle Informationen erfordern (die Trainingsdaten von R1 haben einen Cutoff)

Optimierung der R1-Nutzung

Die Reasoning-Traces von R1 können sehr ausführlich sein. Ein einfaches mathematisches Problem kann über 500 Token Chain-of-Thought erzeugen, bevor die endgültige Antwort erscheint. Tipps zur Verwaltung:

Setzen Sie max_tokens angemessen. R1-Outputs können bei gleicher Aufgabe 3- bis 5-mal länger sein als bei Nicht-Reasoning-Modellen.
Parsen Sie die finale Antwort. R1 gibt seine Schlussfolgerung normalerweise in einem klaren Format nach dem Reasoning-Trace aus.
Verwenden Sie Distilled-Versionen für einfachere Aufgaben. DeepSeek bietet R1-Distilled-Versionen mit 1,5B, 7B, 8B, 14B, 32B und 70B Parametern an. Die 32B- und 70B-Versionen behalten den Großteil der Reasoning-Fähigkeiten bei deutlich geringeren Kosten bei.

Preisvergleich

Modell	Input / 1M	Output / 1M	Reasoning-Fähigkeit
DeepSeek R1	0,55 $	2,19 $	Stark (79,8 % AIME)
OpenAI o3	2,00 $	8,00 $	Stark (~83 % AIME)
Claude Opus 4.6	5,00 $	25,00 $	Gut (~65 % AIME)
OpenAI o4-mini	1,10 $	4,40 $	Gut (auf Geschwindigkeit optimiert)

R1 ist beim Input 4-mal günstiger als o3 und beim Output ebenfalls 4-mal günstiger. Für Workloads, bei denen die Reasoning-Qualität vergleichbar ist (Mathe, Algorithmen), bietet R1 erhebliche Kosteneinsparungen.

Open-Source-Ökosystem

R1 ist MIT-lizenziert. Sie können:

Es ohne Einschränkungen kommerziell nutzen
Es mit Ihren eigenen Daten fine-tunen
Es destillieren, um kleinere Modelle zu trainieren
Es lokal ausführen (erfordert ~336 GB RAM bei Q4 für das volle Modell)
Es auf Ihrer eigenen Infrastruktur bereitstellen

Verfügbare Distilled-Versionen:

Version	Parameter	Anwendungsfall
R1-Distill-Qwen-1.5B	1,5B	Edge-Geräte, Mobile
R1-Distill-Qwen-7B	7B	Lokale Entwicklung, Tests
R1-Distill-Llama-8B	8B	Lokale Entwicklung
R1-Distill-Qwen-14B	14B	Produktion (leichtes Reasoning)
R1-Distill-Qwen-32B	32B	Produktion (starkes Reasoning)
R1-Distill-Llama-70B	70B	Produktion (nahezu volle Kapazität)

Die 32B-Distilled-Version ist der „Sweet Spot“ für die meisten Produktionsumgebungen: starkes Reasoning zu einem Bruchteil der Kosten des Vollmodells.

Dies ist auch die Version, die die meisten Teams zuerst evaluieren sollten. Direkt auf das volle 671B-Modell zu setzen, lässt das Modell im Betrieb oft teurer erscheinen, als es in der Praxis notwendig ist.

Für viele Teams ist der Weg über die Destillation die eigentliche Produktentscheidung. Das Vollmodell beweist, was möglich ist. Die Distilled-Linie entscheidet, was praktikabel ist.

Dieser Unterschied wird leicht übersehen und kann teuer werden, wenn man ihn ignoriert.

Wo R1 im Jahr 2026 tatsächlich in einen Stack passt

Der Fehler, den Teams machen, besteht darin, R1 als universellen Ersatz für jedes Closed-Source-Modell zu betrachten.

R1 ist am stärksten, wenn:

die Aufgabe algorithmisch, mathematisch oder Chain-of-Thought-lastig ist
Kosten eine große Rolle spielen
längere Reasoning-Traces toleriert werden können
man transparentes Reasoning statt verborgenem „Thinking“ wünscht

R1 ist schwächer, wenn:

die Aufgabe hochglanzpolierte Frontend-Generierung ist
der Workflow eher Review-lastig als Reasoning-lastig ist
man das beste Multi-File-Software-Engineering-Verhalten benötigt

Aus diesem Grund nutzen viele Teams DeepSeek R1 mittlerweile als Reasoning-Spezialisten innerhalb eines größeren Modell-Pools und nicht als einziges Modell im Stack.

Einstieg

Über API

from openai import OpenAI

client = OpenAI(
    api_key="sk-lemon-xxx",
    base_url="https://api.lemondata.cc/v1"
)

response = client.chat.completions.create(
    model="deepseek-r1",
    messages=[{
        "role": "user",
        "content": "Beweise, dass die Summe der ersten n ungeraden Zahlen gleich n² ist."
    }],
    max_tokens=4096  # R1 Reasoning-Traces können lang sein
)

print(response.choices[0].message.content)

Lokal ausführen

# Über Ollama (erfordert ~336 GB RAM für das volle Modell)
ollama pull deepseek-r1:671b-q4

# Oder verwenden Sie die 32B-Distilled-Version (erfordert ~20 GB RAM)
ollama pull deepseek-r1:32b

Was kommt als Nächstes: DeepSeek V3 und darüber hinaus

DeepSeek V3 (der Nicht-Reasoning-Nachfolger) wurde bereits mit verbesserten allgemeinen Fähigkeiten veröffentlicht. Das DeepSeek-Team verschiebt weiterhin die Grenzen dessen, was Open-Source-Modelle leisten können.

Für Reasoning-Aufgaben bleibt R1 die beste Open-Source-Option. Für allgemeine Aufgaben ist DeepSeek V3 mit 0,28 $/0,42 $ pro 1 Mio. Token eines der kosteneffizientesten Modelle auf dem Markt.

Beide sind über LemonData mit einem einzigen API-Key zugänglich. 1 $ Gratis-Guthaben bei der Anmeldung.

Wenn Sie planen, R1 lokal auszuführen, ist der Mac Studio Local AI Guide die nächste Lektüre. Wenn Sie den Zugriff über ein Gateway planen, ist der Unified AI Gateway Guide der bessere nächste Schritt.

Benchmarks Stand Februar 2026. DeepSeek R1 Weights verfügbar unter huggingface.co/deepseek-ai.