Kimi K2 Thinking API
$0.556(~ 40 credits) per 1M input tokens; $2.222(~ 160 credits) per 1M output tokens
$0.139(~ 10 credits) per 1M cache read tokens
Web search tool charged separately per request.
Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.
Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.
Kimi K2 Thinking API für Long-Horizon-Reasoning
Nutzen Sie K2 Thinking über EvoLink, um große Dokumente zu analysieren, Tools zu orchestrieren und strukturierte Outputs zu erzeugen. Entwickelt für 256K-Token-Kontext, natives Tool Calling und verlässliche Multi-Step-Workflows.

Was können Sie mit Kimi K2 Thinking bauen?
Long-Context-Research
Verarbeiten Sie komplette Reports, Codebases oder Wissensbasen in einer Anfrage. Das 256K-Kontextfenster macht Reasoning über große Inputs ohne aggressives Chunking möglich.

Tool-orchestrierte Agents
Entwerfen Sie Agents, die Tools aufrufen und auf Kurs bleiben. K2 Thinking akzeptiert Tool-Definitionen und liefert JSON-Tool-Calls — ideal für lange, mehrstufige Pläne.

Codebase- und Daten-Workflows
Nutzen Sie das Modell für Refactors, Debugging und Datenanalyse über große Repositories oder Datensätze hinweg — mit konsistentem, schrittweisem Reasoning.

Warum Entwickler die Kimi K2 Thinking API wählen
Open-Source-Flexibilität, 256K Kontext und natives Tool-Use für robuste Long-Horizon-Agent-Workflows.
256K Kontextfenster
Reasoning über lange Dokumente und Multi-Turn-Historien mit vollem 256K-Token-Fenster.
Natives Tool Calling
Akzeptiert Tool-Definitionen und erzeugt JSON-Tool-Calls — für verlässliche Orchestrierung und strukturierte Outputs.
Open-Source + MoE-Effizienz
Open Weights mit modifizierter MIT-Lizenz und 1T-Parameter-MoE (32B aktiv) für effizientes Reasoning.
So integrieren Sie die Kimi K2 Thinking API
Drei Schritte, um Long-Horizon-Reasoning und Tool-Use in Ihre App zu bringen.
Schritt 1 — Kontext bereitstellen
Senden Sie lange Inputs oder RAG-augmentierten Kontext bis 256K Tokens, damit das Modell die Aufgabe vollständig sieht.
Schritt 2 — Tools definieren
Hängen Sie Funktions-Schemas an, damit das Modell Search-, Code- oder Business-Tools per strukturiertem JSON aufrufen kann.
Schritt 3 — Ausführen und verifizieren
Führen Sie Multi-Step-Reasoning aus, streamen Sie Ergebnisse und validieren Sie Tool-Calls oder Reasoning-Traces vor Aktionen.
Kimi K2 Thinking Capabilities
Für agentisches Reasoning bei langen Kontextlängen entwickelt
256K Token Kontext
Lange Dokumente, Chats und Codebases in einer Anfrage verarbeiten.
MoE 1T / 32B aktiv
Mixture-of-Experts-Architektur balanciert Skalierung und Effizienz.
Tool-Definitionen + JSON-Calls
Unterstützt strukturiertes Tool Calling und JSON-Outputs für Automation.
Reasoning Traces
Unterstützt separate reasoning_content-Traces, wenn vom Provider aktiviert.
Native INT4-Quantisierung
Optimiert für effiziente Inferenz mit Quantization-Aware Training.
Open-Source-Lizenz
Modifizierte MIT-Lizenz mit kommerzieller Nutzung (Bedingungen prüfen).
Kimi K2 Thinking im Vergleich zu anderen Reasoning-Modellen
Vergleichen Sie Kontextfenster, Reasoning-Stile und Tool-Unterstützung führender Reasoning-APIs
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Kimi K2 Thinking | Langzeit-Agenten, Tool-Orchestrierung | 256K Tokens | Schrittweise mit Tool-Aufrufen | Native Tool-Aufrufe, JSON-Ausgaben, Streaming |
| OpenAI o1 | Komplexes Reasoning, Mathematik, Coding | 200K Tokens | Interne Gedankenkette | Begrenzte Tool-Unterstützung, kein Streaming |
| Claude 3.5 Sonnet | Allgemeine Aufgaben, Coding, Analyse | 200K Tokens | Direkte Antwort mit Reasoning | Volle Tool-Nutzung, Streaming unterstützt |
| DeepSeek R1 | Mathematik, Coding, Open-Source-Deployment | 128K Tokens | Explizite Reasoning-Traces | Basis-Tool-Unterstützung, Streaming |
Häufige Fragen zu Kimi K2 Thinking
Everything you need to know about the product and billing.