Seedance 2.0 API — Coming SoonGet early access

Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Kimi K2 Thinking API für Long-Horizon-Reasoning

Nutzen Sie K2 Thinking über EvoLink, um große Dokumente zu analysieren, Tools zu orchestrieren und strukturierte Outputs zu erzeugen. Entwickelt für 256K-Token-Kontext, natives Tool Calling und verlässliche Multi-Step-Workflows.

Kimi K2 Thinking Long-Context-Reasoning-Modell
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Kimi K2 Thinking262.1K262.1K
$0.556-7%
$0.600Official Price
$2.222-11%
$2.50Official Price
$0.139-7%
$0.150Official Price
Web Search Tool

Server-side web search capability

$0.004/search

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Was können Sie mit Kimi K2 Thinking bauen?

Long-Context-Research

Verarbeiten Sie komplette Reports, Codebases oder Wissensbasen in einer Anfrage. Das 256K-Kontextfenster macht Reasoning über große Inputs ohne aggressives Chunking möglich.

long context research

Tool-orchestrierte Agents

Entwerfen Sie Agents, die Tools aufrufen und auf Kurs bleiben. K2 Thinking akzeptiert Tool-Definitionen und liefert JSON-Tool-Calls — ideal für lange, mehrstufige Pläne.

tool orchestrated agents

Codebase- und Daten-Workflows

Nutzen Sie das Modell für Refactors, Debugging und Datenanalyse über große Repositories oder Datensätze hinweg — mit konsistentem, schrittweisem Reasoning.

codebase reasoning workflows

Warum Entwickler die Kimi K2 Thinking API wählen

Open-Source-Flexibilität, 256K Kontext und natives Tool-Use für robuste Long-Horizon-Agent-Workflows.

256K Kontextfenster

Reasoning über lange Dokumente und Multi-Turn-Historien mit vollem 256K-Token-Fenster.

Natives Tool Calling

Akzeptiert Tool-Definitionen und erzeugt JSON-Tool-Calls — für verlässliche Orchestrierung und strukturierte Outputs.

Open-Source + MoE-Effizienz

Open Weights mit modifizierter MIT-Lizenz und 1T-Parameter-MoE (32B aktiv) für effizientes Reasoning.

So integrieren Sie die Kimi K2 Thinking API

Drei Schritte, um Long-Horizon-Reasoning und Tool-Use in Ihre App zu bringen.

1

Schritt 1 — Kontext bereitstellen

Senden Sie lange Inputs oder RAG-augmentierten Kontext bis 256K Tokens, damit das Modell die Aufgabe vollständig sieht.

2

Schritt 2 — Tools definieren

Hängen Sie Funktions-Schemas an, damit das Modell Search-, Code- oder Business-Tools per strukturiertem JSON aufrufen kann.

3

Schritt 3 — Ausführen und verifizieren

Führen Sie Multi-Step-Reasoning aus, streamen Sie Ergebnisse und validieren Sie Tool-Calls oder Reasoning-Traces vor Aktionen.

Kimi K2 Thinking Capabilities

Für agentisches Reasoning bei langen Kontextlängen entwickelt

Kontext

256K Token Kontext

Lange Dokumente, Chats und Codebases in einer Anfrage verarbeiten.

Architektur

MoE 1T / 32B aktiv

Mixture-of-Experts-Architektur balanciert Skalierung und Effizienz.

Tools

Tool-Definitionen + JSON-Calls

Unterstützt strukturiertes Tool Calling und JSON-Outputs für Automation.

Erklärbarkeit

Reasoning Traces

Unterstützt separate reasoning_content-Traces, wenn vom Provider aktiviert.

Performance

Native INT4-Quantisierung

Optimiert für effiziente Inferenz mit Quantization-Aware Training.

Lizenz

Open-Source-Lizenz

Modifizierte MIT-Lizenz mit kommerzieller Nutzung (Bedingungen prüfen).

Kimi K2 Thinking im Vergleich zu anderen Reasoning-Modellen

Vergleichen Sie Kontextfenster, Reasoning-Stile und Tool-Unterstützung führender Reasoning-APIs

ModelBest forContext windowReasoning styleTooling & streaming
Kimi K2 ThinkingLangzeit-Agenten, Tool-Orchestrierung256K TokensSchrittweise mit Tool-AufrufenNative Tool-Aufrufe, JSON-Ausgaben, Streaming
OpenAI o1Komplexes Reasoning, Mathematik, Coding200K TokensInterne GedankenketteBegrenzte Tool-Unterstützung, kein Streaming
Claude 3.5 SonnetAllgemeine Aufgaben, Coding, Analyse200K TokensDirekte Antwort mit ReasoningVolle Tool-Nutzung, Streaming unterstützt
DeepSeek R1Mathematik, Coding, Open-Source-Deployment128K TokensExplizite Reasoning-TracesBasis-Tool-Unterstützung, Streaming

Häufige Fragen zu Kimi K2 Thinking

Everything you need to know about the product and billing.

Kimi K2 Thinking ist Moonshot AIs Open-Source-Thinking-Modell als tool-gestützter Agent. Es nutzt eine 1T-Parameter Mixture-of-Experts-Architektur (32B aktiv), unterstützt ein 256K-Kontextfenster und akzeptiert Tool-Definitionen mit JSON-Tool-Calls für Long-Horizon-Workflows.
Das Modell unterstützt bis zu 256K Tokens Kontext. Provider können kleinere Limits oder Output-Caps je nach Infrastruktur anwenden.
Ja. Das Modell ist darauf trainiert, Reasoning mit Function Calls zu verweben und stabile, mehrstufige Tool-Nutzung über 200–300 sequenzielle Aufrufe zu halten.
Ja. Die Gewichte sind auf Hugging Face unter einer modifizierten MIT-Lizenz veröffentlicht. Prüfen Sie Lizenz und Third-Party-Notices für kommerzielle Nutzung.
Ja. Empfohlen wird der Betrieb über Engines wie vLLM, SGLang oder KTransformers mit geeigneten GPU-Ressourcen.
Ja. Das Modell nutzt Quantization-Aware Training für INT4 Weight-Only Inference und berichtet ~2x Speed-up im Low-Latency-Modus bei Erhalt der Qualität.
Moonshot AI bietet OpenAI- und Anthropic-kompatible Endpoints für Kimi K2 Thinking, was die Integration mit bestehenden SDKs vereinfacht.
Genannte Ergebnisse: HLE (mit Tools) 44,9 %, BrowseComp (mit Tools) 60,2 % und SWE-bench Verified (mit Tools) 71,3 %, jeweils unter INT4-Präzision.
Kimi K2 Thinking API | Moonshot AI Open-Source-Reasoning-Modell (256K Kontext) | EvoLink