Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Modelltyp:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

Preis:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

Kimi K2 Thinking API für Long-Horizon-Reasoning

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Nutzen Sie K2 Thinking über EvoLink, um große Dokumente zu analysieren, Tools zu orchestrieren und strukturierte Outputs zu erzeugen. Entwickelt für 256K-Token-Kontext, natives Tool Calling und verlässliche Multi-Step-Workflows.

Kimi K2 Thinking Long-Context-Reasoning-Modell

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
Kimi K2 Thinking	262,100	262,100	$0.588-2% (40 Credits)	$2.353-6% (160 Credits)	$0.147-2% (10 Credits)
Web Search Tool Server-side web search capability					$0.004/search (0.30 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Was können Sie mit Kimi K2 Thinking bauen?

Long-Context-Research

Verarbeiten Sie komplette Reports, Codebases oder Wissensbasen in einer Anfrage. Das 256K-Kontextfenster macht Reasoning über große Inputs ohne aggressives Chunking möglich.

Research-Flows bauen

Tool-orchestrierte Agents

Entwerfen Sie Agents, die Tools aufrufen und auf Kurs bleiben. K2 Thinking akzeptiert Tool-Definitionen und liefert JSON-Tool-Calls — ideal für lange, mehrstufige Pläne.

Agents erstellen

Codebase- und Daten-Workflows

Nutzen Sie das Modell für Refactors, Debugging und Datenanalyse über große Repositories oder Datensätze hinweg — mit konsistentem, schrittweisem Reasoning.

Coding-Tasks testen

Warum Entwickler die Kimi K2 Thinking API wählen

Open-Source-Flexibilität, 256K Kontext und natives Tool-Use für robuste Long-Horizon-Agent-Workflows.

256K Kontextfenster

Reasoning über lange Dokumente und Multi-Turn-Historien mit vollem 256K-Token-Fenster.

Natives Tool Calling

Akzeptiert Tool-Definitionen und erzeugt JSON-Tool-Calls — für verlässliche Orchestrierung und strukturierte Outputs.

Open-Source + MoE-Effizienz

Open Weights mit modifizierter MIT-Lizenz und 1T-Parameter-MoE (32B aktiv) für effizientes Reasoning.

So integrieren Sie die Kimi K2 Thinking API

Drei Schritte, um Long-Horizon-Reasoning und Tool-Use in Ihre App zu bringen.

Schritt 1 — Kontext bereitstellen

Senden Sie lange Inputs oder RAG-augmentierten Kontext bis 256K Tokens, damit das Modell die Aufgabe vollständig sieht.

Schritt 2 — Tools definieren

Hängen Sie Funktions-Schemas an, damit das Modell Search-, Code- oder Business-Tools per strukturiertem JSON aufrufen kann.

Schritt 3 — Ausführen und verifizieren

Führen Sie Multi-Step-Reasoning aus, streamen Sie Ergebnisse und validieren Sie Tool-Calls oder Reasoning-Traces vor Aktionen.

API-Dokumentation ansehen

Kimi K2 Thinking Capabilities

Für agentisches Reasoning bei langen Kontextlängen entwickelt

Kontext

256K Token Kontext

Lange Dokumente, Chats und Codebases in einer Anfrage verarbeiten.

Architektur

MoE 1T / 32B aktiv

Mixture-of-Experts-Architektur balanciert Skalierung und Effizienz.

Tools

Tool-Definitionen + JSON-Calls

Unterstützt strukturiertes Tool Calling und JSON-Outputs für Automation.

Erklärbarkeit

Reasoning Traces

Unterstützt separate reasoning_content-Traces, wenn vom Provider aktiviert.

Performance

Native INT4-Quantisierung

Optimiert für effiziente Inferenz mit Quantization-Aware Training.

Lizenz

Open-Source-Lizenz

Modifizierte MIT-Lizenz mit kommerzieller Nutzung (Bedingungen prüfen).

Kimi K2 Thinking im Vergleich zu anderen Reasoning-Modellen

Vergleichen Sie Kontextfenster, Reasoning-Stile und Tool-Unterstützung führender Reasoning-APIs

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	Langzeit-Agenten, Tool-Orchestrierung	256K Tokens	Schrittweise mit Tool-Aufrufen	Native Tool-Aufrufe, JSON-Ausgaben, Streaming
OpenAI o1	Komplexes Reasoning, Mathematik, Coding	200K Tokens	Interne Gedankenkette	Begrenzte Tool-Unterstützung, kein Streaming
Claude 3.5 Sonnet	Allgemeine Aufgaben, Coding, Analyse	200K Tokens	Direkte Antwort mit Reasoning	Volle Tool-Nutzung, Streaming unterstützt
DeepSeek R1	Mathematik, Coding, Open-Source-Deployment	128K Tokens	Explizite Reasoning-Traces	Basis-Tool-Unterstützung, Streaming

Häufige Fragen zu Kimi K2 Thinking

Everything you need to know about the product and billing.

Kimi K2 Thinking ist Moonshot AIs Open-Source-Thinking-Modell als tool-gestützter Agent. Es nutzt eine 1T-Parameter Mixture-of-Experts-Architektur (32B aktiv), unterstützt ein 256K-Kontextfenster und akzeptiert Tool-Definitionen mit JSON-Tool-Calls für Long-Horizon-Workflows.

Das Modell unterstützt bis zu 256K Tokens Kontext. Provider können kleinere Limits oder Output-Caps je nach Infrastruktur anwenden.

Ja. Das Modell ist darauf trainiert, Reasoning mit Function Calls zu verweben und stabile, mehrstufige Tool-Nutzung über 200–300 sequenzielle Aufrufe zu halten.

Ja. Die Gewichte sind auf Hugging Face unter einer modifizierten MIT-Lizenz veröffentlicht. Prüfen Sie Lizenz und Third-Party-Notices für kommerzielle Nutzung.

Ja. Empfohlen wird der Betrieb über Engines wie vLLM, SGLang oder KTransformers mit geeigneten GPU-Ressourcen.

Ja. Das Modell nutzt Quantization-Aware Training für INT4 Weight-Only Inference und berichtet ~2x Speed-up im Low-Latency-Modus bei Erhalt der Qualität.

Moonshot AI bietet OpenAI- und Anthropic-kompatible Endpoints für Kimi K2 Thinking, was die Integration mit bestehenden SDKs vereinfacht.

Genannte Ergebnisse: HLE (mit Tools) 44,9 %, BrowseComp (mit Tools) 60,2 % und SWE-bench Verified (mit Tools) 71,3 %, jeweils unter INT4-Präzision.