Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Type de modèle:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

Prix:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

API Kimi K2 Thinking pour le raisonnement long‑horizon

Exécutez K2 Thinking via EvoLink pour analyser de gros documents, orchestrer des outils et produire des sorties structurées. Conçu pour 256K tokens de contexte, tool calling natif et workflows multi‑étapes fiables.

Modèle de raisonnement long‑contexte Kimi K2 Thinking

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
Kimi K2 Thinking	262,100	262,100	$0.588-2% (40 Credits)	$2.353-6% (160 Credits)	$0.147-2% (10 Credits)
Web Search Tool Server-side web search capability					$0.004/search (0.30 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Que pouvez‑vous construire avec Kimi K2 Thinking ?

Recherche long‑contexte

Traitez des rapports complets, des codebases ou des bases de connaissances en une seule requête. La fenêtre 256K rend le raisonnement sur de gros inputs pratique sans chunking agressif.

Construire des flows de recherche

Agents orchestrés par outils

Concevez des agents qui appellent des outils et restent sur la bonne trajectoire. K2 Thinking accepte des définitions d’outils et renvoie des tool calls JSON, adaptés aux plans longs multi‑étapes.

Créer des agents

Workflows codebase & data

Utilisez le modèle pour des refactors, du debug et de l’analyse de données sur de grands dépôts ou datasets avec un raisonnement cohérent, étape par étape.

Tester des tâches de code

Pourquoi les développeurs choisissent l’API Kimi K2 Thinking

Flexibilité open‑source, 256K de contexte et usage natif d’outils pour des agents long‑horizon robustes.

Fenêtre de contexte 256K

Raisonnement sur des documents longs et des historiques multi‑tours avec un contexte 256K complet.

Tool calling natif

Accepte les définitions d’outils et produit des tool calls JSON pour une orchestration fiable et des sorties structurées.

Open‑source + efficacité MoE

Poids open source sous licence MIT modifiée et architecture MoE 1T (32B actifs) pour un raisonnement efficace à grande échelle.

Comment intégrer l’API Kimi K2 Thinking

Trois étapes pour ajouter le raisonnement long‑horizon et l’usage d’outils à votre app.

Étape 1 — Fournir le contexte

Envoyez de longs inputs ou un contexte RAG augmenté jusqu’à 256K tokens pour donner une visibilité complète à la tâche.

Étape 2 — Définir les outils

Joignez des schémas de fonctions pour que le modèle appelle des outils de recherche, de code ou métier via JSON structuré.

Étape 3 — Exécuter et vérifier

Exécutez le raisonnement multi‑étapes, streamez les résultats et validez les tool calls ou traces de raisonnement avant d’agir.

Voir la documentation API

Capacités de Kimi K2 Thinking

Conçu pour le raisonnement agentique en long contexte

Contexte

Contexte 256K tokens

Traitez des documents longs, des chats et des codebases en une seule requête.

Architecture

MoE 1T / 32B actifs

L’architecture Mixture‑of‑Experts équilibre échelle et efficacité.

Outils

Définitions d’outils + appels JSON

Support du tool calling structuré et des sorties JSON pour l’automatisation.

Explicabilité

Traces de raisonnement

Support des traces reasoning_content séparées lorsque le provider l’active.

Performance

Quantification INT4 native

Optimisé pour l’inférence efficace via Quantization‑Aware Training.

Licence

Licence open‑source

Licence MIT modifiée avec usage commercial autorisé (vérifier les termes).

Kimi K2 Thinking vs. autres modèles de raisonnement

Comparez les fenêtres de contexte, styles de raisonnement et support d'outils des principales APIs

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	Agents long-horizon, orchestration d'outils	256K tokens	Étape par étape avec appels d'outils	Appels d'outils natifs, sorties JSON, streaming
OpenAI o1	Raisonnement complexe, maths, code	200K tokens	Chaîne de pensée interne	Support d'outils limité, pas de streaming
Claude 3.5 Sonnet	Tâches générales, code, analyse	200K tokens	Réponse directe avec raisonnement	Outils complets, streaming supporté
DeepSeek R1	Maths, code, déploiement open-source	128K tokens	Traces de raisonnement explicites	Support d'outils basique, streaming

FAQ Kimi K2 Thinking

Everything you need to know about the product and billing.

Kimi K2 Thinking est le modèle open‑source de Moonshot AI orienté raisonnement avec outils. Il utilise une architecture Mixture‑of‑Experts 1T (32B actifs), supporte 256K de contexte et accepte des définitions d’outils avec des tool calls JSON pour des workflows long‑horizon.

Le modèle prend en charge jusqu’à 256K tokens de contexte. Les providers peuvent appliquer des limites plus faibles ou des plafonds de sortie selon leur infrastructure.

Oui. Le modèle est entraîné à intercaler le raisonnement et les appels de fonctions et à maintenir un usage d’outils stable sur 200–300 invocations séquentielles.

Oui. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Vérifiez la licence et les notices tierces pour confirmer l’usage commercial.

Oui. Il est recommandé d’exécuter K2 Thinking sur des moteurs comme vLLM, SGLang ou KTransformers avec des ressources GPU adaptées.

Oui. Le modèle utilise la Quantization‑Aware Training pour une inférence INT4 weight‑only, avec ~2x d’accélération en mode faible latence tout en préservant la qualité.

Moonshot AI fournit des endpoints compatibles OpenAI et Anthropic pour Kimi K2 Thinking, ce qui simplifie l’intégration avec des SDK existants.

Résultats reportés : HLE (avec outils) 44,9 %, BrowseComp (avec outils) 60,2 % et SWE-bench Verified (avec outils) 71,3 %, évalués en précision INT4.

Guides associés

Kimi K2 Thinking API : Construire des agents multi-étapes