Seedance 2.0 API — Coming SoonGet early access

Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

API Kimi K2 Thinking pour le raisonnement long‑horizon

Exécutez K2 Thinking via EvoLink pour analyser de gros documents, orchestrer des outils et produire des sorties structurées. Conçu pour 256K tokens de contexte, tool calling natif et workflows multi‑étapes fiables.

Modèle de raisonnement long‑contexte Kimi K2 Thinking
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Kimi K2 Thinking262.1K262.1K
$0.556-7%
$0.600Official Price
$2.222-11%
$2.50Official Price
$0.139-7%
$0.150Official Price
Web Search Tool

Server-side web search capability

$0.004/search

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Que pouvez‑vous construire avec Kimi K2 Thinking ?

Recherche long‑contexte

Traitez des rapports complets, des codebases ou des bases de connaissances en une seule requête. La fenêtre 256K rend le raisonnement sur de gros inputs pratique sans chunking agressif.

long context research

Agents orchestrés par outils

Concevez des agents qui appellent des outils et restent sur la bonne trajectoire. K2 Thinking accepte des définitions d’outils et renvoie des tool calls JSON, adaptés aux plans longs multi‑étapes.

tool orchestrated agents

Workflows codebase & data

Utilisez le modèle pour des refactors, du debug et de l’analyse de données sur de grands dépôts ou datasets avec un raisonnement cohérent, étape par étape.

codebase reasoning workflows

Pourquoi les développeurs choisissent l’API Kimi K2 Thinking

Flexibilité open‑source, 256K de contexte et usage natif d’outils pour des agents long‑horizon robustes.

Fenêtre de contexte 256K

Raisonnement sur des documents longs et des historiques multi‑tours avec un contexte 256K complet.

Tool calling natif

Accepte les définitions d’outils et produit des tool calls JSON pour une orchestration fiable et des sorties structurées.

Open‑source + efficacité MoE

Poids open source sous licence MIT modifiée et architecture MoE 1T (32B actifs) pour un raisonnement efficace à grande échelle.

Comment intégrer l’API Kimi K2 Thinking

Trois étapes pour ajouter le raisonnement long‑horizon et l’usage d’outils à votre app.

1

Étape 1 — Fournir le contexte

Envoyez de longs inputs ou un contexte RAG augmenté jusqu’à 256K tokens pour donner une visibilité complète à la tâche.

2

Étape 2 — Définir les outils

Joignez des schémas de fonctions pour que le modèle appelle des outils de recherche, de code ou métier via JSON structuré.

3

Étape 3 — Exécuter et vérifier

Exécutez le raisonnement multi‑étapes, streamez les résultats et validez les tool calls ou traces de raisonnement avant d’agir.

Capacités de Kimi K2 Thinking

Conçu pour le raisonnement agentique en long contexte

Contexte

Contexte 256K tokens

Traitez des documents longs, des chats et des codebases en une seule requête.

Architecture

MoE 1T / 32B actifs

L’architecture Mixture‑of‑Experts équilibre échelle et efficacité.

Outils

Définitions d’outils + appels JSON

Support du tool calling structuré et des sorties JSON pour l’automatisation.

Explicabilité

Traces de raisonnement

Support des traces reasoning_content séparées lorsque le provider l’active.

Performance

Quantification INT4 native

Optimisé pour l’inférence efficace via Quantization‑Aware Training.

Licence

Licence open‑source

Licence MIT modifiée avec usage commercial autorisé (vérifier les termes).

Kimi K2 Thinking vs. autres modèles de raisonnement

Comparez les fenêtres de contexte, styles de raisonnement et support d'outils des principales APIs

ModelBest forContext windowReasoning styleTooling & streaming
Kimi K2 ThinkingAgents long-horizon, orchestration d'outils256K tokensÉtape par étape avec appels d'outilsAppels d'outils natifs, sorties JSON, streaming
OpenAI o1Raisonnement complexe, maths, code200K tokensChaîne de pensée interneSupport d'outils limité, pas de streaming
Claude 3.5 SonnetTâches générales, code, analyse200K tokensRéponse directe avec raisonnementOutils complets, streaming supporté
DeepSeek R1Maths, code, déploiement open-source128K tokensTraces de raisonnement explicitesSupport d'outils basique, streaming

FAQ Kimi K2 Thinking

Everything you need to know about the product and billing.

Kimi K2 Thinking est le modèle open‑source de Moonshot AI orienté raisonnement avec outils. Il utilise une architecture Mixture‑of‑Experts 1T (32B actifs), supporte 256K de contexte et accepte des définitions d’outils avec des tool calls JSON pour des workflows long‑horizon.
Le modèle prend en charge jusqu’à 256K tokens de contexte. Les providers peuvent appliquer des limites plus faibles ou des plafonds de sortie selon leur infrastructure.
Oui. Le modèle est entraîné à intercaler le raisonnement et les appels de fonctions et à maintenir un usage d’outils stable sur 200–300 invocations séquentielles.
Oui. Les poids sont publiés sur Hugging Face sous licence MIT modifiée. Vérifiez la licence et les notices tierces pour confirmer l’usage commercial.
Oui. Il est recommandé d’exécuter K2 Thinking sur des moteurs comme vLLM, SGLang ou KTransformers avec des ressources GPU adaptées.
Oui. Le modèle utilise la Quantization‑Aware Training pour une inférence INT4 weight‑only, avec ~2x d’accélération en mode faible latence tout en préservant la qualité.
Moonshot AI fournit des endpoints compatibles OpenAI et Anthropic pour Kimi K2 Thinking, ce qui simplifie l’intégration avec des SDK existants.
Résultats reportés : HLE (avec outils) 44,9 %, BrowseComp (avec outils) 60,2 % et SWE-bench Verified (avec outils) 71,3 %, évalués en précision INT4.
API Kimi K2 Thinking | Modèle de raisonnement open‑source Moonshot AI (256K contexte) | EvoLink