Accès anticipé à Seedance 2.0 APICommencer maintenant
Guide de l'API Kimi K2 Thinking : Construire des agents multi-étapes sans perdre l'état de raisonnement
guide

Guide de l'API Kimi K2 Thinking : Construire des agents multi-étapes sans perdre l'état de raisonnement

EvoLink Team
EvoLink Team
Product Team
29 mars 2026
9 min de lecture
Si vous souhaitez construire un vrai agent multi-étapes avec Kimi K2 Thinking, le détail le plus important n'est pas "supporte-t-il les outils ?" C'est si votre application préserve l'état de raisonnement du modèle entre les tours.
La documentation actuelle de Moonshot pour les modèles de réflexion indique que kimi-k2-thinking et kimi-k2.5 supportent tous deux le raisonnement approfondi et l'utilisation d'outils en plusieurs étapes, mais le modèle dédié kimi-k2-thinking maintient la réflexion activée de force. La même documentation rend également une règle d'implémentation explicitement claire : conservez reasoning_content dans le contexte de la conversation, sinon les workflows d'outils à long horizon se dégradent.

En résumé

  • Utilisez kimi-k2-thinking quand vous voulez un modèle dédié à la réflexion permanente pour les agents multi-étapes.
  • Utilisez kimi-k2.5 quand vous voulez une valeur par défaut plus flexible pouvant activer ou désactiver la réflexion.
  • Conservez reasoning_content dans le contexte, définissez max_tokens à au moins 16000, maintenez temperature à 1.0, et préférez le streaming.
  • La documentation vérifiée de Moonshot prend clairement en charge les appels d'outils multi-étapes, mais elle ne publie pas de quota public stable de "300 étapes" sur les pages utilisées pour cette réécriture — votre application doit donc imposer ses propres limites de boucle.

Ce que confirment réellement les docs actuelles de Moonshot

QuestionRéponse documentée actuelle
Quels modèles Kimi supportent la réflexion ?kimi-k2-thinking et kimi-k2.5
Lequel est le modèle de réflexion dédié ?kimi-k2-thinking
Lequel est la valeur par défaut flexible recommandée ?kimi-k2.5, avec la réflexion activée par défaut
Comment le raisonnement est-il exposé ?Via le champ reasoning_content
Qu'est-ce qui compte pour l'utilisation d'outils multi-étapes ?Préserver reasoning_content, donner au modèle un budget de tokens suffisant, et maintenir le choix d'outil compatible avec le mode de réflexion
Quel endpoint utiliser ?https://api.moonshot.ai/v1 pour l'endpoint international

Par quel modèle Kimi commencer ?

Si vous avez besoin de...Commencez avecPourquoi
Raisonnement permanent pour les workflows d'agentskimi-k2-thinkingC'est le modèle de réflexion dédié de Moonshot
Une valeur par défaut polyvalente qui peut quand même réfléchirkimi-k2.5C'est le modèle flexible recommandé dans la documentation Moonshot
Des réponses de réflexion plus rapides via EvoLinkkimi-k2-thinking via api.evolink.aiEvoLink achemine vers le point de terminaison Moonshot le plus rapide disponible
Déploiement basé sur OpenClawmoonshot/kimi-k2-thinking-turboLe catalogue du fournisseur Moonshot d'OpenClaw liste actuellement une variante turbo de réflexion
La règle pratique est simple : si l'intention de l'article est spécifiquement l'API Kimi K2 Thinking, utilisez kimi-k2-thinking dans les exemples afin que le lecteur n'ait pas à raisonner sur une option supplémentaire.

Le détail d'implémentation que la plupart des guides manquent

Moonshot expose le raisonnement du modèle dans reasoning_content, et pas uniquement dans le champ content final.

C'est important parce qu'un agent multi-étapes n'est pas une seule requête. C'est une boucle :

  1. Le modèle raisonne.
  2. Le modèle appelle un outil.
  3. Votre application exécute l'outil.
  4. Le modèle raisonne à nouveau en utilisant le résultat précédent de l'outil.
Si votre application abandonne reasoning_content entre les tours, le modèle perd une partie de la chaîne qu'il utilisait pour décider quoi faire ensuite. La documentation de Moonshot indique explicitement d'inclure l'intégralité du contenu de raisonnement dans le contexte et de laisser le modèle décider de ce dont il a encore besoin.

Boucle d'agent multi-étapes minimale

Cet exemple est intentionnellement petit. L'objectif est de montrer le flux de contrôle qui compte pour les modèles de réflexion de Kimi.

import json
import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.moonshot.ai/v1",
    api_key=os.environ["MOONSHOT_API_KEY"],
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_docs",
            "description": "Search internal product documentation",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"}
                },
                "required": ["query"]
            }
        }
    }
]

messages = [
    {"role": "system", "content": "You are a careful research agent."},
    {"role": "user", "content": "Find the API limits for our billing service and summarize the risks."},
]

for _ in range(8):
    completion = client.chat.completions.create(
        model="kimi-k2-thinking",
        messages=messages,
        tools=tools,
        tool_choice="auto",
        temperature=1.0,
        max_tokens=16000,
    )

    message = completion.choices[0].message

    # Preserve the assistant turn exactly, including reasoning_content when present.
    messages.append(message.model_dump(exclude_none=True))

    if not message.tool_calls:
        print(message.content)
        break

    for tool_call in message.tool_calls:
        args = json.loads(tool_call.function.arguments)

        if tool_call.function.name == "search_docs":
            result = {"matches": ["rate_limit=500 rpm", "burst_limit=1000 rpm"]}
        else:
            result = {"error": "unknown tool"}

        messages.append(
            {
                "role": "tool",
                "tool_call_id": tool_call.id,
                "name": tool_call.function.name,
                "content": json.dumps(result),
            }
        )

Quatre règles qui comptent plus que le marketing des modèles

RèglePourquoi c'est important
Préserver reasoning_contentC'est le principal mécanisme de continuité que Moonshot documente pour les modèles de réflexion
Définir max_tokens >= 16000Moonshot avertit que les tokens de raisonnement et les tokens de réponse partagent le même budget
Maintenir temperature = 1.0C'est le réglage de meilleure performance déclaré par Moonshot pour les modèles de réflexion
Préférer le streamingLes réponses de réflexion sont plus volumineuses et le streaming aide à réduire les problèmes de timeout

Deux autres remarques de production valent la peine d'être ajoutées :

  • Traitez la longueur de la boucle comme votre politique. La documentation vérifiée indique que Kimi supporte un raisonnement approfondi sur plusieurs appels d'outils, mais elle n'expose pas de quota d'étapes public universel stable qui devrait être codé en dur dans un article de blog.
  • Validez les arguments des outils avant d'exécuter des effets secondaires. C'est un guide d'implémentation, pas une garantie de Moonshot, mais c'est la différence entre un agent utile et une boucle de tentatives coûteuse.

La façon la plus simple d'accéder à Kimi K2 Thinking sans configurer directement les identifiants Moonshot est de passer par la passerelle compatible OpenAI d'EvoLink.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.evolink.ai/v1",
    api_key="YOUR_EVOLINK_API_KEY",
)

completion = client.chat.completions.create(
    model="kimi-k2-thinking",
    messages=[{"role": "user", "content": "Analyze the tradeoffs of event sourcing vs CRUD."}],
    temperature=1.0,
    max_tokens=16000,
)
EvoLink gère le routage des fournisseurs, les nouvelles tentatives et le basculement. Les mêmes règles de préservation de reasoning_content s'appliquent toujours — EvoLink transmet la réponse complète sans modification.

Alternative : intégration OpenClaw

Si votre environnement d'exécution est OpenClaw plutôt qu'une API directe ou une passerelle EvoLink, la documentation du fournisseur Moonshot d'OpenClaw liste actuellement :

  • moonshot/kimi-k2.5
  • moonshot/kimi-k2-thinking
  • moonshot/kimi-k2-thinking-turbo

Le raccourci d'intégration documenté est :

openclaw onboard --auth-choice moonshot-api-key
openclaw models list
openclaw models set moonshot/kimi-k2-thinking
openclaw models status

OpenClaw documente également le contrôle binaire natif de la réflexion pour Moonshot :

  • /think off désactive la réflexion Moonshot
  • tout niveau de réflexion autre que off correspond à thinking.type=enabled

C'est utile si vous souhaitez une passerelle unique capable de basculer entre une passe non-réflexive moins coûteuse et une passe de raisonnement approfondi.

Un cadre décisionnel plus sûr

Cas d'usageMeilleur choix
Agent de recherche multi-étapes avec outilskimi-k2-thinking via EvoLink ou API Moonshot directe
Assistant d'application générale n'ayant besoin de réflexion qu'occasionnellementkimi-k2.5 via EvoLink
Déploiement OpenClaw nécessitant un modèle Kimi par défautmoonshot/kimi-k2.5 en premier, puis escalader vers moonshot/kimi-k2-thinking pour les sessions plus complexes
Workflow intensif en outils où la latence est importanteTestez kimi-k2-thinking via le routage intelligent d'EvoLink pour un basculement automatique

FAQ

Kimi K2 Thinking est-il le même que Kimi K2.5 ?

Non. La documentation actuelle de Moonshot décrit kimi-k2-thinking comme le modèle de réflexion dédié et kimi-k2.5 comme le modèle flexible recommandé avec la réflexion activée par défaut.

Qu'est-ce qui fait échouer la plupart des agents Kimi multi-étapes ?

Abandonner reasoning_content, priver le modèle d'un budget max_tokens trop faible, ou construire une boucle d'outils qui ne valide jamais les arguments ni ne se termine proprement.

reasoning_content compte-t-il dans les tokens ?

Oui. La documentation de Moonshot indique que les tokens combinés de reasoning_content et de content doivent tenir dans max_tokens.

Devrais-je désactiver la réflexion pour chaque tâche simple ?

Si vous utilisez kimi-k2.5, cela peut avoir du sens pour contrôler les coûts et la latence. Si vous choisissez spécifiquement kimi-k2-thinking, l'hypothèse la plus naturelle est que le workflow est suffisamment intensif en raisonnement pour justifier une réflexion permanente.
Oui. Pointez votre SDK OpenAI sur https://api.evolink.ai/v1 avec votre clé API EvoLink et utilisez kimi-k2-thinking comme nom de modèle. EvoLink gère automatiquement le routage, les nouvelles tentatives et le basculement.

Puis-je utiliser Kimi K2 Thinking dans OpenClaw ?

Oui. La page du fournisseur Moonshot d'OpenClaw liste actuellement moonshot/kimi-k2-thinking comme référence de modèle supportée.

Où devrais-je publier les chiffres de tarification ?

Depuis les pages de tarification en direct de Moonshot, et non depuis des tableaux de comparaison tiers ou des articles de comparaison plus anciens. Cette réécriture évite intentionnellement les mentions de tarification codées en dur, car ces valeurs changent plus vite que les recommandations sur le comportement des modèles.

Essayez Kimi via une seule passerelle

Si vous souhaitez tester Kimi aux côtés de Claude, GPT et d'autres modèles adaptés aux agents sans connecter chaque fournisseur séparément, utilisez une couche de passerelle et vérifiez les routes actuellement disponibles avant de publier une comparaison de coûts.

Compare Agent Models on EvoLink

Sources

Prêt à réduire vos coûts IA de 89 % ?

Commencez avec EvoLink dès aujourd'hui et découvrez la puissance du routage intelligent des API.