Früher Zugang zur Seedance 2.0 APIJetzt starten
Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen
guide

Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen

EvoLink Team
EvoLink Team
Product Team
29. März 2026
7 Min. Lesezeit
Wer einen echten Multi-Step-Agenten mit Kimi K2 Thinking aufbauen möchte, sollte weniger die Frage stellen, ob das Modell Tools unterstützt – sondern vielmehr: Bewahrt die Anwendung den Reasoning-Zustand des Modells über mehrere Gesprächsrunden hinweg?
Moonshoots aktuelle Dokumentation zu Thinking-Modellen besagt, dass sowohl kimi-k2-thinking als auch kimi-k2.5 tiefes Reasoning und mehrstufige Tool-Nutzung unterstützen. Das dedizierte Modell kimi-k2-thinking hält das Thinking jedoch dauerhaft aktiv. Dieselbe Dokumentation macht außerdem eine Implementierungsregel ungewöhnlich deutlich: reasoning_content muss im Gesprächskontext erhalten bleiben, sonst verschlechtern sich langfristige Tool-Workflows.

TL;DR

  • Verwenden Sie kimi-k2-thinking, wenn Sie ein dediziertes Always-Thinking-Modell für Multi-Step-Agenten möchten.
  • Verwenden Sie kimi-k2.5, wenn Sie eine flexiblere Standardoption benötigen, bei der Thinking aktiviert oder deaktiviert werden kann.
  • Bewahren Sie reasoning_content im Kontext, setzen Sie max_tokens auf mindestens 16000, halten Sie temperature bei 1.0, und bevorzugen Sie Streaming.
  • Moonshoots geprüfte Dokumentation unterstützt eindeutig mehrstufige Tool-Calls, veröffentlicht jedoch kein stabiles öffentliches „300-Schritt"-Kontingent auf den für diese Überarbeitung verwendeten Seiten – Ihre Anwendung sollte daher eigene Schleifenlimits durchsetzen.

Was Moonshoots aktuelle Dokumentation tatsächlich bestätigt

FrageAktuell dokumentierte Antwort
Welche Kimi-Modelle unterstützen Thinking?kimi-k2-thinking und kimi-k2.5
Welches ist das dedizierte Thinking-Modell?kimi-k2-thinking
Welches ist der empfohlene flexible Standard?kimi-k2.5, mit standardmäßig aktiviertem Thinking
Wie wird das Reasoning offengelegt?Über das Feld reasoning_content
Was ist bei mehrstufiger Tool-Nutzung entscheidend?reasoning_content bewahren, dem Modell ausreichend Token-Budget geben und die Tool-Auswahl kompatibel mit dem Thinking-Modus halten
Welchen Endpunkt sollten Sie verwenden?https://api.moonshot.ai/v1 für den internationalen Endpunkt

Welche Kimi-Route sollten Sie wählen?

Wenn Sie ... benötigenBeginnen Sie mitWarum
Dauerhaftes Reasoning für Agenten-Workflowskimi-k2-thinkingEs ist Moonshoots dediziertes Thinking-Modell
Einen allgemeinen Standard, der bei Bedarf denken kannkimi-k2.5Es ist das empfohlene flexible Modell in Moonshoots Dokumentation
Schnellere Thinking-Antworten über EvoLinkkimi-k2-thinking über api.evolink.aiEvoLink leitet zum schnellsten verfügbaren Moonshot-Endpunkt weiter
OpenClaw-basiertes Deploymentmoonshot/kimi-k2-thinking-turboDer Moonshot-Provider-Katalog von OpenClaw listet derzeit eine Turbo-Thinking-Variante
Die praktische Regel ist einfach: Wenn es in einem Artikel speziell um die Kimi K2 Thinking API geht, verwenden Sie kimi-k2-thinking in den Beispielen, damit der Leser keinen weiteren Schalter selbst einschätzen muss.

Das Implementierungsdetail, das die meisten Leitfäden übersehen

Moonshot stellt das Reasoning des Modells über reasoning_content bereit – nicht nur über das finale content-Feld.

Das ist wichtig, weil ein Multi-Step-Agent keine einzelne Anfrage ist. Es ist eine Schleife:

  1. Das Modell denkt nach.
  2. Das Modell ruft ein Tool auf.
  3. Ihre Anwendung führt das Tool aus.
  4. Das Modell denkt erneut nach, diesmal unter Berücksichtigung des vorherigen Tool-Ergebnisses.
Wenn Ihre Anwendung reasoning_content zwischen den Runden verwirft, verliert das Modell einen Teil der Kette, die es zur Entscheidungsfindung genutzt hat. Moonshoots Dokumentation besagt ausdrücklich, dass der gesamte Reasoning-Inhalt im Kontext behalten werden soll und das Modell selbst entscheidet, was es noch benötigt.

Minimale Multi-Step-Agenten-Schleife

Dieses Beispiel ist bewusst klein gehalten. Es soll den Kontrollfluss zeigen, der für Kimis Thinking-Modelle entscheidend ist.

import json
import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.moonshot.ai/v1",
    api_key=os.environ["MOONSHOT_API_KEY"],
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_docs",
            "description": "Search internal product documentation",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"}
                },
                "required": ["query"]
            }
        }
    }
]

messages = [
    {"role": "system", "content": "You are a careful research agent."},
    {"role": "user", "content": "Find the API limits for our billing service and summarize the risks."},
]

for _ in range(8):
    completion = client.chat.completions.create(
        model="kimi-k2-thinking",
        messages=messages,
        tools=tools,
        tool_choice="auto",
        temperature=1.0,
        max_tokens=16000,
    )

    message = completion.choices[0].message

    # Preserve the assistant turn exactly, including reasoning_content when present.
    messages.append(message.model_dump(exclude_none=True))

    if not message.tool_calls:
        print(message.content)
        break

    for tool_call in message.tool_calls:
        args = json.loads(tool_call.function.arguments)

        if tool_call.function.name == "search_docs":
            result = {"matches": ["rate_limit=500 rpm", "burst_limit=1000 rpm"]}
        else:
            result = {"error": "unknown tool"}

        messages.append(
            {
                "role": "tool",
                "tool_call_id": tool_call.id,
                "name": tool_call.function.name,
                "content": json.dumps(result),
            }
        )

Vier Regeln, die mehr zählen als Modell-Marketing

RegelWarum sie wichtig ist
reasoning_content bewahrenDas ist der zentrale Kontinuitätsmechanismus, den Moonshot für Thinking-Modelle dokumentiert
max_tokens >= 16000 setzenMoonshot warnt, dass Reasoning-Tokens und Antwort-Tokens dasselbe Budget teilen
temperature = 1.0 beibehaltenDas ist Moonshoots empfohlene Einstellung für optimale Leistung bei Thinking-Modellen
Streaming bevorzugenThinking-Antworten sind umfangreicher, und Streaming hilft, Timeout-Probleme zu vermeiden

Zwei weitere Hinweise für den Produktionseinsatz sind erwähnenswert:

  • Behandeln Sie die Schleifenlänge als Ihre eigene Richtlinie. Die geprüfte Dokumentation besagt, dass Kimi tiefes Reasoning über mehrere Tool-Calls hinweg unterstützt, veröffentlicht jedoch kein stabiles universelles öffentliches Schritt-Kontingent, das in einem Blogbeitrag fest codiert werden sollte.
  • Validieren Sie Tool-Argumente, bevor Sie Nebeneffekte ausführen. Das ist Implementierungshinweis, keine Moonshot-Garantie – aber es ist der Unterschied zwischen einem nützlichen Agenten und einer kostspieligen Retry-Schleife.

Der einfachste Weg, auf Kimi K2 Thinking zuzugreifen, ohne Moonshot-Zugangsdaten direkt einzubinden, ist EvoLinks OpenAI-kompatibles Gateway.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.evolink.ai/v1",
    api_key="YOUR_EVOLINK_API_KEY",
)

completion = client.chat.completions.create(
    model="kimi-k2-thinking",
    messages=[{"role": "user", "content": "Analyze the tradeoffs of event sourcing vs CRUD."}],
    temperature=1.0,
    max_tokens=16000,
)
EvoLink übernimmt Provider-Routing, Wiederholungsversuche und Failover. Die gleichen Regeln zur Erhaltung von reasoning_content gelten weiterhin – EvoLink leitet die vollständige Antwort unverändert weiter.

Alternative: OpenClaw-Integration

Wenn Ihre Laufzeitumgebung OpenClaw ist und nicht eine direkte API oder ein EvoLink-Gateway, listet die Moonshot-Provider-Dokumentation von OpenClaw derzeit:

  • moonshot/kimi-k2.5
  • moonshot/kimi-k2-thinking
  • moonshot/kimi-k2-thinking-turbo

Die dokumentierte Onboarding-Abkürzung lautet:

openclaw onboard --auth-choice moonshot-api-key
openclaw models list
openclaw models set moonshot/kimi-k2-thinking
openclaw models status

OpenClaw dokumentiert außerdem eine binäre native Thinking-Steuerung für Moonshot:

  • /think off deaktiviert das Moonshot-Thinking
  • Jeder Thinking-Level außer off wird auf thinking.type=enabled zurückgeführt

Das ist nützlich, wenn Sie ein einziges Gateway benötigen, das zwischen einem günstigeren Nicht-Thinking-Durchlauf und einem tieferen Reasoning-Durchlauf wechseln kann.

Ein sichereres Entscheidungsframework

AnwendungsfallBesser geeignet
Multi-Step-Recherche-Agent mit Toolskimi-k2-thinking über EvoLink oder direkte Moonshot API
Allgemeiner App-Assistent, der nur gelegentlich Thinking benötigtkimi-k2.5 über EvoLink
OpenClaw-Deployment, das ein Kimi-Standardmodell benötigtZuerst moonshot/kimi-k2.5, dann für anspruchsvollere Sessions auf moonshot/kimi-k2-thinking eskalieren
Tool-intensiver Workflow, bei dem Latenz wichtig istkimi-k2-thinking über EvoLinks Smart-Routing für automatischen Failover testen

FAQ

Ist Kimi K2 Thinking dasselbe wie Kimi K2.5?

Nein. Moonshoots aktuelle Dokumentation beschreibt kimi-k2-thinking als das dedizierte Thinking-Modell und kimi-k2.5 als das empfohlene flexible Modell, bei dem Thinking standardmäßig aktiviert ist.

Was bringt die meisten mehrstufigen Kimi-Agenten zum Scheitern?

Das Verwerfen von reasoning_content, ein zu kleines max_tokens-Budget oder eine Tool-Schleife, die Argumente nie validiert oder sauber beendet wird.

Zählt reasoning_content zu den Tokens?

Ja. Moonshoots Dokumentation besagt, dass die kombinierten Tokens aus reasoning_content und content in das max_tokens-Budget passen müssen.

Sollte ich Thinking für jede einfache Aufgabe deaktivieren?

Wenn Sie kimi-k2.5 verwenden, kann das für Kosten- und Latenzoptimierung sinnvoll sein. Wenn Sie sich bewusst für kimi-k2-thinking entscheiden, ist die naheliegendere Annahme, dass der Workflow reasoning-intensiv genug ist, um dauerhaftes Thinking zu rechtfertigen.
Ja. Richten Sie Ihr OpenAI SDK auf https://api.evolink.ai/v1 mit Ihrem EvoLink API-Schlüssel und verwenden Sie kimi-k2-thinking als Modellnamen. EvoLink übernimmt Routing, Wiederholungsversuche und Failover automatisch.

Kann ich Kimi K2 Thinking in OpenClaw verwenden?

Ja. Die Moonshot-Provider-Seite von OpenClaw listet moonshot/kimi-k2-thinking derzeit als unterstützte Modellreferenz.

Woher sollte ich Preisangaben beziehen?

Von Moonshoots aktuellen Preisseiten – nicht aus Drittanbieter-Benchmark-Tabellen oder älteren Vergleichsbeiträgen. Diese Überarbeitung verzichtet bewusst auf fest codierte Preisangaben, da sich diese schneller ändern als Modellverhalten-Dokumentation.

Kimi über ein einziges Gateway testen

Wenn Sie Kimi neben Claude, GPT und anderen agenten-freundlichen Modellen testen möchten, ohne jeden Anbieter einzeln einzubinden, nutzen Sie eine Gateway-Schicht und prüfen Sie die aktuell verfügbaren Routen, bevor Sie einen Kostenvergleich veröffentlichen.

Compare Agent Models on EvoLink

Quellen

Bereit, Ihre KI-Kosten um 89 % zu senken?

Starten Sie noch heute mit EvoLink und erleben Sie die Vorteile intelligenter API-Routing.