guide

Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen

Name: EvoLink AI API Gateway
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

29. März 2026

7 Min. Lesezeit

Wer einen echten Multi-Step-Agenten mit Kimi K2 Thinking aufbauen möchte, sollte weniger die Frage stellen, ob das Modell Tools unterstützt – sondern vielmehr: Bewahrt die Anwendung den Reasoning-Zustand des Modells über mehrere Gesprächsrunden hinweg?

Moonshoots aktuelle Dokumentation zu Thinking-Modellen besagt, dass sowohl kimi-k2-thinking als auch kimi-k2.5 tiefes Reasoning und mehrstufige Tool-Nutzung unterstützen. Das dedizierte Modell kimi-k2-thinking hält das Thinking jedoch dauerhaft aktiv. Dieselbe Dokumentation macht außerdem eine Implementierungsregel ungewöhnlich deutlich: reasoning_content muss im Gesprächskontext erhalten bleiben, sonst verschlechtern sich langfristige Tool-Workflows.

TL;DR

Verwenden Sie kimi-k2-thinking, wenn Sie ein dediziertes Always-Thinking-Modell für Multi-Step-Agenten möchten.
Verwenden Sie kimi-k2.5, wenn Sie eine flexiblere Standardoption benötigen, bei der Thinking aktiviert oder deaktiviert werden kann.
Bewahren Sie reasoning_content im Kontext, setzen Sie max_tokens auf mindestens 16000, halten Sie temperature bei 1.0, und bevorzugen Sie Streaming.
Moonshoots geprüfte Dokumentation unterstützt eindeutig mehrstufige Tool-Calls, veröffentlicht jedoch kein stabiles öffentliches „300-Schritt"-Kontingent auf den für diese Überarbeitung verwendeten Seiten – Ihre Anwendung sollte daher eigene Schleifenlimits durchsetzen.

Was Moonshoots aktuelle Dokumentation tatsächlich bestätigt

Frage	Aktuell dokumentierte Antwort
Welche Kimi-Modelle unterstützen Thinking?	`kimi-k2-thinking` und `kimi-k2.5`
Welches ist das dedizierte Thinking-Modell?	`kimi-k2-thinking`
Welches ist der empfohlene flexible Standard?	`kimi-k2.5`, mit standardmäßig aktiviertem Thinking
Wie wird das Reasoning offengelegt?	Über das Feld `reasoning_content`
Was ist bei mehrstufiger Tool-Nutzung entscheidend?	`reasoning_content` bewahren, dem Modell ausreichend Token-Budget geben und die Tool-Auswahl kompatibel mit dem Thinking-Modus halten
Welchen Endpunkt sollten Sie verwenden?	`https://api.moonshot.ai/v1` für den internationalen Endpunkt

Welche Kimi-Route sollten Sie wählen?

Wenn Sie ... benötigen	Beginnen Sie mit	Warum
Dauerhaftes Reasoning für Agenten-Workflows	`kimi-k2-thinking`	Es ist Moonshoots dediziertes Thinking-Modell
Einen allgemeinen Standard, der bei Bedarf denken kann	`kimi-k2.5`	Es ist das empfohlene flexible Modell in Moonshoots Dokumentation
Schnellere Thinking-Antworten über EvoLink	`kimi-k2-thinking` über `api.evolink.ai`	EvoLink leitet zum schnellsten verfügbaren Moonshot-Endpunkt weiter
OpenClaw-basiertes Deployment	`moonshot/kimi-k2-thinking-turbo`	Der Moonshot-Provider-Katalog von OpenClaw listet derzeit eine Turbo-Thinking-Variante

Die praktische Regel ist einfach: Wenn es in einem Artikel speziell um die Kimi K2 Thinking API geht, verwenden Sie kimi-k2-thinking in den Beispielen, damit der Leser keinen weiteren Schalter selbst einschätzen muss.

Das Implementierungsdetail, das die meisten Leitfäden übersehen

Moonshot stellt das Reasoning des Modells über reasoning_content bereit – nicht nur über das finale content-Feld.

Das ist wichtig, weil ein Multi-Step-Agent keine einzelne Anfrage ist. Es ist eine Schleife:

Das Modell denkt nach.
Das Modell ruft ein Tool auf.
Ihre Anwendung führt das Tool aus.
Das Modell denkt erneut nach, diesmal unter Berücksichtigung des vorherigen Tool-Ergebnisses.

Wenn Ihre Anwendung reasoning_content zwischen den Runden verwirft, verliert das Modell einen Teil der Kette, die es zur Entscheidungsfindung genutzt hat. Moonshoots Dokumentation besagt ausdrücklich, dass der gesamte Reasoning-Inhalt im Kontext behalten werden soll und das Modell selbst entscheidet, was es noch benötigt.

Minimale Multi-Step-Agenten-Schleife

Dieses Beispiel ist bewusst klein gehalten. Es soll den Kontrollfluss zeigen, der für Kimis Thinking-Modelle entscheidend ist.

import json
import os
from openai import OpenAI

client = OpenAI(
    base_url="https://api.moonshot.ai/v1",
    api_key=os.environ["MOONSHOT_API_KEY"],
)

tools = [
    {
        "type": "function",
        "function": {
            "name": "search_docs",
            "description": "Search internal product documentation",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string"}
                },
                "required": ["query"]
            }
        }
    }
]

messages = [
    {"role": "system", "content": "You are a careful research agent."},
    {"role": "user", "content": "Find the API limits for our billing service and summarize the risks."},
]

for _ in range(8):
    completion = client.chat.completions.create(
        model="kimi-k2-thinking",
        messages=messages,
        tools=tools,
        tool_choice="auto",
        temperature=1.0,
        max_tokens=16000,
    )

    message = completion.choices[0].message

    # Preserve the assistant turn exactly, including reasoning_content when present.
    messages.append(message.model_dump(exclude_none=True))

    if not message.tool_calls:
        print(message.content)
        break

    for tool_call in message.tool_calls:
        args = json.loads(tool_call.function.arguments)

        if tool_call.function.name == "search_docs":
            result = {"matches": ["rate_limit=500 rpm", "burst_limit=1000 rpm"]}
        else:
            result = {"error": "unknown tool"}

        messages.append(
            {
                "role": "tool",
                "tool_call_id": tool_call.id,
                "name": tool_call.function.name,
                "content": json.dumps(result),
            }
        )

Vier Regeln, die mehr zählen als Modell-Marketing

Regel	Warum sie wichtig ist
`reasoning_content` bewahren	Das ist der zentrale Kontinuitätsmechanismus, den Moonshot für Thinking-Modelle dokumentiert
`max_tokens >= 16000` setzen	Moonshot warnt, dass Reasoning-Tokens und Antwort-Tokens dasselbe Budget teilen
`temperature = 1.0` beibehalten	Das ist Moonshoots empfohlene Einstellung für optimale Leistung bei Thinking-Modellen
Streaming bevorzugen	Thinking-Antworten sind umfangreicher, und Streaming hilft, Timeout-Probleme zu vermeiden

Zwei weitere Hinweise für den Produktionseinsatz sind erwähnenswert:

Behandeln Sie die Schleifenlänge als Ihre eigene Richtlinie. Die geprüfte Dokumentation besagt, dass Kimi tiefes Reasoning über mehrere Tool-Calls hinweg unterstützt, veröffentlicht jedoch kein stabiles universelles öffentliches Schritt-Kontingent, das in einem Blogbeitrag fest codiert werden sollte.
Validieren Sie Tool-Argumente, bevor Sie Nebeneffekte ausführen. Das ist Implementierungshinweis, keine Moonshot-Garantie – aber es ist der Unterschied zwischen einem nützlichen Agenten und einer kostspieligen Retry-Schleife.

Kimi K2 Thinking über EvoLink verwenden

Der einfachste Weg, auf Kimi K2 Thinking zuzugreifen, ohne Moonshot-Zugangsdaten direkt einzubinden, ist EvoLinks OpenAI-kompatibles Gateway.

from openai import OpenAI

client = OpenAI(
    base_url="https://api.evolink.ai/v1",
    api_key="YOUR_EVOLINK_API_KEY",
)

completion = client.chat.completions.create(
    model="kimi-k2-thinking",
    messages=[{"role": "user", "content": "Analyze the tradeoffs of event sourcing vs CRUD."}],
    temperature=1.0,
    max_tokens=16000,
)

EvoLink übernimmt Provider-Routing, Wiederholungsversuche und Failover. Die gleichen Regeln zur Erhaltung von reasoning_content gelten weiterhin – EvoLink leitet die vollständige Antwort unverändert weiter.

Alternative: OpenClaw-Integration

Wenn Ihre Laufzeitumgebung OpenClaw ist und nicht eine direkte API oder ein EvoLink-Gateway, listet die Moonshot-Provider-Dokumentation von OpenClaw derzeit:

moonshot/kimi-k2.5
moonshot/kimi-k2-thinking
moonshot/kimi-k2-thinking-turbo

Die dokumentierte Onboarding-Abkürzung lautet:

openclaw onboard --auth-choice moonshot-api-key
openclaw models list
openclaw models set moonshot/kimi-k2-thinking
openclaw models status

OpenClaw dokumentiert außerdem eine binäre native Thinking-Steuerung für Moonshot:

/think off deaktiviert das Moonshot-Thinking
Jeder Thinking-Level außer off wird auf thinking.type=enabled zurückgeführt

Das ist nützlich, wenn Sie ein einziges Gateway benötigen, das zwischen einem günstigeren Nicht-Thinking-Durchlauf und einem tieferen Reasoning-Durchlauf wechseln kann.

Ein sichereres Entscheidungsframework

Anwendungsfall	Besser geeignet
Multi-Step-Recherche-Agent mit Tools	`kimi-k2-thinking` über EvoLink oder direkte Moonshot API
Allgemeiner App-Assistent, der nur gelegentlich Thinking benötigt	`kimi-k2.5` über EvoLink
OpenClaw-Deployment, das ein Kimi-Standardmodell benötigt	Zuerst `moonshot/kimi-k2.5`, dann für anspruchsvollere Sessions auf `moonshot/kimi-k2-thinking` eskalieren
Tool-intensiver Workflow, bei dem Latenz wichtig ist	`kimi-k2-thinking` über EvoLinks Smart-Routing für automatischen Failover testen

FAQ

Ist Kimi K2 Thinking dasselbe wie Kimi K2.5?

Nein. Moonshoots aktuelle Dokumentation beschreibt kimi-k2-thinking als das dedizierte Thinking-Modell und kimi-k2.5 als das empfohlene flexible Modell, bei dem Thinking standardmäßig aktiviert ist.

Was bringt die meisten mehrstufigen Kimi-Agenten zum Scheitern?

Das Verwerfen von reasoning_content, ein zu kleines max_tokens-Budget oder eine Tool-Schleife, die Argumente nie validiert oder sauber beendet wird.

Zählt `reasoning_content` zu den Tokens?

Ja. Moonshoots Dokumentation besagt, dass die kombinierten Tokens aus reasoning_content und content in das max_tokens-Budget passen müssen.

Sollte ich Thinking für jede einfache Aufgabe deaktivieren?

Wenn Sie kimi-k2.5 verwenden, kann das für Kosten- und Latenzoptimierung sinnvoll sein. Wenn Sie sich bewusst für kimi-k2-thinking entscheiden, ist die naheliegendere Annahme, dass der Workflow reasoning-intensiv genug ist, um dauerhaftes Thinking zu rechtfertigen.

Kann ich Kimi K2 Thinking über EvoLink verwenden?

Ja. Richten Sie Ihr OpenAI SDK auf https://api.evolink.ai/v1 mit Ihrem EvoLink API-Schlüssel und verwenden Sie kimi-k2-thinking als Modellnamen. EvoLink übernimmt Routing, Wiederholungsversuche und Failover automatisch.

Kann ich Kimi K2 Thinking in OpenClaw verwenden?

Ja. Die Moonshot-Provider-Seite von OpenClaw listet moonshot/kimi-k2-thinking derzeit als unterstützte Modellreferenz.

Woher sollte ich Preisangaben beziehen?

Von Moonshoots aktuellen Preisseiten – nicht aus Drittanbieter-Benchmark-Tabellen oder älteren Vergleichsbeiträgen. Diese Überarbeitung verzichtet bewusst auf fest codierte Preisangaben, da sich diese schneller ändern als Modellverhalten-Dokumentation.

Kimi über ein einziges Gateway testen

Wenn Sie Kimi neben Claude, GPT und anderen agenten-freundlichen Modellen testen möchten, ohne jeden Anbieter einzeln einzubinden, nutzen Sie eine Gateway-Schicht und prüfen Sie die aktuell verfügbaren Routen, bevor Sie einen Kostenvergleich veröffentlichen.

Compare Agent Models on EvoLink

Quellen

Alle Beiträge

#Kimi K2 Thinking #Moonshot AI #agent workflows #tool calling #API guide

Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen

TL;DR

Was Moonshoots aktuelle Dokumentation tatsächlich bestätigt

Welche Kimi-Route sollten Sie wählen?

Das Implementierungsdetail, das die meisten Leitfäden übersehen

Minimale Multi-Step-Agenten-Schleife

Vier Regeln, die mehr zählen als Modell-Marketing

Kimi K2 Thinking über EvoLink verwenden

Alternative: OpenClaw-Integration

Ein sichereres Entscheidungsframework

FAQ

Ist Kimi K2 Thinking dasselbe wie Kimi K2.5?

Was bringt die meisten mehrstufigen Kimi-Agenten zum Scheitern?

Zählt `reasoning_content` zu den Tokens?

Sollte ich Thinking für jede einfache Aufgabe deaktivieren?

Kann ich Kimi K2 Thinking über EvoLink verwenden?

Kann ich Kimi K2 Thinking in OpenClaw verwenden?

Woher sollte ich Preisangaben beziehen?

Kimi über ein einziges Gateway testen

Quellen

Ähnliche Artikel

Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

DeepSeek Status und Fallback-Optionen für Coding-Workloads

Wie Wiederholungsversuche und Fehlerquoten die API-Kosten von Coding-Agents verändern

Bereit, Ihre KI-Kosten um 89 % zu senken?

Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen

TL;DR

Was Moonshoots aktuelle Dokumentation tatsächlich bestätigt

Welche Kimi-Route sollten Sie wählen?

Das Implementierungsdetail, das die meisten Leitfäden übersehen

Minimale Multi-Step-Agenten-Schleife

Vier Regeln, die mehr zählen als Modell-Marketing

Kimi K2 Thinking über EvoLink verwenden

Alternative: OpenClaw-Integration

Ein sichereres Entscheidungsframework

FAQ

Ist Kimi K2 Thinking dasselbe wie Kimi K2.5?

Was bringt die meisten mehrstufigen Kimi-Agenten zum Scheitern?

Zählt reasoning_content zu den Tokens?

Sollte ich Thinking für jede einfache Aufgabe deaktivieren?

Kann ich Kimi K2 Thinking über EvoLink verwenden?

Kann ich Kimi K2 Thinking in OpenClaw verwenden?

Woher sollte ich Preisangaben beziehen?

Kimi über ein einziges Gateway testen

Quellen

Ähnliche Artikel

Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

DeepSeek Status und Fallback-Optionen für Coding-Workloads

Wie Wiederholungsversuche und Fehlerquoten die API-Kosten von Coding-Agents verändern

Bereit, Ihre KI-Kosten um 89 % zu senken?

Zählt `reasoning_content` zu den Tokens?