
Kimi K2 Thinking API-Leitfaden: Multi-Step-Agenten ohne Verlust des Reasoning-Zustands aufbauen

kimi-k2-thinking als auch kimi-k2.5 tiefes Reasoning und mehrstufige Tool-Nutzung unterstützen. Das dedizierte Modell kimi-k2-thinking hält das Thinking jedoch dauerhaft aktiv. Dieselbe Dokumentation macht außerdem eine Implementierungsregel ungewöhnlich deutlich: reasoning_content muss im Gesprächskontext erhalten bleiben, sonst verschlechtern sich langfristige Tool-Workflows.TL;DR
- Verwenden Sie
kimi-k2-thinking, wenn Sie ein dediziertes Always-Thinking-Modell für Multi-Step-Agenten möchten. - Verwenden Sie
kimi-k2.5, wenn Sie eine flexiblere Standardoption benötigen, bei der Thinking aktiviert oder deaktiviert werden kann. - Bewahren Sie
reasoning_contentim Kontext, setzen Siemax_tokensauf mindestens16000, halten Sietemperaturebei1.0, und bevorzugen Sie Streaming. - Moonshoots geprüfte Dokumentation unterstützt eindeutig mehrstufige Tool-Calls, veröffentlicht jedoch kein stabiles öffentliches „300-Schritt"-Kontingent auf den für diese Überarbeitung verwendeten Seiten – Ihre Anwendung sollte daher eigene Schleifenlimits durchsetzen.
Was Moonshoots aktuelle Dokumentation tatsächlich bestätigt
| Frage | Aktuell dokumentierte Antwort |
|---|---|
| Welche Kimi-Modelle unterstützen Thinking? | kimi-k2-thinking und kimi-k2.5 |
| Welches ist das dedizierte Thinking-Modell? | kimi-k2-thinking |
| Welches ist der empfohlene flexible Standard? | kimi-k2.5, mit standardmäßig aktiviertem Thinking |
| Wie wird das Reasoning offengelegt? | Über das Feld reasoning_content |
| Was ist bei mehrstufiger Tool-Nutzung entscheidend? | reasoning_content bewahren, dem Modell ausreichend Token-Budget geben und die Tool-Auswahl kompatibel mit dem Thinking-Modus halten |
| Welchen Endpunkt sollten Sie verwenden? | https://api.moonshot.ai/v1 für den internationalen Endpunkt |
Welche Kimi-Route sollten Sie wählen?
| Wenn Sie ... benötigen | Beginnen Sie mit | Warum |
|---|---|---|
| Dauerhaftes Reasoning für Agenten-Workflows | kimi-k2-thinking | Es ist Moonshoots dediziertes Thinking-Modell |
| Einen allgemeinen Standard, der bei Bedarf denken kann | kimi-k2.5 | Es ist das empfohlene flexible Modell in Moonshoots Dokumentation |
| Schnellere Thinking-Antworten über EvoLink | kimi-k2-thinking über api.evolink.ai | EvoLink leitet zum schnellsten verfügbaren Moonshot-Endpunkt weiter |
| OpenClaw-basiertes Deployment | moonshot/kimi-k2-thinking-turbo | Der Moonshot-Provider-Katalog von OpenClaw listet derzeit eine Turbo-Thinking-Variante |
kimi-k2-thinking in den Beispielen, damit der Leser keinen weiteren Schalter selbst einschätzen muss.Das Implementierungsdetail, das die meisten Leitfäden übersehen
reasoning_content bereit – nicht nur über das finale content-Feld.Das ist wichtig, weil ein Multi-Step-Agent keine einzelne Anfrage ist. Es ist eine Schleife:
- Das Modell denkt nach.
- Das Modell ruft ein Tool auf.
- Ihre Anwendung führt das Tool aus.
- Das Modell denkt erneut nach, diesmal unter Berücksichtigung des vorherigen Tool-Ergebnisses.
reasoning_content zwischen den Runden verwirft, verliert das Modell einen Teil der Kette, die es zur Entscheidungsfindung genutzt hat. Moonshoots Dokumentation besagt ausdrücklich, dass der gesamte Reasoning-Inhalt im Kontext behalten werden soll und das Modell selbst entscheidet, was es noch benötigt.Minimale Multi-Step-Agenten-Schleife
Dieses Beispiel ist bewusst klein gehalten. Es soll den Kontrollfluss zeigen, der für Kimis Thinking-Modelle entscheidend ist.
import json
import os
from openai import OpenAI
client = OpenAI(
base_url="https://api.moonshot.ai/v1",
api_key=os.environ["MOONSHOT_API_KEY"],
)
tools = [
{
"type": "function",
"function": {
"name": "search_docs",
"description": "Search internal product documentation",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string"}
},
"required": ["query"]
}
}
}
]
messages = [
{"role": "system", "content": "You are a careful research agent."},
{"role": "user", "content": "Find the API limits for our billing service and summarize the risks."},
]
for _ in range(8):
completion = client.chat.completions.create(
model="kimi-k2-thinking",
messages=messages,
tools=tools,
tool_choice="auto",
temperature=1.0,
max_tokens=16000,
)
message = completion.choices[0].message
# Preserve the assistant turn exactly, including reasoning_content when present.
messages.append(message.model_dump(exclude_none=True))
if not message.tool_calls:
print(message.content)
break
for tool_call in message.tool_calls:
args = json.loads(tool_call.function.arguments)
if tool_call.function.name == "search_docs":
result = {"matches": ["rate_limit=500 rpm", "burst_limit=1000 rpm"]}
else:
result = {"error": "unknown tool"}
messages.append(
{
"role": "tool",
"tool_call_id": tool_call.id,
"name": tool_call.function.name,
"content": json.dumps(result),
}
)Vier Regeln, die mehr zählen als Modell-Marketing
| Regel | Warum sie wichtig ist |
|---|---|
reasoning_content bewahren | Das ist der zentrale Kontinuitätsmechanismus, den Moonshot für Thinking-Modelle dokumentiert |
max_tokens >= 16000 setzen | Moonshot warnt, dass Reasoning-Tokens und Antwort-Tokens dasselbe Budget teilen |
temperature = 1.0 beibehalten | Das ist Moonshoots empfohlene Einstellung für optimale Leistung bei Thinking-Modellen |
| Streaming bevorzugen | Thinking-Antworten sind umfangreicher, und Streaming hilft, Timeout-Probleme zu vermeiden |
Zwei weitere Hinweise für den Produktionseinsatz sind erwähnenswert:
- Behandeln Sie die Schleifenlänge als Ihre eigene Richtlinie. Die geprüfte Dokumentation besagt, dass Kimi tiefes Reasoning über mehrere Tool-Calls hinweg unterstützt, veröffentlicht jedoch kein stabiles universelles öffentliches Schritt-Kontingent, das in einem Blogbeitrag fest codiert werden sollte.
- Validieren Sie Tool-Argumente, bevor Sie Nebeneffekte ausführen. Das ist Implementierungshinweis, keine Moonshot-Garantie – aber es ist der Unterschied zwischen einem nützlichen Agenten und einer kostspieligen Retry-Schleife.
Kimi K2 Thinking über EvoLink verwenden
Der einfachste Weg, auf Kimi K2 Thinking zuzugreifen, ohne Moonshot-Zugangsdaten direkt einzubinden, ist EvoLinks OpenAI-kompatibles Gateway.
from openai import OpenAI
client = OpenAI(
base_url="https://api.evolink.ai/v1",
api_key="YOUR_EVOLINK_API_KEY",
)
completion = client.chat.completions.create(
model="kimi-k2-thinking",
messages=[{"role": "user", "content": "Analyze the tradeoffs of event sourcing vs CRUD."}],
temperature=1.0,
max_tokens=16000,
)reasoning_content gelten weiterhin – EvoLink leitet die vollständige Antwort unverändert weiter.Alternative: OpenClaw-Integration
Wenn Ihre Laufzeitumgebung OpenClaw ist und nicht eine direkte API oder ein EvoLink-Gateway, listet die Moonshot-Provider-Dokumentation von OpenClaw derzeit:
moonshot/kimi-k2.5moonshot/kimi-k2-thinkingmoonshot/kimi-k2-thinking-turbo
Die dokumentierte Onboarding-Abkürzung lautet:
openclaw onboard --auth-choice moonshot-api-key
openclaw models list
openclaw models set moonshot/kimi-k2-thinking
openclaw models statusOpenClaw dokumentiert außerdem eine binäre native Thinking-Steuerung für Moonshot:
/think offdeaktiviert das Moonshot-Thinking- Jeder Thinking-Level außer off wird auf
thinking.type=enabledzurückgeführt
Das ist nützlich, wenn Sie ein einziges Gateway benötigen, das zwischen einem günstigeren Nicht-Thinking-Durchlauf und einem tieferen Reasoning-Durchlauf wechseln kann.
Ein sichereres Entscheidungsframework
| Anwendungsfall | Besser geeignet |
|---|---|
| Multi-Step-Recherche-Agent mit Tools | kimi-k2-thinking über EvoLink oder direkte Moonshot API |
| Allgemeiner App-Assistent, der nur gelegentlich Thinking benötigt | kimi-k2.5 über EvoLink |
| OpenClaw-Deployment, das ein Kimi-Standardmodell benötigt | Zuerst moonshot/kimi-k2.5, dann für anspruchsvollere Sessions auf moonshot/kimi-k2-thinking eskalieren |
| Tool-intensiver Workflow, bei dem Latenz wichtig ist | kimi-k2-thinking über EvoLinks Smart-Routing für automatischen Failover testen |
FAQ
Ist Kimi K2 Thinking dasselbe wie Kimi K2.5?
kimi-k2-thinking als das dedizierte Thinking-Modell und kimi-k2.5 als das empfohlene flexible Modell, bei dem Thinking standardmäßig aktiviert ist.Was bringt die meisten mehrstufigen Kimi-Agenten zum Scheitern?
reasoning_content, ein zu kleines max_tokens-Budget oder eine Tool-Schleife, die Argumente nie validiert oder sauber beendet wird.Zählt reasoning_content zu den Tokens?
reasoning_content und content in das max_tokens-Budget passen müssen.Sollte ich Thinking für jede einfache Aufgabe deaktivieren?
kimi-k2.5 verwenden, kann das für Kosten- und Latenzoptimierung sinnvoll sein. Wenn Sie sich bewusst für kimi-k2-thinking entscheiden, ist die naheliegendere Annahme, dass der Workflow reasoning-intensiv genug ist, um dauerhaftes Thinking zu rechtfertigen.Kann ich Kimi K2 Thinking über EvoLink verwenden?
https://api.evolink.ai/v1 mit Ihrem EvoLink API-Schlüssel und verwenden Sie kimi-k2-thinking als Modellnamen. EvoLink übernimmt Routing, Wiederholungsversuche und Failover automatisch.Kann ich Kimi K2 Thinking in OpenClaw verwenden?
moonshot/kimi-k2-thinking derzeit als unterstützte Modellreferenz.Woher sollte ich Preisangaben beziehen?
Von Moonshoots aktuellen Preisseiten – nicht aus Drittanbieter-Benchmark-Tabellen oder älteren Vergleichsbeiträgen. Diese Überarbeitung verzichtet bewusst auf fest codierte Preisangaben, da sich diese schneller ändern als Modellverhalten-Dokumentation.
Kimi über ein einziges Gateway testen
Wenn Sie Kimi neben Claude, GPT und anderen agenten-freundlichen Modellen testen möchten, ohne jeden Anbieter einzeln einzubinden, nutzen Sie eine Gateway-Schicht und prüfen Sie die aktuell verfügbaren Routen, bevor Sie einen Kostenvergleich veröffentlichen.
Compare Agent Models on EvoLink

