Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

モデルタイプ:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

価格:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。

すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。

Kimi 長期的な推論のための K2 思考 API

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink を通じて K2 思考モデルを実行して、大量のドキュメントを分析し、ツールを調整し、構造化された出力を生成します。 256K トークンのコンテキストウィンドウ、ネイティブツール呼び出し、信頼性の高いマルチステップワークフロー向けに構築されています。

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ
Kimi K2 Thinking	262,100	262,100	$0.588-2% (40 Credits)	$2.353-6% (160 Credits)	$0.147-2% (10 Credits)
Web Search Tool Server-side web search capability					$0.004/search (0.30 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Kimi K2 Thinking では何を構築できますか?

ロングコンテキストリサーチ

単一のリクエストで完全なレポート、コードベース、またはナレッジベースを処理します。 256K コンテキストウィンドウにより、積極的なチャンク化を行わずに大規模な入力を推論することが実用的になります。

研究フローの構築

ツールで調整されたエージェント

ツールを呼び出して順調に進むエージェントを設計します。 K2 Thinking はツール定義を受け入れ、JSON ツール呼び出しを返し、長い複数ステップの計画をサポートします。

エージェントの作成

コードベースとデータのワークフロー

このモデルは、一貫した段階的な推論による大規模なリポジトリまたはデータセットにわたるリファクタリング、デバッグ、およびデータ分析に使用します。

タスクをコーディングしてみる

開発者が Kimi K2 Thinking API を選ぶ理由

オープンソースの柔軟性、256K コンテキスト、ネイティブツールの使用により、堅牢で長期的なエージェントワークフローを実現します。

256K コンテキストウィンドウ

複雑なタスクに対応する完全な 256K トークンウィンドウを使用して、長いドキュメントと複数ターンの履歴を分析します。

ネイティブツールの呼び出し

ツール定義を受け入れて JSON ツール呼び出しを生成し、信頼性の高いオーケストレーションと構造化された出力を可能にします。

オープンソース + MoE の効率性

スケール効率の高い推論を実現するために、修正された MIT ライセンスと 1T パラメーター MoE 設計 (32B アクティブ) を備えたオープンウェイト。

Kimi K2 思考 API を統合する方法

長期的な推論とツールの使用をアプリに追加するための 3 つのステップ。

ステップ 1 — コンテキストの提供

最大 256K トークンまでの長い入力または RAG 拡張コンテキストを送信して、モデルに完全なタスクの可視性を与えます。

ステップ 2 — ツールの定義

モデルが構造化 JSON を使用して検索、コード、またはビジネスツールを呼び出せるように、関数スキーマをアタッチします。

ステップ 3 — 実行と検証

出力に基づいて動作する前に、複数ステップの推論を実行し、結果をストリーミングし、ツール呼び出しまたは推論トレースを検証します。

API ドキュメントを表示

Kimi K2 の思考能力

長いコンテキスト長でのエージェント推論用に設計

コンテクスト

256K トークンコンテキスト

長いドキュメント、チャット、コードベースを 1 つのリクエストで処理します。

建築

MoE 1T / 32B アクティブ

専門家混合アーキテクチャにより、規模と効率のバランスが取れます。

ツール

ツール定義 + JSON 呼び出し

自動化のための構造化されたツール呼び出しと JSON 出力をサポートします。

説明可能性

推理の痕跡

プロバイダーによって有効にされている場合、個別のreasoning_contentトレースをサポートします。

パフォーマンス

ネイティブINT4量子化

量子化を意識したトレーニングによる効率的な推論のために最適化されています。

ライセンス

オープンソースライセンス

商用利用が許可された修正済み MIT ライセンス (規約を確認)。

Kimi K2 Thinking vs. 他の推論モデル

主要な推論 API 間でコンテキストウィンドウ、推論スタイル、ツールサポートを比較

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	長期エージェント、ツールオーケストレーション	256K トークン	ツール呼び出しを伴うステップバイステップ	ネイティブツール呼び出し、JSON出力、ストリーミング
OpenAI o1	複雑な推論、数学、コーディング	200K トークン	内部連鎖思考	限定的なツールサポート、ストリーミングなし
Claude 3.5 Sonnet	一般タスク、コーディング、分析	200K トークン	推論を伴う直接応答	フルツール使用、ストリーミング対応
DeepSeek R1	数学、コーディング、オープンソース展開	128K トークン	明示的な推論トレース	基本的なツールサポート、ストリーミング

Kimi K2 Thinking に関するよくある質問

Everything you need to know about the product and billing.

Kimi K2 Thinking は、Moonshot ツールを使用するエージェントとして構築された AI のオープンソース思考モデルです。 1T パラメーターの Mixture-of-Experts アーキテクチャ (32B アクティブ) を使用し、256K コンテキストウィンドウをサポートし、長期ワークフローの JSON ツール呼び出しによるツール定義を受け入れます。

このモデルは、最大 256K トークンのコンテキストウィンドウをサポートします。プロバイダーは、インフラストラクチャに応じて、より小さいリクエストあたりの制限または出力上限を適用する場合があります。

はい。このモデルは、ステップバイステップの推論と関数呼び出しをインターリーブし、200 ～ 300 回の連続呼び出しにわたって安定したマルチステップツールの使用を維持するようにトレーニングされています。

はい。モデルの重みは、修正された MIT ライセンスに基づいて Hugging Face で公開されています。ライセンスとサードパーティの通知を参照して、商用利用条件を確認してください。

はい。適切な GPU リソースを備えた vLLM、SGLang、または KTransformers などのエンジンで K2 Thinking を実行することをお勧めします。

はい。このモデルは、INT4 重みのみの推論に量子化対応トレーニングを使用し、品質を維持しながら低遅延モードで約 2 倍の速度向上を報告しています。

Moonshot AI は、Kimi K2 Thinking に OpenAI および Anthropic 互換の API エンドポイントを提供し、既存の SDK との統合を簡素化します。

報告された結果には、HLE (ツール使用) が 44.9%、BrowseComp (ツール使用) が 60.2%、SWE ベンチ検証済み (ツール使用) が 71.3% 含まれており、評価は INT4 精度で報告されています。