Seedance 2.0 API — Coming SoonGet early access

Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

Kimi 長期的な推論のための K2 思考 API

EvoLink を通じて K2 思考モデルを実行して、大量のドキュメントを分析し、ツールを調整し、構造化された出力を生成します。 256K トークンのコンテキスト ウィンドウ、ネイティブ ツール呼び出し、信頼性の高いマルチステップ ワークフロー向けに構築されています。

Kimi K2 ロングコンテキスト思考推論モデル
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Kimi K2 Thinking262.1K262.1K
$0.556-7%
$0.600Official Price
$2.222-11%
$2.50Official Price
$0.139-7%
$0.150Official Price
Web Search Tool

Server-side web search capability

$0.004/search

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Kimi K2 Thinking では何を構築できますか?

ロングコンテキストリサーチ

単一のリクエストで完全なレポート、コードベース、またはナレッジ ベースを処理します。 256K コンテキスト ウィンドウにより、積極的なチャンク化を行わずに大規模な入力を推論することが実用的になります。

長い文脈調査

ツールで調整されたエージェント

ツールを呼び出して順調に進むエージェントを設計します。 K2 Thinking はツール定義を受け入れ、JSON ツール呼び出しを返し、長い複数ステップの計画をサポートします。

ツールで調整されたエージェント

コードベースとデータのワークフロー

このモデルは、一貫した段階的な推論による大規模なリポジトリまたはデータセットにわたるリファクタリング、デバッグ、およびデータ分析に使用します。

コードベース推論ワークフロー

開発者が Kimi K2 Thinking API を選ぶ理由

オープンソースの柔軟性、256K コンテキスト、ネイティブ ツールの使用により、堅牢で長期的なエージェント ワークフローを実現します。

256K コンテキスト ウィンドウ

複雑なタスクに対応する完全な 256K トークン ウィンドウを使用して、長いドキュメントと複数ターンの履歴を分析します。

ネイティブツールの呼び出し

ツール定義を受け入れて JSON ツール呼び出しを生成し、信頼性の高いオーケストレーションと構造化された出力を可能にします。

オープンソース + MoE の効率性

スケール効率の高い推論を実現するために、修正された MIT ライセンスと 1T パラメーター MoE 設計 (32B アクティブ) を備えたオープンウェイト。

Kimi K2 思考 API を統合する方法

長期的な推論とツールの使用をアプリに追加するための 3 つのステップ。

1

ステップ 1 — コンテキストの提供

最大 256K トークンまでの長い入力または RAG 拡張コンテキストを送信して、モデルに完全なタスクの可視性を与えます。

2

ステップ 2 — ツールの定義

モデルが構造化 JSON を使用して検索、コード、またはビジネス ツールを呼び出せるように、関数スキーマをアタッチします。

3

ステップ 3 — 実行と検証

出力に基づいて動作する前に、複数ステップの推論を実行し、結果をストリーミングし、ツール呼び出しまたは推論トレースを検証します。

Kimi K2 の思考能力

長いコンテキスト長でのエージェント推論用に設計

コンテクスト

256K トークンコンテキスト

長いドキュメント、チャット、コードベースを 1 つのリクエストで処理します。

建築

MoE 1T / 32B アクティブ

専門家混合アーキテクチャにより、規模と効率のバランスが取れます。

ツール

ツール定義 + JSON 呼び出し

自動化のための構造化されたツール呼び出しと JSON 出力をサポートします。

説明可能性

推理の痕跡

プロバイダーによって有効にされている場合、個別のreasoning_contentトレースをサポートします。

パフォーマンス

ネイティブINT4量子化

量子化を意識したトレーニングによる効率的な推論のために最適化されています。

ライセンス

オープンソースライセンス

商用利用が許可された修正済み MIT ライセンス (規約を確認)。

Kimi K2 Thinking vs. 他の推論モデル

主要な推論 API 間でコンテキスト ウィンドウ、推論スタイル、ツール サポートを比較

ModelBest forContext windowReasoning styleTooling & streaming
Kimi K2 Thinking長期エージェント、ツールオーケストレーション256K トークンツール呼び出しを伴うステップバイステップネイティブツール呼び出し、JSON出力、ストリーミング
OpenAI o1複雑な推論、数学、コーディング200K トークン内部連鎖思考限定的なツールサポート、ストリーミングなし
Claude 3.5 Sonnet一般タスク、コーディング、分析200K トークン推論を伴う直接応答フルツール使用、ストリーミング対応
DeepSeek R1数学、コーディング、オープンソース展開128K トークン明示的な推論トレース基本的なツールサポート、ストリーミング

Kimi K2 Thinking に関するよくある質問

Everything you need to know about the product and billing.

Kimi K2 Thinking は、Moonshot ツールを使用するエージェントとして構築された AI のオープンソース思考モデルです。 1T パラメーターの Mixture-of-Experts アーキテクチャ (32B アクティブ) を使用し、256K コンテキスト ウィンドウをサポートし、長期ワークフローの JSON ツール呼び出しによるツール定義を受け入れます。
このモデルは、最大 256K トークンのコンテキスト ウィンドウをサポートします。プロバイダーは、インフラストラクチャに応じて、より小さいリクエストあたりの制限または出力上限を適用する場合があります。
はい。このモデルは、ステップバイステップの推論と関数呼び出しをインターリーブし、200 ~ 300 回の連続呼び出しにわたって安定したマルチステップ ツールの使用を維持するようにトレーニングされています。
はい。モデルの重みは、修正された MIT ライセンスに基づいて Hugging Face で公開されています。ライセンスとサードパーティの通知を参照して、商用利用条件を確認してください。
はい。適切な GPU リソースを備えた vLLM、SGLang、または KTransformers などのエンジンで K2 Thinking を実行することをお勧めします。
はい。このモデルは、INT4 重みのみの推論に量子化対応トレーニングを使用し、品質を維持しながら低遅延モードで約 2 倍の速度向上を報告しています。
Moonshot AI は、Kimi K2 Thinking に OpenAI および Anthropic 互換の API エンドポイントを提供し、既存の SDK との統合を簡素化します。
報告された結果には、HLE (ツール使用) が 44.9%、BrowseComp (ツール使用) が 60.2%、SWE ベンチ検証済み (ツール使用) が 71.3% 含まれており、評価は INT4 精度で報告されています。
Kimi K2 思考 API | Moonshot AI オープンソース推論モデル (256K コンテキスト) | EvoLink