Kimi K2 Thinking API

Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.

模型类型:

✓Kimi K2 Thinking Kimi K2 Thinking Turbo

价格:

$0.588(~ 40 credits) per 1M input tokens; $2.353(~ 160 credits) per 1M output tokens

$0.147(~ 10 credits) per 1M cache read tokens

Web search tool charged separately per request.

稳定性最高，保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点，仅 model 参数不同。

面向长周期推理的 Kimi K2 Thinking API

通过 EvoLink 运行 K2 Thinking 模型，分析海量文档、编排工具并生成结构化输出。专为 256K Token 上下文窗口、原生工具调用和可靠的多步骤工作流而构建。

定价

方案	上下文窗口	最大输出	输入	输出	缓存读取
Kimi K2 Thinking	262,100	262,100	$0.588-2% （40 Credits）	$2.353-6% （160 Credits）	$0.147-2% （10 Credits）
Web Search Tool 服务端联网搜索能力					$0.004/search （0.30 Credits）

定价说明：价格同时显示 USD 和 Credits；默认单位按 / 1M tokens 计算，特殊项目会单独标注。

缓存命中：适用于缓存的提示词 Tokens 价格。

利用 Kimi K2 Thinking 可以构建什么？

长上下文研究

在单次请求中处理完整的报告、代码库或知识库。256K 上下文窗口使得在无需激进分块的情况下对大型输入进行推理变得切实可行。

构建研究流

工具编排智能体

设计能够调用工具并保持目标的智能体。K2 Thinking 接受工具定义并返回 JSON 工具调用，支持长周期的多步骤计划。

创建智能体

代码库与数据工作流

将该模型用于大型仓库或数据集的重构、调试和数据分析，具备一致的分步推理能力。

尝试编程任务

为什么开发者选择 Kimi K2 Thinking API

获得开源的灵活性、256K 上下文和原生工具使用能力，用于构建稳健的长周期智能体工作流。

256K 上下文窗口

在完整的 256K Token 窗口中对长文档和多轮历史记录进行推理，处理复杂任务。

原生工具调用

接受工具定义并生成 JSON 工具调用，实现可靠的编排和结构化输出。

开源 + MoE 效率

采用修改后的 MIT 许可证开放权重，1T 参数的 MoE 设计（32B 激活）实现规模高效的推理。

如何集成 Kimi K2 Thinking API

只需三步，为您的应用添加长周期推理和工具使用能力。

第 1 步 — 提供上下文

发送长输入或高达 256K Token 的 RAG 增强上下文，为模型提供完整的任务可见性。

第 2 步 — 定义工具

附加函数 Schema，以便模型可以使用结构化 JSON 调用搜索、代码或业务工具。

第 3 步 — 执行与验证

运行多步推理，流式传输结果，并在对输出采取行动前验证工具调用或推理轨迹。

查看 API 文档

Kimi K2 Thinking 能力

专为长上下文长度下的智能体推理而设计

上下文

256K Token 上下文

在单次请求中处理长文档、聊天记录和代码库。

架构

MoE 1T / 32B 激活

混合专家架构在规模与效率之间取得平衡。

工具

工具定义 + JSON 调用

支持结构化工具调用和 JSON 输出，实现自动化。

可解释性

推理轨迹

当提供商启用时，支持独立的 reasoning_content 轨迹。

性能

原生 INT4 量化

通过量化感知训练优化，实现高效推理。

许可证

开源许可证

修改后的 MIT 许可证，允许商业用途（请查阅条款）。

Kimi K2 Thinking 与其他推理模型对比

比较各主流推理 API 的上下文窗口、推理风格和工具支持

Model	Best for	Context window	Reasoning style	Tooling & streaming
Kimi K2 Thinking	长程智能体、工具编排	256K tokens	逐步推理 + 工具调用	原生工具调用、JSON 输出、流式传输
OpenAI o1	复杂推理、数学、编程	200K tokens	内部思维链	有限工具支持、不支持流式
Claude 3.5 Sonnet	通用任务、编程、分析	200K tokens	直接响应 + 推理	完整工具支持、支持流式
DeepSeek R1	数学、编程、开源部署	128K tokens	显式推理轨迹	基础工具支持、流式传输

关于 Kimi K2 Thinking 的常见问题

Everything you need to know about the product and billing.

Kimi K2 Thinking 是月之暗面（Moonshot AI）推出的开源思考模型，被构建为一个具备工具调用能力的智能体。它使用 1T 参数的混合专家（MoE）架构（32B 激活），支持 256K 上下文窗口，并接受工具定义和 JSON 工具调用，用于长周期工作流。

该模型支持高达 256K Token 的上下文窗口。提供商可能会根据其基础设施应用更小的单次请求限制或输出上限。

是的。该模型经过训练，可以将分步推理与函数调用交织在一起，并在 200–300 次连续调用中保持稳定的多步工具使用。

是的。模型权重已在 Hugging Face 上发布，采用修改后的 MIT 许可证。请查阅许可证和第三方声明以确认商业使用条款。

是的。建议在具备合适 GPU 资源的 vLLM、SGLang 或 KTransformers 等引擎上运行 K2 Thinking。

是的。该模型使用量化感知训练（QAT）进行仅权重的 INT4 推理，据报告在保持质量的同时，在低延迟模式下速度提升了约 2 倍。

月之暗面为 Kimi K2 Thinking 提供了兼容 OpenAI 和 Anthropic 的 API 端点，简化了与现有 SDK 的集成。

报告的结果包括 HLE（带工具）为 44.9%，BrowseComp（带工具）为 60.2%，以及 SWE-bench Verified（带工具）为 71.3%，评估均在 INT4 精度下进行。