Kimi K2 Thinking API
Moonshot AI reasoning model with 128K context, Chain of Thought capabilities, and native tool calling. Available in Standard and Turbo variants for different use cases.
面向长周期推理的 Kimi K2 Thinking API
通过 EvoLink 运行 K2 Thinking 模型,分析海量文档、编排工具并生成结构化输出。专为 256K Token 上下文窗口、原生工具调用和可靠的多步骤工作流而构建。

$
定价
| 方案 | 上下文窗口 | 最大输出 | 输入 | 输出 | 缓存读取 |
|---|---|---|---|---|---|
| Kimi K2 Thinking | 262.1K | 262.1K | $0.556-7% $0.600官方价格 | $2.222-11% $2.50官方价格 | $0.139-7% $0.150官方价格 |
Web Search Tool
服务端联网搜索能力
$0.004/search
定价说明: 价格单位:USD / 1M tokens
缓存命中: 适用于缓存的提示词 Tokens 价格。
利用 Kimi K2 Thinking 可以构建什么?
为什么开发者选择 Kimi K2 Thinking API
获得开源的灵活性、256K 上下文和原生工具使用能力,用于构建稳健的长周期智能体工作流。
256K 上下文窗口
在完整的 256K Token 窗口中对长文档和多轮历史记录进行推理,处理复杂任务。
原生工具调用
接受工具定义并生成 JSON 工具调用,实现可靠的编排和结构化输出。
开源 + MoE 效率
采用修改后的 MIT 许可证开放权重,1T 参数的 MoE 设计(32B 激活)实现规模高效的推理。
如何集成 Kimi K2 Thinking API
只需三步,为您的应用添加长周期推理和工具使用能力。
1
第 1 步 — 提供上下文
发送长输入或高达 256K Token 的 RAG 增强上下文,为模型提供完整的任务可见性。
2
第 2 步 — 定义工具
附加函数 Schema,以便模型可以使用结构化 JSON 调用搜索、代码或业务工具。
3
第 3 步 — 执行与验证
运行多步推理,流式传输结果,并在对输出采取行动前验证工具调用或推理轨迹。
Kimi K2 Thinking 能力
专为长上下文长度下的智能体推理而设计
上下文
256K Token 上下文
在单次请求中处理长文档、聊天记录和代码库。
架构
MoE 1T / 32B 激活
混合专家架构在规模与效率之间取得平衡。
工具
工具定义 + JSON 调用
支持结构化工具调用和 JSON 输出,实现自动化。
可解释性
推理轨迹
当提供商启用时,支持独立的 reasoning_content 轨迹。
性能
原生 INT4 量化
通过量化感知训练优化,实现高效推理。
许可证
开源许可证
修改后的 MIT 许可证,允许商业用途(请查阅条款)。
Kimi K2 Thinking 与其他推理模型对比
比较各主流推理 API 的上下文窗口、推理风格和工具支持
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Kimi K2 Thinking | 长程智能体、工具编排 | 256K tokens | 逐步推理 + 工具调用 | 原生工具调用、JSON 输出、流式传输 |
| OpenAI o1 | 复杂推理、数学、编程 | 200K tokens | 内部思维链 | 有限工具支持、不支持流式 |
| Claude 3.5 Sonnet | 通用任务、编程、分析 | 200K tokens | 直接响应 + 推理 | 完整工具支持、支持流式 |
| DeepSeek R1 | 数学、编程、开源部署 | 128K tokens | 显式推理轨迹 | 基础工具支持、流式传输 |
关于 Kimi K2 Thinking 的常见问题
Everything you need to know about the product and billing.
Kimi K2 Thinking 是月之暗面(Moonshot AI)推出的开源思考模型,被构建为一个具备工具调用能力的智能体。它使用 1T 参数的混合专家(MoE)架构(32B 激活),支持 256K 上下文窗口,并接受工具定义和 JSON 工具调用,用于长周期工作流。
该模型支持高达 256K Token 的上下文窗口。提供商可能会根据其基础设施应用更小的单次请求限制或输出上限。
是的。该模型经过训练,可以将分步推理与函数调用交织在一起,并在 200–300 次连续调用中保持稳定的多步工具使用。
是的。模型权重已在 Hugging Face 上发布,采用修改后的 MIT 许可证。请查阅许可证和第三方声明以确认商业使用条款。
是的。建议在具备合适 GPU 资源的 vLLM、SGLang 或 KTransformers 等引擎上运行 K2 Thinking。
是的。该模型使用量化感知训练(QAT)进行仅权重的 INT4 推理,据报告在保持质量的同时,在低延迟模式下速度提升了约 2 倍。
月之暗面为 Kimi K2 Thinking 提供了兼容 OpenAI 和 Anthropic 的 API 端点,简化了与现有 SDK 的集成。
报告的结果包括 HLE(带工具)为 44.9%,BrowseComp(带工具)为 60.2%,以及 SWE-bench Verified(带工具)为 71.3%,评估均在 INT4 精度下进行。


