Kimi K2 Thinking API
面向长周期推理的 Kimi K2 Thinking API
通过 EvoLink 运行 K2 Thinking 模型,分析海量文档、编排工具并生成结构化输出。专为 256K Token 上下文窗口、原生工具调用和可靠的多步骤工作流而构建。

定价
| 方案 | 上下文窗口 | 最大输出 | 输入 | 输出 | 缓存读取 |
|---|---|---|---|---|---|
| Kimi K2 Thinking | 262.1K | 262.1K | $0.556-7% (40 Credits) | $2.222-11% (160 Credits) | $0.139-7% (10 Credits) |
服务端联网搜索能力
定价说明: 价格同时显示 USD 和 Credits;默认单位按 / 1M tokens 计算,特殊项目会单独标注。
缓存命中: 适用于缓存的提示词 Tokens 价格。
利用 Kimi K2 Thinking 可以构建什么?
为什么开发者选择 Kimi K2 Thinking API
获得开源的灵活性、256K 上下文和原生工具使用能力,用于构建稳健的长周期智能体工作流。
256K 上下文窗口
在完整的 256K Token 窗口中对长文档和多轮历史记录进行推理,处理复杂任务。
原生工具调用
接受工具定义并生成 JSON 工具调用,实现可靠的编排和结构化输出。
开源 + MoE 效率
采用修改后的 MIT 许可证开放权重,1T 参数的 MoE 设计(32B 激活)实现规模高效的推理。
如何集成 Kimi K2 Thinking API
只需三步,为您的应用添加长周期推理和工具使用能力。
第 1 步 — 提供上下文
发送长输入或高达 256K Token 的 RAG 增强上下文,为模型提供完整的任务可见性。
第 2 步 — 定义工具
附加函数 Schema,以便模型可以使用结构化 JSON 调用搜索、代码或业务工具。
第 3 步 — 执行与验证
运行多步推理,流式传输结果,并在对输出采取行动前验证工具调用或推理轨迹。
Kimi K2 Thinking 能力
专为长上下文长度下的智能体推理而设计
256K Token 上下文
在单次请求中处理长文档、聊天记录和代码库。
MoE 1T / 32B 激活
混合专家架构在规模与效率之间取得平衡。
工具定义 + JSON 调用
支持结构化工具调用和 JSON 输出,实现自动化。
推理轨迹
当提供商启用时,支持独立的 reasoning_content 轨迹。
原生 INT4 量化
通过量化感知训练优化,实现高效推理。
开源许可证
修改后的 MIT 许可证,允许商业用途(请查阅条款)。
Kimi K2 Thinking 与其他推理模型对比
比较各主流推理 API 的上下文窗口、推理风格和工具支持
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Kimi K2 Thinking | 长程智能体、工具编排 | 256K tokens | 逐步推理 + 工具调用 | 原生工具调用、JSON 输出、流式传输 |
| OpenAI o1 | 复杂推理、数学、编程 | 200K tokens | 内部思维链 | 有限工具支持、不支持流式 |
| Claude 3.5 Sonnet | 通用任务、编程、分析 | 200K tokens | 直接响应 + 推理 | 完整工具支持、支持流式 |
| DeepSeek R1 | 数学、编程、开源部署 | 128K tokens | 显式推理轨迹 | 基础工具支持、流式传输 |
关于 Kimi K2 Thinking 的常见问题
Everything you need to know about the product and billing.


