MiniMax-M2.5 API

通过 EvoLink 用一个 API Key 即可接入 MiniMax-M2.5，兼容 OpenAI 请求格式，输入价格从 $0.18/1M tokens 起。适合 coding agents、编码助手、研究代理和长上下文文档处理，不需要重写现有 SDK 接入。

模型类型:

✓MiniMax-M2.5

价格:

$0.191(~ 13 credits) per 1M input tokens; $0.762(~ 51.8 credits) per 1M output tokens

$0.025(~ 1.7 credits) per 1M cache read tokens

Web search tool charged separately per request.

稳定性最高，保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点，仅 model 参数不同。

定价

方案	上下文窗口	最大输出	输入	输出	缓存读取
MiniMax-M2.5	204,800	131,072	$0.191-36% （13 Credits）	$0.762-37% （51.8 Credits）	$0.025-17% （1.7 Credits）
Web Search Tool 服务端联网搜索能力					$0.001/search （0.04 Credits）

定价说明：价格同时显示 USD 和 Credits；默认单位按 / 1M tokens 计算，特殊项目会单独标注。

缓存命中：适用于缓存的提示词 Tokens 价格。

MiniMax-M2.5 API：面向推理工作负载的定价与接入页

通过 EvoLink 将 MiniMax-M2.5 用于 coding agents、仓库问答、研究和文档分析，获得 204K 上下文、内置联网搜索和提示缓存能力。兼容 OpenAI SDK，输入价格从 $0.18/1M tokens 起。

接入定位与能力摘要

适合场景

Coding Agents

接入方式

兼容 OpenAI

上下文

204K 窗口

内置能力

联网搜索 + 缓存

查看定价查看编程 CLI 网关接入

利用 MiniMax-M2.5 API 可以构建什么？

智能编程助手

适合构建代码 Copilot、coding agents、仓库问答、缺陷排查和代码审查流程。MiniMax-M2.5 在长上下文代码理解和多步推理场景中更有优势，适合作为统一文本 API 接入到生产链路。

开始构建

联网搜索研究与分析

可用于研究代理、市场扫描和知识密集型工作流，在需要最新网页信息时再开启搜索能力，帮助团队在回答质量、延迟和成本之间做平衡。

探索研究功能

文档处理与摘要

适合处理合同、报告、客服记录和内部知识库等长文本内容。204K 上下文窗口可以减少激进切块，方便做结构化摘要、信息抽取和多文档对比。

处理文档

为什么团队选择 MiniMax-M2.5 API

当团队需要长上下文推理、可预期的 token 成本，以及比厂商专有接入更快的上线速度时，MiniMax-M2.5 在 EvoLink 上会更合适。

更低摩擦的接入方式

保留 OpenAI 风格的请求结构，用一个 EvoLink Key 就能接入或切换模型，适合先接入 coding agents 或网关式工作流，而不是先做一套 MiniMax 专属集成。

更容易预算的生产成本

页面直接展示 token 定价：输入从 $0.18/1M、输出从 $0.72/1M、缓存命中从 $0.018/1M 起，便于做业务测算和成本控制。

推理能力结合实时检索

既能利用 204K 上下文处理大提示词和长文档，也可以在需要最新信息时开启联网搜索，适合研究和验证类流程。

如何集成 MiniMax-M2.5 API

保留现有 OpenAI 客户端，把 base URL 指向 EvoLink，将模型设置为 MiniMax-M2.5，就可以复用到 coding-agent、仓库问答和长上下文工作流中。

第 1 步 — 身份验证

创建 EvoLink API Key，设置 EvoLink base URL，并使用标准 Bearer 认证发送请求。

第 2 步 — 设置必填字段

请求中传入 `model: MiniMax-M2.5` 和 `messages` 数组。对于重复系统提示词或稳定前缀，尽量复用，以利用提示缓存降低成本。

第 3 步 — 调优输出

按常规调整 temperature、top_p、max_tokens 和 stream。只有在确实需要最新网页信息时才开启 `enable_search`，再根据延迟和覆盖范围选择 `turbo` 或 `max`。

查看 API 文档

适合生产环境的 MiniMax-M2.5 API 能力

聚焦具体控制项和交付信号，而不是泛泛的模型介绍

推理

面向文本工作流的推理模型

适合编码、结构化分析和多步文本任务，比轻量聊天模型更适合需要稳定输出质量的生产场景。

上下文

204K 上下文窗口

在单次请求中容纳长文档、大提示词和多轮上下文，减少过早做切块和多段编排的需要。

搜索

联网搜索

通过 `enable_search: true` 启用实时检索，并根据场景选择 `turbo` 或 `max`，在速度和覆盖度之间做取舍。

兼容性

兼容 OpenAI SDK

将已有 OpenAI 风格客户端切到 MiniMax-M2.5 时，只需改 base URL 和模型名，不需要为编码工具或内部代理重做接入层。

缓存

提示缓存

对重复前缀和系统提示词提供更低成本的缓存命中计费，适合高频代理调用和稳定模板场景。

速度

阿里云部署路径

当前路由部署在阿里云，适合对低延迟和稳定交付路径有要求的生产环境接入。

MiniMax-M2.5 API 常见问题

Everything you need to know about the product and billing.

MiniMax-M2.5 在 EvoLink 上的输入价格从 $0.18/1M tokens 起，输出价格从 $0.72/1M tokens 起，缓存命中价格从 $0.018/1M tokens 起。对于会重复发送长系统提示词或固定前缀的场景，这样的缓存命中计费更容易控制成本。

它适合 coding agents、编码助手、仓库问答、研究分析、长文档处理以及其他需要长上下文、多步推理和可选联网搜索的文本应用场景。

MiniMax-M2.5 支持 204K token 上下文窗口（204,800 tokens），最大输入为 196,608 tokens，思维链+回复最大长度为 131,072 tokens。

支持。通过 `enable_search: true` 可以开启联网搜索，并使用 `turbo` 或 `max` 选择搜索策略。对于共享稳定前缀的请求，MiniMax-M2.5 也支持隐式提示缓存，以更低的缓存命中价格计费。

是的。EvoLink 提供兼容 OpenAI 的 API 端点。您可以通过将 base URL 更改为 EvoLink 端点并将模型设置为 MiniMax-M2.5 来使用 OpenAI SDK。

通常可以。很多团队在评估 MiniMax-M2.5 时，关注的不是单独一个聊天场景，而是能否接到编辑器工具、CLI 和内部代理的统一网关路径里。如果现有工作流已经接受 OpenAI 兼容端点，那么迁移到 EvoLink 的成本通常比较低。相关接入模式可参考 One Gateway for 3 Coding CLIs 和 Gateway vs Direct APIs。

在请求正文中使用模型枚举值 `MiniMax-M2.5`。EvoLink 将通过最优提供商将请求路由到 MiniMax-M2.5 模型。