MiniMax-M2.5 API
$0.181(~ 13 credits) per 1M input tokens; $0.719(~ 51.8 credits) per 1M output tokens
$0.024(~ 1.7 credits) per 1M cache read tokens
Web search tool charged separately per request.
稳定性最高,保证 99.9% 可用性。推荐用于生产环境。
所有版本使用同一个 API 端点,仅 model 参数不同。
MiniMax-M2.5 API:面向推理工作负载的定价与接入页
通过 EvoLink 将 MiniMax-M2.5 用于 coding agents、仓库问答、研究和文档分析,获得 204K 上下文、内置联网搜索和提示缓存能力。兼容 OpenAI SDK,输入价格从 $0.18/1M tokens 起。
接入定位与能力摘要
适合场景
Coding Agents
接入方式
兼容 OpenAI
上下文
204K 窗口
内置能力
联网搜索 + 缓存

利用 MiniMax-M2.5 API 可以构建什么?
为什么团队选择 MiniMax-M2.5 API
当团队需要长上下文推理、可预期的 token 成本,以及比厂商专有接入更快的上线速度时,MiniMax-M2.5 在 EvoLink 上会更合适。
更低摩擦的接入方式
保留 OpenAI 风格的请求结构,用一个 EvoLink Key 就能接入或切换模型,适合先接入 coding agents 或网关式工作流,而不是先做一套 MiniMax 专属集成。
更容易预算的生产成本
页面直接展示 token 定价:输入从 $0.18/1M、输出从 $0.72/1M、缓存命中从 $0.018/1M 起,便于做业务测算和成本控制。
推理能力结合实时检索
既能利用 204K 上下文处理大提示词和长文档,也可以在需要最新信息时开启联网搜索,适合研究和验证类流程。
如何集成 MiniMax-M2.5 API
保留现有 OpenAI 客户端,把 base URL 指向 EvoLink,将模型设置为 MiniMax-M2.5,就可以复用到 coding-agent、仓库问答和长上下文工作流中。
第 1 步 — 身份验证
创建 EvoLink API Key,设置 EvoLink base URL,并使用标准 Bearer 认证发送请求。
第 2 步 — 设置必填字段
请求中传入 `model: MiniMax-M2.5` 和 `messages` 数组。对于重复系统提示词或稳定前缀,尽量复用,以利用提示缓存降低成本。
第 3 步 — 调优输出
按常规调整 temperature、top_p、max_tokens 和 stream。只有在确实需要最新网页信息时才开启 `enable_search`,再根据延迟和覆盖范围选择 `turbo` 或 `max`。
适合生产环境的 MiniMax-M2.5 API 能力
聚焦具体控制项和交付信号,而不是泛泛的模型介绍
面向文本工作流的推理模型
适合编码、结构化分析和多步文本任务,比轻量聊天模型更适合需要稳定输出质量的生产场景。
204K 上下文窗口
在单次请求中容纳长文档、大提示词和多轮上下文,减少过早做切块和多段编排的需要。
联网搜索
通过 `enable_search: true` 启用实时检索,并根据场景选择 `turbo` 或 `max`,在速度和覆盖度之间做取舍。
兼容 OpenAI SDK
将已有 OpenAI 风格客户端切到 MiniMax-M2.5 时,只需改 base URL 和模型名,不需要为编码工具或内部代理重做接入层。
提示缓存
对重复前缀和系统提示词提供更低成本的缓存命中计费,适合高频代理调用和稳定模板场景。
阿里云部署路径
当前路由部署在阿里云,适合对低延迟和稳定交付路径有要求的生产环境接入。
MiniMax-M2.5 API 常见问题
Everything you need to know about the product and billing.


