MiniMax-M3 API
$0.494 - 0.988(~ 33.6 - 67.2 credits) per 1M input tokens; $1.976 - 3.953(~ 134.4 - 268.8 credits) per 1M output tokens
$0.618 - 1.235(~ 42 - 84 credits) per 1M cache write tokens; $0.099 - 0.197(~ 6.7 - 13.4 credits) per 1M cache read tokens
Context over 512K tokens is billed at 2× the official rate (long-context tier, not discounted). Supports thinking, multimodal input (image/video/PDF) and prompt caching.
稳定性最高,保证 99.9% 可用性。推荐用于生产环境。
所有版本使用同一个 API 端点,仅 model 参数不同。
MiniMax-M3 API
通过 EvoLink 路由 MiniMax-M3,用约 1M 上下文、深度思考与提示缓存处理 Coding Agents、仓库问答、研究与多模态文档分析。支持 OpenAI 兼容或 Anthropic Messages 端点接入,输入价低至 $0.49/1M tokens。
接入定位与能力摘要
适合场景
Coding Agents
模型 ID
MiniMax-M3
接入方式
OpenAI + Anthropic
上下文
1M 窗口
输入价格
$0.49/1M
内置能力
思考 + 多模态 + 缓存

用 MiniMax-M3 API 能构建什么?
Coding Agents 与 Claude Code 工作流
构建处理仓库问答、代码生成与审查的编程助手与智能体。由于 MiniMax-M3 提供原生 Anthropic Messages 端点,可直接接入 Claude Code 类 CLI 与智能体框架,深度思考则在单个 API 内完成多步推理。



团队为何选择 MiniMax-M3 API
当团队需要长上下文多模态推理、双协议接入与可预测的 token 定价,又不想为单一厂商单独做集成时,会在 EvoLink 上选择 MiniMax-M3。
双端点接入
用一个 EvoLink Key 即可通过 OpenAI 兼容端点或原生 Anthropic Messages 端点调用 MiniMax-M3。现有 OpenAI SDK 代码与 Claude Code 类客户端都无需重建集成路径即可使用。
可预测的生产成本
透明的 token 定价让预算更简单:输入低至 $0.49/1M,输出低至 $1.98/1M,缓存读取约 $0.10/1M(重复提示)。超过 512K 上下文按 2× 长上下文档计费。
思考、多模态与缓存
用约 1M 上下文承载大提示,开启深度思考处理复杂推理,直接传入图像/视频/PDF 输入,并依靠提示缓存降低重复上下文的成本。
MiniMax-M3 vs MiniMax-M2.5:应该选择哪个模型?
这里是模型选择指南,不是 benchmark 结论。M2.5 仍适合作为更低成本的 MiniMax 系列 fallback,M3 则更适合复杂智能体与多模态工作负载。
| 决策点 | MiniMax-M2.5 | MiniMax-M3 |
|---|---|---|
| 模型定位 | 文本型工作负载的低成本 MiniMax fallback | 复杂 agentic workloads 的 MiniMax 主力模型 |
| 适合场景 | 仓库问答、文档分析、研究和成本敏感文本任务 | Coding agents、Claude Code 类 CLI、多模态推理和完整代码库分析 |
| 上下文窗口 | 204K context | 约 1M context,超过 512K 按 2x 档计费 |
| 输入覆盖 | 偏文本模型,支持联网搜索与提示缓存 | 文本 + 图像、视频、PDF 输入,支持 thinking 与缓存 |
| 端点适配 | OpenAI 兼容接入 | OpenAI 兼容 + 原生 Anthropic Messages 接入 |
| 成本定位 | 当单位成本优先于峰值能力时使用 | 当更强推理、更长上下文或多模态输入值得升级成本时使用 |
如何接入 MiniMax-M3 API
沿用现有的 OpenAI 或 Anthropic 客户端,指向 EvoLink,把模型设为 MiniMax-M3,同一条路由即可用于编程智能体、多模态与长上下文工作流。
第 1 步 — 鉴权
创建 EvoLink API Key 并设置 EvoLink base URL。OpenAI 兼容端点用 Bearer 鉴权,Anthropic Messages 端点用 x-api-key。
第 2 步 — 设置必填字段
发送 `model: MiniMax-M3` 与你的 `messages` 数组。复用稳定的系统提示与前缀,可在重复负载上享受提示缓存收益。
第 3 步 — 调优输出
照常调整 temperature、top_p、max_tokens 与 stream。开启 `thinking` 进行深度推理,并附加图像、视频或 PDF 内容块以发起多模态请求。
面向生产团队的 MiniMax-M3 API 特性
提供具体的控制项与部署信号,而非泛泛的模型介绍
深度思考模式
为数学、逻辑与复杂多步分析开启思考。推理以独立字段或内容块返回,你可以在产品中选择展示或隐藏思维链。
约 1M 上下文窗口
在激进分块或多轮编排之前,把整个代码库、长文档与多轮上下文放进一次请求。
多模态输入
在同一个文本 API 中连同文本一起传入图像、视频与 PDF,用于视觉问答、文档理解与视频摘要。
OpenAI + Anthropic 兼容
通过 /v1/chat/completions 用 OpenAI SDK,或通过 /v1/messages 用 Anthropic SDK——只需改 base URL 和模型名,无需重建集成。
提示缓存
重复的前缀与系统提示按更低的缓存读取价计费,有利于周期性智能体工作流与高并发生产流量。
长上下文分档定价
512K 以内上下文按基准价;超过 512K 的 token 按 2× 长上下文档计费,成本随提示规模可预测地变化。
MiniMax-M3 API 常见问题
Everything you need to know about the product and billing.