MiniMax-M3 API
$0.494 - 0.988(~ 33.6 - 67.2 credits) per 1M input tokens; $1.976 - 3.953(~ 134.4 - 268.8 credits) per 1M output tokens
$0.618 - 1.235(~ 42 - 84 credits) per 1M cache write tokens; $0.099 - 0.197(~ 6.7 - 13.4 credits) per 1M cache read tokens
Context over 512K tokens is billed at 2× the official rate (long-context tier, not discounted). Supports thinking, multimodal input (image/video/PDF) and prompt caching.
Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.
Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.
MiniMax-M3 API
Enrute MiniMax-M3 a través de EvoLink para coding agents, Q&A de repositorios, investigación y análisis multimodal de documentos con una ventana de contexto de ~1M, deep thinking y prompt caching. Conéctese mediante endpoints compatibles con OpenAI o Anthropic Messages, con precios desde $0.49/1M tokens de entrada.
Acceso y encaje del flujo
Ideal para
Agentes de código
Model ID
MiniMax-M3
Acceso
OpenAI + Anthropic
Contexto
Ventana 1M
Input
$0.49/1M
Integrado
Thinking + multimodal + caché

¿Qué puedes construir con la API MiniMax-M3?
Coding Agents y flujos de trabajo Claude Code
Construya copilots de codificación y agentes que manejen Q&A de repositorios, generación de código y revisión. Como MiniMax-M3 expone un endpoint nativo de Anthropic Messages, se integra en CLIs estilo Claude Code y frameworks de agentes, mientras que el deep thinking maneja el razonamiento multi-paso en una sola API.

Comprensión multimodal
Alimente imágenes, video y documentos PDF directamente a MiniMax-M3 junto con texto. Úselo para Q&A visual, captura de pantalla a código, comprensión de gráficos y documentos, y resumen de video sin conectar un modelo de visión separado a su stack.

Procesamiento de documentos de contexto largo
Procese contratos, informes, bases de código y grandes bases de conocimiento sin fragmentación agresiva. La ventana de contexto de ~1M es ideal para resúmenes estructurados, pipelines de extracción y tareas de comparación, mientras que el prompt caching mantiene asequibles los prefijos largos repetidos.

Por qué los equipos eligen la API MiniMax-M3
Los equipos eligen MiniMax-M3 en EvoLink cuando necesitan razonamiento multimodal de contexto largo, acceso de protocolo dual y precios de tokens predecibles sin construir una integración específica de proveedor.
Acceso de endpoint dual
Llame a MiniMax-M3 a través del endpoint compatible con OpenAI o el endpoint nativo de Anthropic Messages con una sola clave EvoLink. Tanto el código del SDK de OpenAI existente como los clientes estilo Claude Code funcionan sin reconstruir su ruta de integración.
Costo de producción predecible
Los precios de tokens visibles facilitan la presupuestación: entrada desde $0.49/1M, salida desde $1.98/1M y lecturas de caché desde alrededor de $0.10/1M para prompts repetidos. El contexto por encima de 512K se factura en un nivel de contexto largo de 2×.
Thinking, multimodal y caching
Use ~1M de contexto para prompts grandes, active el deep thinking para razonamiento complejo, pase entrada de imagen/video/PDF directamente y confíe en el prompt caching para reducir el costo del contexto repetido.
MiniMax-M3 vs MiniMax-M2.5: ¿qué modelo conviene usar?
Úsalo como guía de selección de modelo, no como benchmark. M2.5 sigue siendo una opción MiniMax de menor costo, mientras M3 es la mejor elección para cargas agentic y multimodales más exigentes.
| Punto de decisión | MiniMax-M2.5 | MiniMax-M3 |
|---|---|---|
| Rol del modelo | Opción MiniMax de menor costo para cargas textuales | Opción MiniMax principal para workloads agentic avanzados |
| Mejor uso | Repo Q&A, análisis documental, investigación y tareas de texto sensibles al costo | Coding agents, CLIs tipo Claude Code, razonamiento multimodal y análisis de repos completos |
| Contexto | Contexto 204K | Contexto ~1M con tramo 2x por encima de 512K |
| Cobertura de input | Modelo enfocado en texto con web search y prompt caching | Texto más imagen, video y PDF con thinking y caching |
| Endpoint | Acceso compatible con OpenAI | OpenAI-compatible más Anthropic Messages nativo |
| Posición de costo | Úsalo cuando el costo unitario pese más que la capacidad máxima | Úsalo cuando mejor razonamiento, más contexto o multimodal justifiquen el upgrade |
Cómo integrar la API MiniMax-M3
Mantenga su cliente OpenAI o Anthropic existente, apúntelo a EvoLink, establezca el modelo en MiniMax-M3 y use la misma ruta para flujos de trabajo de coding-agent, multimodal y contexto largo.
Paso 1 — Autenticación
Cree una clave API de EvoLink y establezca la URL base de EvoLink. Use autenticación Bearer para el endpoint compatible con OpenAI, o x-api-key para el endpoint de Anthropic Messages.
Paso 2 — Establecer campos requeridos
Envíe `model: MiniMax-M3` con su array `messages`. Reutilice prompts de sistema y prefijos estables para beneficiarse del prompt caching en cargas de trabajo repetidas.
Paso 3 — Ajustar salidas
Ajuste temperature, top_p, max_tokens y stream como de costumbre. Active `thinking` para razonamiento profundo y adjunte bloques de contenido de imagen, video o PDF para solicitudes multimodales.
Características de la API MiniMax-M3 para equipos de producción
Controles concretos y señales de despliegue en lugar de una descripción genérica del modelo
Modo deep thinking
Active el thinking para matemáticas, lógica y análisis complejo multi-paso. El razonamiento se expone como un campo o bloque de contenido separado, para que pueda mostrar u ocultar la cadena de pensamiento en su producto.
Ventana de contexto de ~1M
Ajuste bases de código completas, documentos largos y contexto multi-turno en una sola solicitud antes de recurrir a fragmentación agresiva u orquestación multi-paso.
Entrada multimodal
Pase entradas de imagen, video y PDF junto con texto para Q&A visual, comprensión de documentos y resumen de video en la misma API de texto.
Compatible con OpenAI + Anthropic
Conéctese con el SDK de OpenAI mediante /v1/chat/completions o el SDK de Anthropic mediante /v1/messages cambiando la URL base y el nombre del modelo — sin reconstruir la integración.
Prompt Caching
Los prefijos repetidos y prompts de sistema se facturan a una tarifa de lectura de caché más baja, lo que ayuda a los flujos de trabajo de agentes recurrentes y al tráfico de producción de alto volumen.
Precios por nivel de contexto largo
Las solicitudes de hasta 512K de contexto usan la tarifa base; por encima de 512K, los tokens se facturan en un nivel de contexto largo de 2×, por lo que el costo escala de manera predecible con el tamaño del prompt.
Preguntas frecuentes sobre la API MiniMax-M3
Everything you need to know about the product and billing.