MiniMax-M3 API
$0.494 - 0.988(~ 33.6 - 67.2 credits) per 1M input tokens; $1.976 - 3.953(~ 134.4 - 268.8 credits) per 1M output tokens
$0.618 - 1.235(~ 42 - 84 credits) per 1M cache write tokens; $0.099 - 0.197(~ 6.7 - 13.4 credits) per 1M cache read tokens
Context over 512K tokens is billed at 2× the official rate (long-context tier, not discounted). Supports thinking, multimodal input (image/video/PDF) and prompt caching.
Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.
Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.
MiniMax-M3 API
Routez MiniMax-M3 via EvoLink pour les coding agents, Q&A de dépôts, recherche et analyse de documents multimodale avec une fenêtre de contexte ~1M, un raisonnement approfondi et le prompt caching. Connectez-vous via les endpoints compatible OpenAI ou Anthropic Messages, avec des tarifs à partir de $0.49/1M tokens d'entrée.
Accès et usage cible
Idéal pour
Agents de code
Model ID
MiniMax-M3
Accès
OpenAI + Anthropic
Contexte
Fenêtre 1M
Input
$0.49/1M
Intégré
Thinking + multimodal + cache

Que pouvez-vous construire avec l'API MiniMax-M3 ?
Coding Agents & workflows Claude Code
Créez des copilotes de codage et des agents qui gèrent le Q&A de dépôts, la génération de code et la revue. Parce que MiniMax-M3 expose un endpoint Anthropic Messages natif, il s'intègre dans les CLIs de style Claude Code et les frameworks d'agents, tandis que le raisonnement approfondi gère le raisonnement multi-étapes dans une seule API.

Compréhension multimodale
Alimentez directement MiniMax-M3 avec des images, des vidéos et des documents PDF aux côtés du texte. Utilisez-le pour le Q&A visuel, le screenshot-to-code, la compréhension de graphiques et de documents, et la synthèse de vidéos sans câbler un modèle de vision séparé dans votre stack.

Traitement de documents long-contexte
Traitez des contrats, rapports, bases de code et grandes bases de connaissances sans chunking agressif. La fenêtre de contexte ~1M convient aux synthèses structurées, pipelines d'extraction et tâches de comparaison, tandis que le prompt caching maintient les longs préfixes répétés abordables.

Pourquoi les équipes choisissent l'API MiniMax-M3
Les équipes choisissent MiniMax-M3 sur EvoLink lorsqu'elles ont besoin de raisonnement multimodal long-contexte, d'un accès double protocole et de tarifs token prévisibles sans construire une intégration spécifique à un fournisseur.
Accès double endpoint
Appelez MiniMax-M3 via l'endpoint compatible OpenAI ou l'endpoint Anthropic Messages natif avec une seule clé EvoLink. Le code OpenAI SDK existant et les clients de style Claude Code fonctionnent tous deux sans reconstruire votre chemin d'intégration.
Coût de production prévisible
Les tarifs token visibles facilitent la budgétisation : entrée à partir de $0.49/1M, sortie à partir de $1.98/1M et lectures de cache à environ $0.10/1M pour les prompts répétés. Le contexte au-delà de 512K est facturé selon un palier long-contexte 2×.
Thinking, multimodal et caching
Utilisez le contexte ~1M pour les grands prompts, activez le raisonnement approfondi pour le raisonnement complexe, passez directement une entrée image/vidéo/PDF et comptez sur le prompt caching pour réduire le coût du contexte répété.
MiniMax-M3 vs MiniMax-M2.5 : quel modèle utiliser ?
Considérez ce tableau comme une aide au choix de modèle, pas comme un benchmark. M2.5 reste une option fallback MiniMax moins coûteuse ; M3 est le meilleur choix pour les workloads agentiques et multimodaux plus exigeants.
| Point de décision | MiniMax-M2.5 | MiniMax-M3 |
|---|---|---|
| Rôle du modèle | Fallback MiniMax moins coûteux pour les workloads textuels | Option MiniMax principale pour les workloads agentiques avancés |
| Meilleur usage | Repo Q&A, analyse documentaire, recherche et tâches textuelles sensibles au coût | Coding agents, CLIs type Claude Code, raisonnement multimodal et analyse de repo complet |
| Fenêtre contexte | Contexte 204K | Contexte ~1M avec palier 2x au-delà de 512K |
| Couverture input | Modèle centré texte avec recherche web et prompt caching | Texte plus image, vidéo et PDF avec thinking et cache |
| Endpoint | Accès compatible OpenAI | Compatible OpenAI plus Anthropic Messages natif |
| Position coût | À utiliser quand le coût unitaire prime sur la capacité maximale | À utiliser quand le raisonnement, le contexte ou le multimodal justifient l’upgrade |
Comment intégrer l'API MiniMax-M3
Conservez votre client OpenAI ou Anthropic existant, pointez-le vers EvoLink, définissez le modèle sur MiniMax-M3 et utilisez la même route pour les workflows de coding-agent, multimodaux et long-contexte.
Étape 1 — Authentification
Créez une clé API EvoLink et définissez l'URL de base EvoLink. Utilisez l'authentification Bearer pour l'endpoint compatible OpenAI, ou x-api-key pour l'endpoint Anthropic Messages.
Étape 2 — Définir les champs requis
Envoyez `model: MiniMax-M3` avec votre tableau `messages`. Réutilisez les prompts système stables et les préfixes pour bénéficier du prompt caching sur les charges de travail répétées.
Étape 3 — Ajuster les sorties
Ajustez temperature, top_p, max_tokens et stream comme d'habitude. Activez `thinking` pour le raisonnement approfondi, et joignez des blocs de contenu image, vidéo ou PDF pour les requêtes multimodales.
Fonctionnalités de l'API MiniMax-M3 pour les équipes de production
Contrôles concrets et signaux de déploiement plutôt qu'un aperçu générique du modèle
Mode de raisonnement approfondi
Activez thinking pour les mathématiques, la logique et l'analyse complexe multi-étapes. Le raisonnement est exposé comme un champ ou un bloc de contenu séparé, afin que vous puissiez afficher ou masquer la chaîne de pensée dans votre produit.
Fenêtre de contexte ~1M
Intégrez des bases de code entières, de longs documents et un contexte multi-tours dans une seule requête avant de recourir au chunking agressif ou à l'orchestration multi-passes.
Entrée multimodale
Passez des entrées image, vidéo et PDF aux côtés du texte pour le Q&A visuel, la compréhension de documents et la synthèse de vidéos dans la même API texte.
Compatible OpenAI + Anthropic
Connectez-vous avec le SDK OpenAI via /v1/chat/completions ou le SDK Anthropic via /v1/messages en changeant l'URL de base et le nom du modèle — aucune reconstruction d'intégration requise.
Prompt Caching
Les préfixes répétés et les prompts système sont facturés à un tarif de lecture de cache inférieur, ce qui aide les workflows d'agents récurrents et le trafic de production à volume élevé.
Tarification par palier long-contexte
Les requêtes jusqu'à 512K de contexte utilisent le tarif de base ; au-delà de 512K, les tokens sont facturés selon un palier long-contexte 2×, donc le coût évolue de manière prévisible avec la taille du prompt.
FAQ de l'API MiniMax-M3
Everything you need to know about the product and billing.