MiniMax-M3 API
$0.494 - 0.988(~ 33.6 - 67.2 credits) per 1M input tokens; $1.976 - 3.953(~ 134.4 - 268.8 credits) per 1M output tokens
$0.618 - 1.235(~ 42 - 84 credits) per 1M cache write tokens; $0.099 - 0.197(~ 6.7 - 13.4 credits) per 1M cache read tokens
Context over 512K tokens is billed at 2× the official rate (long-context tier, not discounted). Supports thinking, multimodal input (image/video/PDF) and prompt caching.
Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.
Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.
MiniMax-M3 API
Routen Sie MiniMax-M3 über EvoLink für Coding Agents, Repo-Q&A, Research und multimodale Dokumentenanalyse mit einem ~1M-Kontextfenster, Deep Thinking und Prompt-Caching. Verbinden Sie sich über OpenAI-kompatible oder Anthropic-Messages-Endpunkte, mit Preisen ab $0.49/1M Input-Tokens.
Zugang und Workflow-Fit
Best fit
Coding Agents
Model ID
MiniMax-M3
Zugang
OpenAI + Anthropic
Kontext
1M Fenster
Input
$0.49/1M
Integriert
Thinking + multimodal + Caching

Was können Sie mit der MiniMax-M3 API entwickeln?
Coding Agents & Claude-Code-Workflows
Entwickeln Sie Coding-Copilots und Agents, die Repo-Q&A, Code-Generierung und Review bewältigen. Da MiniMax-M3 einen nativen Anthropic-Messages-Endpunkt bereitstellt, lässt es sich direkt in Claude-Code-artige CLIs und Agent-Frameworks integrieren, während Deep Thinking mehrstufiges Reasoning in einer einzigen API übernimmt.

Multimodales Verständnis
Übergeben Sie Bilder, Videos und PDF-Dokumente direkt zusammen mit Text an MiniMax-M3. Nutzen Sie es für visuelle Q&A, Screenshot-zu-Code, Diagramm- und Dokumentenverständnis sowie Video-Zusammenfassung, ohne ein separates Vision-Modell in Ihren Stack einzubinden.

Long-Context-Dokumentenverarbeitung
Verarbeiten Sie Verträge, Berichte, Codebasen und große Wissensbasen ohne aggressives Chunking. Das ~1M-Kontextfenster eignet sich für strukturierte Zusammenfassungen, Extraktions-Pipelines und Vergleichsaufgaben, während Prompt-Caching wiederholte lange Präfixe bezahlbar hält.

Warum Teams die MiniMax-M3 API wählen
Teams wählen MiniMax-M3 auf EvoLink, wenn sie multimodales Long-Context-Reasoning, Dual-Protokoll-Zugang und vorhersehbare Token-Preise benötigen, ohne eine anbieterspezifische Integration aufzubauen.
Dual-Endpunkt-Zugang
Rufen Sie MiniMax-M3 über den OpenAI-kompatiblen Endpunkt oder den nativen Anthropic-Messages-Endpunkt mit einem EvoLink-Schlüssel auf. Bestehender OpenAI-SDK-Code und Claude-Code-artige Clients funktionieren beide, ohne dass Sie Ihren Integrationspfad neu aufbauen müssen.
Vorhersehbare Produktionskosten
Transparente Token-Preise erleichtern die Budgetierung: Input ab $0.49/1M, Output ab $1.98/1M und Cache-Reads ab etwa $0.10/1M für wiederholte Prompts. Kontext über 512K wird in einer 2×-Long-Context-Stufe abgerechnet.
Thinking, Multimodal und Caching
Nutzen Sie ~1M Kontext für große Prompts, aktivieren Sie Deep Thinking für komplexes Reasoning, übergeben Sie Bild-/Video-/PDF-Eingaben direkt und verlassen Sie sich auf Prompt-Caching, um die Kosten für wiederholten Kontext zu senken.
MiniMax-M3 vs MiniMax-M2.5: welches Modell passt?
Dies ist eine Modellwahlhilfe, kein Benchmark-Vergleich. M2.5 bleibt ein günstigeres MiniMax-Fallback-Modell, während M3 die stärkere Wahl für anspruchsvollere agentische und multimodale Workloads ist.
| Entscheidungspunkt | MiniMax-M2.5 | MiniMax-M3 |
|---|---|---|
| Modellrolle | Günstigeres MiniMax-Fallback-Modell für textlastige Workloads | Primäre MiniMax-Option für fortgeschrittene agentische Workloads |
| Best fit | Repo-Q&A, Dokumentanalyse, Research und kostenkritische Textaufgaben | Coding Agents, Claude-Code-ähnliche CLIs, multimodales Reasoning und Full-Repo-Analyse |
| Kontextfenster | 204K Kontext | ~1M Kontext mit 2x-Tier über 512K |
| Input-Abdeckung | Textfokussiertes Modell mit Websuche und Prompt Caching | Text plus Bild-, Video- und PDF-Input mit Thinking und Caching |
| Endpoint-Fit | OpenAI-kompatibler Zugang | OpenAI-kompatibel plus nativer Anthropic-Messages-Zugang |
| Kostenrolle | Wenn Stückkosten wichtiger sind als maximale Capability | Wenn stärkeres Reasoning, längerer Kontext oder multimodaler Input das Upgrade rechtfertigen |
So integrieren Sie die MiniMax-M3 API
Behalten Sie Ihren bestehenden OpenAI- oder Anthropic-Client bei, richten Sie ihn auf EvoLink aus, setzen Sie das Modell auf MiniMax-M3 und nutzen Sie dieselbe Route für Coding-Agent-, Multimodal- und Long-Context-Workflows.
Schritt 1 — Authentifizierung
Erstellen Sie einen EvoLink-API-Schlüssel und setzen Sie die EvoLink-Base-URL. Verwenden Sie Bearer-Authentifizierung für den OpenAI-kompatiblen Endpunkt oder x-api-key für den Anthropic-Messages-Endpunkt.
Schritt 2 — Pflichtfelder setzen
Senden Sie `model: MiniMax-M3` mit Ihrem `messages`-Array. Verwenden Sie stabile System-Prompts und Präfixe wieder, um bei wiederholten Workloads vom Prompt-Caching zu profitieren.
Schritt 3 — Outputs optimieren
Passen Sie temperature, top_p, max_tokens und stream wie gewohnt an. Aktivieren Sie `thinking` für tiefes Reasoning und hängen Sie Bild-, Video- oder PDF-Content-Blöcke für multimodale Anfragen an.
MiniMax-M3 API Features für Produktionsteams
Konkrete Steuerungen und Deployment-Signale statt generischer Modellübersicht
Deep-Thinking-Modus
Aktivieren Sie Thinking für Mathematik, Logik und komplexe mehrstufige Analyse. Das Reasoning wird als separates Feld oder Content-Block bereitgestellt, sodass Sie die Gedankenkette in Ihrem Produkt anzeigen oder ausblenden können.
~1M Kontextfenster
Passen Sie ganze Codebasen, lange Dokumente und Multi-Turn-Kontext in eine Anfrage, bevor Sie zu aggressivem Chunking oder Multi-Pass-Orchestrierung greifen.
Multimodale Eingabe
Übergeben Sie Bild-, Video- und PDF-Eingaben zusammen mit Text für visuelle Q&A, Dokumentenverständnis und Video-Zusammenfassung in derselben Text-API.
OpenAI- + Anthropic-kompatibel
Verbinden Sie sich über das OpenAI SDK via /v1/chat/completions oder das Anthropic SDK via /v1/messages, indem Sie die Base-URL und den Modellnamen ändern — kein Integrations-Neuaufbau erforderlich.
Prompt-Caching
Wiederholte Präfixe und System-Prompts werden zu einem niedrigeren Cache-Read-Tarif abgerechnet, was wiederkehrenden Agent-Workflows und hochvolumigem Produktions-Traffic hilft.
Long-Context-Stufenpreise
Anfragen bis 512K Kontext nutzen den Basistarif; über 512K werden Tokens in einer 2×-Long-Context-Stufe abgerechnet, sodass die Kosten vorhersehbar mit der Prompt-Größe skalieren.
MiniMax-M3 API FAQs
Everything you need to know about the product and billing.