MiniMax-M3 API
$0.494 - 0.988(~ 33.6 - 67.2 credits) per 1M input tokens; $1.976 - 3.953(~ 134.4 - 268.8 credits) per 1M output tokens
$0.618 - 1.235(~ 42 - 84 credits) per 1M cache write tokens; $0.099 - 0.197(~ 6.7 - 13.4 credits) per 1M cache read tokens
Context over 512K tokens is billed at 2× the official rate (long-context tier, not discounted). Supports thinking, multimodal input (image/video/PDF) and prompt caching.
99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。
すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。
MiniMax-M3 API
EvoLink 経由で MiniMax-M3 を Coding agents、リポジトリ Q&A、研究、マルチモーダルドキュメント分析に活用。約 1M コンテキストウィンドウ、ディープシンキング、プロンプトキャッシュを提供。OpenAI 互換または Anthropic Messages エンドポイントで接続でき、価格は入力 $0.49/1M トークンから。
接続とワークフロー適性
適した用途
Coding Agents
Model ID
MiniMax-M3
接続方式
OpenAI + Anthropic
コンテキスト
1M ウィンドウ
Input
$0.49/1M
内蔵
思考 + マルチモーダル + キャッシュ

MiniMax-M3 API で何を構築できますか?
Coding Agents & Claude Code ワークフロー
リポジトリ Q&A、コード生成、レビューを処理する Coding copilots とエージェントを構築。MiniMax-M3 はネイティブな Anthropic Messages エンドポイントを公開しているため、Claude Code スタイルの CLI やエージェントフレームワークにそのまま組み込めます。ディープシンキングは 1 つの API でマルチステップ推論を処理します。

マルチモーダル理解
画像、動画、PDF ドキュメントをテキストと一緒に MiniMax-M3 に直接入力できます。ビジュアル Q&A、スクリーンショットからコード生成、チャートやドキュメントの理解、動画要約に活用でき、別途ビジョンモデルをスタックに組み込む必要はありません。

長文コンテキストドキュメント処理
契約書、レポート、コードベース、大規模なナレッジベースを積極的なチャンキングなしで処理。約 1M コンテキストウィンドウは構造化要約、抽出パイプライン、比較タスクに適しており、プロンプトキャッシュにより繰り返しの長いプレフィックスを低コストに保ちます。

チームが MiniMax-M3 API を選ぶ理由
チームは、長文コンテキストのマルチモーダル推論、デュアルプロトコルアクセス、予測可能なトークン価格を、ベンダー固有の統合を構築せずに必要とする場合に、EvoLink で MiniMax-M3 を選択します。
デュアルエンドポイントアクセス
1 つの EvoLink キーで、OpenAI 互換エンドポイントまたはネイティブな Anthropic Messages エンドポイント経由で MiniMax-M3 を呼び出せます。既存の OpenAI SDK コードと Claude Code スタイルのクライアントの両方が、統合パスを再構築することなく動作します。
予測可能な本番コスト
可視化されたトークン価格により予算編成が容易:入力 $0.49/1M から、出力 $1.98/1M、繰り返しプロンプトのキャッシュ読み取りは約 $0.10/1M。512K を超えるコンテキストは 2 倍の長文コンテキスト階層で課金されます。
thinking、マルチモーダル、キャッシュ
大きなプロンプトには約 1M コンテキストを使用し、複雑な推論にはディープシンキングを有効化し、画像/動画/PDF 入力を直接渡し、繰り返しコンテキストのコストを削減するためにプロンプトキャッシュを活用できます。
MiniMax-M3 vs MiniMax-M2.5:どちらのモデルを使うべきか
これは benchmark ではなくモデル選択のための比較です。M2.5 は低コストな MiniMax fallback として有効で、M3 はより難しい agentic / multimodal workload に適した選択肢です。
| 判断ポイント | MiniMax-M2.5 | MiniMax-M3 |
|---|---|---|
| モデルの役割 | テキスト中心 workload 向けの低コスト MiniMax fallback | 高度な agentic workload 向けの主要 MiniMax モデル |
| 適した用途 | Repo Q&A、文書分析、調査、コスト重視のテキストタスク | Coding agents、Claude Code 系 CLI、multimodal reasoning、フル repo 分析 |
| コンテキスト | 204K context | 約 1M context、512K 超は 2x tier |
| 入力範囲 | Web search と prompt caching を備えたテキスト中心モデル | テキストに加えて画像、動画、PDF 入力、thinking と caching |
| Endpoint | OpenAI 互換アクセス | OpenAI 互換 + ネイティブ Anthropic Messages |
| コスト位置づけ | 最大能力より単価を優先する場合に利用 | より強い reasoning、長い context、multimodal input が必要な場合に利用 |
MiniMax-M3 API の統合方法
既存の OpenAI または Anthropic クライアントを維持し、EvoLink を指定し、モデルを MiniMax-M3 に設定し、Coding-agent、マルチモーダル、長文コンテキストワークフローに同じルートを使用。
ステップ 1 — 認証
EvoLink API キーを作成し、EvoLink ベース URL を設定。OpenAI 互換エンドポイントには Bearer 認証を、Anthropic Messages エンドポイントには x-api-key を使用。
ステップ 2 — 必須フィールドの設定
`model: MiniMax-M3` を `messages` 配列と共に送信。繰り返しワークロードでプロンプトキャッシュの恩恵を受けるため、安定したシステムプロンプトとプレフィックスを再利用。
ステップ 3 — 出力の調整
通常通り temperature、top_p、max_tokens、stream を調整。深い推論には `thinking` を有効化し、マルチモーダルリクエストには画像、動画、PDF のコンテンツブロックを添付。
本番チーム向け MiniMax-M3 API 機能
一般的なモデル概要ではなく、具体的な制御とデプロイメントシグナル
ディープシンキングモード
数学、論理、複雑なマルチステップ分析には thinking を有効化。推論は別フィールドまたはコンテンツブロックとして公開されるため、製品内で思考の連鎖を表示または非表示にできます。
約 1M コンテキストウィンドウ
積極的なチャンキングやマルチパスオーケストレーションに頼る前に、コードベース全体、長文ドキュメント、マルチターンコンテキストを 1 つのリクエストに収める。
マルチモーダル入力
同じテキスト API 内で、画像、動画、PDF 入力をテキストと一緒に渡し、ビジュアル Q&A、ドキュメント理解、動画要約を実現。
OpenAI + Anthropic 互換
ベース URL とモデル名を変更するだけで、/v1/chat/completions 経由の OpenAI SDK または /v1/messages 経由の Anthropic SDK で接続でき、統合の再構築は不要。
プロンプトキャッシュ
繰り返しプレフィックスとシステムプロンプトはより低いキャッシュ読み取りレートで課金され、定期的なエージェントワークフローと大量の本番トラフィックに役立ちます。
長文コンテキスト階層価格
最大 512K コンテキストのリクエストは基本レートを使用。512K を超えるとトークンは 2 倍の長文コンテキスト階層で課金されるため、コストはプロンプトサイズに応じて予測可能にスケールします。
MiniMax-M3 API よくある質問
Everything you need to know about the product and billing.