
GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro:2026年の旗艦モデル比較

最終更新:2026年3月6日 · 価格は2026年3月時点
以下が詳細です。
TL;DR
- Gemini 3.1 Pro:$2.00/$12.00(1M tokens)、1M コンテキスト、SWE‑bench 80.6%。
- Claude Opus 4.6:SWE‑bench 80.8%(single attempt)/ 81.42%(prompt modification)、最大出力 128K、Agent Teams。ただし >200K はプレミアム価格($10/$37.50/1M)。
- GPT‑5.4:OpenRouter で $2.50/$20(1M tokens)、キャッシュ入力 $0.625、1M コンテキスト、128K 最大出力として公開。独立ベンチマークの広い合意はまだ限定的。
- 予算重視:GPT‑5.2 は $1.75/$14、400K、SWE‑bench 80.0%。
- GPT‑5.4で進行を止めない:まず Gemini/Opus で進め、GPT‑5.4 を並行評価。
クイック比較
2026年3月時点の一次情報に基づく。
| Claude Opus 4.6 | Gemini 3.1 Pro | GPT-5.4 (OpenRouter) | GPT-5.2 | |
|---|---|---|---|---|
| 提供元 | Anthropic | Google DeepMind | OpenAI | OpenAI |
| ステータス | ✅ 利用可能 | ✅ 利用可能 | ✅ OpenRouterで利用可能 | ✅ 利用可能 |
| コンテキスト | 200K (1M beta, tier 4/custom limits) | 1M | 1M | 400K |
| 最大出力 | 128K tokens | 64K tokens | 128K tokens | 128K tokens |
| 入力(/1M) | $5.00 (≤200K) / $10.00 (>200K) | $2.00 (≤200K) / $4.00 (>200K) | $2.50(cached input: $0.625) | $1.75 |
| 出力(/1M) | $25.00 (≤200K) / $37.50 (>200K) | $12.00 (≤200K) / $18.00 (>200K) | $20.00 | $14.00 |
| 推論 | 拡張思考 | 標準 | 公開モード名はまだ限定的 | 標準 + 深い思考 |
| SWE-bench | 80.8% (single) / 81.42% (prompt mod.) | 80.6% (single) | 広く合意された公開値は未整備 | 80.0% |
| 最適用途 | 複雑なコーディング、エージェントオーケストレーション | 長コンテキスト、マルチモーダル、高コスパ | 未定 | 予算重視コーディング、一般用途 |
出典: anthropic.com/pricing · anthropic.com/docs/models/claude-opus-4-6 · ai.google.dev pricing · deepmind.google model card · platform.openai.com/docs/models/gpt-5.2 · openrouter.ai/openai/gpt-5.4
モデル別の選び方
最高のコード品質なら Claude Opus 4.6
DeepMind 比較表で Opus 4.6 は SWE‑bench 80.8%(single attempt)。Anthropic は prompt modification で 81.42% と 25 回平均を報告(anthropic.com/news/claude-opus-4-6)。最大出力 128K はトップクラス。
Agent Teams はマルチエージェントに有効。
コストは ≤200K で $5/$25、>200K で $10/$37.50。Gemini との差は概ね一定(入力 2.5×、出力 ~2.08×)。
Gemini 3.1 Pro はコスパ重視に最適
1M コンテキストと低価格を両立。$2.00/$12.00(≤200K)で Opus の半額以下、SWE‑bench 差は 0.2pt。
強み:GPQA Diamond 94.3%、ARC‑AGI‑2 77.1%、HLE 44.4%、Terminal‑Bench 2.0 68.5%、ネイティブマルチモーダル。
制約:最大出力 64K。
GPT‑5.4 は待つより、制御付きロールアウトで評価
OpenRouter の公開情報では:
- 1M コンテキスト
- 128K 最大出力
- $2.50 / 1M 入力、$0.625 / 1M キャッシュ入力、$20.00 / 1M 出力
一方で、実運用タスクを横断する独立ベンチマークはまだ十分ではありません。
実務的には、Gemini/Opus を主経路で維持しつつ、GPT‑5.4 を小さなルーティング流量で評価してから段階拡大するのが安全です。
深掘り:コンテキスト
| モデル | コンテキストウィンドウ | 注記 |
|---|---|---|
| Gemini 3.1 Pro | 1M tokens | 本番利用可能な 1M コンテキスト |
| GPT-5.4 | 1M tokens | OpenRouter 掲載済み |
| GPT-5.2 | 400K tokens | 現在利用可能 |
| Claude Opus 4.6 | 200K (1M beta) | 1M beta は tier 4/custom limits 限定 |
Opus の 1M beta は usage tier 4 / custom limits 限定。
深掘り:推論
| モデル | 推論モード | 主な強み |
|---|---|---|
| Claude Opus 4.6 | 拡張思考 | 多段デバッグ、アーキテクチャ設計 |
| Gemini 3.1 Pro | 標準(思考サポート付き) | GPQA Diamond 94.3%, ARC-AGI-2 77.1% |
| GPT-5.4 | 公開モード名はまだ限定的 | 自社Evalで検証推奨 |
Opus は長い推論に強く、Gemini は GPQA が強い。
深掘り:価格
タスク別コスト(概算)
| タスク | トークン(入力/出力) | GPT-5.2 | Gemini 3.1 Pro | Claude Opus 4.6 |
|---|---|---|---|---|
| シンプルチャット | 1K / 500 | $0.009 | $0.008 | $0.018 |
| コードレビュー(単一ファイル) | 5K / 2K | $0.037 | $0.034 | $0.075 |
| 長文書分析 | 100K / 5K | $0.245 | $0.260 | $0.625 |
| コードベース全体(200K+ コンテキスト) | 300K / 10K | $0.665 | $1.380* | $3.375** |
*Gemini 3.1 Pro >200K: $4.00/$18.00/1M
**Claude Opus 4.6 >200K: $10.00/$37.50/1M
高コンテキストでは両者とも高価格帯へ。比率はほぼ一定。
EvoLink(evolink.ai/models)では割引価格で利用可能。
深掘り:コーディング性能
| モデル | SWE-bench | 条件 | 出典 |
|---|---|---|---|
| Claude Opus 4.6 | 80.8% (single) / 81.42% (prompt mod.) | 複合ソース | deepmind.google model card / anthropic.com/news/claude-opus-4-6 |
| Gemini 3.1 Pro | 80.6% (single) | Google 評価 | deepmind.google model card |
| GPT-5.2 | 80.0% | OpenAI 評価 | platform.openai.com |
| GPT-5.4 | 広く合意された公開値は未整備 | — | OpenRouter で利用可能 |
0.2% 差は評価条件の差で揺れる点に注意。
実務上の差:Opus 128K 出力、Gemini 1M コンテキスト、GPT‑5.2 は最安。
意思決定フレームワーク
予算重視?
→ GPT‑5.2 or Gemini 3.1 Pro
200K超のコンテキストが必須?
→ Gemini 3.1 Pro または GPT‑5.4 をルーティング流量で試験導入
最高のコード品質?
→ Claude Opus 4.6
マルチモーダル?
→ Gemini 3.1 Pro
マルチエージェント?
→ Claude Opus 4.6
科学推論?
→ Gemini 3.1 Pro
FAQ
GPT‑5.4 は Opus 4.6 より良い?
未確定。Opus 4.6 は single attempt で 80.8%、prompt modification で 81.42%。
どちらが安い?
Gemini 3.1 Pro。≤200K は $2/$12、>200K は $4/$18。Opus は $5/$25 と $10/$37.50。
コンテキストは?
Gemini 3.1 Pro は 1M。
GPT‑5.4 は今使える?
openai/gpt-5.4)では公開価格と上限情報付きで利用可能です。提供チャネルや契約によって実際の可用性・課金は異なる場合があります。Opus 4.6 で 1M は使える?
標準は 200K、1M beta は tier 4 / custom limits 限定。
コード最強は?
single attempt では Opus 80.8%、Gemini 80.6%、GPT‑5.2 80.0%。
マルチモーダルは?
Gemini 3.1 Pro がネイティブ対応。
本ページは更新されます。最終確認:2026‑03‑06。


