Gemini Omni まもなく登場詳しく見る
Gemini 3.5 Flash 料金ガイド:Token コスト、ワークロード例、本番環境の予算計画
pricing

Gemini 3.5 Flash 料金ガイド:Token コスト、ワークロード例、本番環境の予算計画

EvoLink Team
EvoLink Team
Product Team
2026年5月20日
14 分
最終確認日:2026年5月20日。以下の料金データは、Google 公式モデルドキュメントおよび EvoLink プラットフォームの同日付の検証情報に基づいています。
Gemini 3.5 Flash は、大規模な本番ワークロード向けの Google の安定した高コスパモデルです。ただし「高コスパ」は相対的なもので、100万 Token あたり $1.50/$9.00 という価格は、Gemini 3 Flash Preview のような低価格帯と Gemini 3.1 Pro のようなプレミアムモデルの中間に位置しています。本ガイドでは、すべての料金項目を分解し、実際の本番ワークロードでどれだけのコストがかかるかをお示しします。

まとめ

  • 入力:$1.50 / 100万 Token
  • 出力:$9.00 / 100万 Token
  • キャッシュヒット:$0.15 / 100万 Token(キャッシュされた入力で90%削減)
  • 音声・動画入力:$1.50 / 100万 Token(テキストと同額)
  • Context Caching、Batch API、Google Search Grounding に対応
  • 最大のコスト要因は出力 Token です。入力ではありません。まず出力長の最適化を行いましょう。

料金一覧表

Token 種別100万 Token あたりの料金備考
テキスト入力$1.50標準テキストプロンプト Token
テキスト出力$9.00モデルが生成したレスポンス Token
キャッシュヒット(入力)$0.15標準入力から90%割引;ストレージ費用 $1.00/時間
音声入力$1.50処理済み音声 Token
動画入力$1.50処理済み動画フレーム Token
画像入力$1.50処理済み画像 Token
PDF 入力$1.50処理済みドキュメント Token

Batch・Flex 料金

Google は、緊急でないワークロード向けに割引料金も提供しています:

料金プラン入力 / 100万出力 / 100万ユースケース
Standard$1.50$9.00リアルタイムリクエスト
Batch$0.75$4.50非同期の一括処理
Flex$0.75$4.50柔軟な配信タイミング
Priority$2.70$16.20低レイテンシ保証
Batch・Flex 料金は、標準料金に対して50%の割引です。

重要なポイント

  • 出力 Token は入力の6倍のコストがかかります。これが最も重要なコスト調整の鍵です。
  • キャッシュヒットは入力コストを**90%**削減しますが、キャッシュストレージ費用 $1.00/時間 も考慮してください。
  • Batch/Flex 料金は、緊急でないワークロードの入出力コストを半額にします。
  • すべてのマルチモーダル入力(音声、動画、画像、PDF)はテキスト入力と同じ料金です。

Gemini 3.5 Flash の価格比較

モデル入力 / 100万出力 / 100万キャッシュヒット / 100万コンテキスト
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash は中価格帯の Flash モデルとして位置づけられています。プレビュー版の Flash モデルより高性能かつ安定しており、Pro 級や Sonnet 級のモデルよりも大幅に低コストです。

ワークロードコスト例

例1:分類パイプライン

短いプロンプトと短いレスポンスによる大量分類処理。

1日のリクエスト数:100,000件 平均入力:500 Token / リクエスト 平均出力:50 Token / リクエスト 1日の入力 Token:50M 1日の出力 Token:5M
コスト項目計算式日額月額
入力50M × $1.50/1M$75.00$2,250
出力5M × $9.00/1M$45.00$1,350
合計$120.00$3,600

Context Caching を有効化した場合(入力 Token の80%がキャッシュヒット):

コスト項目計算式日額月額
入力(非キャッシュ 20%)10M × $1.50/1M$15.00$450
入力(キャッシュ 80%)40M × $0.15/1M$6.00$180
出力5M × $9.00/1M$45.00$1,350
キャッシュ適用後の合計$66.00$1,980
このシナリオでは、キャッシュにより45%のコスト削減が実現します。

例2:コーディング Agent

中程度の入力(コードコンテキスト)と大量の出力(生成コード)を伴う Agent ワークフロー。

1日のセッション数:5,000回 平均入力:10,000 Token / セッション 平均出力:3,000 Token / セッション 1日の入力 Token:50M 1日の出力 Token:15M
コスト項目計算式日額月額
入力50M × $1.50/1M$75.00$2,250
出力15M × $9.00/1M$135.00$4,050
合計$210.00$6,300

出力が総コストの64%を占めています。平均出力長を20%短縮すると、月額 $1,260 の節約になります。

例3:長文コンテキストのドキュメント分析

大容量ドキュメントを処理し、要約を出力するワークロード。

1日のドキュメント数:500件 平均入力:100,000 Token / ドキュメント 平均出力:2,000 Token / ドキュメント 1日の入力 Token:50M 1日の出力 Token:1M
コスト項目計算式日額月額
入力50M × $1.50/1M$75.00$2,250
出力1M × $9.00/1M$9.00$270
合計$84.00$2,520

入力中心の長文コンテキストワークロードでは、Context Caching が不可欠です。ドキュメントコンテキストの60%が共有可能な場合(共通ヘッダー、テンプレート、指示文など):

| キャッシュ適用後の合計 | | $48.00 | $1,440 |
キャッシュにより43%の削減が可能です。

例4:マルチモーダルパイプライン(動画 + 音声)

音声付き動画コンテンツをコンテンツ理解のために処理。

1日の動画数:1,000本 平均動画入力:20,000 Token / 動画 平均音声入力:5,000 Token / 動画 平均テキスト入力:1,000 Token / 動画 平均出力:500 Token / 動画 1日の動画 Token:20M 1日の音声 Token:5M 1日のテキスト Token:1M 1日の出力 Token:500K
コスト項目計算式日額月額
動画入力20M × $1.50/1M$30.00$900
音声入力5M × $1.50/1M$7.50$225
テキスト入力1M × $1.50/1M$1.50$45
出力0.5M × $9.00/1M$4.50$135
合計$43.50$1,305

マルチモーダル料金はシンプルで、すべての入力タイプが同じ料金です。

コスト最適化戦略

1. Context Caching を積極的に活用する

Context Caching は入力コストを90%削減します。以下の項目にキャッシュを適用しましょう:

  • システムプロンプトと指示文
  • Few-shot 例
  • リクエスト間で共有されるドキュメントコンテキスト
  • 繰り返し使用するツール定義や Schema

2. 出力長を最適化する

出力 Token は入力の6倍のコストです。以下の方法で最適化できます:

  • max_tokens をタスクに必要な最小値に設定する
  • 構造化出力 Schema でレスポンス形式を制約する
  • 分類タスクでは説明文ではなく列挙型の出力を使用する
  • 抽出タスクでは抽出したフィールドのみを返す

3. 緊急でないワークロードには Batch API を使用する

Batch API は、高レイテンシを許容できるワークロードに対して通常より低い料金を提供します。以下に適しています:

  • 夜間のデータ処理
  • 一括分類
  • ドキュメント分析パイプライン
  • 評価とテスト

4. ワークロード階層ごとにルーティングする

すべてのリクエストに Gemini 3.5 Flash が必要なわけではありません。シンプルなタスクはより安価なモデルにルーティングしましょう:

ワークロードの複雑さ推奨モデル理由
単純な分類Gemini 3.1 Flash Lite Preview ($0.25/$1.50)入出力ともに6倍安い
標準的な抽出Gemini 3 Flash Preview ($0.50/$3.00)3倍安く、単純なタスクには十分
Agent のサブステップGemini 3.5 Flash ($1.50/$9.00)GA の安定性、優れた推論能力
複雑な推論Gemini 3.1 Pro ($2.00/$12.00)難しいタスクで高品質

5. Token コストだけでなく、成功タスクあたりのコストを監視する

安くても3回リトライが必要なモデルは、1回で成功する高価なモデルよりも結果的に高くつくことがあります。以下を追跡しましょう:

  • リクエストあたりの Token コスト
  • リトライ率
  • フォールバック率
  • 成功タスクあたりのコスト(リトライとフォールバックを含む)

見落としやすいコスト要因

リトライ

リクエストの10%がバリデーション不合格でリトライが必要な場合、Token 予算に10%を上乗せする必要があります。マルチステップの Agent ワークフローでは、リトライコストがステップ間で複合的に増加します。

より強力なモデルへのフォールバック

Gemini 3.5 Flash がリクエストの5%を処理できず、Gemini 3.1 Pro にフォールバックする場合、その分は Pro 級の料金で予算に組み込んでください。

Agent ループにおけるコンテキスト増大

Agent ワークフローでは、ステップを重ねるごとにコンテキストが蓄積されがちです。5ステップの Agent ループでは、初回プロンプトの2〜3倍の入力 Token を消費することがあります。最初のリクエストだけでなく、コンテキスト増大を考慮した予算を立てましょう。

レート制限によるオーバーヘッド

レート制限に達した際のキューイングやリトライは、Token 費用だけの問題ではなく、エンジニアリング工数やユーザー体験への影響としてコストに跳ね返ります。

よくある質問

Gemini 3.5 Flash を最も安く使う方法は?

繰り返しプロンプトに Context Caching を有効化し、構造化 Schema で出力長を制約し、緊急でない処理には Batch API を使い、単純なタスクはより安価な Flash モデルにルーティングしてください。

Gemini 3.5 Flash は Claude Haiku 4.5 より安いですか?

いいえ。Claude Haiku 4.5 は入力($1.00 vs $1.50)・出力($5.00 vs $9.00)ともに100万 Token あたりで安価です。ただし、Gemini 3.5 Flash は 1M コンテキスト(vs 200K)を提供し、Haiku が対応していないネイティブのマルチモーダル入力をサポートしています。

Context Caching でどれくらい節約できますか?

キャッシュヒットは100万 Token あたり $0.15 で、標準入力の $1.50 から90%の削減です。共有システムプロンプトや繰り返しコンテキストを含むワークロードでは、総コストを30〜50%削減できます。

Gemini 3.5 Flash は Gemini 3.1 Pro より安いですか?

はい。Gemini 3.5 Flash は入力で25%安く($1.50 vs $2.00)、出力でも25%安くなっています($9.00 vs $12.00)。

月額コストの見積もり方法は?

計算式:(1日の入力 Token × $1.50/1M) + (1日の出力 Token × $9.00/1M) × 30。そこから Context Caching による節約分を差し引き、リトライやフォールバックによるオーバーヘッドを加算してください。

EvoLink は、すべての Gemini モデルにわたる使用量モニタリングとコスト追跡が可能な統合 API を提供しています。1つの統合でコスト比較、予算アラートの設定、Flash 階層間のルーティング切り替えが行えます。

関連記事:

EvoLink で探索:

出典

AIコストを89%削減する準備はできましたか?

今すぐEvoLinkを始めて、インテリジェントなAPIルーティングの力を体験してください。