
Gemini 3.5 Flash でコーディング Agent を構築:性能・コスト・本番ルーティング

$1.50/$9.00(100万トークンあたり)という料金は最安ではありません。本ガイドでは、本番のコーディング Agent スタックにおける最適な活用方法を評価します。まとめ
- Gemini 3.5 Flash は、1M コンテキスト、ネイティブ function calling、コード実行、structured output、強化推論を備えており、コーディング Agent に必要な機能が揃っています。
$1.50/$9.00(100万トークンあたり)は中価格帯です。Pro モデルより安いですが、プレビュー版 Flash や Claude Haiku 4.5 より高くなります。- 長いコンテキストやマルチモーダル入力が必要な Agent サブステップに最適であり、汎用コーディングモデルとしてではありません。
- 200K コンテキスト以内の出力量が多いコーディングタスクでは、Claude Haiku 4.5($1/$5)の方がコストが低く、SWE-bench の結果(73.3%)も優れています。
- 最も効果的な構成は、複雑さとコンテキストの要件に応じて、Agent の各ステップを異なるモデルにルーティングすることです。
コーディング Agent に特定のモデル能力が必要な理由
すべてのモデルが agent loop でうまく動作するわけではありません。コーディング Agent には具体的な要件があります。
| 要件 | 重要な理由 | テスト項目 |
|---|---|---|
| Function calling | Agent はツールを呼び出します:ファイルの読み書き、検索、テスト実行、git 操作 | Schema 準拠率、エラー回復 |
| Structured output | Agent のレスポンスはオーケストレーションのために厳密なフォーマットに従う必要があります | JSON の妥当性、Schema 準拠 |
| 長コンテキスト | 複数ファイルのコードベース、大きな PR、長い会話履歴 | 100K、200K、500K トークンでの精度 |
| コード品質 | 生成されたコードは構文的に正しいだけでなく、正確でなければなりません | Diff の品質、テスト通過率、ハルシネーション率 |
| 推論能力 | マルチステップ計画:分析 → 計画 → 実装 → 検証 | 計画の完全性、ステップ省略率 |
| スケール時のコスト | Agent loop はステップ間でトークン使用量を倍増させます | 成功セッションあたりのコスト(トークン単価ではなく) |
| 速度 | インタラクティブな Agent には低レイテンシーが必要です | 最初のトークンまでの時間、完了時間 |
Gemini 3.5 Flash の Agent 向け機能
| 機能 | Gemini 3.5 Flash | 備考 |
|---|---|---|
| Function calling | 対応 | ネイティブサポート、Schema 準拠の強化 |
| Structured output | 対応 | JSON モード、型付きレスポンス |
| コード実行 | 対応 | 組み込みコードサンドボックス |
| コンテキストウィンドウ | 1,000,000 tokens | 大規模コードベースを格納可能 |
| 出力上限 | 65,536 tokens | ほとんどの diff と説明に十分 |
| 組み込み推論 | 対応(強化版) | マルチステップ計画能力 |
| Google Search grounding | 対応 | 事実の検証やドキュメント検索が可能 |
| Context caching | 対応 | ステップ間で共有コードベースコンテキストをキャッシュ |
| Batch API | 対応 | 非インタラクティブな評価実行に使用 |
Agent アーキテクチャにおける Gemini 3.5 Flash の位置付け
コーディング Agent が全ステップで単一モデルを使うことはほとんどありません。典型的な Agent セッションは以下のようになります:
1. Understand task → read files, parse requirements
2. Plan approach → break into steps, identify files
3. Implement changes → write code, generate diffs
4. Verify → run tests, check output
5. Iterate → fix failures, retry
ステップごとに要件が異なります:
| Agent ステップ | 重要な要件 | Gemini 3.5 Flash の適合度 |
|---|---|---|
| タスク理解 | 長コンテキスト、ファイル読み取り | 高 — 1M コンテキストで大規模リポジトリに対応 |
| 計画 | 推論、タスク分解 | 良好 — 強化推論が有効 |
| コード生成 | コード品質、structured output | 良好 — ただし SWE-bench で Claude Haiku と比較が必要 |
| ツール呼び出し | Schema 準拠、エラー回復 | 高 — ネイティブ function calling |
| テスト検証 | コード実行、出力解析 | 高 — 組み込みコード実行 |
| イテレーション | コンテキスト保持、自己修正 | 高 — 長コンテキストで完全な履歴を保持 |
最適な用途:長コンテキストとマルチモーダルな Agent ステップ
Gemini 3.5 Flash の独自の強みは、以下のような Agent タスクの処理にあります:
- コードベース全体の読解(100K+ トークンのコンテキスト)
- コードとともにスクリーンショット、図表、動画ウォークスルーを処理
- Google Search を使った API ドキュメントやライブラリリファレンスの検索
- コードスニペットの実行による動作検証
代替を検討すべきケース:出力量の多いコード生成
コード生成が主体(大量出力)の Agent ステップでは、より安価なモデルの方がコスト効率が良い場合があります:
- Claude Haiku 4.5($1/$5、73.3% SWE-bench)— 低い出力コストで高いコード品質
- Gemini 3 Flash Preview($0.50/$3)— 単純なサブステップに 3 倍安い
Agent セッションのコスト分析
コーディング Agent のセッションは通常、複数のモデル呼び出しで構成されます。現実的なコスト内訳を見てみましょう。
シンプルなバグ修正(3ステップセッション)
Step 1 — Read context: 20K input, 1K output
Step 2 — Generate fix: 25K input, 2K output
Step 3 — Verify: 30K input, 500 output
Total: 75K input, 3.5K output
| モデル | セッション単価 | 1日100セッション | 月額 |
|---|---|---|---|
| Gemini 3.5 Flash | $0.14 | $14.00 | $420 |
| Claude Haiku 4.5 | $0.09 | $9.25 | $278 |
| Gemini 3 Flash Preview | $0.05 | $4.88 | $146 |
複雑な機能開発(8ステップセッション)
Step 1 — Read codebase: 200K input, 2K output
Step 2 — Plan: 210K input, 3K output
Step 3-6 — Implement (4 files): 4 × (100K input, 4K output)
Step 7 — Run tests: 250K input, 1K output
Step 8 — Fix failures: 260K input, 3K output
Total: 1.32M input, 25K output
| モデル | セッション単価 | 1日20セッション | 月額 |
|---|---|---|---|
| Gemini 3.5 Flash | $2.21 | $44.10 | $1,323 |
| Claude Haiku 4.5 | 対応不可 — 200K コンテキスト超過 | — | — |
| Gemini 3 Flash Preview | $0.74 | $14.70 | $441 |
ハイブリッドルーティング:両方の長所を活かす
シンプルなセッションは最も安価なモデルに、複雑なセッションは Gemini 3.5 Flash にルーティングします:
Simple bug fixes (70% of sessions) → Claude Haiku 4.5
Complex features (30% of sessions) → Gemini 3.5 Flash
1日100セッション(シンプル70件、複雑30件)の場合:
| アプローチ | 日額コスト | 月額 |
|---|---|---|
| すべて Gemini 3.5 Flash | $80.30 | $2,409 |
| すべて Claude Haiku 4.5 | 複雑なセッションに対応不可 | — |
| ハイブリッドルーティング | $72.78 | $2,183 |
ハイブリッドルーティングにより、すべてのワークロードに対応しつつ約10%のコスト削減が可能です。シンプルなセッションに Claude Haiku 4.5 の代わりに Gemini 3 Flash Preview を使用すれば、さらに節約できます。
コーディング Agent の本番チェックリスト
1. ステップごとにモデル選択を設定可能にする
すべての Agent ステップに一つのモデルをハードコードしないでください。モデル ID を設定ファイルに格納し、ステップ単位でのルーティングを可能にしましょう。
2. ステップごとの結果を記録する
モデル ID、入力トークン、出力トークン、レイテンシー、ツール呼び出し成功率、ステップの結果を追跡します。このデータにより、どのステップが Gemini 3.5 Flash の能力から恩恵を受け、どのステップがより安価なモデルで十分かが分かります。
3. 共有コードベースコンテキストに context caching を使用する
$0.15(100万トークンあたり)で、新規入力の $1.50 と比べて 90% の節約になります。4. ステップごとに出力上限を設定する
max_tokens を設定します:| ステップの種類 | 推奨 max_tokens |
|---|---|
| 計画 | 2,000-4,000 |
| 単一ファイル編集 | 4,000-8,000 |
| 複数ファイル実装 | 8,000-16,000 |
| テスト分析 | 1,000-2,000 |
| エラー説明 | 500-1,000 |
5. フォールバックパスを構築する
Gemini 3.5 Flash がレート制限やレイテンシースパイクに遭遇した場合、重要度の低いステップは Gemini 3 Flash Preview にフォールバックします。コーディングステップが品質チェックに失敗した場合は、そのステップを Gemini 3.1 Pro にエスカレーションします。
6. 成功セッションあたりのコストを計測する
重要な指標はトークンあたりのコストではなく、正確でマージ済みの PR を生み出す1セッションあたりのコストです。リトライ、フォールバック、失敗したセッションも考慮に入れてください。
FAQ
Gemini 3.5 Flash はコーディング Agent に適していますか?
長コンテキスト(200K+ トークン)、マルチモーダル入力、組み込みコード実行が必要な Agent サブステップには非常に適しています。200K コンテキスト以内の純粋なコード生成であれば、Claude Haiku 4.5 がより低コストで競争力のある品質を提供します。
コーディングにおいて Claude Haiku 4.5 とどう比較されますか?
Claude Haiku 4.5 は SWE-bench Verified の公開結果(73.3%)を持ち、出力トークンのコストが 44% 安くなっています。Gemini 3.5 Flash はまだ SWE-bench の公開結果がありませんが、5 倍のコンテキストウィンドウとネイティブのマルチモーダル + コード実行機能を提供します。最適な構成は両方を併用することです。
Gemini 3.5 Flash で agent loop 全体を実行できますか?
可能ですが、常にコスト最適とは限りません。シンプルなサブステップ(分類、短いテキスト抽出、テスト結果の解析)にはより安価なモデルを使用できます。Gemini 3.5 Flash はその独自の能力が必要なステップに活用しましょう。
典型的な Agent セッションのコストはどのくらいですか?
シンプルな3ステップセッションで約 $0.14、大規模コードベースを含む複雑な8ステップセッションで約 $2.21 です。実際のコストはコードベースの規模、タスクの複雑さ、リトライ率によって変わります。
Gemini 3.5 Flash と Gemini 3 Flash Preview、どちらを使うべきですか?
GA レベルの安定性、強化された推論、信頼性の高い function calling が必要な場合は Gemini 3.5 Flash を選びましょう。コストが最優先でプレビュー版のステータスが許容できる場合は Gemini 3 Flash Preview です。本番システムでは、Gemini 3.5 Flash の安定性がリトライコストを十分に削減し、高いトークン単価を正当化する可能性があります。
EvoLink でコーディング Agent を構築
EvoLink は、Gemini、Claude、その他のモデルファミリー間でコーディング Agent のステップをルーティングするための統合 API を提供します。1つの統合で、ステップごとのルーティングテスト、セッション単位のコスト比較、フォールバックパスの構築が可能です。
関連記事:
- Gemini 3.5 Flash API — 料金、モデル ID、Playground を含む製品ページ
- Gemini 3.5 Flash Pricing Guide — コスト内訳と計算例
- Gemini 3.5 Flash vs Claude Haiku 4.5 — コスト効率モデル比較
- Gemini 3.5 Flash vs Gemini 3 Flash Preview — 同ファミリー移行ガイド
- Best LLM for Coding Agents — コーディング向けマルチモデル比較
EvoLink で探す:
- Gemini 3.5 Flash API — $1.50/$9.00 1M トークンあたり、1M コンテキスト
- Claude Haiku 4.5 — $1.00/$5.00 1M トークンあたり、SWE-bench 73.3%
- Gemini 3 Flash Preview API — $0.50/$3.00 1M トークンあたり
- Gemini API Family — Gemini 全ルート比較


