guide

Gemini 3.5 Flash API の使い方：Model ID、料金、コード例

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

2026年5月20日

27 分

Gemini 3.5 Flash は Google の最新の本番環境対応 Flash モデルであり、一般提供（GA）として安定しており、大規模な本番利用が可能です。エージェントワークフロー、コーディングエージェント、サブエージェントデプロイ、長期間タスク向けに設計されており、フロンティアレベルの知性と Flash クラスの速度・コスト効率を兼ね備えています。

本ガイドでは、Gemini 3.5 Flash をアプリケーションに統合するために必要なすべてを解説します：Model ID、料金、Python・Node.js のコード例、関数呼び出し、構造化出力、エージェントワークフローパターン、コスト分析、そして Flash と Pro の使い分け方。

ライブ料金付きの完全な製品ページは EvoLink の Gemini 3.5 Flash API をご覧ください。

クイックリファレンスカード

項目	値
Model ID	`gemini-3.5-flash`
ステータス	一般提供（GA）、本番環境で安定
入力料金	$1.50 / 100万トークン
出力料金	$9.00 / 100万トークン
コンテキストウィンドウ	1,048,576 入力トークン
最大出力	65,536 トークン
入力モダリティ	テキスト、画像、動画、音声、PDF
出力モダリティ	テキストのみ
関数呼び出し	対応
構造化出力	対応
コード実行	対応
検索グラウンディング	対応
コンテキストキャッシュ	対応
Batch API	対応
ストリーミング	対応

Gemini 3.5 Flash を使うべき場面
Gemini 3.5 Flash と他の Gemini モデルの比較
料金の詳細
セットアップ：2分で始める
コード例
関数呼び出し
構造化出力
コーディングエージェントワークフロー
サブエージェントデプロイパターン
コスト分析：エージェントループの実際のコスト
コスト管理戦略
よくある間違いとその回避方法
Gemini 3.5 Flash を使うべきでない場面
よくある質問

Gemini 3.5 Flash を使うべき場面

Gemini 3.5 Flash は汎用の低価格モデルではありません。Google はこれを、速度、イテレーションあたりのコスト、ツールサポートが最大の推論深度よりも重要な、特定の高価値ワークロード向けに明確に位置付けています。

最適なユースケース

ユースケース	Gemini 3.5 Flash が適する理由	測定すべき指標
コーディングエージェント	Flash クラスの速度でイテレーションごとの高速コード生成、デバッグ、リファクタリング	修正までのイテレーション数、セッションあたりのコスト、diff の品質
エージェントワークフロー	ネイティブ関数呼び出し、並列実行ループ、低い呼び出しあたりコスト	ツール呼び出し精度、フォールバック率、ワークフロー総コスト
サブエージェントデプロイ	呼び出しあたりの経済性が重要なマルチエージェントシステムのサブエージェントとしてデプロイ	サブ呼び出しあたりのレイテンシ、エラー率、オーケストレーションオーバーヘッド
長期間タスク	1M コンテキストで完全なコードベースとマルチドキュメント分析をトランケーションなしで処理	コンテキスト利用率、高トークン数での出力品質
ドキュメント処理	PDF、音声、動画入力が統一料金——モダリティの追加料金なし	抽出精度、ドキュメントあたりの処理コスト
本番チャット	Flash レイテンシで内蔵推論機能を備えた顧客向けアプリケーション	最初のトークンまでの時間、ユーザー満足度、会話あたりのコスト

ユースケース判断ツリー

以下の質問に順番に答えてください：

そのタスクは最も深い推論が必要か？ はい → Gemini 3.1 Pro。
大量の単純なタスク（分類、ルーティング、抽出）か？ はい → Gemini 3.1 Flash Lite。
コーディング、エージェント、ツール、長コンテキストを含むタスクか？ はい → Gemini 3.5 Flash。
汎用の本番チャットや要約か？ はい → Gemini 3.5 Flash または Gemini 2.5 Flash（ワークロードに応じて比較）。

Gemini 3.5 Flash と他の Gemini モデルの比較

これは本番環境のルーティング判断に重要な比較です。

特徴	Gemini 3.5 Flash	Gemini 3.1 Pro	Gemini 3 Flash	Gemini 3.1 Flash Lite	Gemini 2.5 Flash
ステータス	GA、安定	プレビュー	プレビュー	プレビュー	安定
最適な用途	エージェント、コーディング、長期間	最も難しい推論	汎用高速ワークロード	大量バッチ処理	本番チャット
入力コスト	$1.50/MTok	$2–$4/MTok	$0.50/MTok	$0.25/MTok	$0.30/MTok
出力コスト	$9.00/MTok	$12–$18/MTok	$3.00/MTok	$1.50/MTok	$2.50/MTok
コンテキスト	1M / 65K	1M / 64K	1M / 64K	1M / 64K	1M / 64K
推論	内蔵	最深レベル（thinking）	標準	軽量	標準
関数呼び出し	はい	はい	はい	はい	はい
コード実行	はい	はい	はい	はい	はい
本番対応度	GA	プレビュー	プレビュー	プレビュー	安定

重要なポイント： Gemini 3.5 Flash は Gemini 3.x 世代で唯一の GA 安定 Flash モデルであり、内蔵推論と完全なツールサポートを備えています。Gemini 3 Flash より高コスト（入力 $1.50 vs $0.50/MTok）ですが、以前の Flash モデルでは達成できないフロンティアレベルの知性を提供します。

料金の詳細

標準料金

トークンタイプ	100万トークンあたりの料金
テキスト入力	$1.50
テキスト出力	$9.00
音声入力	テキストと統一（追加料金なし）
画像入力	テキストと統一（追加料金なし）
動画入力	テキストと統一（追加料金なし）
PDF 入力	テキストと統一（追加料金なし）

コスト削減オプション

方法	仕組み	最適な用途
コンテキストキャッシュ	繰り返しの入力プレフィックスをキャッシュ；キャッシュヒット時は新規入力より低コスト	エージェントループ、繰り返しのコードコンテキスト、システムプロンプト
Batch API	バッチでリクエストを送信し、割引料金でオフライン処理	テスト生成、一括抽出、オフライン分析
EvoLink クレジット	ボリュームディスカウントでクレジットを事前購入	月間使用量が予測可能なチーム

実際のコスト例

シナリオ	入力トークン	出力トークン	推定コスト
テキスト質問1件	~500	~200	$0.003
コードレビュー（1ファイル、約2K行）	~8,000	~2,000	$0.03
コーディングエージェントセッション（20回イテレーション）	~80,000	~20,000	$0.30
コードベース全体の分析（500Kコンテキスト）	~500,000	~10,000	$0.84
PDF ドキュメント抽出（100ページ）	~150,000	~5,000	$0.27
8時間エージェントデプロイ（連続）	~2,000,000	~500,000	$7.50

これらの見積もりはキャッシュなしの標準料金に基づいています。コンテキストキャッシュを有効にすると、エージェントループの入力コストを大幅に削減できます。

セットアップ：2分で始める

ステップ 1：EvoLink API キーを取得

EvoLink に登録し、ダッシュボード → Keys で API キーを作成します。

ステップ 2：OpenAI SDK をインストール

EvoLink は OpenAI 互換のため、標準の OpenAI SDK を使用します：

Python：

pip install openai

Node.js：

npm install openai

ステップ 3：最初のリクエストを送信

Python：

from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-api-key",
    base_url="https://api.evolink.ai/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
    ]
)

print(response.choices[0].message.content)

Node.js：

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "your-evolink-api-key",
  baseURL: "https://api.evolink.ai/v1",
});

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "What is Gemini 3.5 Flash best at?" },
  ],
});

console.log(response.choices[0].message.content);

以上です。Google 専用 SDK は不要、個別の認証フローも不要、Vertex AI のセットアップも不要です。

コード例

システムプロンプト付きの基本テキストリクエスト

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
        {"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
    ],
    temperature=0.3,
    max_tokens=512
)

マルチモーダル：画像分析

import base64

with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
            ]
        }
    ]
)

すべてのマルチモーダル入力はテキストと同じトークン単価を共有しています——音声や動画の追加料金はありません。

ストリーミング

トークンが生成されるたびに表示したいインタラクティブなアプリケーション向け：

Python：

stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Node.js：

const stream = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) process.stdout.write(content);
}

マルチターン会話

messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a linked list implementation in Python."},
]

# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})

# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)

関数呼び出し

Gemini 3.5 Flash はネイティブの関数呼び出しをサポートしており、エージェントワークフローに不可欠です。ツールを定義し、モデルにいつ呼び出すかを判断させます。

Python の例

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Search the internal knowledge base",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string", "description": "Search query"},
                    "limit": {"type": "integer", "description": "Max results to return"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
    tools=tools,
    tool_choice="auto"
)

# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Arguments: {tool_call.function.arguments}")

Node.js の例

const tools = [
  {
    type: "function",
    function: {
      name: "run_tests",
      description: "Run the test suite and return results",
      parameters: {
        type: "object",
        properties: {
          test_file: { type: "string", description: "Path to test file" },
          verbose: { type: "boolean", description: "Show detailed output" },
        },
        required: ["test_file"],
      },
    },
  },
];

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Run the tests for auth module" }],
  tools,
  tool_choice: "auto",
});

const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
  console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}

関数呼び出しのベストプラクティス

プラクティス	理由
明確な関数の説明を記述する	モデルは説明を基に各ツールをいつ呼び出すかを判断する
`required` フィールドを使用する	モデルが重要なパラメータを省略するのを防ぐ
パラメータスキーマをシンプルに保つ	複雑なネストされたスキーマはエラー率を増加させる
並列ツール呼び出しを処理する	Gemini 3.5 Flash は1回のレスポンスで複数のツールを呼び出せる
ツール呼び出し引数を検証する	実行前に必ず検証する——モデルの出力を盲目的に信頼しない

構造化出力

機械可読な結果が必要なワークフローには、JSON モードまたはレスポンスフォーマットを使用します：

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
        {"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
    ],
    response_format={"type": "json_object"}
)

import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}

構造化出力を使うべき場面

シナリオ	フォーマット	理由
ドキュメントからのデータ抽出	JSON モード	後続システムが構造化データを必要とする
エージェントツールのレスポンス	JSON モード	ツールオーケストレーターがパース可能な出力を必要とする
分類タスク	JSON モード	フリーテキストではなく一貫したラベルフィールドが必要
コード生成	プレーンテキスト	コードは既に構造化されている；JSON ラッピングはオーバーヘッドになる
説明とチャット	プレーンテキスト	自然言語は JSON なしの方が読みやすい

コーディングエージェントワークフロー

これは Gemini 3.5 Flash の最も価値の高いユースケースです。完全なコーディングエージェントループを以下に示します：

from openai import OpenAI
import subprocess
import json

client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")

def run_tests(test_file: str) -> dict:
    """Run tests and return results."""
    result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
                          capture_output=True, text=True, timeout=60)
    return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}

def read_file(path: str) -> str:
    with open(path) as f:
        return f.read()

def write_file(path: str, content: str):
    with open(path, "w") as f:
        f.write(content)

# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")

messages = [
    {"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
    {"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]

MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=messages,
        temperature=0.2,
        max_tokens=8192
    )

    reply = response.choices[0].message.content
    messages.append({"role": "assistant", "content": reply})

    # Extract and apply the fix
    if "```python" in reply:
        code_block = reply.split("```python")[1].split("```")[0]
        write_file("src/auth.py", code_block)

    # Re-run tests
    test_result = run_tests("tests/test_auth.py")

    if test_result["passed"]:
        print(f"All tests pass after {i + 1} iterations.")
        break

    messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
    print(f"Failed to fix after {MAX_ITERATIONS} iterations.")

エージェントループのパフォーマンスヒント

ヒント	効果
決定論的な修正のために `temperature=0.2` を使用	イテレーション間のランダムな変動を削減
コード出力には `max_tokens=8192` を設定	大きなファイルでのトランケーションを防止
コンテキストにテスト出力を含める	モデルに具体的な失敗シグナルを提供
イテレーションを制限（15–20回）	モデルが行き詰まった場合のコスト暴走を防止
コンテキストキャッシュを使用	毎回同じコードコンテキストを送信——キャッシュヒットで入力コストを大幅に削減可能

サブエージェントデプロイパターン

マルチエージェントシステムでは、Gemini 3.5 Flash はコーディネーター（Pro または別のモデル）が全体のワークフローを管理しながら、特定のタスクを処理するサブエージェントとして効果的に機能します：

def coding_sub_agent(task: str, context: str) -> str:
    """Fast coding sub-agent using Gemini 3.5 Flash."""
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
            {"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
        ],
        temperature=0.2,
        max_tokens=4096
    )
    return response.choices[0].message.content

def reasoning_agent(task: str) -> str:
    """Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[
            {"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
            {"role": "user", "content": task}
        ],
        temperature=0.3,
        max_tokens=4096
    )
    return response.choices[0].message.content

# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)

results = []
for subtask in subtasks:
    result = coding_sub_agent(subtask, context=module_code)
    results.append(result)

マルチエージェントシステムでの各ロールのモデル選択

エージェントの役割	推奨モデル	理由
コーディネーター / プランナー	Gemini 3.1 Pro	アーキテクチャ判断に最も深い推論が必要
コーディングサブエージェント	Gemini 3.5 Flash	高速イテレーション、良好なコード品質、低い呼び出しあたりコスト
分類 / ルーティング	Gemini 3.1 Flash Lite	シンプルな構造化判断の最低コストオプション
ドキュメント分析	Gemini 3.5 Flash	1M コンテキスト + マルチモーダルで PDF と画像に対応
バリデーション / レビュー	Gemini 3.5 Flash または Pro	レビューの重要度に依存

コスト分析：エージェントループの実際のコスト

ほとんどの開発者は単一リクエストの料金しか見ていないため、エージェントコストを過小評価しています。以下は現実的な内訳です：

コーディングエージェント：20回イテレーションのデバッグセッション

フェーズ	入力トークン	出力トークン	入力コスト	出力コスト
イテレーション 1（フルコンテキスト）	8,000	2,000	$0.012	$0.018
イテレーション 2–5（コンテキスト増大）	40,000	6,000	$0.060	$0.054
イテレーション 6–10（大コンテキスト）	60,000	5,000	$0.090	$0.045
イテレーション 11–20（プラトー）	100,000	7,000	$0.150	$0.063
合計	208,000	20,000	$0.312	$0.180
セッション合計				$0.49

コンテキストキャッシュ使用時（繰り返しコードコンテキストのキャッシュヒット率 50% を想定）：

	キャッシュなし	キャッシュあり	節約
入力コスト	$0.312	~$0.187	40%
出力コスト	$0.180	$0.180	0%
合計	$0.492	$0.367	25%

コスト比較：同じエージェントセッションの各モデル比較

モデル	入力コスト	出力コスト	セッション合計	品質トレードオフ
Gemini 3.5 Flash	$0.312	$0.180	$0.49	コーディングエージェントの最適なバランス
Gemini 3.1 Pro	$0.416–$0.832	$0.240–$0.360	$0.66–$1.19	より深い推論、2–3倍のコスト
Gemini 3 Flash	$0.104	$0.060	$0.16	より安価だがコーディング能力は低い
Gemini 3.1 Flash Lite	$0.052	$0.030	$0.08	最も安価だが推論能力は限定的

コスト管理戦略

1. コンテキストキャッシュを有効にする

エージェントが同じコードコンテキストを繰り返し送信する場合、コンテキストキャッシュはキャッシュヒット時の入力コストを大幅に削減できます。

2. 緊急でない作業には Batch API を使用

テスト生成、一括抽出、オフラインコード分析には Batch API が割引を提供します。レイテンシは高くなりますが、トークンあたりのコストは低くなります。

3. Max Tokens を設定する

予想外に長い出力がコストを膨張させるのを防ぐため、常に max_tokens を設定してください：

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=messages,
    max_tokens=4096  # Reasonable limit for code output
)

4. タスクの複雑さでルーティングする

すべてに1つのモデルを使用しないでください。ルーティングレイヤーを構築しましょう：

def route_request(task_type: str) -> str:
    routing_table = {
        "architecture": "gemini-3.1-pro-preview",      # Deep reasoning
        "coding": "gemini-3.5-flash",           # Fast iteration
        "classification": "gemini-3.1-flash-lite",  # Cheapest
        "review": "gemini-3.5-flash",           # Good balance
        "chat": "gemini-3.5-flash",             # Production default
    }
    return routing_table.get(task_type, "gemini-3.5-flash")

5. トークン使用量を監視する

リクエストごとの入力・出力トークンを追跡してください。EvoLink のダッシュボードはリアルタイムの使用量可視化を提供します。使用量を定期的に確認し、必要に応じてアプリケーション側で予算制限を設定しましょう。

6. 可能な限りコンテキストをトランケートする

最後の 50K トークンだけが必要なら、1M トークンのコンテキスト全体を送信しないでください。古い会話ターンを削除し、関連するコンテキストのみを保持しましょう。

よくある間違いとその回避方法

間違い	結果	修正方法
Model ID をあちこちにハードコーディング	コード変更なしにモデルを切り替えられない	Model ID を設定に保存；タスクタイプでルーティング
`max_tokens` を設定しない	出力が予想外に長くなりコストが高騰する	常に合理的な出力制限を設定する
キャッシュなしで毎回フルコンテキストを送信	入力コストがイテレーションに比例して増加	繰り返しプレフィックスにコンテキストキャッシュを有効化
深い推論が必要なタスクに Flash を使用	複雑なアーキテクチャ判断での精度が低下	最も難しいステップは Gemini 3.1 Pro にルーティング
Flash で十分なタスクに Pro を使用	2–3倍のコストで品質向上はわずか	デフォルトは Flash；必要な時だけ Pro にアップグレード
予算見積もりでリトライコストを無視	実際のコストが単一リクエストの見積もりより高い	リトライ率とフォールバックコストを計算に含める
関数呼び出し引数を検証しない	モデルが無効なパラメータを出力	実行前に必ずツール呼び出し引数を検証する
コンテキストウィンドウを無限として扱う	1M トークンは大きいが無限ではない	コンテキスト使用量を監視；制限に近づいたらトランケート

Gemini 3.5 Flash を使うべきでない場面

Gemini 3.5 Flash は強力ですが万能ではありません。以下の場合は別のモデルを使用してください：

シナリオ	Flash が適さない理由	より良い選択肢
画像/音声/動画の生成	Flash はテキスト出力のみ	専用の生成モデル
最も難しいマルチステップ推論	Pro がより深い推論トレースを提供	Gemini 3.1 Pro
最低コストのバッチ抽出	Flash Lite は入力が 6 倍安い	Gemini 3.1 Flash Lite
リアルタイム音声会話	Flash は Live API をサポートしていない	Live API 対応の Gemini モデル
Computer Use	Computer Use は非対応	Computer Use 対応モデル

よくある質問

Gemini 3.5 Flash の Model ID は何ですか？

Model ID は gemini-3.5-flash です。EvoLink 経由の API リクエストでこの正確な文字列を使用してください。

Gemini 3.5 Flash は無料ですか？

Gemini 3.5 Flash は Google Gemini API で無料枠を提供しています。有料の標準料金は入力 100万トークンあたり $1.50、出力 100万トークンあたり $9.00 です。コンテキストキャッシュと Batch API で割引料金が利用できます。EvoLink の料金は製品ページをご確認ください。

OpenAI SDK で Gemini 3.5 Flash を使用できますか？

はい。OpenAI SDK を https://api.evolink.ai/v1 に向けて model="gemini-3.5-flash" に設定してください。Python、Node.js、Go、その他の OpenAI 互換クライアントで動作します。

Gemini 3.5 Flash は関数呼び出しをサポートしていますか？

はい。関数呼び出し、構造化出力、コード実行、検索グラウンディングはすべてネイティブでサポートされています。ツールを定義すると、モデルは適切な場面でそれらを呼び出します。

Gemini 3.5 Flash は Gemini 3 Flash とどう違いますか？

Gemini 3.5 Flash はフロンティアレベルの知性、より強力なエージェント・コーディング性能、内蔵推論を備えた現行世代の Flash モデルです。Gemini 3 Flash は前世代のモデルで、能力は低いものの、コストも低くなっています（入力 $0.50 vs $1.50/MTok）。

コンテキストウィンドウのサイズは？

入力 1,048,576 トークン、出力 65,536 トークンです。完全なコードベース、マルチドキュメント分析、長いエージェント会話履歴に十分な大きさです。

Gemini 3.5 Flash はコーディングエージェントに適していますか？

はい。Google はコーディングタスクとエージェントワークフロー向けに明確に最適化しています。コード生成、デバッグ、リファクタリング、マルチファイル分析を Flash クラスの速度で処理します。典型的な 20回イテレーションのデバッグセッションのコストは約 $0.30–$0.50 です。

Gemini 3.5 Flash は本番環境に対応していますか？

はい。Google は一般提供（GA）として記載しており、大規模な本番利用に安定しています。プレビュー版や実験的モデルではありません。

コーディングエージェントセッションのコストはいくらですか？

約 200K の総入力トークンと約 20K の出力トークンを使用する典型的な 20回イテレーションのデバッグセッションは、標準料金で約 $0.49、コンテキストキャッシュ有効時で約 $0.37 です。

コードを変更せずに Gemini モデルを切り替えられますか？

はい。EvoLink ではすべての Gemini モデルが同じ API フォーマットを共有しています。model パラメータを "gemini-3.5-flash" から "gemini-3.1-pro" や "gemini-3.1-flash-lite" に変更するだけです——他の変更は不要です。

Gemini 3.5 Flash は構造化 JSON 出力をサポートしていますか？

はい。response_format={"type": "json_object"} を使用して構造化 JSON レスポンスを取得できます。データ抽出、分類、ツールオーケストレーションに便利です。

次のステップ

Gemini 3.5 Flash API — 完全な製品ページ — ライブ料金、ステータス、モデル詳細
すべての Gemini モデルを比較 — 7つの Gemini ルートの横並び比較
Gemini 3.5 Flash リリースノート — プレビューから GA への変更点
EvoLink API ドキュメント — 完全な API リファレンスと統合ガイド
API キーを作成 — 2分で構築開始

すべての記事

#Gemini 3.5 Flash #Gemini API #Google AI #APIガイド #コーディングエージェント #エージェントワークフロー #関数呼び出し

Gemini 3.5 Flash API の使い方：Model ID、料金、コード例

クイックリファレンスカード

目次

Gemini 3.5 Flash を使うべき場面

最適なユースケース

ユースケース判断ツリー

Gemini 3.5 Flash と他の Gemini モデルの比較

料金の詳細

標準料金

コスト削減オプション

実際のコスト例

セットアップ：2分で始める

ステップ 1：EvoLink API キーを取得

ステップ 2：OpenAI SDK をインストール

ステップ 3：最初のリクエストを送信

コード例

システムプロンプト付きの基本テキストリクエスト

マルチモーダル：画像分析

ストリーミング

マルチターン会話

関数呼び出し

Python の例

Node.js の例

関数呼び出しのベストプラクティス

構造化出力

構造化出力を使うべき場面

コーディングエージェントワークフロー

エージェントループのパフォーマンスヒント

サブエージェントデプロイパターン

マルチエージェントシステムでの各ロールのモデル選択

コスト分析：エージェントループの実際のコスト

コーディングエージェント：20回イテレーションのデバッグセッション

コスト比較：同じエージェントセッションの各モデル比較

コスト管理戦略

1. コンテキストキャッシュを有効にする

2. 緊急でない作業には Batch API を使用

3. Max Tokens を設定する

4. タスクの複雑さでルーティングする

5. トークン使用量を監視する

6. 可能な限りコンテキストをトランケートする

よくある間違いとその回避方法

Gemini 3.5 Flash を使うべきでない場面

よくある質問

Gemini 3.5 Flash の Model ID は何ですか？

Gemini 3.5 Flash は無料ですか？

OpenAI SDK で Gemini 3.5 Flash を使用できますか？

Gemini 3.5 Flash は関数呼び出しをサポートしていますか？

Gemini 3.5 Flash は Gemini 3 Flash とどう違いますか？

コンテキストウィンドウのサイズは？

Gemini 3.5 Flash はコーディングエージェントに適していますか？

Gemini 3.5 Flash は本番環境に対応していますか？

コーディングエージェントセッションのコストはいくらですか？

コードを変更せずに Gemini モデルを切り替えられますか？

Gemini 3.5 Flash は構造化 JSON 出力をサポートしていますか？

次のステップ

関連記事

DeepSeekのステータスとコーディングワークロード向けフォールバックオプション

リトライと失敗率がCoding AgentのAPIコストをどう変えるか

Qwen Coder APIをコーディングエージェントで使う：アクセス・コスト・フォールバック計画

AIコストを89%削減する準備はできましたか？