Seedance 2.0 API — Coming SoonGet early access

Gemini 2.5 フラッシュ API

統合された EvoLink キーを使用して、Gemini 2.5 フラッシュ モデルを数分で起動します。 Google ネイティブ API 形式または OpenAI SDK 形式を選択すると、アプリ スタックを変更せずに、低遅延のアシスタント、分析、エージェント ワークフローを構築できます。

Run With API
Using coding CLIs? Run Gemini 2.5 Flash via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Gemini 2.5 Flash1.05M65.5K
$0.240-20%
$0.300Official Price
$2.00-20%
$2.50Official Price
$0.024-21%
$0.030Official Price
Gemini 2.5 Flash (Beta)1.05M65.5K
$0.078-74%
$0.300Official Price
$0.650-74%
$2.50Official Price
$0.008-74%
$0.030Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.

  • · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
  • · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Gemini 2.5 Flash API 高速でスケーラブルなマルチモーダル アプリ用

1 つのリクエストで大規模なコンテキストと混合メディアを処理します。 Gemini 2.5 Flash は、テキスト、画像、ビデオ、オーディオ入力を受け入れ、テキスト出力を返し、長いコンテキストをサポートするため、チームはリアルタイム サポート、コンテンツ理解、内部自動化を大規模に出荷できます。

マルチモーダル AI モデル機能のワークフロー ショーケース 1

Gemini 2.5 フラッシュ API の機能

高スループットの応答

Gemini 2.5 フラッシュは、大規模で低遅延のワークロード向けに構築されています。ユーザーが迅速な回答を期待する顧客チャット、製品発見、またはライブ ダッシュボードに使用します。 EvoLink は、同時実行性を拡張しながら統合をシンプルに保つため、同じモデルがプロトタイプと運用トラフィックの両方を強化します。

マルチモーダル AI モデルの生産性ショーケース 2

マルチモーダルな理解

Gemini 2.5 Flash では、1 つのリクエストにテキスト、画像、ビデオ クリップ、またはオーディオを含めることができます。これにより、会議の概要をまとめたり、製品の写真を確認したり、トレーニング ビデオから重要な瞬間を抽出したりすることが簡単になります。保存、検索、下流ツールへのルーティングが簡単なテキスト出力が得られます。

マルチモーダルAIモデル機能3のインサイトショーケース

エージェントワークフローの準備完了

Gemini 2.5 Flash は、関数呼び出し、構造化出力、コンテキスト キャッシュをサポートしているため、エージェントはツールを呼び出し、確実に JSON を返し、大きな命令を再利用できます。これは、チケットのトリアージ、ポリシーのチェック、カタログのクリーンアップ、および一貫性と速度が重要なその他の反復可能なタスクに最適です。

マルチモーダルAIモデルの運用ショーケース 特徴4

開発者が Gemini 2.5 Flash を選ぶ理由

マルチモーダル入力と長いコンテキストを使用する、大規模で低レイテンシの大量のワークロード向けに構築されています。

ユーザー向けエクスペリエンスを高速化

大規模な処理と低遅延の大量タスク向けに最適化されており、リアルタイムのエージェントやアシスタントに自然に適合します。

複雑さを伴わない拡張性

EvoLink の OpenAI SDK 形式を単一の /v1/chat/completions エンドポイントで使用し、さらにオプションのストリーミングを使用して体感速度を向上させます。

コストを意識した設計

キャッシュ、関数呼び出し、構造化出力をサポートし、繰り返しの作業を減らし、自動化されたワークフローを予測可能に保ちます。

Gemini 2.5 フラッシュを統合する方法

EvoLink は、Gemini 2.5 フラッシュ用の Google ネイティブ API フォーマットをストリーミングおよび非同期オプションでサポートします。

1

ステップ 1 — キーを取得する

EvoLink API キーを作成し、Gemini 2.5 Flash リクエストごとにベアラー トークンとして送信します。

2

ステップ 2 — 方法を選択する

完全な応答にはgenerateContentを使用し、リアルタイム チャンクにはstreamGenerateContentを使用し、テキストまたはマルチモーダル入力のコンテンツ配列を送信します。

3

ステップ 3 — 非同期でスケーリングする

X-Async-Mode を true に設定してタスク ID を受信し、タスク エンドポイントをクエリして、追跡するための useMetadata トークン数を読み取ります。

Gemini 2.5 フラッシュのモデルのハイライト

高速かつ長いコンテキストで、マルチモーダルな理解のために構築されています

コンテクスト

1M トークンウィンドウ

Gemini 2.5 Flash は、最大 1,048,576 個の入力トークンと最大 65,536 個の出力トークンをサポートし、単一のリクエストで長いドキュメント、大規模なコードベース、または数時間にわたるトランスクリプトを有効にします。

マルチモーダル

マルチモーダル入力

1 回の Gemini 2.5 Flash 呼び出しでテキスト、画像、ビデオ、またはオーディオを送信し、テキスト出力を受信できるため、チーム全体での概要、QA、およびコンテンツのモデレーションに最適です。

コントロール

関数呼び出し + 構造化出力

このモデルは関数呼び出しと構造化出力をサポートしているため、ワークフローはツールをトリガーし、ダウンストリームの自動化と分析のために一貫した JSON を返すことができます。予測可能なスキーマを必要とする統合に最適です。

効率

コンテキストのキャッシュ

キャッシュがサポートされているため、多くの Gemini 2.5 Flash リクエストで長い命令や共有ドキュメントを再利用するときに繰り返されるプロンプト トークンが減り、遅延とコストが削減されます。

配達

ストリーミングモードと非同期モード

ライブ トークンの streamGenerateContent を選択するか、タスク ID とその後の結果を返すバックグラウンド処理の X-Async-Mode を有効にします。これにより、チームは UX の速度と大量のバッチ ジョブのバランスをとることができます。

可観測性

使用状況のメタデータの可視性

応答には、プロンプトおよび候補トークンの数を含む useMetadata が含まれており、エンジニアリング チームや財務チームにとって Gemini 2.5 フラッシュのコスト追跡と最適化が簡単になります。

Gemini 2.5 フラッシュ API FAQ

Everything you need to know about the product and billing.

Gemini 2.5 フラッシュ API は、大規模な処理および低レイテンシの大量タスク向けの強力な価格対パフォーマンスのモデルとして位置付けられています。カスタマー サポート チャット、製品検索ヘルパー、コンテンツの要約、品質を損なうことなく迅速な応答が必要な社内の副操縦士に威力を発揮します。ワークロードに 1 分あたり多くのリクエストが含まれており、長いコンテキストとマルチモーダル入力で一貫した結果が必要な場合は、Gemini 2.5 Flash が実用的なデフォルトになります。チームは多くの場合、実稼働規模でここから開始し、高度な推論が必要な場合にのみ Pro に移行します。
Gemini 2.5 Flash は、テキスト、画像、ビデオ、オーディオを入力として受け入れ、テキスト出力を返します。これにより、トランスクリプトとスクリーンショット、製品写真、または短いクリップを組み合わせて、単一の書面による概要や決定を求めることが簡単になります。出力は保存、インデックス付け、他のシステムへのルーティングが可能なプレーン テキストであるため、チームはこれを会議メモ、サポート チケットの強化、コンテンツ レビュー、内部知識の検索によく使用します。また、検索やデータベース検索との組み合わせにも適しています。
Gemini 2.5 フラッシュは、最大 1,048,576 個の入力トークンと最大 65,536 個の出力トークンをサポートします。実際には、これは、長いドキュメント、大規模なコードベース、または数時間にわたるトランスクリプトを、断片に分割することなく 1 回のリクエストでフィードできることを意味します。これは、コンテキストの連続性が重要であり、単一の一貫した応答が必要なコンプライアンス レビュー、調査概要、および複数文書の分析に役立ちます。また、アプリ内の複雑なチャンク ロジックの必要性も軽減されます。これは、多くのソースから 1 つの答えが必要な場合に役立ちます。
はい。 EvoLink の Google ネイティブ API 形式では、streamGenerateContent を選択してコンテンツをリアルタイムのチャンクで受信できます。これは、チャット UI、ライブ ダッシュボード、またはユーザーが進行状況をすぐに確認する必要があるエクスペリエンスに役立ちます。ストリーミングに切り替えると、同じ Gemini 2.5 Flash リクエスト本文が引き続き使用されるため、体感速度を向上させながら、プロンプトとマルチモーダル入力の一貫性を保つことができます。ストリーミングは、インジケーターやプログレッシブ サマリーを入力するとうまく機能します。また、低速ネットワークでの体感速度も向上します。
はい。 X-Async-Mode ヘッダーを true に設定すると、リクエストは完全な応答を待たずにすぐにタスク ID を返します。その後、タスク ステータス エンドポイントをクエリして、完了した結果を非ストリーミング形式で取得できます。このモードは、長時間実行されるバッチ ジョブ、夜間の分析、またはユーザー向けのリクエストを待機させたくない大規模なドキュメントの処理に最適です。また、キューに入れられたパイプラインやバックグラウンド ワーカーにも適しています。スケジュールに基づいてポーリングし、後で結果を保存できます。
すべての EvoLink API にはベアラー トークン認証が必要です。 EvoLink ダッシュボードで API キーを生成し、それを各リクエストの Authorization ヘッダーに含めます。運用環境では、キーを安全なシークレット マネージャーに保存し、環境ごとにスコープを設定し、定期的にローテーションします。これにより、Gemini 2.5 フラッシュの使用が管理され、チームに一貫したシンプルな統合パスが提供されます。クライアント アプリにキーを埋め込むことは避け、代わりにサーバー側のプロキシを使用してください。リスクを軽減するために、開発、ステージング、実稼働用にキーを分けます。
はい。このモデルは関数呼び出しと構造化出力をサポートしています。つまり、ワークフローの一部として JSON オブジェクトを要求したり、特定のツールをトリガーしたりできます。これは、チケットのルーティング、レコードの更新、または予測可能なスキーマが必要なエージェント フローの構築に役立ちます。 Gemini 2.5 Flash は、応答形式の一貫性を保つことで解析エラーを減らし、自動化の信頼性を高めます。スキーマを明確に定義し、応答を検証して統合を堅牢に保ちます。これは、ETL、CRM の更新、レポート作成に特に役立ちます。
キャッシュは Gemini 2.5 フラッシュでサポートされています。毎回全額の入力コストを支払うことなく、大規模なシステム命令、ポリシー テキスト、または製品カタログを多くのリクエストにわたって再利用できます。これにより、モデルは呼び出しごとに同じコンテキストを再処理する必要がなくなるため、プロンプト トークンの繰り返しが減り、待ち時間が改善されます。繰り返しのワークフローや常時接続のアシスタントに最適です。ブランド トーン、FAQ、または安全ルールをキャッシュして、応答の一貫性を保ちます。これは、繰り返しのオンボーディングやポリシーのリマインダーに特に役立ちます。