Gemini 2.5 フラッシュ API
$0.240(~ 17.3 credits) per 1M input tokens; $2.000(~ 144 credits) per 1M output tokens
$0.025(~ 1.8 credits) per 1M cache read tokens; $0.800(~ 57.6 credits) per 1M audio tokens
Google Search grounding charged separately per query.
99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。
すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。
Gemini 2.5 Flash API 高速でスケーラブルなマルチモーダル アプリ用
1 つのリクエストで大規模なコンテキストと混合メディアを処理します。 Gemini 2.5 Flash は、テキスト、画像、ビデオ、オーディオ入力を受け入れ、テキスト出力を返し、長いコンテキストをサポートするため、チームはリアルタイム サポート、コンテンツ理解、内部自動化を大規模に出荷できます。

Gemini 2.5 フラッシュ API の機能
高スループットの応答
Gemini 2.5 フラッシュは、大規模で低遅延のワークロード向けに構築されています。ユーザーが迅速な回答を期待する顧客チャット、製品発見、またはライブ ダッシュボードに使用します。 EvoLink は、同時実行性を拡張しながら統合をシンプルに保つため、同じモデルがプロトタイプと運用トラフィックの両方を強化します。

マルチモーダルな理解
Gemini 2.5 Flash では、1 つのリクエストにテキスト、画像、ビデオ クリップ、またはオーディオを含めることができます。これにより、会議の概要をまとめたり、製品の写真を確認したり、トレーニング ビデオから重要な瞬間を抽出したりすることが簡単になります。保存、検索、下流ツールへのルーティングが簡単なテキスト出力が得られます。

エージェントワークフローの準備完了
Gemini 2.5 Flash は、関数呼び出し、構造化出力、コンテキスト キャッシュをサポートしているため、エージェントはツールを呼び出し、確実に JSON を返し、大きな命令を再利用できます。これは、チケットのトリアージ、ポリシーのチェック、カタログのクリーンアップ、および一貫性と速度が重要なその他の反復可能なタスクに最適です。

開発者が Gemini 2.5 Flash を選ぶ理由
マルチモーダル入力と長いコンテキストを使用する、大規模で低レイテンシの大量のワークロード向けに構築されています。
ユーザー向けエクスペリエンスを高速化
大規模な処理と低遅延の大量タスク向けに最適化されており、リアルタイムのエージェントやアシスタントに自然に適合します。
複雑さを伴わない拡張性
EvoLink の OpenAI SDK 形式を単一の /v1/chat/completions エンドポイントで使用し、さらにオプションのストリーミングを使用して体感速度を向上させます。
コストを意識した設計
キャッシュ、関数呼び出し、構造化出力をサポートし、繰り返しの作業を減らし、自動化されたワークフローを予測可能に保ちます。
Gemini 2.5 フラッシュを統合する方法
EvoLink は、Gemini 2.5 フラッシュ用の Google ネイティブ API フォーマットをストリーミングおよび非同期オプションでサポートします。
ステップ 1 — キーを取得する
EvoLink API キーを作成し、Gemini 2.5 Flash リクエストごとにベアラー トークンとして送信します。
ステップ 2 — 方法を選択する
完全な応答にはgenerateContentを使用し、リアルタイム チャンクにはstreamGenerateContentを使用し、テキストまたはマルチモーダル入力のコンテンツ配列を送信します。
ステップ 3 — 非同期でスケーリングする
X-Async-Mode を true に設定してタスク ID を受信し、タスク エンドポイントをクエリして、追跡するための useMetadata トークン数を読み取ります。
Gemini 2.5 フラッシュのモデルのハイライト
高速かつ長いコンテキストで、マルチモーダルな理解のために構築されています
1M トークンウィンドウ
Gemini 2.5 Flash は、最大 1,048,576 個の入力トークンと最大 65,536 個の出力トークンをサポートし、単一のリクエストで長いドキュメント、大規模なコードベース、または数時間にわたるトランスクリプトを有効にします。
マルチモーダル入力
1 回の Gemini 2.5 Flash 呼び出しでテキスト、画像、ビデオ、またはオーディオを送信し、テキスト出力を受信できるため、チーム全体での概要、QA、およびコンテンツのモデレーションに最適です。
関数呼び出し + 構造化出力
このモデルは関数呼び出しと構造化出力をサポートしているため、ワークフローはツールをトリガーし、ダウンストリームの自動化と分析のために一貫した JSON を返すことができます。予測可能なスキーマを必要とする統合に最適です。
コンテキストのキャッシュ
キャッシュがサポートされているため、多くの Gemini 2.5 Flash リクエストで長い命令や共有ドキュメントを再利用するときに繰り返されるプロンプト トークンが減り、遅延とコストが削減されます。
ストリーミングモードと非同期モード
ライブ トークンの streamGenerateContent を選択するか、タスク ID とその後の結果を返すバックグラウンド処理の X-Async-Mode を有効にします。これにより、チームは UX の速度と大量のバッチ ジョブのバランスをとることができます。
使用状況のメタデータの可視性
応答には、プロンプトおよび候補トークンの数を含む useMetadata が含まれており、エンジニアリング チームや財務チームにとって Gemini 2.5 フラッシュのコスト追跡と最適化が簡単になります。
Gemini 2.5 フラッシュ API FAQ
Everything you need to know about the product and billing.