Seedance 2.0 API — Coming SoonGet early access

Gemini 2.5 Flash API

Lancez le modèle Gemini 2.5 Flash en quelques minutes avec une clé EvoLink unifiée. Choisissez le format d'API Google Native ou le format OpenAI SDK, puis construisez des assistants à faible latence, des analytics et des workflows agentiques sans changer votre stack.

Run With API
Using coding CLIs? Run Gemini 2.5 Flash via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Gemini 2.5 Flash1.05M65.5K
$0.240-20%
$0.300Official Price
$2.00-20%
$2.50Official Price
$0.024-21%
$0.030Official Price
Gemini 2.5 Flash (Beta)1.05M65.5K
$0.078-74%
$0.300Official Price
$0.650-74%
$2.50Official Price
$0.008-74%
$0.030Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.

  • · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
  • · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Gemini 2.5 Flash API pour des apps multimodales rapides et scalables

Traitez un grand contexte et des médias mixtes en une seule requête. Gemini 2.5 Flash accepte des entrées texte, image, vidéo et audio, renvoie du texte et supporte le long contexte, pour du support temps réel, la compréhension de contenu et l'automatisation interne à l'échelle.

Workflow showcase d'une fonctionnalité de modèle IA multimodale 1

Capacités de l'API Gemini 2.5 Flash

Réponses à haut débit

Gemini 2.5 Flash est conçu pour des workloads à grande échelle et faible latence. Utilisez-le pour le chat client, la découverte produit ou des dashboards live où les utilisateurs attendent des réponses rapides. EvoLink garde l'intégration simple pendant que vous scalez la concurrence, le même modèle servant les prototypes et le trafic production.

Productivity showcase d'une fonctionnalité de modèle IA multimodale 2

Compréhension multimodale

Avec Gemini 2.5 Flash, une seule requête peut inclure texte, images, vidéos ou audio. Cela facilite la synthèse de réunions, la revue de photos produits ou l'extraction de moments clés de vidéos de formation. Vous obtenez une sortie texte facile à stocker, rechercher et router vers des outils en aval.

Insight showcase d'une fonctionnalité de modèle IA multimodale 3

Prêt pour les workflows agentiques

Gemini 2.5 Flash supporte le function calling, les sorties structurées et le context caching, afin que les agents puissent appeler des outils, renvoyer du JSON fiable et réutiliser de grandes instructions. Idéal pour le tri de tickets, les contrôles de politique, le nettoyage de catalogue et d'autres tâches répétables où cohérence et vitesse comptent.

Operations showcase d'une fonctionnalité de modèle IA multimodale 4

Pourquoi les développeurs choisissent Gemini 2.5 Flash

Conçu pour des workloads à grande échelle, faible latence et haut volume, avec entrée multimodale et long contexte.

Rapide pour les expériences orientées utilisateur

Optimisé pour le traitement à grande échelle et la faible latence, ce qui en fait un choix naturel pour les agents et assistants temps réel.

Scaler sans complexité

Utilisez le format OpenAI SDK d'EvoLink avec un seul endpoint /v1/chat/completions, plus le streaming optionnel pour améliorer la vitesse perçue.

Pensé pour les coûts

Supporte le caching, le function calling et les sorties structurées pour réduire le travail répétitif et garder des workflows automatisés prévisibles.

Comment intégrer Gemini 2.5 Flash

EvoLink supporte le format Google Native API pour Gemini 2.5 Flash, avec streaming et options async.

1

Étape 1 — Obtenir votre clé

Créez une clé API EvoLink et envoyez-la comme Bearer token sur chaque requête Gemini 2.5 Flash.

2

Étape 2 — Choisir une méthode

Utilisez generateContent pour une réponse complète ou streamGenerateContent pour des chunks en temps réel, et envoyez un tableau contents pour des inputs texte ou multimodaux.

3

Étape 3 — Scaler avec l'async

Définissez X-Async-Mode sur true pour recevoir un ID de tâche, puis interrogez l'endpoint de tâche et lisez usageMetadata pour le suivi des tokens.

Points forts du modèle Gemini 2.5 Flash

Rapide, long contexte et conçu pour la compréhension multimodale

Context

Fenêtre 1M tokens

Gemini 2.5 Flash supporte jusqu'à 1 048 576 tokens d'entrée et jusqu'à 65 536 tokens de sortie, permettant de longs documents, de grandes bases de code ou des transcriptions de plusieurs heures en une seule requête.

Multimodal

Entrées multimodales

Envoyez texte, images, vidéo ou audio dans un appel Gemini 2.5 Flash et recevez une sortie texte, parfaite pour résumés, QA et modération de contenu entre équipes.

Control

Function calling + structured output

Le modèle supporte le function calling et les sorties structurées, permettant aux workflows de déclencher des tools et de renvoyer du JSON cohérent pour l'automatisation et l'analytics en aval. Idéal pour des intégrations avec des schémas prévisibles.

Efficiency

Context caching

Le caching est supporté, ce qui réduit les tokens de prompt répétés lorsque vous réutilisez de longues instructions ou des documents partagés sur de nombreuses requêtes Gemini 2.5 Flash, réduisant latence et coût.

Delivery

Streaming et modes async

Choisissez streamGenerateContent pour des tokens en direct, ou activez X-Async-Mode pour un traitement en arrière-plan qui renvoie un ID de tâche et des résultats ultérieurs. Cela permet aux équipes d'équilibrer vitesse UX et jobs batch lourds.

Observability

Visibilité usage metadata

Les réponses incluent usageMetadata avec des comptages de tokens de prompt et de candidats, ce qui rend le suivi des coûts et l'optimisation simples pour les équipes engineering et finance.

FAQ API Gemini 2.5 Flash

Everything you need to know about the product and billing.

L'API Gemini 2.5 Flash est positionnée comme un modèle price-to-performance solide pour le traitement à grande échelle et les tâches à faible latence et haut volume. Elle brille dans le chat support client, les aides à la recherche produit, les résumés de contenu et les copilotes internes qui ont besoin de réponses rapides sans perdre en qualité. Si votre workload implique de nombreuses requêtes par minute et que vous souhaitez des résultats cohérents avec long contexte et entrée multimodale, Gemini 2.5 Flash est un défaut pratique. Les équipes commencent souvent ici pour l'échelle production et passent à Pro seulement quand un raisonnement avancé est nécessaire.
Gemini 2.5 Flash accepte texte, images, vidéo et audio en entrée, et renvoie du texte en sortie. Cela facilite la combinaison d'une transcription avec des captures d'écran, une photo produit ou un clip court pour demander un résumé écrit unique ou une décision. Les équipes l'utilisent pour les notes de réunion, l'enrichissement de tickets support, la revue de contenu et la recherche interne, car la sortie est du texte simple stockable, indexable et routable vers d'autres systèmes. Cela se marie bien avec la recherche ou les bases de données.
Gemini 2.5 Flash supporte jusqu'à 1 048 576 tokens d'entrée et jusqu'à 65 536 tokens de sortie. En pratique, cela signifie que vous pouvez fournir de longs documents, de grandes bases de code ou des transcriptions de plusieurs heures en une seule requête sans les découper en fragments. C'est précieux pour les revues de conformité, résumés de recherche et analyses multi-documents où la continuité du contexte compte et où vous voulez une réponse cohérente. Cela réduit aussi le besoin d'une logique de chunking complexe dans votre app. Cela aide quand vous avez besoin d'une réponse unique sur de nombreuses sources.
Oui. Dans le format Google Native API d'EvoLink, vous pouvez choisir streamGenerateContent pour recevoir le contenu en chunks temps réel. C'est utile pour les UIs de chat, dashboards live ou toute expérience où les utilisateurs doivent voir la progression immédiatement. En streaming, vous utilisez toujours le même body de requête Gemini 2.5 Flash, ce qui garde vos prompts et inputs multimodaux cohérents tout en améliorant la vitesse perçue. Le streaming fonctionne bien avec des indicateurs de frappe ou des résumés progressifs. Il améliore aussi la vitesse perçue sur des réseaux plus lents.
Oui. Définissez l'en-tête X-Async-Mode sur true et la requête renverra immédiatement un ID de tâche au lieu d'attendre la réponse complète. Vous pouvez ensuite interroger l'endpoint de statut de tâche pour récupérer le résultat terminé en format non-streaming. Ce mode est idéal pour les jobs batch longs, les analytics nocturnes ou le traitement de gros documents où vous ne voulez pas bloquer une requête orientée utilisateur. C'est aussi un bon fit pour des pipelines en file d'attente et des workers en arrière-plan. Vous pouvez poller à votre rythme et stocker les résultats plus tard.
Toutes les APIs EvoLink exigent l'authentification Bearer token. Générez une clé API dans le tableau de bord EvoLink, puis incluez-la dans l'en-tête Authorization pour chaque requête. En production, stockez la clé dans un gestionnaire de secrets sécurisé, scopez-la par environnement et faites-la tourner régulièrement. Cela garde votre usage Gemini 2.5 Flash contrôlé tout en offrant une intégration simple et cohérente. Évitez d'embarquer des clés côté client et utilisez des proxies server-side. Séparez les clés dev, staging et production pour réduire le risque.
Oui. Le modèle supporte le function calling et les sorties structurées, ce qui signifie que vous pouvez demander un objet JSON ou déclencher des tools spécifiques dans un workflow. C'est utile pour router des tickets, mettre à jour des enregistrements ou construire des flows d'agents qui nécessitent des schémas prévisibles. En gardant le format de réponse cohérent, Gemini 2.5 Flash réduit les erreurs de parsing et rend l'automatisation plus fiable. Définissez clairement votre schéma et validez les réponses pour garder des intégrations robustes. Particulièrement utile pour l'ETL, les mises à jour CRM et le reporting.
Le caching est supporté pour Gemini 2.5 Flash. Vous pouvez réutiliser de grandes instructions système, du texte de politique ou des catalogues produits sur de nombreuses requêtes sans payer le coût d'entrée complet à chaque fois. Cela réduit les tokens de prompt répétés et peut améliorer la latence car le modèle n'a pas à retraiter le même contexte à chaque appel. C'est un excellent fit pour des workflows récurrents et des assistants toujours actifs. Mettez en cache le ton de marque, les FAQ ou les règles de sécurité pour garder des réponses cohérentes. C'est particulièrement utile pour l'onboarding répété et les rappels de politiques.