Gemini 2.5 Flash API
Lancez le modèle Gemini 2.5 Flash en quelques minutes avec une clé EvoLink unifiée. Choisissez le format d'API Google Native ou le format OpenAI SDK, puis construisez des assistants à faible latence, des analytics et des workflows agentiques sans changer votre stack.
PRICING
| PLAN | CONTEXT WINDOW | MAX OUTPUT | INPUT | OUTPUT | CACHE READ |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 1.05M | 65.5K | $0.240-20% $0.300Official Price | $2.00-20% $2.50Official Price | $0.024-21% $0.030Official Price |
| Gemini 2.5 Flash (Beta) | 1.05M | 65.5K | $0.078-74% $0.300Official Price | $0.650-74% $2.50Official Price | $0.008-74% $0.030Official Price |
Pricing Note: Price unit: USD / 1M tokens
Cache Hit: Price applies to cached prompt tokens.
Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.
- · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
- · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.
Gemini 2.5 Flash API pour des apps multimodales rapides et scalables
Traitez un grand contexte et des médias mixtes en une seule requête. Gemini 2.5 Flash accepte des entrées texte, image, vidéo et audio, renvoie du texte et supporte le long contexte, pour du support temps réel, la compréhension de contenu et l'automatisation interne à l'échelle.

Capacités de l'API Gemini 2.5 Flash
Réponses à haut débit
Gemini 2.5 Flash est conçu pour des workloads à grande échelle et faible latence. Utilisez-le pour le chat client, la découverte produit ou des dashboards live où les utilisateurs attendent des réponses rapides. EvoLink garde l'intégration simple pendant que vous scalez la concurrence, le même modèle servant les prototypes et le trafic production.

Compréhension multimodale
Avec Gemini 2.5 Flash, une seule requête peut inclure texte, images, vidéos ou audio. Cela facilite la synthèse de réunions, la revue de photos produits ou l'extraction de moments clés de vidéos de formation. Vous obtenez une sortie texte facile à stocker, rechercher et router vers des outils en aval.

Prêt pour les workflows agentiques
Gemini 2.5 Flash supporte le function calling, les sorties structurées et le context caching, afin que les agents puissent appeler des outils, renvoyer du JSON fiable et réutiliser de grandes instructions. Idéal pour le tri de tickets, les contrôles de politique, le nettoyage de catalogue et d'autres tâches répétables où cohérence et vitesse comptent.

Pourquoi les développeurs choisissent Gemini 2.5 Flash
Conçu pour des workloads à grande échelle, faible latence et haut volume, avec entrée multimodale et long contexte.
Rapide pour les expériences orientées utilisateur
Optimisé pour le traitement à grande échelle et la faible latence, ce qui en fait un choix naturel pour les agents et assistants temps réel.
Scaler sans complexité
Utilisez le format OpenAI SDK d'EvoLink avec un seul endpoint /v1/chat/completions, plus le streaming optionnel pour améliorer la vitesse perçue.
Pensé pour les coûts
Supporte le caching, le function calling et les sorties structurées pour réduire le travail répétitif et garder des workflows automatisés prévisibles.
Comment intégrer Gemini 2.5 Flash
EvoLink supporte le format Google Native API pour Gemini 2.5 Flash, avec streaming et options async.
Étape 1 — Obtenir votre clé
Créez une clé API EvoLink et envoyez-la comme Bearer token sur chaque requête Gemini 2.5 Flash.
Étape 2 — Choisir une méthode
Utilisez generateContent pour une réponse complète ou streamGenerateContent pour des chunks en temps réel, et envoyez un tableau contents pour des inputs texte ou multimodaux.
Étape 3 — Scaler avec l'async
Définissez X-Async-Mode sur true pour recevoir un ID de tâche, puis interrogez l'endpoint de tâche et lisez usageMetadata pour le suivi des tokens.
Points forts du modèle Gemini 2.5 Flash
Rapide, long contexte et conçu pour la compréhension multimodale
Fenêtre 1M tokens
Gemini 2.5 Flash supporte jusqu'à 1 048 576 tokens d'entrée et jusqu'à 65 536 tokens de sortie, permettant de longs documents, de grandes bases de code ou des transcriptions de plusieurs heures en une seule requête.
Entrées multimodales
Envoyez texte, images, vidéo ou audio dans un appel Gemini 2.5 Flash et recevez une sortie texte, parfaite pour résumés, QA et modération de contenu entre équipes.
Function calling + structured output
Le modèle supporte le function calling et les sorties structurées, permettant aux workflows de déclencher des tools et de renvoyer du JSON cohérent pour l'automatisation et l'analytics en aval. Idéal pour des intégrations avec des schémas prévisibles.
Context caching
Le caching est supporté, ce qui réduit les tokens de prompt répétés lorsque vous réutilisez de longues instructions ou des documents partagés sur de nombreuses requêtes Gemini 2.5 Flash, réduisant latence et coût.
Streaming et modes async
Choisissez streamGenerateContent pour des tokens en direct, ou activez X-Async-Mode pour un traitement en arrière-plan qui renvoie un ID de tâche et des résultats ultérieurs. Cela permet aux équipes d'équilibrer vitesse UX et jobs batch lourds.
Visibilité usage metadata
Les réponses incluent usageMetadata avec des comptages de tokens de prompt et de candidats, ce qui rend le suivi des coûts et l'optimisation simples pour les équipes engineering et finance.
FAQ API Gemini 2.5 Flash
Everything you need to know about the product and billing.