API Gemini 3.5 Flash
$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens
$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens
Google Search grounding charged separately per query.
Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.
Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.
Modèle Flash prêt pour la production, dédié aux workflows agentiques et au coding
Gemini 3.5 Flash est disponible en version stable pour une utilisation en production à grande échelle. Conçu pour les workflows agentiques, les agents de code, le déploiement de sous-agents et les tâches de longue durée, il offre une intelligence de niveau frontier au coût Flash avec 1M de contexte, un raisonnement intégré et un support complet des outils.
Mot-clé de page
Gemini 3.5 Flash API
Model ID de requête
gemini-3.5-flash

Cas d'usage adaptés à l'API Gemini 3.5 Flash
Agents de code et boucles de développement multi-étapes
Gemini 3.5 Flash excelle dans les tâches de coding — génération, débogage, refactoring et écriture de tests — à la vitesse Flash. Idéal comme modèle par défaut dans les boucles d'agents de code où chaque itération consomme des tokens et où la latence compte.

Workflows agentiques et déploiement de sous-agents
Conçu pour les boucles d'exécution agentiques parallèles : appels de fonctions, sorties structurées, exécution de code et search grounding. Déployez-le comme sous-agent dans des systèmes multi-agents où la vitesse et le coût par appel déterminent l'économie globale du workflow.

Tâches de longue durée et traitement documentaire
Avec 1M de contexte en entrée et 65K tokens en sortie, Gemini 3.5 Flash gère les tâches longues sur de nombreuses étapes — revue de documents juridiques, analyse de codebase, synthèse de recherche et workflows PDF — sans troncature de contexte.

Inférence de production au coût Flash
Disponible en version stable pour une utilisation en production à grande échelle. Le cache de contexte, la Batch API et la tarification multimodale unifiée en font le modèle haut débit par défaut pour les équipes qui ont besoin de qualité de raisonnement sans le coût Pro.

Pourquoi utiliser EvoLink pour l'API Gemini 3.5 Flash
Pour les équipes déjà construites autour d'une infrastructure de type OpenAI, EvoLink rend Gemini 3.5 Flash plus simple à mettre en production : une passerelle unique, moins de friction de migration et un routage plus propre entre modèles économiques et premium.
Conserver des workflows de type OpenAI tout en ajoutant Gemini
Si votre équipe s'appuie déjà sur l'OpenAI SDK, une authentification unifiée et une couche de requêtes existante, vous pouvez ajouter Gemini 3.5 Flash sans réécrire l'intégration principale.
Utiliser Flash comme couche low cost dans une stack multi-modèles
Routez d'abord les requêtes bon marché de traduction, d'extraction et de classification vers Flash, puis envoyez uniquement les tâches plus complexes ou à plus forte valeur vers des modèles plus puissants via la même passerelle.
Un coût de migration plus faible qu'avec des intégrations spécifiques au fournisseur
Une seule clé API, des formats de requête compatibles OpenAI et Gemini natif, ainsi que le support du cache et du batch, facilitent l'exploitation de Gemini aux côtés du reste de votre catalogue de modèles.
Comment utiliser l'API Gemini 3.5 Flash
Utilisez cette page comme vue d'ensemble d'accès : choisissez votre format de requête, utilisez le model ID preview et laissez les exemples détaillés de requête à la documentation.
Étape 1 - Choisir le format de requête
Gemini 3.5 Flash peut être appelé via des requêtes compatibles OpenAI ou via l'API Gemini native, ce qui facilite son intégration dans une stack existante sans réécrire tout le chemin d'intégration.
Étape 2 - Utiliser le model ID de requête actuel
Utilisez le model ID exact "gemini-3.5-flash" pour le trafic de production. Cela permet de garder le mot-clé de la page centré sur l'API Gemini 3.5 Flash tout en restant aligné avec la route réellement appelée.
Étape 3 - Faire monter en charge les bons workloads ici
Utilisez Flash pour les files de traduction, les tâches d'extraction, le tagging et d'autres traitements à grand volume, puis envoyez les cas limites ou plus difficiles vers des modèles plus puissants. Les corps de requête exacts, paramètres et exemples d'endpoints doivent rester dans la documentation.
Fonctionnalités et limites de l'API Gemini 3.5 Flash
Les capacités et contraintes les plus importantes pour planifier une intégration en production
1 050 000 tokens en entrée
Jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie.
Entrées multimodales
Entrées texte, image, vidéo, audio et PDF avec sortie texte.
Thinking + sorties structurées
Le thinking et les sorties structurées sont pris en charge pour produire des résultats fiables et lisibles par machine.
Appels de fonctions + outils
Appels de fonctions, exécution de code et search grounding sont pris en charge.
Cache + batch
Le cache de contexte et la Batch API conviennent aux workloads répétitifs ou à grande échelle.
Utilisation à très faible coût
Consultez le tableau de tarification en direct en haut de la page pour connaître le tarif pay-as-you-go actuellement visible sur EvoLink.
Gemini 3.5 Flash vs autres modèles Gemini
Comparez le positionnement, le contexte, le style de raisonnement et l'outillage de la famille Gemini pour choisir la bonne route
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Gemini 3.5 Flash | Workflows agentiques, agents de code, tâches de longue durée | 1M entrée / 65K sortie | Raisonnement intégré à la vitesse Flash | Appels de fonctions, exécution de code, sorties structurées, cache, batch |
| Gemini 3 Flash Preview | Workloads rapides généraux, baseline Flash précédente | 1M entrée / 65K sortie | Raisonnement Flash standard | Appels de fonctions, sorties structurées, cache |
| Gemini 3.1 Pro | Raisonnement le plus complexe, analyse avancée | 1M entrée / 65K sortie | Raisonnement le plus profond avec thinking tokens | Suite d'outils complète, exécution de code, search grounding |
| Gemini 3.1 Flash Lite | Batches à haut volume, extraction à faible coût, tâches simples | 1M entrée / 65K sortie | Léger, sans raisonnement profond | Appels de fonctions, sorties structurées, cache, batch |
FAQ sur l'API Gemini 3.5 Flash
Everything you need to know about the product and billing.
Modèles Gemini API sur EvoLink
Gemini 3.5 Flash est la route la moins chère de la famille Gemini. Passez à Gemini 3 Flash Preview pour plus de capacités multimodales, ou à Gemini 3.1 Pro pour le raisonnement avancé. Tous les modèles partagent le même format d'API.