API Gemini 3.5 Flash

Gemini 3.5 Flash est le modèle Flash de Google prêt pour la production, conçu pour les workflows agentiques, les agents de code et les tâches de longue durée. Il combine une intelligence de niveau frontier avec la vitesse et le coût Flash. Accédez-y via EvoLink avec des requêtes compatibles OpenAI ou l'API Gemini native ; le model ID est gemini-3.5-flash.

Type de modèle:

Prix:

$1.350(~ 91.8 credits) par 1M tokens d'entrée; $8.100(~ 550.8 credits) par 1M tokens de sortie

$0.135(~ 9.2 credits) par 1M tokens de lecture de cache; $1.350(~ 91.8 credits) par 1M tokens audio

L'ancrage Google Search est facturé séparément par requête.

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ	AUDIO INPUT
Gemini 3.5 Flash	1,048,576	65,535	$1.350-10% (91.8 Credits)	$8.100-10% (550.8 Credits)	$0.136-10% (9.2 Credits)	$1.350-10% (91.8 Credits)
Web Search Tool Server-side web search capability						$0.014/search (0.89 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Audio Input: Audio tokens charged at a separate rate.

Modèle Flash prêt pour la production, dédié aux workflows agentiques et au coding

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Gemini 3.5 Flash est disponible en version stable pour une utilisation en production à grande échelle. Conçu pour les workflows agentiques, les agents de code, le déploiement de sous-agents et les tâches de longue durée, il offre une intelligence de niveau frontier au coût Flash avec 1M de contexte, un raisonnement intégré et un support complet des outils.

Mot-clé de page

Gemini 3.5 Flash API

Model ID de requête

gemini-3.5-flash

Cas d'usage adaptés à l'API Gemini 3.5 Flash

Agents de code et boucles de développement multi-étapes

Gemini 3.5 Flash excelle dans les tâches de coding — génération, débogage, refactoring et écriture de tests — à la vitesse Flash. Idéal comme modèle par défaut dans les boucles d'agents de code où chaque itération consomme des tokens et où la latence compte.

Coding

Workflows agentiques et déploiement de sous-agents

Conçu pour les boucles d'exécution agentiques parallèles : appels de fonctions, sorties structurées, exécution de code et search grounding. Déployez-le comme sous-agent dans des systèmes multi-agents où la vitesse et le coût par appel déterminent l'économie globale du workflow.

Agents

Tâches de longue durée et traitement documentaire

Avec 1M de contexte en entrée et 65K tokens en sortie, Gemini 3.5 Flash gère les tâches longues sur de nombreuses étapes — revue de documents juridiques, analyse de codebase, synthèse de recherche et workflows PDF — sans troncature de contexte.

Longue durée

Inférence de production au coût Flash

Disponible en version stable pour une utilisation en production à grande échelle. Le cache de contexte, la Batch API et la tarification multimodale unifiée en font le modèle haut débit par défaut pour les équipes qui ont besoin de qualité de raisonnement sans le coût Pro.

Production

Pourquoi utiliser EvoLink pour l'API Gemini 3.5 Flash

Pour les équipes déjà construites autour d'une infrastructure de type OpenAI, EvoLink rend Gemini 3.5 Flash plus simple à mettre en production : une passerelle unique, moins de friction de migration et un routage plus propre entre modèles économiques et premium.

Conserver des workflows de type OpenAI tout en ajoutant Gemini

Si votre équipe s'appuie déjà sur l'OpenAI SDK, une authentification unifiée et une couche de requêtes existante, vous pouvez ajouter Gemini 3.5 Flash sans réécrire l'intégration principale.

Utiliser Flash comme couche low cost dans une stack multi-modèles

Routez d'abord les requêtes bon marché de traduction, d'extraction et de classification vers Flash, puis envoyez uniquement les tâches plus complexes ou à plus forte valeur vers des modèles plus puissants via la même passerelle.

Un coût de migration plus faible qu'avec des intégrations spécifiques au fournisseur

Une seule clé API, des formats de requête compatibles OpenAI et Gemini natif, ainsi que le support du cache et du batch, facilitent l'exploitation de Gemini aux côtés du reste de votre catalogue de modèles.

Comment utiliser l'API Gemini 3.5 Flash

Utilisez cette page comme vue d'ensemble d'accès : choisissez votre format de requête, utilisez le model ID preview et laissez les exemples détaillés de requête à la documentation.

Étape 1 - Choisir le format de requête

Gemini 3.5 Flash peut être appelé via des requêtes compatibles OpenAI ou via l'API Gemini native, ce qui facilite son intégration dans une stack existante sans réécrire tout le chemin d'intégration.

Étape 2 - Utiliser le model ID de requête actuel

Utilisez le model ID exact "gemini-3.5-flash" pour le trafic de production. Cela permet de garder le mot-clé de la page centré sur l'API Gemini 3.5 Flash tout en restant aligné avec la route réellement appelée.

Étape 3 - Faire monter en charge les bons workloads ici

Utilisez Flash pour les files de traduction, les tâches d'extraction, le tagging et d'autres traitements à grand volume, puis envoyez les cas limites ou plus difficiles vers des modèles plus puissants. Les corps de requête exacts, paramètres et exemples d'endpoints doivent rester dans la documentation.

Fonctionnalités et limites de l'API Gemini 3.5 Flash

Les capacités et contraintes les plus importantes pour planifier une intégration en production

Contexte

1 050 000 tokens en entrée

Jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie.

Multimodal

Entrées multimodales

Entrées texte, image, vidéo, audio et PDF avec sortie texte.

Raisonnement

Thinking + sorties structurées

Le thinking et les sorties structurées sont pris en charge pour produire des résultats fiables et lisibles par machine.

Outils

Appels de fonctions + outils

Appels de fonctions, exécution de code et search grounding sont pris en charge.

Échelle

Cache + batch

Le cache de contexte et la Batch API conviennent aux workloads répétitifs ou à grande échelle.

Tarifs

Utilisation à très faible coût

Consultez le tableau de tarification en direct en haut de la page pour connaître le tarif pay-as-you-go actuellement visible sur EvoLink.

Gemini 3.5 Flash vs autres modèles Gemini

Comparez le positionnement, le contexte, le style de raisonnement et l'outillage de la famille Gemini pour choisir la bonne route

Model	Best for	Context window	Reasoning style	Tooling & streaming
Gemini 3.5 Flash	Workflows agentiques, agents de code, tâches de longue durée	1M entrée / 65K sortie	Raisonnement intégré à la vitesse Flash	Appels de fonctions, exécution de code, sorties structurées, cache, batch
Gemini 3 Flash Preview	Workloads rapides généraux, baseline Flash précédente	1M entrée / 65K sortie	Raisonnement Flash standard	Appels de fonctions, sorties structurées, cache
Gemini 3.1 Pro	Raisonnement le plus complexe, analyse avancée	1M entrée / 65K sortie	Raisonnement le plus profond avec thinking tokens	Suite d'outils complète, exécution de code, search grounding
Gemini 3.1 Flash Lite	Batches à haut volume, extraction à faible coût, tâches simples	1M entrée / 65K sortie	Léger, sans raisonnement profond	Appels de fonctions, sorties structurées, cache, batch

FAQ sur l'API Gemini 3.5 Flash

Everything you need to know about the product and billing.

Oui. Google liste Gemini 3.5 Flash comme disponible en version stable pour une utilisation en production à grande échelle. Ce n'est pas un modèle preview ou expérimental — vous pouvez y router du trafic de production en toute confiance.

Oui. Gemini 3.5 Flash est positionné comme une route Flash moins chère pour les workloads à grand volume où le débit et le prix comptent plus que la qualité généraliste plus forte attendue d'un plus grand modèle Gemini Flash.

Oui. EvoLink prend en charge les requêtes compatibles OpenAI via POST /v1/chat/completions ainsi que les requêtes Gemini natives via POST /v1beta/models/gemini-3.5-flash:{method}.

Gemini 3.5 Flash prend en charge jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie, ce qui convient aux documents longs, aux gros lots et aux pipelines de traitement multi-étapes.

Oui. Gemini 3.5 Flash accepte le texte, l'image, la vidéo, l'audio et les PDF en entrée, avec une sortie texte, ce qui le rend utile pour l'extraction, le résumé et les workflows documentaires multimodaux.

Utilisez l'identifiant preview exact "gemini-3.5-flash" dans vos requêtes API. Cette page cible la route API Gemini 3.5 Flash, tandis que l'ID de requête reste l'identifiant preview.

Choisissez Flash pour la traduction, l'extraction, la classification, le tagging et d'autres workloads tolérants aux retries qui exigent un coût plus faible à grande échelle. Montez vers une route Gemini Flash plus grande lorsque la qualité de sortie ou la difficulté de la tâche comptent davantage que le coût minimal par requête.

Gemini 3.5 Flash est particulièrement adapté aux tâches sensibles au coût et à fort débit comme la traduction, la classification, l'extraction, le tagging, le traitement documentaire et les workflows agentiques légers.

La génération d'images, la génération audio et la Live API ne sont pas prises en charge. Le modèle est donc mieux adapté aux workflows texte à faible coût qu'aux usages temps réel ou de génération média.

Modèles Gemini API sur EvoLink

Gemini 3.5 Flash est la route la moins chère de la famille Gemini. Passez à Gemini 3 Flash Preview pour plus de capacités multimodales, ou à Gemini 3.1 Pro pour le raisonnement avancé. Tous les modèles partagent le même format d'API.

Explorer la famille Gemini Gemini 3 Flash Preview Gemini 3.1 Pro Gemini 2.5 Flash