HappyHorse 1.0 est disponibleEssayer maintenant

API Gemini 3.5 Flash

Gemini 3.5 Flash est le modèle Flash de Google prêt pour la production, conçu pour les workflows agentiques, les agents de code et les tâches de longue durée. Il combine une intelligence de niveau frontier avec la vitesse et le coût Flash. Accédez-y via EvoLink avec des requêtes compatibles OpenAI ou l'API Gemini native ; le model ID est gemini-3.5-flash.
Type de modèle:
Prix: 

$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens

$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens

Google Search grounding charged separately per query.

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

Modèle Flash prêt pour la production, dédié aux workflows agentiques et au coding

Gemini 3.5 Flash est disponible en version stable pour une utilisation en production à grande échelle. Conçu pour les workflows agentiques, les agents de code, le déploiement de sous-agents et les tâches de longue durée, il offre une intelligence de niveau frontier au coût Flash avec 1M de contexte, un raisonnement intégré et un support complet des outils.

Mot-clé de page

Gemini 3.5 Flash API

Model ID de requête

gemini-3.5-flash

API Gemini 3.5 Flash

Cas d'usage adaptés à l'API Gemini 3.5 Flash

Agents de code et boucles de développement multi-étapes

Gemini 3.5 Flash excelle dans les tâches de coding — génération, débogage, refactoring et écriture de tests — à la vitesse Flash. Idéal comme modèle par défaut dans les boucles d'agents de code où chaque itération consomme des tokens et où la latence compte.

Agents de code

Workflows agentiques et déploiement de sous-agents

Conçu pour les boucles d'exécution agentiques parallèles : appels de fonctions, sorties structurées, exécution de code et search grounding. Déployez-le comme sous-agent dans des systèmes multi-agents où la vitesse et le coût par appel déterminent l'économie globale du workflow.

Workflows agentiques

Tâches de longue durée et traitement documentaire

Avec 1M de contexte en entrée et 65K tokens en sortie, Gemini 3.5 Flash gère les tâches longues sur de nombreuses étapes — revue de documents juridiques, analyse de codebase, synthèse de recherche et workflows PDF — sans troncature de contexte.

Tâches de longue durée

Inférence de production au coût Flash

Disponible en version stable pour une utilisation en production à grande échelle. Le cache de contexte, la Batch API et la tarification multimodale unifiée en font le modèle haut débit par défaut pour les équipes qui ont besoin de qualité de raisonnement sans le coût Pro.

Inférence de production

Pourquoi utiliser EvoLink pour l'API Gemini 3.5 Flash

Pour les équipes déjà construites autour d'une infrastructure de type OpenAI, EvoLink rend Gemini 3.5 Flash plus simple à mettre en production : une passerelle unique, moins de friction de migration et un routage plus propre entre modèles économiques et premium.

Conserver des workflows de type OpenAI tout en ajoutant Gemini

Si votre équipe s'appuie déjà sur l'OpenAI SDK, une authentification unifiée et une couche de requêtes existante, vous pouvez ajouter Gemini 3.5 Flash sans réécrire l'intégration principale.

Utiliser Flash comme couche low cost dans une stack multi-modèles

Routez d'abord les requêtes bon marché de traduction, d'extraction et de classification vers Flash, puis envoyez uniquement les tâches plus complexes ou à plus forte valeur vers des modèles plus puissants via la même passerelle.

Un coût de migration plus faible qu'avec des intégrations spécifiques au fournisseur

Une seule clé API, des formats de requête compatibles OpenAI et Gemini natif, ainsi que le support du cache et du batch, facilitent l'exploitation de Gemini aux côtés du reste de votre catalogue de modèles.

Comment utiliser l'API Gemini 3.5 Flash

Utilisez cette page comme vue d'ensemble d'accès : choisissez votre format de requête, utilisez le model ID preview et laissez les exemples détaillés de requête à la documentation.

1

Étape 1 - Choisir le format de requête

Gemini 3.5 Flash peut être appelé via des requêtes compatibles OpenAI ou via l'API Gemini native, ce qui facilite son intégration dans une stack existante sans réécrire tout le chemin d'intégration.

2

Étape 2 - Utiliser le model ID de requête actuel

Utilisez le model ID exact "gemini-3.5-flash" pour le trafic de production. Cela permet de garder le mot-clé de la page centré sur l'API Gemini 3.5 Flash tout en restant aligné avec la route réellement appelée.

3

Étape 3 - Faire monter en charge les bons workloads ici

Utilisez Flash pour les files de traduction, les tâches d'extraction, le tagging et d'autres traitements à grand volume, puis envoyez les cas limites ou plus difficiles vers des modèles plus puissants. Les corps de requête exacts, paramètres et exemples d'endpoints doivent rester dans la documentation.

Fonctionnalités et limites de l'API Gemini 3.5 Flash

Les capacités et contraintes les plus importantes pour planifier une intégration en production

Contexte

1 050 000 tokens en entrée

Jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie.

Multimodal

Entrées multimodales

Entrées texte, image, vidéo, audio et PDF avec sortie texte.

Raisonnement

Thinking + sorties structurées

Le thinking et les sorties structurées sont pris en charge pour produire des résultats fiables et lisibles par machine.

Outils

Appels de fonctions + outils

Appels de fonctions, exécution de code et search grounding sont pris en charge.

Échelle

Cache + batch

Le cache de contexte et la Batch API conviennent aux workloads répétitifs ou à grande échelle.

Tarifs

Utilisation à très faible coût

Consultez le tableau de tarification en direct en haut de la page pour connaître le tarif pay-as-you-go actuellement visible sur EvoLink.

Gemini 3.5 Flash vs autres modèles Gemini

Comparez le positionnement, le contexte, le style de raisonnement et l'outillage de la famille Gemini pour choisir la bonne route

ModelBest forContext windowReasoning styleTooling & streaming
Gemini 3.5 FlashWorkflows agentiques, agents de code, tâches de longue durée1M entrée / 65K sortieRaisonnement intégré à la vitesse FlashAppels de fonctions, exécution de code, sorties structurées, cache, batch
Gemini 3 Flash PreviewWorkloads rapides généraux, baseline Flash précédente1M entrée / 65K sortieRaisonnement Flash standardAppels de fonctions, sorties structurées, cache
Gemini 3.1 ProRaisonnement le plus complexe, analyse avancée1M entrée / 65K sortieRaisonnement le plus profond avec thinking tokensSuite d'outils complète, exécution de code, search grounding
Gemini 3.1 Flash LiteBatches à haut volume, extraction à faible coût, tâches simples1M entrée / 65K sortieLéger, sans raisonnement profondAppels de fonctions, sorties structurées, cache, batch

FAQ sur l'API Gemini 3.5 Flash

Everything you need to know about the product and billing.

Oui. Google liste Gemini 3.5 Flash comme disponible en version stable pour une utilisation en production à grande échelle. Ce n'est pas un modèle preview ou expérimental — vous pouvez y router du trafic de production en toute confiance.
Oui. Gemini 3.5 Flash est positionné comme une route Flash moins chère pour les workloads à grand volume où le débit et le prix comptent plus que la qualité généraliste plus forte attendue d'un plus grand modèle Gemini Flash.
Oui. EvoLink prend en charge les requêtes compatibles OpenAI via POST /v1/chat/completions ainsi que les requêtes Gemini natives via POST /v1beta/models/gemini-3.5-flash:{method}.
Gemini 3.5 Flash prend en charge jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie, ce qui convient aux documents longs, aux gros lots et aux pipelines de traitement multi-étapes.
Oui. Gemini 3.5 Flash accepte le texte, l'image, la vidéo, l'audio et les PDF en entrée, avec une sortie texte, ce qui le rend utile pour l'extraction, le résumé et les workflows documentaires multimodaux.
Utilisez l'identifiant preview exact "gemini-3.5-flash" dans vos requêtes API. Cette page cible la route API Gemini 3.5 Flash, tandis que l'ID de requête reste l'identifiant preview.
Choisissez Flash pour la traduction, l'extraction, la classification, le tagging et d'autres workloads tolérants aux retries qui exigent un coût plus faible à grande échelle. Montez vers une route Gemini Flash plus grande lorsque la qualité de sortie ou la difficulté de la tâche comptent davantage que le coût minimal par requête.
Gemini 3.5 Flash est particulièrement adapté aux tâches sensibles au coût et à fort débit comme la traduction, la classification, l'extraction, le tagging, le traitement documentaire et les workflows agentiques légers.
La génération d'images, la génération audio et la Live API ne sont pas prises en charge. Le modèle est donc mieux adapté aux workflows texte à faible coût qu'aux usages temps réel ou de génération média.

Modèles Gemini API sur EvoLink

Gemini 3.5 Flash est la route la moins chère de la famille Gemini. Passez à Gemini 3 Flash Preview pour plus de capacités multimodales, ou à Gemini 3.1 Pro pour le raisonnement avancé. Tous les modèles partagent le même format d'API.