pricing

Guide tarifaire Gemini 3.5 Flash : coûts par Token, exemples de charges de travail et budget de production

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

20 mai 2026

12 min de lecture

Dernière vérification : 20 mai 2026. Les données tarifaires ci-dessous sont basées sur la documentation officielle des modèles Google et les données de la plateforme EvoLink vérifiées à cette date.

Gemini 3.5 Flash est le modèle stable et économique de Google pour les charges de travail de production à haut volume. Cependant, « économique » est relatif : à $1.50/$9.00 par 1M de Tokens, il se situe entre les options à bas prix comme Gemini 3 Flash Preview et les modèles premium comme Gemini 3.1 Pro. Ce guide détaille chaque dimension tarifaire et montre ce que coûtent réellement les charges de travail en production.

En bref

Entrée : $1.50 par 1M de Tokens
Sortie : $9.00 par 1M de Tokens
Cache hit : $0.15 par 1M de Tokens (90 % d'économie sur l'entrée mise en cache)
Entrée audio/vidéo : $1.50 par 1M de Tokens (même tarif que le texte)
Context Caching, Batch API et Google Search Grounding sont pris en charge
Le principal facteur de coût sont les Tokens de sortie, pas ceux d'entrée — optimisez d'abord la longueur des réponses

Tableau tarifaire complet

Type de Token	Prix par 1M de Tokens	Remarques
Texte entrée	$1.50	Tokens de prompt texte standard
Texte sortie	$9.00	Tokens de réponse générés par le modèle
Cache hit (entrée)	$0.15	90 % de réduction par rapport à l'entrée standard ; stockage à $1.00/heure
Audio entrée	$1.50	Tokens audio traités
Vidéo entrée	$1.50	Tokens de trames vidéo traités
Image entrée	$1.50	Tokens d'image traités
PDF entrée	$1.50	Tokens de document traités

Tarifs Batch et Flex

Google propose également des tarifs réduits pour les charges de travail non urgentes :

Niveau tarifaire	Entrée / 1M	Sortie / 1M	Cas d'utilisation
Standard	$1.50	$9.00	Requêtes en temps réel
Batch	$0.75	$4.50	Traitement en masse asynchrone
Flex	$0.75	$4.50	Délai de livraison flexible
Priority	$2.70	$16.20	Faible latence garantie

Les tarifs Batch et Flex offrent une réduction de 50 % par rapport aux tarifs standard.

Points clés

Les Tokens de sortie coûtent 6 fois plus que les Tokens d'entrée. C'est le levier de coût le plus important.
Les cache hits réduisent le coût d'entrée de 90 % — mais tenez compte du coût de stockage du cache à $1.00/heure.
Les tarifs Batch/Flex divisent par deux les coûts d'entrée et de sortie pour les charges non urgentes.
Toutes les entrées multimodales (audio, vidéo, image, PDF) sont facturées au même tarif que l'entrée texte.

Comparaison des prix avec Gemini 3.5 Flash

Modèle	Entrée / 1M	Sortie / 1M	Cache hit / 1M	Contexte
Gemini 3.1 Flash Lite Preview	$0.25	$1.50	$0.025	1M
Gemini 3 Flash Preview	$0.50	$3.00	$0.05	1M
Claude Haiku 4.5	$1.00	$5.00	$0.10	200K
Gemini 3.5 Flash	$1.50	$9.00	$0.15	1M
Gemini 3.1 Pro	$2.00	$12.00	—	1M
Claude Sonnet 4.6	$3.00	$15.00	$0.30	200K

Gemini 3.5 Flash se positionne comme le modèle Flash de milieu de gamme — plus performant et stable que les modèles Flash en preview, mais nettement moins cher que les modèles de niveau Pro ou Sonnet.

Exemples de coûts par charge de travail

Exemple 1 : Pipeline de classification

Classification à haut volume avec des prompts et des réponses courts.

Volume quotidien : 100 000 requêtes
Entrée moyenne : 500 Tokens par requête
Sortie moyenne : 50 Tokens par requête
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 5M

Composante de coût	Calcul	Quotidien	Mensuel
Entrée	50M × $1.50/1M	$75.00	$2,250
Sortie	5M × $9.00/1M	$45.00	$1,350
Total		$120.00	$3,600

Avec Context Caching (80 % des Tokens d'entrée en cache) :

Composante de coût	Calcul	Quotidien	Mensuel
Entrée (non mise en cache 20 %)	10M × $1.50/1M	$15.00	$450
Entrée (en cache 80 %)	40M × $0.15/1M	$6.00	$180
Sortie	5M × $9.00/1M	$45.00	$1,350
Total avec caching		$66.00	$1,980

Le caching permet d'économiser 45 % dans ce scénario.

Exemple 2 : Coding Agent

Workflow d'Agent avec une entrée modérée (contexte de code) et une sortie importante (code généré).

Volume quotidien : 5 000 sessions Agent
Entrée moyenne : 10 000 Tokens par session
Sortie moyenne : 3 000 Tokens par session
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 15M

Composante de coût	Calcul	Quotidien	Mensuel
Entrée	50M × $1.50/1M	$75.00	$2,250
Sortie	15M × $9.00/1M	$135.00	$4,050
Total		$210.00	$6,300

La sortie domine : elle représente 64 % du coût total. Réduire la longueur moyenne de sortie de 20 % permet d'économiser $1 260 par mois.

Exemple 3 : Analyse de documents à contexte long

Traitement de documents volumineux avec génération de résumés.

Volume quotidien : 500 documents
Entrée moyenne : 100 000 Tokens par document
Sortie moyenne : 2 000 Tokens par document
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 1M

Composante de coût	Calcul	Quotidien	Mensuel
Entrée	50M × $1.50/1M	$75.00	$2,250
Sortie	1M × $9.00/1M	$9.00	$270
Total		$84.00	$2,520

Pour les charges de travail à contexte long dominées par l'entrée, le Context Caching est essentiel. Si 60 % du contexte documentaire est partagé (en-têtes communs, modèles, instructions) :

| Total avec caching | | $48.00 | $1,440 |

Le caching permet d'économiser 43 %.

Exemple 4 : Pipeline multimodale (vidéo + audio)

Traitement de contenu vidéo avec audio pour la compréhension de contenu.

Volume quotidien : 1 000 vidéos
Entrée vidéo moyenne : 20 000 Tokens par vidéo
Entrée audio moyenne : 5 000 Tokens par vidéo
Entrée texte moyenne : 1 000 Tokens par vidéo
Sortie moyenne : 500 Tokens par vidéo
Tokens vidéo quotidiens : 20M
Tokens audio quotidiens : 5M
Tokens texte quotidiens : 1M
Tokens de sortie quotidiens : 500K

Composante de coût	Calcul	Quotidien	Mensuel
Vidéo entrée	20M × $1.50/1M	$30.00	$900
Audio entrée	5M × $1.50/1M	$7.50	$225
Texte entrée	1M × $1.50/1M	$1.50	$45
Sortie	0.5M × $9.00/1M	$4.50	$135
Total		$43.50	$1,305

La tarification multimodale est simple : tous les types d'entrée partagent le même tarif.

Stratégies d'optimisation des coûts

1. Exploiter le Context Caching au maximum

Le Context Caching réduit les coûts d'entrée de 90 %. Mettez en cache :

Les prompts système et instructions
Les exemples Few-shot
Le contexte documentaire partagé entre les requêtes
Les définitions d'outils et Schemas récurrents

2. Optimiser la longueur de sortie

Les Tokens de sortie coûtent 6 fois plus que ceux d'entrée. Stratégies :

Réglez max_tokens au minimum requis pour votre tâche
Utilisez des Schemas de sortie structurée pour contraindre le format de réponse
Pour la classification, utilisez des sorties de type enum plutôt que des explications
Pour l'extraction, ne renvoyez que les champs extraits

3. Utiliser la Batch API pour les charges non urgentes

La Batch API propose généralement des tarifs réduits pour les charges de travail tolérant une latence plus élevée. Adaptée pour :

Le traitement de données nocturne
La classification en masse
Les pipelines d'analyse de documents
L'évaluation et les tests

4. Router selon le niveau de charge de travail

Toutes les requêtes n'ont pas besoin de Gemini 3.5 Flash. Orientez les tâches simples vers des modèles moins coûteux :

Complexité de la charge	Modèle recommandé	Justification
Classification simple	Gemini 3.1 Flash Lite Preview ($0.25/$1.50)	6 fois moins cher en entrée et sortie
Extraction standard	Gemini 3 Flash Preview ($0.50/$3.00)	3 fois moins cher, suffisant pour les tâches simples
Sous-étapes d'Agent	Gemini 3.5 Flash ($1.50/$9.00)	Stabilité GA, meilleur raisonnement
Raisonnement complexe	Gemini 3.1 Pro ($2.00/$12.00)	Qualité supérieure pour les tâches difficiles

5. Surveiller le coût par tâche réussie, pas seulement le coût par Token

Un modèle moins cher nécessitant 3 tentatives peut revenir plus cher qu'un modèle plus coûteux qui réussit du premier coup. Suivez :

Le coût en Tokens par requête
Le taux de relance
Le taux de fallback
Le coût par tâche réussie (relances et fallbacks inclus)

Facteurs de coût cachés

Relances

Si 10 % des requêtes échouent à la validation et doivent être relancées, ajoutez 10 % à votre budget de Tokens. Pour les workflows d'Agent avec des chaînes multi-étapes, les coûts de relance se cumulent d'une étape à l'autre.

Fallback vers des modèles plus puissants

Si Gemini 3.5 Flash ne peut pas traiter 5 % des requêtes et que vous basculez sur Gemini 3.1 Pro, intégrez la tarification Pro dans le budget de ces requêtes.

Croissance du contexte dans les boucles d'Agent

Les workflows d'Agent accumulent souvent du contexte au fil des étapes. Une boucle d'Agent en 5 étapes avec un contexte croissant peut consommer 2 à 3 fois plus de Tokens d'entrée que le prompt initial. Prévoyez un budget pour la croissance du contexte, pas seulement pour la première requête.

Overhead lié aux limites de débit

Si vous atteignez les Rate Limits et devez mettre en file d'attente ou relancer des requêtes, la latence supplémentaire se traduit par du temps d'ingénierie et un impact sur l'expérience utilisateur — pas uniquement par une dépense en Tokens.

FAQ

Quelle est la façon la plus économique d'utiliser Gemini 3.5 Flash ?

Activez le Context Caching pour les prompts récurrents, limitez la longueur de sortie avec des Schemas structurés, utilisez la Batch API pour les traitements non urgents et orientez les tâches simples vers des modèles Flash moins coûteux.

Gemini 3.5 Flash est-il moins cher que Claude Haiku 4.5 ?

Non. Claude Haiku 4.5 est moins cher en entrée ($1.00 contre $1.50) et en sortie ($5.00 contre $9.00) par 1M de Tokens. En revanche, Gemini 3.5 Flash offre un contexte de 1M (contre 200K) et des entrées multimodales natives que Haiku ne prend pas en charge.

Combien le Context Caching permet-il d'économiser ?

Les cache hits coûtent $0.15 par 1M de Tokens contre $1.50 pour l'entrée standard — soit une réduction de 90 %. Pour les charges de travail incluant des prompts système partagés ou un contexte récurrent, le caching peut réduire les coûts totaux de 30 à 50 %.

Gemini 3.5 Flash est-il moins cher que Gemini 3.1 Pro ?

Oui. Gemini 3.5 Flash est 25 % moins cher en entrée ($1.50 contre $2.00) et 25 % moins cher en sortie ($9.00 contre $12.00) par rapport à Gemini 3.1 Pro.

Comment estimer mon coût mensuel ?

Calcul : (Tokens d'entrée quotidiens × $1.50/1M) + (Tokens de sortie quotidiens × $9.00/1M) × 30. Soustrayez ensuite les économies liées au Context Caching et ajoutez le surcoût lié aux relances et aux fallbacks.

Planifiez le budget de vos charges Gemini 3.5 Flash sur EvoLink

EvoLink fournit une API unifiée avec suivi de la consommation et des coûts sur l'ensemble des modèles Gemini. Comparez les coûts, configurez des alertes budgétaires et basculez entre les niveaux Flash depuis une seule intégration.

Lectures complémentaires :

Gemini 3.5 Flash API — Page produit avec tarifs, ID de modèle et Playground
Gemini 3.5 Flash vs Gemini 3 Flash Preview — Comparaison générationnelle avec analyse des coûts
Gemini 3.5 Flash vs Claude Haiku 4.5 — Comparaison des coûts entre familles
Gemini 3.5 Flash for Coding Agents — Analyse des coûts Agent

Explorez sur EvoLink :

Gemini 3.5 Flash API — $1.50/$9.00 par 1M de Tokens
Gemini 3 Flash Preview API — $0.50/$3.00 par 1M de Tokens
Famille Gemini API — Comparez toutes les routes Gemini par prix

Sources

Tous les articles

#Gemini 3.5 Flash #API pricing #token cost #production budgeting #cost optimization