
Guide tarifaire Gemini 3.5 Flash : coûts par Token, exemples de charges de travail et budget de production

$1.50/$9.00 par 1M de Tokens, il se situe entre les options à bas prix comme Gemini 3 Flash Preview et les modèles premium comme Gemini 3.1 Pro. Ce guide détaille chaque dimension tarifaire et montre ce que coûtent réellement les charges de travail en production.En bref
- Entrée : $1.50 par 1M de Tokens
- Sortie : $9.00 par 1M de Tokens
- Cache hit : $0.15 par 1M de Tokens (90 % d'économie sur l'entrée mise en cache)
- Entrée audio/vidéo : $1.50 par 1M de Tokens (même tarif que le texte)
- Context Caching, Batch API et Google Search Grounding sont pris en charge
- Le principal facteur de coût sont les Tokens de sortie, pas ceux d'entrée — optimisez d'abord la longueur des réponses
Tableau tarifaire complet
| Type de Token | Prix par 1M de Tokens | Remarques |
|---|---|---|
| Texte entrée | $1.50 | Tokens de prompt texte standard |
| Texte sortie | $9.00 | Tokens de réponse générés par le modèle |
| Cache hit (entrée) | $0.15 | 90 % de réduction par rapport à l'entrée standard ; stockage à $1.00/heure |
| Audio entrée | $1.50 | Tokens audio traités |
| Vidéo entrée | $1.50 | Tokens de trames vidéo traités |
| Image entrée | $1.50 | Tokens d'image traités |
| PDF entrée | $1.50 | Tokens de document traités |
Tarifs Batch et Flex
Google propose également des tarifs réduits pour les charges de travail non urgentes :
| Niveau tarifaire | Entrée / 1M | Sortie / 1M | Cas d'utilisation |
|---|---|---|---|
| Standard | $1.50 | $9.00 | Requêtes en temps réel |
| Batch | $0.75 | $4.50 | Traitement en masse asynchrone |
| Flex | $0.75 | $4.50 | Délai de livraison flexible |
| Priority | $2.70 | $16.20 | Faible latence garantie |
Points clés
- Les Tokens de sortie coûtent 6 fois plus que les Tokens d'entrée. C'est le levier de coût le plus important.
- Les cache hits réduisent le coût d'entrée de 90 % — mais tenez compte du coût de stockage du cache à
$1.00/heure. - Les tarifs Batch/Flex divisent par deux les coûts d'entrée et de sortie pour les charges non urgentes.
- Toutes les entrées multimodales (audio, vidéo, image, PDF) sont facturées au même tarif que l'entrée texte.
Comparaison des prix avec Gemini 3.5 Flash
| Modèle | Entrée / 1M | Sortie / 1M | Cache hit / 1M | Contexte |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | $0.025 | 1M |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | — | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 200K |
Exemples de coûts par charge de travail
Exemple 1 : Pipeline de classification
Classification à haut volume avec des prompts et des réponses courts.
Volume quotidien : 100 000 requêtes
Entrée moyenne : 500 Tokens par requête
Sortie moyenne : 50 Tokens par requête
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 5M
| Composante de coût | Calcul | Quotidien | Mensuel |
|---|---|---|---|
| Entrée | 50M × $1.50/1M | $75.00 | $2,250 |
| Sortie | 5M × $9.00/1M | $45.00 | $1,350 |
| Total | $120.00 | $3,600 |
Avec Context Caching (80 % des Tokens d'entrée en cache) :
| Composante de coût | Calcul | Quotidien | Mensuel |
|---|---|---|---|
| Entrée (non mise en cache 20 %) | 10M × $1.50/1M | $15.00 | $450 |
| Entrée (en cache 80 %) | 40M × $0.15/1M | $6.00 | $180 |
| Sortie | 5M × $9.00/1M | $45.00 | $1,350 |
| Total avec caching | $66.00 | $1,980 |
Exemple 2 : Coding Agent
Workflow d'Agent avec une entrée modérée (contexte de code) et une sortie importante (code généré).
Volume quotidien : 5 000 sessions Agent
Entrée moyenne : 10 000 Tokens par session
Sortie moyenne : 3 000 Tokens par session
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 15M
| Composante de coût | Calcul | Quotidien | Mensuel |
|---|---|---|---|
| Entrée | 50M × $1.50/1M | $75.00 | $2,250 |
| Sortie | 15M × $9.00/1M | $135.00 | $4,050 |
| Total | $210.00 | $6,300 |
La sortie domine : elle représente 64 % du coût total. Réduire la longueur moyenne de sortie de 20 % permet d'économiser $1 260 par mois.
Exemple 3 : Analyse de documents à contexte long
Traitement de documents volumineux avec génération de résumés.
Volume quotidien : 500 documents
Entrée moyenne : 100 000 Tokens par document
Sortie moyenne : 2 000 Tokens par document
Tokens d'entrée quotidiens : 50M
Tokens de sortie quotidiens : 1M
| Composante de coût | Calcul | Quotidien | Mensuel |
|---|---|---|---|
| Entrée | 50M × $1.50/1M | $75.00 | $2,250 |
| Sortie | 1M × $9.00/1M | $9.00 | $270 |
| Total | $84.00 | $2,520 |
Pour les charges de travail à contexte long dominées par l'entrée, le Context Caching est essentiel. Si 60 % du contexte documentaire est partagé (en-têtes communs, modèles, instructions) :
Exemple 4 : Pipeline multimodale (vidéo + audio)
Traitement de contenu vidéo avec audio pour la compréhension de contenu.
Volume quotidien : 1 000 vidéos
Entrée vidéo moyenne : 20 000 Tokens par vidéo
Entrée audio moyenne : 5 000 Tokens par vidéo
Entrée texte moyenne : 1 000 Tokens par vidéo
Sortie moyenne : 500 Tokens par vidéo
Tokens vidéo quotidiens : 20M
Tokens audio quotidiens : 5M
Tokens texte quotidiens : 1M
Tokens de sortie quotidiens : 500K
| Composante de coût | Calcul | Quotidien | Mensuel |
|---|---|---|---|
| Vidéo entrée | 20M × $1.50/1M | $30.00 | $900 |
| Audio entrée | 5M × $1.50/1M | $7.50 | $225 |
| Texte entrée | 1M × $1.50/1M | $1.50 | $45 |
| Sortie | 0.5M × $9.00/1M | $4.50 | $135 |
| Total | $43.50 | $1,305 |
La tarification multimodale est simple : tous les types d'entrée partagent le même tarif.
Stratégies d'optimisation des coûts
1. Exploiter le Context Caching au maximum
Le Context Caching réduit les coûts d'entrée de 90 %. Mettez en cache :
- Les prompts système et instructions
- Les exemples Few-shot
- Le contexte documentaire partagé entre les requêtes
- Les définitions d'outils et Schemas récurrents
2. Optimiser la longueur de sortie
Les Tokens de sortie coûtent 6 fois plus que ceux d'entrée. Stratégies :
- Réglez
max_tokensau minimum requis pour votre tâche - Utilisez des Schemas de sortie structurée pour contraindre le format de réponse
- Pour la classification, utilisez des sorties de type enum plutôt que des explications
- Pour l'extraction, ne renvoyez que les champs extraits
3. Utiliser la Batch API pour les charges non urgentes
La Batch API propose généralement des tarifs réduits pour les charges de travail tolérant une latence plus élevée. Adaptée pour :
- Le traitement de données nocturne
- La classification en masse
- Les pipelines d'analyse de documents
- L'évaluation et les tests
4. Router selon le niveau de charge de travail
Toutes les requêtes n'ont pas besoin de Gemini 3.5 Flash. Orientez les tâches simples vers des modèles moins coûteux :
| Complexité de la charge | Modèle recommandé | Justification |
|---|---|---|
| Classification simple | Gemini 3.1 Flash Lite Preview ($0.25/$1.50) | 6 fois moins cher en entrée et sortie |
| Extraction standard | Gemini 3 Flash Preview ($0.50/$3.00) | 3 fois moins cher, suffisant pour les tâches simples |
| Sous-étapes d'Agent | Gemini 3.5 Flash ($1.50/$9.00) | Stabilité GA, meilleur raisonnement |
| Raisonnement complexe | Gemini 3.1 Pro ($2.00/$12.00) | Qualité supérieure pour les tâches difficiles |
5. Surveiller le coût par tâche réussie, pas seulement le coût par Token
Un modèle moins cher nécessitant 3 tentatives peut revenir plus cher qu'un modèle plus coûteux qui réussit du premier coup. Suivez :
- Le coût en Tokens par requête
- Le taux de relance
- Le taux de fallback
- Le coût par tâche réussie (relances et fallbacks inclus)
Facteurs de coût cachés
Relances
Si 10 % des requêtes échouent à la validation et doivent être relancées, ajoutez 10 % à votre budget de Tokens. Pour les workflows d'Agent avec des chaînes multi-étapes, les coûts de relance se cumulent d'une étape à l'autre.
Fallback vers des modèles plus puissants
Si Gemini 3.5 Flash ne peut pas traiter 5 % des requêtes et que vous basculez sur Gemini 3.1 Pro, intégrez la tarification Pro dans le budget de ces requêtes.
Croissance du contexte dans les boucles d'Agent
Les workflows d'Agent accumulent souvent du contexte au fil des étapes. Une boucle d'Agent en 5 étapes avec un contexte croissant peut consommer 2 à 3 fois plus de Tokens d'entrée que le prompt initial. Prévoyez un budget pour la croissance du contexte, pas seulement pour la première requête.
Overhead lié aux limites de débit
Si vous atteignez les Rate Limits et devez mettre en file d'attente ou relancer des requêtes, la latence supplémentaire se traduit par du temps d'ingénierie et un impact sur l'expérience utilisateur — pas uniquement par une dépense en Tokens.
FAQ
Quelle est la façon la plus économique d'utiliser Gemini 3.5 Flash ?
Activez le Context Caching pour les prompts récurrents, limitez la longueur de sortie avec des Schemas structurés, utilisez la Batch API pour les traitements non urgents et orientez les tâches simples vers des modèles Flash moins coûteux.
Gemini 3.5 Flash est-il moins cher que Claude Haiku 4.5 ?
Non. Claude Haiku 4.5 est moins cher en entrée ($1.00 contre $1.50) et en sortie ($5.00 contre $9.00) par 1M de Tokens. En revanche, Gemini 3.5 Flash offre un contexte de 1M (contre 200K) et des entrées multimodales natives que Haiku ne prend pas en charge.
Combien le Context Caching permet-il d'économiser ?
Les cache hits coûtent $0.15 par 1M de Tokens contre $1.50 pour l'entrée standard — soit une réduction de 90 %. Pour les charges de travail incluant des prompts système partagés ou un contexte récurrent, le caching peut réduire les coûts totaux de 30 à 50 %.
Gemini 3.5 Flash est-il moins cher que Gemini 3.1 Pro ?
Oui. Gemini 3.5 Flash est 25 % moins cher en entrée ($1.50 contre $2.00) et 25 % moins cher en sortie ($9.00 contre $12.00) par rapport à Gemini 3.1 Pro.
Comment estimer mon coût mensuel ?
(Tokens d'entrée quotidiens × $1.50/1M) + (Tokens de sortie quotidiens × $9.00/1M) × 30. Soustrayez ensuite les économies liées au Context Caching et ajoutez le surcoût lié aux relances et aux fallbacks.Planifiez le budget de vos charges Gemini 3.5 Flash sur EvoLink
EvoLink fournit une API unifiée avec suivi de la consommation et des coûts sur l'ensemble des modèles Gemini. Comparez les coûts, configurez des alertes budgétaires et basculez entre les niveaux Flash depuis une seule intégration.
Lectures complémentaires :
- Gemini 3.5 Flash API — Page produit avec tarifs, ID de modèle et Playground
- Gemini 3.5 Flash vs Gemini 3 Flash Preview — Comparaison générationnelle avec analyse des coûts
- Gemini 3.5 Flash vs Claude Haiku 4.5 — Comparaison des coûts entre familles
- Gemini 3.5 Flash for Coding Agents — Analyse des coûts Agent
Explorez sur EvoLink :
- Gemini 3.5 Flash API — $1.50/$9.00 par 1M de Tokens
- Gemini 3 Flash Preview API — $0.50/$3.00 par 1M de Tokens
- Famille Gemini API — Comparez toutes les routes Gemini par prix


