Gemini Omni bientôt disponibleEn savoir plus
Guide tarifaire Gemini 3.5 Flash : coûts par Token, exemples de charges de travail et budget de production
pricing

Guide tarifaire Gemini 3.5 Flash : coûts par Token, exemples de charges de travail et budget de production

EvoLink Team
EvoLink Team
Product Team
20 mai 2026
12 min de lecture
Dernière vérification : 20 mai 2026. Les données tarifaires ci-dessous sont basées sur la documentation officielle des modèles Google et les données de la plateforme EvoLink vérifiées à cette date.
Gemini 3.5 Flash est le modèle stable et économique de Google pour les charges de travail de production à haut volume. Cependant, « économique » est relatif : à $1.50/$9.00 par 1M de Tokens, il se situe entre les options à bas prix comme Gemini 3 Flash Preview et les modèles premium comme Gemini 3.1 Pro. Ce guide détaille chaque dimension tarifaire et montre ce que coûtent réellement les charges de travail en production.

En bref

  • Entrée : $1.50 par 1M de Tokens
  • Sortie : $9.00 par 1M de Tokens
  • Cache hit : $0.15 par 1M de Tokens (90 % d'économie sur l'entrée mise en cache)
  • Entrée audio/vidéo : $1.50 par 1M de Tokens (même tarif que le texte)
  • Context Caching, Batch API et Google Search Grounding sont pris en charge
  • Le principal facteur de coût sont les Tokens de sortie, pas ceux d'entrée — optimisez d'abord la longueur des réponses

Tableau tarifaire complet

Type de TokenPrix par 1M de TokensRemarques
Texte entrée$1.50Tokens de prompt texte standard
Texte sortie$9.00Tokens de réponse générés par le modèle
Cache hit (entrée)$0.1590 % de réduction par rapport à l'entrée standard ; stockage à $1.00/heure
Audio entrée$1.50Tokens audio traités
Vidéo entrée$1.50Tokens de trames vidéo traités
Image entrée$1.50Tokens d'image traités
PDF entrée$1.50Tokens de document traités

Tarifs Batch et Flex

Google propose également des tarifs réduits pour les charges de travail non urgentes :

Niveau tarifaireEntrée / 1MSortie / 1MCas d'utilisation
Standard$1.50$9.00Requêtes en temps réel
Batch$0.75$4.50Traitement en masse asynchrone
Flex$0.75$4.50Délai de livraison flexible
Priority$2.70$16.20Faible latence garantie
Les tarifs Batch et Flex offrent une réduction de 50 % par rapport aux tarifs standard.

Points clés

  • Les Tokens de sortie coûtent 6 fois plus que les Tokens d'entrée. C'est le levier de coût le plus important.
  • Les cache hits réduisent le coût d'entrée de 90 % — mais tenez compte du coût de stockage du cache à $1.00/heure.
  • Les tarifs Batch/Flex divisent par deux les coûts d'entrée et de sortie pour les charges non urgentes.
  • Toutes les entrées multimodales (audio, vidéo, image, PDF) sont facturées au même tarif que l'entrée texte.

Comparaison des prix avec Gemini 3.5 Flash

ModèleEntrée / 1MSortie / 1MCache hit / 1MContexte
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash se positionne comme le modèle Flash de milieu de gamme — plus performant et stable que les modèles Flash en preview, mais nettement moins cher que les modèles de niveau Pro ou Sonnet.

Exemples de coûts par charge de travail

Exemple 1 : Pipeline de classification

Classification à haut volume avec des prompts et des réponses courts.

Volume quotidien : 100 000 requêtes Entrée moyenne : 500 Tokens par requête Sortie moyenne : 50 Tokens par requête Tokens d'entrée quotidiens : 50M Tokens de sortie quotidiens : 5M
Composante de coûtCalculQuotidienMensuel
Entrée50M × $1.50/1M$75.00$2,250
Sortie5M × $9.00/1M$45.00$1,350
Total$120.00$3,600

Avec Context Caching (80 % des Tokens d'entrée en cache) :

Composante de coûtCalculQuotidienMensuel
Entrée (non mise en cache 20 %)10M × $1.50/1M$15.00$450
Entrée (en cache 80 %)40M × $0.15/1M$6.00$180
Sortie5M × $9.00/1M$45.00$1,350
Total avec caching$66.00$1,980
Le caching permet d'économiser 45 % dans ce scénario.

Exemple 2 : Coding Agent

Workflow d'Agent avec une entrée modérée (contexte de code) et une sortie importante (code généré).

Volume quotidien : 5 000 sessions Agent Entrée moyenne : 10 000 Tokens par session Sortie moyenne : 3 000 Tokens par session Tokens d'entrée quotidiens : 50M Tokens de sortie quotidiens : 15M
Composante de coûtCalculQuotidienMensuel
Entrée50M × $1.50/1M$75.00$2,250
Sortie15M × $9.00/1M$135.00$4,050
Total$210.00$6,300

La sortie domine : elle représente 64 % du coût total. Réduire la longueur moyenne de sortie de 20 % permet d'économiser $1 260 par mois.

Exemple 3 : Analyse de documents à contexte long

Traitement de documents volumineux avec génération de résumés.

Volume quotidien : 500 documents Entrée moyenne : 100 000 Tokens par document Sortie moyenne : 2 000 Tokens par document Tokens d'entrée quotidiens : 50M Tokens de sortie quotidiens : 1M
Composante de coûtCalculQuotidienMensuel
Entrée50M × $1.50/1M$75.00$2,250
Sortie1M × $9.00/1M$9.00$270
Total$84.00$2,520

Pour les charges de travail à contexte long dominées par l'entrée, le Context Caching est essentiel. Si 60 % du contexte documentaire est partagé (en-têtes communs, modèles, instructions) :

| Total avec caching | | $48.00 | $1,440 |
Le caching permet d'économiser 43 %.

Exemple 4 : Pipeline multimodale (vidéo + audio)

Traitement de contenu vidéo avec audio pour la compréhension de contenu.

Volume quotidien : 1 000 vidéos Entrée vidéo moyenne : 20 000 Tokens par vidéo Entrée audio moyenne : 5 000 Tokens par vidéo Entrée texte moyenne : 1 000 Tokens par vidéo Sortie moyenne : 500 Tokens par vidéo Tokens vidéo quotidiens : 20M Tokens audio quotidiens : 5M Tokens texte quotidiens : 1M Tokens de sortie quotidiens : 500K
Composante de coûtCalculQuotidienMensuel
Vidéo entrée20M × $1.50/1M$30.00$900
Audio entrée5M × $1.50/1M$7.50$225
Texte entrée1M × $1.50/1M$1.50$45
Sortie0.5M × $9.00/1M$4.50$135
Total$43.50$1,305

La tarification multimodale est simple : tous les types d'entrée partagent le même tarif.

Stratégies d'optimisation des coûts

1. Exploiter le Context Caching au maximum

Le Context Caching réduit les coûts d'entrée de 90 %. Mettez en cache :

  • Les prompts système et instructions
  • Les exemples Few-shot
  • Le contexte documentaire partagé entre les requêtes
  • Les définitions d'outils et Schemas récurrents

2. Optimiser la longueur de sortie

Les Tokens de sortie coûtent 6 fois plus que ceux d'entrée. Stratégies :

  • Réglez max_tokens au minimum requis pour votre tâche
  • Utilisez des Schemas de sortie structurée pour contraindre le format de réponse
  • Pour la classification, utilisez des sorties de type enum plutôt que des explications
  • Pour l'extraction, ne renvoyez que les champs extraits

3. Utiliser la Batch API pour les charges non urgentes

La Batch API propose généralement des tarifs réduits pour les charges de travail tolérant une latence plus élevée. Adaptée pour :

  • Le traitement de données nocturne
  • La classification en masse
  • Les pipelines d'analyse de documents
  • L'évaluation et les tests

4. Router selon le niveau de charge de travail

Toutes les requêtes n'ont pas besoin de Gemini 3.5 Flash. Orientez les tâches simples vers des modèles moins coûteux :

Complexité de la chargeModèle recommandéJustification
Classification simpleGemini 3.1 Flash Lite Preview ($0.25/$1.50)6 fois moins cher en entrée et sortie
Extraction standardGemini 3 Flash Preview ($0.50/$3.00)3 fois moins cher, suffisant pour les tâches simples
Sous-étapes d'AgentGemini 3.5 Flash ($1.50/$9.00)Stabilité GA, meilleur raisonnement
Raisonnement complexeGemini 3.1 Pro ($2.00/$12.00)Qualité supérieure pour les tâches difficiles

5. Surveiller le coût par tâche réussie, pas seulement le coût par Token

Un modèle moins cher nécessitant 3 tentatives peut revenir plus cher qu'un modèle plus coûteux qui réussit du premier coup. Suivez :

  • Le coût en Tokens par requête
  • Le taux de relance
  • Le taux de fallback
  • Le coût par tâche réussie (relances et fallbacks inclus)

Facteurs de coût cachés

Relances

Si 10 % des requêtes échouent à la validation et doivent être relancées, ajoutez 10 % à votre budget de Tokens. Pour les workflows d'Agent avec des chaînes multi-étapes, les coûts de relance se cumulent d'une étape à l'autre.

Fallback vers des modèles plus puissants

Si Gemini 3.5 Flash ne peut pas traiter 5 % des requêtes et que vous basculez sur Gemini 3.1 Pro, intégrez la tarification Pro dans le budget de ces requêtes.

Croissance du contexte dans les boucles d'Agent

Les workflows d'Agent accumulent souvent du contexte au fil des étapes. Une boucle d'Agent en 5 étapes avec un contexte croissant peut consommer 2 à 3 fois plus de Tokens d'entrée que le prompt initial. Prévoyez un budget pour la croissance du contexte, pas seulement pour la première requête.

Overhead lié aux limites de débit

Si vous atteignez les Rate Limits et devez mettre en file d'attente ou relancer des requêtes, la latence supplémentaire se traduit par du temps d'ingénierie et un impact sur l'expérience utilisateur — pas uniquement par une dépense en Tokens.

FAQ

Quelle est la façon la plus économique d'utiliser Gemini 3.5 Flash ?

Activez le Context Caching pour les prompts récurrents, limitez la longueur de sortie avec des Schemas structurés, utilisez la Batch API pour les traitements non urgents et orientez les tâches simples vers des modèles Flash moins coûteux.

Gemini 3.5 Flash est-il moins cher que Claude Haiku 4.5 ?

Non. Claude Haiku 4.5 est moins cher en entrée ($1.00 contre $1.50) et en sortie ($5.00 contre $9.00) par 1M de Tokens. En revanche, Gemini 3.5 Flash offre un contexte de 1M (contre 200K) et des entrées multimodales natives que Haiku ne prend pas en charge.

Combien le Context Caching permet-il d'économiser ?

Les cache hits coûtent $0.15 par 1M de Tokens contre $1.50 pour l'entrée standard — soit une réduction de 90 %. Pour les charges de travail incluant des prompts système partagés ou un contexte récurrent, le caching peut réduire les coûts totaux de 30 à 50 %.

Gemini 3.5 Flash est-il moins cher que Gemini 3.1 Pro ?

Oui. Gemini 3.5 Flash est 25 % moins cher en entrée ($1.50 contre $2.00) et 25 % moins cher en sortie ($9.00 contre $12.00) par rapport à Gemini 3.1 Pro.

Comment estimer mon coût mensuel ?

Calcul : (Tokens d'entrée quotidiens × $1.50/1M) + (Tokens de sortie quotidiens × $9.00/1M) × 30. Soustrayez ensuite les économies liées au Context Caching et ajoutez le surcoût lié aux relances et aux fallbacks.

EvoLink fournit une API unifiée avec suivi de la consommation et des coûts sur l'ensemble des modèles Gemini. Comparez les coûts, configurez des alertes budgétaires et basculez entre les niveaux Flash depuis une seule intégration.

Lectures complémentaires :

Explorez sur EvoLink :

Sources

Prêt à réduire vos coûts IA de 89 % ?

Commencez avec EvoLink dès aujourd'hui et découvrez la puissance du routage intelligent des API.