Gemini Omni bientôt disponibleEn savoir plus
Gemini 3.5 Flash vs Gemini 3 Flash Preview : tarifs, contexte et guide de migration
Comparison

Gemini 3.5 Flash vs Gemini 3 Flash Preview : tarifs, contexte et guide de migration

EvoLink Team
EvoLink Team
Product Team
20 mai 2026
10 min de lecture
Dernière vérification : 20 mai 2026. Les données tarifaires et de capacités ci-dessous reposent sur la documentation officielle des modèles Google et les données de la plateforme EvoLink, vérifiées à cette date.
La famille Gemini Flash de Google propose désormais deux générations accessibles via l'API : Gemini 3.5 Flash (stable) et Gemini 3 Flash Preview. Si votre équipe utilise déjà Gemini 3 Flash Preview en production ou évalue un nouveau modèle Flash, la conclusion n'est pas simplement que « le plus récent est le meilleur ». La vraie question est : le gain en capacités justifie-t-il une hausse de prix de 3x pour vos charges de travail spécifiques ?

Synthèse

  • Gemini 3 Flash Preview reste l'option la moins chère à $0.50/$3.00 par 1M de tokens (entrée/sortie). Idéal pour les charges de travail à fort volume et sensibles au coût, où le statut Preview est acceptable.
  • Gemini 3.5 Flash coûte $1.50/$9.00 par 1M de tokens, mais est publié en tant que modèle GA stable avec un raisonnement amélioré, du function calling et une sortie structurée pour les workflows d'agents.
  • Les deux partagent une fenêtre de contexte de 1M de tokens et une limite de sortie de 65 536 tokens.
  • La migration au niveau API est simple (changer le model ID), mais l'impact budgétaire est conséquent — chiffrez avant de basculer.

Tableau comparatif

CritèreGemini 3.5 FlashGemini 3 Flash Preview
Model IDgemini-3.5-flashgemini-3-flash-preview
StatutStable (GA)Preview
Tarif d'entrée$1.50 / 1M tokens$0.50 / 1M tokens
Tarif de sortie$9.00 / 1M tokens$3.00 / 1M tokens
Tarif cache hit$0.15 / 1M tokens$0.05 / 1M tokens
Tarif entrée audio$1.50 / 1M tokens$1.00 / 1M tokens
Fenêtre de contexte1 000 000 tokens1 048 576 tokens
Limite de sortie65 536 tokens65 536 tokens
Entrées multimodalesText, image, video, audio, PDFText, image, video, audio, PDF
Function callingYesYes
Sortie structuréeYesYes
Exécution de codeYesYes
Context cachingYesYes
Batch APIYesYes
Google Search groundingYesYes
Raisonnement intégréYes (amélioré)Yes

Quand rester sur Gemini 3 Flash Preview

Gemini 3 Flash Preview reste un choix pertinent dans les cas suivants :

Le coût est la contrainte principale

À $0.50 en entrée et $3.00 en sortie par 1M de tokens, Gemini 3 Flash Preview est 3 fois moins cher que Gemini 3.5 Flash. Pour les tâches à fort volume — classification, extraction, formatage, routage — où la qualité est déjà suffisante, l'écart de coût s'accumule rapidement.
Exemple : Un pipeline traitant 10M de tokens en entrée et 2M de tokens en sortie par jour :
ModèleCoût d'entrée/jourCoût de sortie/jourTotal/jourTotal/mois
Gemini 3 Flash Preview$5,00$6,00$11,00$330
Gemini 3.5 Flash$15,00$18,00$33,00$990

Cela représente un écart de $660/mois pour un seul pipeline.

Le statut Preview est acceptable

Si votre charge de travail tolère des changements occasionnels de comportement de l'API et que vous gérez déjà les spécificités des modèles Preview (version pinning, tests après mise à jour), rester sur Gemini 3 Flash Preview évite des coûts de migration inutiles.

La qualité actuelle satisfait vos critères d'acceptation

Si votre intégration Gemini 3 Flash Preview passe vos contrôles qualité — validité du schema, exactitude factuelle, latence, taux de relance — il n'y a pas de raison de migrer simplement parce qu'un modèle plus récent existe.

Quand migrer vers Gemini 3.5 Flash

Gemini 3.5 Flash devient le meilleur choix dans ces situations :

Vous avez besoin de garanties de stabilité GA

Les modèles Preview peuvent changer de comportement entre les versions. Gemini 3.5 Flash est publié en tant que modèle GA stable, ce qui signifie un comportement plus prévisible pour les déploiements en production qui ne peuvent pas tolérer de régressions inattendues.

Les workflows d'agents exigent un raisonnement plus puissant

Gemini 3.5 Flash intègre des capacités de raisonnement améliorées. Pour les sous-étapes d'agents impliquant une planification multi-étapes, la sélection d'outils ou des chaînes complexes de function calling, le raisonnement amélioré peut réduire les taux de relance et de fallback — ce qui peut compenser le prix au token plus élevé.

La fiabilité de la sortie structurée est déterminante

Si votre pipeline dépend d'une stricte conformité au schema (JSON mode, réponses de function calling, sorties typées), la sortie structurée améliorée de Gemini 3.5 Flash peut réduire les échecs de validation et le traitement d'erreurs en aval.

Vous construisez de nouvelles charges de travail à partir de zéro

Pour les nouveaux projets sans intégration existante avec Gemini 3 Flash Preview, démarrer sur Gemini 3.5 Flash évite de construire sur un modèle Preview susceptible d'être retiré à terme.

Checklist de migration

Si vous décidez de migrer de Gemini 3 Flash Preview vers Gemini 3.5 Flash :

1. Mettre à jour le model ID

gemini-3-flash-preview → gemini-3.5-flash

Si vous utilisez l'API unifiée d'EvoLink, mettez à jour le paramètre model dans votre requête. Aucun changement d'endpoint ni d'authentification n'est nécessaire.

2. Réévaluer votre budget

Multipliez vos dépenses actuelles Gemini 3 Flash Preview par environ 3 pour estimer les coûts Gemini 3.5 Flash. Tenez compte des économies potentielles liées à un taux de relance plus faible si vos charges de travail bénéficient du raisonnement amélioré.

3. Mener une évaluation en parallèle

Avant de basculer le trafic de production, exécutez les deux modèles sur le même échantillon de charge de travail. Comparez :

  • Taux de réussite des tâches
  • Taux de relance
  • Latence (temps jusqu'au premier token et génération complète)
  • Taux de validité du schema
  • Coût par tâche réussie

4. Mettre à jour la supervision et les alertes

Ajustez les alertes de coût et les seuils budgétaires pour refléter le nouveau palier tarifaire.

5. Planifier le fallback

Conservez Gemini 3 Flash Preview comme route de fallback pendant la migration. Si Gemini 3.5 Flash subit une pression de quota ou des pics de latence, vous pouvez revenir en arrière sans modifier le code.

Coût par tâche réussie : la vraie comparaison

Le prix au token n'est qu'une partie de l'équation. Si Gemini 3.5 Flash génère moins de relances, moins de fallbacks et un meilleur taux de réussite au premier essai sur vos charges de travail, l'écart de coût effectif se réduit.

MétriqueCe qu'il faut surveiller
Coût en tokens par requêteDifférence tarifaire directe
Taux de relanceFréquence à laquelle la première réponse échoue à la validation
Taux de fallbackFréquence à laquelle Flash doit escalader vers un modèle plus puissant
LatenceTemps jusqu'au premier token et génération complète
Taux de réussite des tâchesPourcentage répondant aux critères d'acceptation dès le premier essai
Coût par tâche réussieCoût combiné après relances, fallbacks et tokens gaspillés

Un modèle qui coûte 3 fois plus par token mais réussit du premier coup peut revenir moins cher qu'un modèle nécessitant 2 à 3 relances.

Qu'en est-il de Gemini 3.1 Flash Lite Preview ?

Les équipes qui trouvent Gemini 3.5 Flash trop cher et Gemini 3 Flash Preview pas assez stable devraient aussi envisager Gemini 3.1 Flash Lite Preview à $0.25/$1.50 par 1M de tokens. C'est l'option la moins chère de la famille Gemini Flash, conçue pour les charges de travail à très haut volume et tolérantes aux relances, où la latence et le coût priment sur la qualité maximale.
ModèleEntréeSortieCas d'usage
Gemini 3.1 Flash Lite Preview$0,25$1,50Volume maximal, coût prioritaire
Gemini 3 Flash Preview$0,50$3,00Équilibre coût-capacités
Gemini 3.5 Flash$1,50$9,00Stabilité GA et workflows d'agents

FAQ

Gemini 3.5 Flash remplace-t-il directement Gemini 3 Flash Preview ?

Sur le plan fonctionnel, oui — les deux supportent les mêmes modalités d'entrée, le function calling, la sortie structurée et le context caching. Mais Gemini 3.5 Flash est un modèle GA à un tarif supérieur, tandis que Gemini 3 Flash Preview reste disponible au tarif Preview.

Gemini 3 Flash Preview va-t-il être retiré ?

Google n'a pas annoncé de date de retrait pour Gemini 3 Flash Preview au 20 mai 2026. Cependant, les modèles Preview sont généralement amenés à être remplacés par des versions stables au fil du temps. Consultez les notes de version de l'API Gemini pour les annonces de retrait.

Oui. EvoLink prend en charge les deux model IDs via son API unifiée. Vous pouvez router différentes charges de travail vers différents modèles selon vos exigences de coût, de qualité ou de latence, sans gérer des intégrations séparées par fournisseur.

La hausse de prix de 3x en vaut-elle la peine ?

Cela dépend entièrement de votre charge de travail. Pour les tâches à fort volume et sensibles au coût où Gemini 3 Flash Preview remplit déjà les exigences de qualité, la mise à niveau peut ne pas se justifier. Pour les workflows d'agents, les pipelines de sortie structurée et les systèmes en production nécessitant la stabilité GA, les améliorations en raisonnement et en fiabilité peuvent compenser la hausse de coût.

Comment tester avant de migrer ?

Exécutez les deux modèles sur un échantillon représentatif de vos charges de travail en production. Comparez le taux de réussite des tâches, le taux de relance, la latence et le coût par tâche réussie. Prenez votre décision sur la base de résultats mesurés, pas sur l'hypothèse que le modèle le plus récent est systématiquement meilleur.

EvoLink fournit une API unifiée pour accéder à Gemini 3.5 Flash et Gemini 3 Flash Preview. Testez le routage, le comportement de fallback et le coût par charge de travail depuis une seule intégration.

Articles connexes :

À explorer sur EvoLink :

Sources

Prêt à réduire vos coûts IA de 89 % ?

Commencez avec EvoLink dès aujourd'hui et découvrez la puissance du routage intelligent des API.