
Gemini 3.5 Flash vs Gemini 3 Flash Preview : tarifs, contexte et guide de migration

Synthèse
- Gemini 3 Flash Preview reste l'option la moins chère à
$0.50/$3.00par 1M de tokens (entrée/sortie). Idéal pour les charges de travail à fort volume et sensibles au coût, où le statut Preview est acceptable. - Gemini 3.5 Flash coûte
$1.50/$9.00par 1M de tokens, mais est publié en tant que modèle GA stable avec un raisonnement amélioré, du function calling et une sortie structurée pour les workflows d'agents. - Les deux partagent une fenêtre de contexte de 1M de tokens et une limite de sortie de 65 536 tokens.
- La migration au niveau API est simple (changer le model ID), mais l'impact budgétaire est conséquent — chiffrez avant de basculer.
Tableau comparatif
| Critère | Gemini 3.5 Flash | Gemini 3 Flash Preview |
|---|---|---|
| Model ID | gemini-3.5-flash | gemini-3-flash-preview |
| Statut | Stable (GA) | Preview |
| Tarif d'entrée | $1.50 / 1M tokens | $0.50 / 1M tokens |
| Tarif de sortie | $9.00 / 1M tokens | $3.00 / 1M tokens |
| Tarif cache hit | $0.15 / 1M tokens | $0.05 / 1M tokens |
| Tarif entrée audio | $1.50 / 1M tokens | $1.00 / 1M tokens |
| Fenêtre de contexte | 1 000 000 tokens | 1 048 576 tokens |
| Limite de sortie | 65 536 tokens | 65 536 tokens |
| Entrées multimodales | Text, image, video, audio, PDF | Text, image, video, audio, PDF |
| Function calling | Yes | Yes |
| Sortie structurée | Yes | Yes |
| Exécution de code | Yes | Yes |
| Context caching | Yes | Yes |
| Batch API | Yes | Yes |
| Google Search grounding | Yes | Yes |
| Raisonnement intégré | Yes (amélioré) | Yes |
Quand rester sur Gemini 3 Flash Preview
Gemini 3 Flash Preview reste un choix pertinent dans les cas suivants :
Le coût est la contrainte principale
$0.50 en entrée et $3.00 en sortie par 1M de tokens, Gemini 3 Flash Preview est 3 fois moins cher que Gemini 3.5 Flash. Pour les tâches à fort volume — classification, extraction, formatage, routage — où la qualité est déjà suffisante, l'écart de coût s'accumule rapidement.| Modèle | Coût d'entrée/jour | Coût de sortie/jour | Total/jour | Total/mois |
|---|---|---|---|---|
| Gemini 3 Flash Preview | $5,00 | $6,00 | $11,00 | $330 |
| Gemini 3.5 Flash | $15,00 | $18,00 | $33,00 | $990 |
Cela représente un écart de $660/mois pour un seul pipeline.
Le statut Preview est acceptable
Si votre charge de travail tolère des changements occasionnels de comportement de l'API et que vous gérez déjà les spécificités des modèles Preview (version pinning, tests après mise à jour), rester sur Gemini 3 Flash Preview évite des coûts de migration inutiles.
La qualité actuelle satisfait vos critères d'acceptation
Si votre intégration Gemini 3 Flash Preview passe vos contrôles qualité — validité du schema, exactitude factuelle, latence, taux de relance — il n'y a pas de raison de migrer simplement parce qu'un modèle plus récent existe.
Quand migrer vers Gemini 3.5 Flash
Gemini 3.5 Flash devient le meilleur choix dans ces situations :
Vous avez besoin de garanties de stabilité GA
Les modèles Preview peuvent changer de comportement entre les versions. Gemini 3.5 Flash est publié en tant que modèle GA stable, ce qui signifie un comportement plus prévisible pour les déploiements en production qui ne peuvent pas tolérer de régressions inattendues.
Les workflows d'agents exigent un raisonnement plus puissant
Gemini 3.5 Flash intègre des capacités de raisonnement améliorées. Pour les sous-étapes d'agents impliquant une planification multi-étapes, la sélection d'outils ou des chaînes complexes de function calling, le raisonnement amélioré peut réduire les taux de relance et de fallback — ce qui peut compenser le prix au token plus élevé.
La fiabilité de la sortie structurée est déterminante
Si votre pipeline dépend d'une stricte conformité au schema (JSON mode, réponses de function calling, sorties typées), la sortie structurée améliorée de Gemini 3.5 Flash peut réduire les échecs de validation et le traitement d'erreurs en aval.
Vous construisez de nouvelles charges de travail à partir de zéro
Pour les nouveaux projets sans intégration existante avec Gemini 3 Flash Preview, démarrer sur Gemini 3.5 Flash évite de construire sur un modèle Preview susceptible d'être retiré à terme.
Checklist de migration
Si vous décidez de migrer de Gemini 3 Flash Preview vers Gemini 3.5 Flash :
1. Mettre à jour le model ID
gemini-3-flash-preview → gemini-3.5-flash
Si vous utilisez l'API unifiée d'EvoLink, mettez à jour le paramètre model dans votre requête. Aucun changement d'endpoint ni d'authentification n'est nécessaire.
2. Réévaluer votre budget
Multipliez vos dépenses actuelles Gemini 3 Flash Preview par environ 3 pour estimer les coûts Gemini 3.5 Flash. Tenez compte des économies potentielles liées à un taux de relance plus faible si vos charges de travail bénéficient du raisonnement amélioré.
3. Mener une évaluation en parallèle
Avant de basculer le trafic de production, exécutez les deux modèles sur le même échantillon de charge de travail. Comparez :
- Taux de réussite des tâches
- Taux de relance
- Latence (temps jusqu'au premier token et génération complète)
- Taux de validité du schema
- Coût par tâche réussie
4. Mettre à jour la supervision et les alertes
Ajustez les alertes de coût et les seuils budgétaires pour refléter le nouveau palier tarifaire.
5. Planifier le fallback
Conservez Gemini 3 Flash Preview comme route de fallback pendant la migration. Si Gemini 3.5 Flash subit une pression de quota ou des pics de latence, vous pouvez revenir en arrière sans modifier le code.
Coût par tâche réussie : la vraie comparaison
Le prix au token n'est qu'une partie de l'équation. Si Gemini 3.5 Flash génère moins de relances, moins de fallbacks et un meilleur taux de réussite au premier essai sur vos charges de travail, l'écart de coût effectif se réduit.
| Métrique | Ce qu'il faut surveiller |
|---|---|
| Coût en tokens par requête | Différence tarifaire directe |
| Taux de relance | Fréquence à laquelle la première réponse échoue à la validation |
| Taux de fallback | Fréquence à laquelle Flash doit escalader vers un modèle plus puissant |
| Latence | Temps jusqu'au premier token et génération complète |
| Taux de réussite des tâches | Pourcentage répondant aux critères d'acceptation dès le premier essai |
| Coût par tâche réussie | Coût combiné après relances, fallbacks et tokens gaspillés |
Un modèle qui coûte 3 fois plus par token mais réussit du premier coup peut revenir moins cher qu'un modèle nécessitant 2 à 3 relances.
Qu'en est-il de Gemini 3.1 Flash Lite Preview ?
$0.25/$1.50 par 1M de tokens. C'est l'option la moins chère de la famille Gemini Flash, conçue pour les charges de travail à très haut volume et tolérantes aux relances, où la latence et le coût priment sur la qualité maximale.| Modèle | Entrée | Sortie | Cas d'usage |
|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0,25 | $1,50 | Volume maximal, coût prioritaire |
| Gemini 3 Flash Preview | $0,50 | $3,00 | Équilibre coût-capacités |
| Gemini 3.5 Flash | $1,50 | $9,00 | Stabilité GA et workflows d'agents |
FAQ
Gemini 3.5 Flash remplace-t-il directement Gemini 3 Flash Preview ?
Sur le plan fonctionnel, oui — les deux supportent les mêmes modalités d'entrée, le function calling, la sortie structurée et le context caching. Mais Gemini 3.5 Flash est un modèle GA à un tarif supérieur, tandis que Gemini 3 Flash Preview reste disponible au tarif Preview.
Gemini 3 Flash Preview va-t-il être retiré ?
Puis-je utiliser les deux modèles via EvoLink ?
Oui. EvoLink prend en charge les deux model IDs via son API unifiée. Vous pouvez router différentes charges de travail vers différents modèles selon vos exigences de coût, de qualité ou de latence, sans gérer des intégrations séparées par fournisseur.
La hausse de prix de 3x en vaut-elle la peine ?
Cela dépend entièrement de votre charge de travail. Pour les tâches à fort volume et sensibles au coût où Gemini 3 Flash Preview remplit déjà les exigences de qualité, la mise à niveau peut ne pas se justifier. Pour les workflows d'agents, les pipelines de sortie structurée et les systèmes en production nécessitant la stabilité GA, les améliorations en raisonnement et en fiabilité peuvent compenser la hausse de coût.
Comment tester avant de migrer ?
Exécutez les deux modèles sur un échantillon représentatif de vos charges de travail en production. Comparez le taux de réussite des tâches, le taux de relance, la latence et le coût par tâche réussie. Prenez votre décision sur la base de résultats mesurés, pas sur l'hypothèse que le modèle le plus récent est systématiquement meilleur.
Comparez les modèles Gemini Flash sur EvoLink
EvoLink fournit une API unifiée pour accéder à Gemini 3.5 Flash et Gemini 3 Flash Preview. Testez le routage, le comportement de fallback et le coût par charge de travail depuis une seule intégration.
Articles connexes :
- Gemini 3.5 Flash API — Page produit avec tarifs, model ID et playground
- Guide tarifaire Gemini 3.5 Flash — Ventilation du coût par token et exemples de budget en production
- Gemini 3.5 Flash pour les agents de code — Évaluation de workflows d'agents et analyse de coûts
- Gemini 3.5 Flash vs Claude Haiku 4.5 — Comparaison inter-familles de modèles économiques
- Gemini 3.5 Flash API Release Watch — Suivi de la disponibilité et mises à jour
À explorer sur EvoLink :
- Gemini 3.5 Flash API — $1.50/$9.00 par 1M de tokens, GA stable
- Gemini 3 Flash Preview API — $0.50/$3.00 par 1M de tokens, Preview
- Famille Gemini API — Comparez toutes les routes Gemini par tarif et charge de travail


