API Gemini 3.1 Flash Lite
- One API for Code Agents & CLIs. (View Docs)
$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens
$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens
Google Search grounding charged separately per query.
Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.
Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.
Un modèle Gemini low cost pour la traduction, l'extraction et les workflows documentaires
Gemini 3.1 Flash Lite convient aux tâches à haut débit où le coût, la latence et la tolérance aux retries comptent davantage que la qualité d'un modèle premium. Avec 1M de contexte, des entrées multimodales et le support d'outils, il fonctionne bien comme couche de traitement moins chère dans une stack Gemini plus large.
Mot-clé de page
Gemini 3.1 Flash Lite API
Model ID de requête
gemini-3.1-flash-lite-preview

Cas d'usage adaptés à l'API Gemini 3.1 Flash Lite
Traitement à grand volume à faible coût
Flash Lite fonctionne bien comme couche de traitement économique dans une stack IA plus large. Utilisez-le pour les reprises de traduction, les files de tagging, les tâches d'extraction et une première passe de classification avant d'envoyer les cas limites vers un modèle plus puissant.

Entrées multimodales avec 1M de contexte
Envoyez du texte, des images, de la vidéo, de l'audio ou des PDF dans une seule requête avec jusqu'à 1 050 000 tokens d'entrée. Traitez des documents longs, de gros lots ou des contextes multi-étapes sans découper le contenu.

Sous-étapes agentiques et usage d'outils
Prend en charge les appels de fonctions, les sorties structurées, le thinking, l'exécution de code, le search grounding et le cache. Cela rend Flash Lite utile pour des sous-étapes agentiques à faible coût, le nettoyage de retrieval et le prétraitement structuré dans des pipelines multi-modèles.

Pourquoi utiliser EvoLink pour l'API Gemini 3.1 Flash Lite
Pour les équipes déjà construites autour d'une infrastructure de type OpenAI, EvoLink rend Gemini 3.1 Flash Lite plus simple à mettre en production : une passerelle unique, moins de friction de migration et un routage plus propre entre modèles économiques et premium.
Conserver des workflows de type OpenAI tout en ajoutant Gemini
Si votre équipe s'appuie déjà sur l'OpenAI SDK, une authentification unifiée et une couche de requêtes existante, vous pouvez ajouter Gemini 3.1 Flash Lite sans réécrire l'intégration principale.
Utiliser Flash Lite comme couche low cost dans une stack multi-modèles
Routez d'abord les requêtes bon marché de traduction, d'extraction et de classification vers Flash Lite, puis envoyez uniquement les tâches plus complexes ou à plus forte valeur vers des modèles plus puissants via la même passerelle.
Un coût de migration plus faible qu'avec des intégrations spécifiques au fournisseur
Une seule clé API, des formats de requête compatibles OpenAI et Gemini natif, ainsi que le support du cache et du batch, facilitent l'exploitation de Gemini aux côtés du reste de votre catalogue de modèles.
Comment utiliser l'API Gemini 3.1 Flash Lite
Utilisez cette page comme vue d'ensemble d'accès : choisissez votre format de requête, utilisez le model ID preview et laissez les exemples détaillés de requête à la documentation.
Étape 1 - Choisir le format de requête
Gemini 3.1 Flash Lite peut être appelé via des requêtes compatibles OpenAI ou via l'API Gemini native, ce qui facilite son intégration dans une stack existante sans réécrire tout le chemin d'intégration.
Étape 2 - Utiliser le model ID de requête actuel
Utilisez le model ID exact "gemini-3.1-flash-lite-preview" pour le trafic de production. Cela permet de garder le mot-clé de la page centré sur l'API Gemini 3.1 Flash Lite tout en restant aligné avec la route réellement appelée.
Étape 3 - Faire monter en charge les bons workloads ici
Utilisez Flash Lite pour les files de traduction, les tâches d'extraction, le tagging et d'autres traitements à grand volume, puis envoyez les cas limites ou plus difficiles vers des modèles plus puissants. Les corps de requête exacts, paramètres et exemples d'endpoints doivent rester dans la documentation.
Fonctionnalités et limites de l'API Gemini 3.1 Flash Lite
Les capacités et contraintes les plus importantes pour planifier une intégration en production
1 050 000 tokens en entrée
Jusqu'à 1 050 000 tokens en entrée et 65 536 tokens en sortie.
Entrées multimodales
Entrées texte, image, vidéo, audio et PDF avec sortie texte.
Thinking + sorties structurées
Le thinking et les sorties structurées sont pris en charge pour produire des résultats fiables et lisibles par machine.
Appels de fonctions + outils
Appels de fonctions, exécution de code et search grounding sont pris en charge.
Cache + batch
Le cache de contexte et la Batch API conviennent aux workloads répétitifs ou à grande échelle.
Utilisation à très faible coût
Consultez le tableau de tarification en direct en haut de la page pour connaître le tarif pay-as-you-go actuellement visible sur EvoLink.
FAQ sur l'API Gemini 3.1 Flash Lite
Everything you need to know about the product and billing.
Continuer avec les pages de la famille Gemini et les guides d'intégration
Où se situe Gemini 3.1 Flash Lite dans la famille Gemini
Considérez cette route comme la couche d'exécution à moindre coût de la famille Gemini, pas comme un remplacement de modèles généralistes plus puissants. Elle convient aux workloads à haut débit, tolérants aux retries et orientés batch ; quand la difficulté ou la qualité comptent davantage, passez à une route Flash plus puissante sur le site.
Regrouper les liens des modèles de la famille et le contenu d'intégration au même endroit pour que la page reste ciblée et que l'étape suivante soit plus claire.