API Gemini 3.1 Flash Lite
- One API for Code Agents & CLIs. (View Docs)
$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens
$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens
Google Search grounding charged separately per query.
Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.
Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.
Un modelo Gemini de bajo coste para traducción, extracción y flujos documentales
Gemini 3.1 Flash Lite encaja en tareas de alto throughput donde el coste, la latencia y la tolerancia a reintentos importan más que la calidad de un modelo premium. Con 1M de contexto, entradas multimodales y soporte de herramientas, funciona bien como capa de procesamiento más barata dentro de una stack Gemini más amplia.
Palabra clave de la página
Gemini 3.1 Flash Lite API
Model ID de solicitud
gemini-3.1-flash-lite-preview

Casos de uso ideales para la API Gemini 3.1 Flash Lite
Procesamiento masivo a bajo costo
Flash Lite funciona bien como capa económica dentro de una stack de IA más amplia. Úsalo para backfills de traducción, colas de etiquetado, trabajos de extracción y una primera pasada de clasificación antes de escalar los casos límite a un modelo más potente.

Entradas multimodales con 1M de contexto
Envía texto, imágenes, vídeo, audio o PDF en una sola solicitud con hasta 1.050.000 tokens de entrada. Procesa documentos largos, lotes grandes o contextos de varios pasos sin fragmentar el contenido.

Subtareas agénticas y uso de herramientas
Soporta function calling, salidas estructuradas, thinking, ejecución de código, search grounding y caché. Esto lo vuelve útil para subtareas agénticas de bajo costo, limpieza de retrieval y preprocesamiento estructurado dentro de pipelines multimodelo.

Por qué usar EvoLink para la API Gemini 3.1 Flash Lite
Para equipos que ya trabajan sobre infraestructura tipo OpenAI, EvoLink hace que Gemini 3.1 Flash Lite sea más fácil de llevar a producción: una sola pasarela, menor fricción de migración y un mejor enrutamiento entre modelos económicos y premium.
Mantén flujos tipo OpenAI mientras añades Gemini
Si tu equipo ya depende del OpenAI SDK, autenticación unificada y una capa de requests existente, puedes añadir Gemini 3.1 Flash Lite sin reescribir la integración principal.
Usa Flash Lite como capa low cost en una stack multimodelo
Envía primero a Flash Lite el tráfico barato de traducción, extracción y clasificación, y reserva los modelos más potentes para solicitudes más difíciles o de mayor valor usando la misma pasarela.
Menor coste de migración que con integraciones específicas del proveedor
Una sola API key, formatos de request compatibles con OpenAI y Gemini nativo, más soporte de caché y batch, facilitan operar Gemini junto con el resto de tu catálogo de modelos.
Cómo usar la API Gemini 3.1 Flash Lite
Usa esta página como vista general de acceso: elige el formato de request, utiliza el model ID preview y deja los ejemplos detallados de request para la documentación.
Paso 1 - Elegir el formato de request
Gemini 3.1 Flash Lite puede llamarse mediante solicitudes compatibles con OpenAI o mediante la API Gemini nativa, lo que facilita encajarlo en stacks existentes sin reescribir toda la integración.
Paso 2 - Usar el model ID de request actual
Usa el model ID exacto "gemini-3.1-flash-lite-preview" cuando envíes tráfico de producción. Así mantienes el keyword de la página centrado en la API Gemini 3.1 Flash Lite y, al mismo tiempo, alineado con la ruta que realmente llamas.
Paso 3 - Escala aquí las cargas adecuadas
Usa Flash Lite para colas de traducción, trabajos de extracción, etiquetado y otras cargas de alto volumen, y envía los casos límite o las solicitudes más difíciles a modelos más potentes. Los cuerpos de request exactos, parámetros y ejemplos de endpoint deberían quedarse en la documentación.
Funciones y límites de la API Gemini 3.1 Flash Lite
Las capacidades y límites más importantes para planificar integraciones en producción
1.050.000 tokens de entrada
Hasta 1.050.000 tokens de entrada y 65.536 tokens de salida.
Entradas multimodales
Entradas de texto, imagen, vídeo, audio y PDF con salida de texto.
Thinking + salidas estructuradas
Thinking y salidas estructuradas permiten obtener resultados fiables y legibles por máquina.
Function calling + herramientas
Soporta function calling, ejecución de código y search grounding.
Caché + batch
La caché de contexto y la Batch API son útiles para cargas repetitivas o de gran escala.
Uso de muy bajo costo
Consulta la tabla de precios en vivo situada arriba para ver la tarifa pay-as-you-go actualmente visible en EvoLink.
Preguntas frecuentes sobre la API Gemini 3.1 Flash Lite
Everything you need to know about the product and billing.
Continuar con las páginas de la familia Gemini y guías de integración
Dónde encaja Gemini 3.1 Flash Lite en la familia Gemini
Entiende esta ruta como la capa de ejecución de menor coste en la familia Gemini, no como un reemplazo de modelos generalistas más potentes. Encaja en cargas de alto throughput, tolerantes a reintentos y orientadas a batch; cuando la dificultad o la calidad importan más, sube a una ruta Flash más potente en el sitio.
Agrupa los enlaces de modelos de la familia y el contenido de integración en un solo lugar para mantener la página enfocada y que el siguiente paso sea más claro.