
Guía de precios de Gemini 3.5 Flash: costes por Token, ejemplos de carga de trabajo y presupuesto de producción

$1.50/$9.00 por 1M Tokens, se sitúa entre opciones económicas como Gemini 3 Flash Preview y modelos premium como Gemini 3.1 Pro. Esta guía desglosa cada dimensión de precios y muestra cuánto cuestan realmente las cargas de trabajo en producción.Resumen
- Entrada: $1.50 por 1M Tokens
- Salida: $9.00 por 1M Tokens
- Cache hit: $0.15 por 1M Tokens (90 % de ahorro en entrada cacheada)
- Entrada de audio/vídeo: $1.50 por 1M Tokens (mismo precio que texto)
- Compatible con Context Caching, Batch API y Google Search Grounding
- El mayor factor de coste son los Tokens de salida, no los de entrada: optimice primero la longitud de salida
Tabla de precios completa
| Tipo de Token | Precio por 1M Tokens | Notas |
|---|---|---|
| Texto entrada | $1.50 | Tokens de prompt de texto estándar |
| Texto salida | $9.00 | Tokens de respuesta generados por el modelo |
| Cache hit (entrada) | $0.15 | 90 % de descuento respecto a la entrada estándar; almacenamiento a $1.00/hora |
| Audio entrada | $1.50 | Tokens de audio procesados |
| Vídeo entrada | $1.50 | Tokens de fotogramas de vídeo procesados |
| Imagen entrada | $1.50 | Tokens de imagen procesados |
| PDF entrada | $1.50 | Tokens de documento procesados |
Precios Batch y Flex
Google también ofrece precios con descuento para cargas de trabajo no urgentes:
| Nivel de precios | Entrada / 1M | Salida / 1M | Caso de uso |
|---|---|---|---|
| Standard | $1.50 | $9.00 | Solicitudes en tiempo real |
| Batch | $0.75 | $4.50 | Procesamiento masivo asíncrono |
| Flex | $0.75 | $4.50 | Entrega con horario flexible |
| Priority | $2.70 | $16.20 | Baja latencia garantizada |
Observaciones clave
- Los Tokens de salida cuestan 6 veces más que los de entrada. Este es el factor de coste más importante.
- Los cache hits reducen el coste de entrada en un 90 % — pero tenga en cuenta el coste de almacenamiento de caché de
$1.00/hora. - Los precios Batch/Flex reducen a la mitad los costes de entrada y salida para cargas no urgentes.
- Todas las entradas multimodales (audio, vídeo, imagen, PDF) se facturan a la misma tarifa que la entrada de texto.
Comparación de precios con Gemini 3.5 Flash
| Modelo | Entrada / 1M | Salida / 1M | Cache hit / 1M | Contexto |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | $0.025 | 1M |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | — | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 200K |
Ejemplos de costes por carga de trabajo
Ejemplo 1: Pipeline de clasificación
Clasificación de alto volumen con prompts cortos y respuestas cortas.
Volumen diario: 100.000 solicitudes
Entrada media: 500 Tokens por solicitud
Salida media: 50 Tokens por solicitud
Tokens de entrada diarios: 50M
Tokens de salida diarios: 5M
| Componente de coste | Cálculo | Diario | Mensual |
|---|---|---|---|
| Entrada | 50M × $1.50/1M | $75.00 | $2,250 |
| Salida | 5M × $9.00/1M | $45.00 | $1,350 |
| Total | $120.00 | $3,600 |
Con Context Caching (80 % de los Tokens de entrada cacheados):
| Componente de coste | Cálculo | Diario | Mensual |
|---|---|---|---|
| Entrada (no cacheada 20 %) | 10M × $1.50/1M | $15.00 | $450 |
| Entrada (cacheada 80 %) | 40M × $0.15/1M | $6.00 | $180 |
| Salida | 5M × $9.00/1M | $45.00 | $1,350 |
| Total con caching | $66.00 | $1,980 |
Ejemplo 2: Coding Agent
Flujo de trabajo de Agent con entrada moderada (contexto de código) y salida elevada (código generado).
Volumen diario: 5.000 sesiones de Agent
Entrada media: 10.000 Tokens por sesión
Salida media: 3.000 Tokens por sesión
Tokens de entrada diarios: 50M
Tokens de salida diarios: 15M
| Componente de coste | Cálculo | Diario | Mensual |
|---|---|---|---|
| Entrada | 50M × $1.50/1M | $75.00 | $2,250 |
| Salida | 15M × $9.00/1M | $135.00 | $4,050 |
| Total | $210.00 | $6,300 |
La salida domina: representa el 64 % del coste total. Reducir la longitud media de salida en un 20 % ahorra $1.260 al mes.
Ejemplo 3: Análisis de documentos con contexto largo
Procesamiento de documentos extensos con salida de resúmenes.
Volumen diario: 500 documentos
Entrada media: 100.000 Tokens por documento
Salida media: 2.000 Tokens por documento
Tokens de entrada diarios: 50M
Tokens de salida diarios: 1M
| Componente de coste | Cálculo | Diario | Mensual |
|---|---|---|---|
| Entrada | 50M × $1.50/1M | $75.00 | $2,250 |
| Salida | 1M × $9.00/1M | $9.00 | $270 |
| Total | $84.00 | $2,520 |
Para cargas de trabajo con contexto largo y alta proporción de entrada, el Context Caching es fundamental. Si el 60 % del contexto documental es compartido (encabezados comunes, plantillas, instrucciones):
Ejemplo 4: Pipeline multimodal (vídeo + audio)
Procesamiento de contenido de vídeo con audio para comprensión de contenido.
Volumen diario: 1.000 vídeos
Entrada de vídeo media: 20.000 Tokens por vídeo
Entrada de audio media: 5.000 Tokens por vídeo
Entrada de texto media: 1.000 Tokens por vídeo
Salida media: 500 Tokens por vídeo
Tokens de vídeo diarios: 20M
Tokens de audio diarios: 5M
Tokens de texto diarios: 1M
Tokens de salida diarios: 500K
| Componente de coste | Cálculo | Diario | Mensual |
|---|---|---|---|
| Vídeo entrada | 20M × $1.50/1M | $30.00 | $900 |
| Audio entrada | 5M × $1.50/1M | $7.50 | $225 |
| Texto entrada | 1M × $1.50/1M | $1.50 | $45 |
| Salida | 0.5M × $9.00/1M | $4.50 | $135 |
| Total | $43.50 | $1,305 |
La tarificación multimodal es directa: todos los tipos de entrada comparten la misma tarifa.
Estrategias de optimización de costes
1. Utilizar Context Caching de forma agresiva
El Context Caching reduce los costes de entrada en un 90 %. Aplíquelo a:
- Prompts de sistema e instrucciones
- Ejemplos Few-shot
- Contexto de documentos compartido entre solicitudes
- Definiciones de herramientas y Schemas recurrentes
2. Optimizar la longitud de salida
Los Tokens de salida cuestan 6 veces más que los de entrada. Estrategias:
- Configure
max_tokenscon el valor mínimo necesario para su tarea - Utilice Schemas de salida estructurada para restringir el formato de respuesta
- En clasificación, use salidas tipo enum en lugar de explicaciones
- En extracción, devuelva solo los campos extraídos
3. Usar Batch API para cargas no urgentes
La Batch API suele ofrecer precios más bajos para cargas de trabajo que toleran mayor latencia. Indicada para:
- Procesamiento de datos nocturno
- Clasificación masiva
- Pipelines de análisis de documentos
- Evaluación y pruebas
4. Enrutar según el nivel de la carga de trabajo
No todas las solicitudes necesitan Gemini 3.5 Flash. Dirija las tareas más sencillas a modelos más económicos:
| Complejidad de la carga | Modelo recomendado | Motivo |
|---|---|---|
| Clasificación simple | Gemini 3.1 Flash Lite Preview ($0.25/$1.50) | 6 veces más barato en entrada y salida |
| Extracción estándar | Gemini 3 Flash Preview ($0.50/$3.00) | 3 veces más barato, suficiente para tareas simples |
| Sub-pasos de Agent | Gemini 3.5 Flash ($1.50/$9.00) | Estabilidad GA, mejor razonamiento |
| Razonamiento complejo | Gemini 3.1 Pro ($2.00/$12.00) | Mayor calidad en tareas difíciles |
5. Monitorizar el coste por tarea exitosa, no solo el coste por Token
Un modelo más barato que requiere 3 reintentos puede salir más caro que uno más costoso que acierta a la primera. Monitorice:
- Coste de Tokens por solicitud
- Tasa de reintentos
- Tasa de fallback
- Coste por tarea exitosa (incluyendo reintentos y fallbacks)
Factores de coste ocultos
Reintentos
Si el 10 % de las solicitudes no pasan la validación y requieren reintento, añada un 10 % a su presupuesto de Tokens. En flujos de Agent con cadenas de múltiples pasos, los costes de reintento se acumulan entre pasos.
Fallback a modelos más potentes
Si Gemini 3.5 Flash no puede gestionar el 5 % de las solicitudes y recurre a Gemini 3.1 Pro como fallback, incluya la tarifa Pro en el presupuesto de esas solicitudes.
Crecimiento del contexto en bucles de Agent
Los flujos de Agent tienden a acumular contexto a lo largo de los pasos. Un bucle de Agent de 5 pasos con contexto creciente puede consumir 2-3 veces más Tokens de entrada que el prompt inicial. Presupueste considerando el crecimiento del contexto, no solo la primera solicitud.
Overhead por límites de tasa
Si alcanza los Rate Limits y necesita encolar o reintentar solicitudes, la latencia adicional se traduce en tiempo de ingeniería e impacto en la experiencia de usuario, no solo en gasto de Tokens.
Preguntas frecuentes
¿Cuál es la forma más económica de usar Gemini 3.5 Flash?
Active Context Caching para prompts recurrentes, limite la longitud de salida con Schemas estructurados, use la Batch API para trabajos no urgentes y enrute las tareas simples a modelos Flash más económicos.
¿Es Gemini 3.5 Flash más barato que Claude Haiku 4.5?
No. Claude Haiku 4.5 es más económico tanto en entrada ($1.00 vs. $1.50) como en salida ($5.00 vs. $9.00) por 1M Tokens. Sin embargo, Gemini 3.5 Flash ofrece un contexto de 1M (frente a 200K) y entradas multimodales nativas que Haiku no admite.
¿Cuánto ahorra el Context Caching?
Los cache hits cuestan $0.15 por 1M Tokens frente a $1.50 de entrada estándar, una reducción del 90 %. En cargas de trabajo con prompts de sistema compartidos o contexto recurrente, el caching puede reducir los costes totales entre un 30 y un 50 %.
¿Es Gemini 3.5 Flash más barato que Gemini 3.1 Pro?
Sí. Gemini 3.5 Flash es un 25 % más barato en entrada ($1.50 vs. $2.00) y un 25 % más barato en salida ($9.00 vs. $12.00) en comparación con Gemini 3.1 Pro.
¿Cómo estimo mi coste mensual?
(Tokens de entrada diarios × $1.50/1M) + (Tokens de salida diarios × $9.00/1M) × 30. Reste después el ahorro por Context Caching y sume el overhead por reintentos y fallbacks.Presupueste sus cargas de trabajo de Gemini 3.5 Flash en EvoLink
EvoLink ofrece una API unificada con monitorización de uso y seguimiento de costes en todos los modelos Gemini. Compare costes, configure alertas de presupuesto y enrute entre niveles Flash desde una sola integración.
Lecturas relacionadas:
- Gemini 3.5 Flash API — Página de producto con precios, ID de modelo y Playground
- Gemini 3.5 Flash vs Gemini 3 Flash Preview — Comparación generacional con análisis de costes
- Gemini 3.5 Flash vs Claude Haiku 4.5 — Comparación de costes entre familias
- Gemini 3.5 Flash for Coding Agents — Análisis de costes de Agent
Explorar en EvoLink:
- Gemini 3.5 Flash API — $1.50/$9.00 por 1M Tokens
- Gemini 3 Flash Preview API — $0.50/$3.00 por 1M Tokens
- Familia Gemini API — Compare todas las rutas Gemini por precio


