Gemini Omni próximamenteMás información
Guía de precios de Gemini 3.5 Flash: costes por Token, ejemplos de carga de trabajo y presupuesto de producción
pricing

Guía de precios de Gemini 3.5 Flash: costes por Token, ejemplos de carga de trabajo y presupuesto de producción

EvoLink Team
EvoLink Team
Product Team
20 de mayo de 2026
11 min de lectura
Última verificación: 20 de mayo de 2026. Los datos de precios que se presentan a continuación se basan en la documentación oficial de modelos de Google y en los datos de la plataforma EvoLink verificados en esa fecha.
Gemini 3.5 Flash es el modelo estable y rentable de Google para cargas de trabajo de producción de alto volumen. Sin embargo, "rentable" es relativo: a $1.50/$9.00 por 1M Tokens, se sitúa entre opciones económicas como Gemini 3 Flash Preview y modelos premium como Gemini 3.1 Pro. Esta guía desglosa cada dimensión de precios y muestra cuánto cuestan realmente las cargas de trabajo en producción.

Resumen

  • Entrada: $1.50 por 1M Tokens
  • Salida: $9.00 por 1M Tokens
  • Cache hit: $0.15 por 1M Tokens (90 % de ahorro en entrada cacheada)
  • Entrada de audio/vídeo: $1.50 por 1M Tokens (mismo precio que texto)
  • Compatible con Context Caching, Batch API y Google Search Grounding
  • El mayor factor de coste son los Tokens de salida, no los de entrada: optimice primero la longitud de salida

Tabla de precios completa

Tipo de TokenPrecio por 1M TokensNotas
Texto entrada$1.50Tokens de prompt de texto estándar
Texto salida$9.00Tokens de respuesta generados por el modelo
Cache hit (entrada)$0.1590 % de descuento respecto a la entrada estándar; almacenamiento a $1.00/hora
Audio entrada$1.50Tokens de audio procesados
Vídeo entrada$1.50Tokens de fotogramas de vídeo procesados
Imagen entrada$1.50Tokens de imagen procesados
PDF entrada$1.50Tokens de documento procesados

Precios Batch y Flex

Google también ofrece precios con descuento para cargas de trabajo no urgentes:

Nivel de preciosEntrada / 1MSalida / 1MCaso de uso
Standard$1.50$9.00Solicitudes en tiempo real
Batch$0.75$4.50Procesamiento masivo asíncrono
Flex$0.75$4.50Entrega con horario flexible
Priority$2.70$16.20Baja latencia garantizada
Los precios Batch y Flex ofrecen un 50 % de descuento sobre las tarifas estándar.

Observaciones clave

  • Los Tokens de salida cuestan 6 veces más que los de entrada. Este es el factor de coste más importante.
  • Los cache hits reducen el coste de entrada en un 90 % — pero tenga en cuenta el coste de almacenamiento de caché de $1.00/hora.
  • Los precios Batch/Flex reducen a la mitad los costes de entrada y salida para cargas no urgentes.
  • Todas las entradas multimodales (audio, vídeo, imagen, PDF) se facturan a la misma tarifa que la entrada de texto.

Comparación de precios con Gemini 3.5 Flash

ModeloEntrada / 1MSalida / 1MCache hit / 1MContexto
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash se posiciona como el modelo Flash de gama media: más capaz y estable que los modelos Flash en preview, pero significativamente más económico que los modelos de nivel Pro o Sonnet.

Ejemplos de costes por carga de trabajo

Ejemplo 1: Pipeline de clasificación

Clasificación de alto volumen con prompts cortos y respuestas cortas.

Volumen diario: 100.000 solicitudes Entrada media: 500 Tokens por solicitud Salida media: 50 Tokens por solicitud Tokens de entrada diarios: 50M Tokens de salida diarios: 5M
Componente de costeCálculoDiarioMensual
Entrada50M × $1.50/1M$75.00$2,250
Salida5M × $9.00/1M$45.00$1,350
Total$120.00$3,600

Con Context Caching (80 % de los Tokens de entrada cacheados):

Componente de costeCálculoDiarioMensual
Entrada (no cacheada 20 %)10M × $1.50/1M$15.00$450
Entrada (cacheada 80 %)40M × $0.15/1M$6.00$180
Salida5M × $9.00/1M$45.00$1,350
Total con caching$66.00$1,980
El caching ahorra un 45 % en este escenario.

Ejemplo 2: Coding Agent

Flujo de trabajo de Agent con entrada moderada (contexto de código) y salida elevada (código generado).

Volumen diario: 5.000 sesiones de Agent Entrada media: 10.000 Tokens por sesión Salida media: 3.000 Tokens por sesión Tokens de entrada diarios: 50M Tokens de salida diarios: 15M
Componente de costeCálculoDiarioMensual
Entrada50M × $1.50/1M$75.00$2,250
Salida15M × $9.00/1M$135.00$4,050
Total$210.00$6,300

La salida domina: representa el 64 % del coste total. Reducir la longitud media de salida en un 20 % ahorra $1.260 al mes.

Ejemplo 3: Análisis de documentos con contexto largo

Procesamiento de documentos extensos con salida de resúmenes.

Volumen diario: 500 documentos Entrada media: 100.000 Tokens por documento Salida media: 2.000 Tokens por documento Tokens de entrada diarios: 50M Tokens de salida diarios: 1M
Componente de costeCálculoDiarioMensual
Entrada50M × $1.50/1M$75.00$2,250
Salida1M × $9.00/1M$9.00$270
Total$84.00$2,520

Para cargas de trabajo con contexto largo y alta proporción de entrada, el Context Caching es fundamental. Si el 60 % del contexto documental es compartido (encabezados comunes, plantillas, instrucciones):

| Total con caching | | $48.00 | $1,440 |
El caching ahorra un 43 %.

Ejemplo 4: Pipeline multimodal (vídeo + audio)

Procesamiento de contenido de vídeo con audio para comprensión de contenido.

Volumen diario: 1.000 vídeos Entrada de vídeo media: 20.000 Tokens por vídeo Entrada de audio media: 5.000 Tokens por vídeo Entrada de texto media: 1.000 Tokens por vídeo Salida media: 500 Tokens por vídeo Tokens de vídeo diarios: 20M Tokens de audio diarios: 5M Tokens de texto diarios: 1M Tokens de salida diarios: 500K
Componente de costeCálculoDiarioMensual
Vídeo entrada20M × $1.50/1M$30.00$900
Audio entrada5M × $1.50/1M$7.50$225
Texto entrada1M × $1.50/1M$1.50$45
Salida0.5M × $9.00/1M$4.50$135
Total$43.50$1,305

La tarificación multimodal es directa: todos los tipos de entrada comparten la misma tarifa.

Estrategias de optimización de costes

1. Utilizar Context Caching de forma agresiva

El Context Caching reduce los costes de entrada en un 90 %. Aplíquelo a:

  • Prompts de sistema e instrucciones
  • Ejemplos Few-shot
  • Contexto de documentos compartido entre solicitudes
  • Definiciones de herramientas y Schemas recurrentes

2. Optimizar la longitud de salida

Los Tokens de salida cuestan 6 veces más que los de entrada. Estrategias:

  • Configure max_tokens con el valor mínimo necesario para su tarea
  • Utilice Schemas de salida estructurada para restringir el formato de respuesta
  • En clasificación, use salidas tipo enum en lugar de explicaciones
  • En extracción, devuelva solo los campos extraídos

3. Usar Batch API para cargas no urgentes

La Batch API suele ofrecer precios más bajos para cargas de trabajo que toleran mayor latencia. Indicada para:

  • Procesamiento de datos nocturno
  • Clasificación masiva
  • Pipelines de análisis de documentos
  • Evaluación y pruebas

4. Enrutar según el nivel de la carga de trabajo

No todas las solicitudes necesitan Gemini 3.5 Flash. Dirija las tareas más sencillas a modelos más económicos:

Complejidad de la cargaModelo recomendadoMotivo
Clasificación simpleGemini 3.1 Flash Lite Preview ($0.25/$1.50)6 veces más barato en entrada y salida
Extracción estándarGemini 3 Flash Preview ($0.50/$3.00)3 veces más barato, suficiente para tareas simples
Sub-pasos de AgentGemini 3.5 Flash ($1.50/$9.00)Estabilidad GA, mejor razonamiento
Razonamiento complejoGemini 3.1 Pro ($2.00/$12.00)Mayor calidad en tareas difíciles

5. Monitorizar el coste por tarea exitosa, no solo el coste por Token

Un modelo más barato que requiere 3 reintentos puede salir más caro que uno más costoso que acierta a la primera. Monitorice:

  • Coste de Tokens por solicitud
  • Tasa de reintentos
  • Tasa de fallback
  • Coste por tarea exitosa (incluyendo reintentos y fallbacks)

Factores de coste ocultos

Reintentos

Si el 10 % de las solicitudes no pasan la validación y requieren reintento, añada un 10 % a su presupuesto de Tokens. En flujos de Agent con cadenas de múltiples pasos, los costes de reintento se acumulan entre pasos.

Fallback a modelos más potentes

Si Gemini 3.5 Flash no puede gestionar el 5 % de las solicitudes y recurre a Gemini 3.1 Pro como fallback, incluya la tarifa Pro en el presupuesto de esas solicitudes.

Crecimiento del contexto en bucles de Agent

Los flujos de Agent tienden a acumular contexto a lo largo de los pasos. Un bucle de Agent de 5 pasos con contexto creciente puede consumir 2-3 veces más Tokens de entrada que el prompt inicial. Presupueste considerando el crecimiento del contexto, no solo la primera solicitud.

Overhead por límites de tasa

Si alcanza los Rate Limits y necesita encolar o reintentar solicitudes, la latencia adicional se traduce en tiempo de ingeniería e impacto en la experiencia de usuario, no solo en gasto de Tokens.

Preguntas frecuentes

¿Cuál es la forma más económica de usar Gemini 3.5 Flash?

Active Context Caching para prompts recurrentes, limite la longitud de salida con Schemas estructurados, use la Batch API para trabajos no urgentes y enrute las tareas simples a modelos Flash más económicos.

¿Es Gemini 3.5 Flash más barato que Claude Haiku 4.5?

No. Claude Haiku 4.5 es más económico tanto en entrada ($1.00 vs. $1.50) como en salida ($5.00 vs. $9.00) por 1M Tokens. Sin embargo, Gemini 3.5 Flash ofrece un contexto de 1M (frente a 200K) y entradas multimodales nativas que Haiku no admite.

¿Cuánto ahorra el Context Caching?

Los cache hits cuestan $0.15 por 1M Tokens frente a $1.50 de entrada estándar, una reducción del 90 %. En cargas de trabajo con prompts de sistema compartidos o contexto recurrente, el caching puede reducir los costes totales entre un 30 y un 50 %.

¿Es Gemini 3.5 Flash más barato que Gemini 3.1 Pro?

Sí. Gemini 3.5 Flash es un 25 % más barato en entrada ($1.50 vs. $2.00) y un 25 % más barato en salida ($9.00 vs. $12.00) en comparación con Gemini 3.1 Pro.

¿Cómo estimo mi coste mensual?

Cálculo: (Tokens de entrada diarios × $1.50/1M) + (Tokens de salida diarios × $9.00/1M) × 30. Reste después el ahorro por Context Caching y sume el overhead por reintentos y fallbacks.

EvoLink ofrece una API unificada con monitorización de uso y seguimiento de costes en todos los modelos Gemini. Compare costes, configure alertas de presupuesto y enrute entre niveles Flash desde una sola integración.

Lecturas relacionadas:

Explorar en EvoLink:

Fuentes

¿Listo para reducir tus costos de IA en un 89%?

Comienza a usar EvoLink hoy y experimenta el poder del enrutamiento inteligente de API.