pricing

Guía de precios de Gemini 3.5 Flash: costes por Token, ejemplos de carga de trabajo y presupuesto de producción

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

20 de mayo de 2026

11 min de lectura

Última verificación: 20 de mayo de 2026. Los datos de precios que se presentan a continuación se basan en la documentación oficial de modelos de Google y en los datos de la plataforma EvoLink verificados en esa fecha.

Gemini 3.5 Flash es el modelo estable y rentable de Google para cargas de trabajo de producción de alto volumen. Sin embargo, "rentable" es relativo: a $1.50/$9.00 por 1M Tokens, se sitúa entre opciones económicas como Gemini 3 Flash Preview y modelos premium como Gemini 3.1 Pro. Esta guía desglosa cada dimensión de precios y muestra cuánto cuestan realmente las cargas de trabajo en producción.

Resumen

Entrada: $1.50 por 1M Tokens
Salida: $9.00 por 1M Tokens
Cache hit: $0.15 por 1M Tokens (90 % de ahorro en entrada cacheada)
Entrada de audio/vídeo: $1.50 por 1M Tokens (mismo precio que texto)
Compatible con Context Caching, Batch API y Google Search Grounding
El mayor factor de coste son los Tokens de salida, no los de entrada: optimice primero la longitud de salida

Tabla de precios completa

Tipo de Token	Precio por 1M Tokens	Notas
Texto entrada	$1.50	Tokens de prompt de texto estándar
Texto salida	$9.00	Tokens de respuesta generados por el modelo
Cache hit (entrada)	$0.15	90 % de descuento respecto a la entrada estándar; almacenamiento a $1.00/hora
Audio entrada	$1.50	Tokens de audio procesados
Vídeo entrada	$1.50	Tokens de fotogramas de vídeo procesados
Imagen entrada	$1.50	Tokens de imagen procesados
PDF entrada	$1.50	Tokens de documento procesados

Precios Batch y Flex

Google también ofrece precios con descuento para cargas de trabajo no urgentes:

Nivel de precios	Entrada / 1M	Salida / 1M	Caso de uso
Standard	$1.50	$9.00	Solicitudes en tiempo real
Batch	$0.75	$4.50	Procesamiento masivo asíncrono
Flex	$0.75	$4.50	Entrega con horario flexible
Priority	$2.70	$16.20	Baja latencia garantizada

Los precios Batch y Flex ofrecen un 50 % de descuento sobre las tarifas estándar.

Observaciones clave

Los Tokens de salida cuestan 6 veces más que los de entrada. Este es el factor de coste más importante.
Los cache hits reducen el coste de entrada en un 90 % — pero tenga en cuenta el coste de almacenamiento de caché de $1.00/hora.
Los precios Batch/Flex reducen a la mitad los costes de entrada y salida para cargas no urgentes.
Todas las entradas multimodales (audio, vídeo, imagen, PDF) se facturan a la misma tarifa que la entrada de texto.

Comparación de precios con Gemini 3.5 Flash

Modelo	Entrada / 1M	Salida / 1M	Cache hit / 1M	Contexto
Gemini 3.1 Flash Lite Preview	$0.25	$1.50	$0.025	1M
Gemini 3 Flash Preview	$0.50	$3.00	$0.05	1M
Claude Haiku 4.5	$1.00	$5.00	$0.10	200K
Gemini 3.5 Flash	$1.50	$9.00	$0.15	1M
Gemini 3.1 Pro	$2.00	$12.00	—	1M
Claude Sonnet 4.6	$3.00	$15.00	$0.30	200K

Gemini 3.5 Flash se posiciona como el modelo Flash de gama media: más capaz y estable que los modelos Flash en preview, pero significativamente más económico que los modelos de nivel Pro o Sonnet.

Ejemplos de costes por carga de trabajo

Ejemplo 1: Pipeline de clasificación

Clasificación de alto volumen con prompts cortos y respuestas cortas.

Volumen diario: 100.000 solicitudes
Entrada media: 500 Tokens por solicitud
Salida media: 50 Tokens por solicitud
Tokens de entrada diarios: 50M
Tokens de salida diarios: 5M

Componente de coste	Cálculo	Diario	Mensual
Entrada	50M × $1.50/1M	$75.00	$2,250
Salida	5M × $9.00/1M	$45.00	$1,350
Total		$120.00	$3,600

Con Context Caching (80 % de los Tokens de entrada cacheados):

Componente de coste	Cálculo	Diario	Mensual
Entrada (no cacheada 20 %)	10M × $1.50/1M	$15.00	$450
Entrada (cacheada 80 %)	40M × $0.15/1M	$6.00	$180
Salida	5M × $9.00/1M	$45.00	$1,350
Total con caching		$66.00	$1,980

El caching ahorra un 45 % en este escenario.

Ejemplo 2: Coding Agent

Flujo de trabajo de Agent con entrada moderada (contexto de código) y salida elevada (código generado).

Volumen diario: 5.000 sesiones de Agent
Entrada media: 10.000 Tokens por sesión
Salida media: 3.000 Tokens por sesión
Tokens de entrada diarios: 50M
Tokens de salida diarios: 15M

Componente de coste	Cálculo	Diario	Mensual
Entrada	50M × $1.50/1M	$75.00	$2,250
Salida	15M × $9.00/1M	$135.00	$4,050
Total		$210.00	$6,300

La salida domina: representa el 64 % del coste total. Reducir la longitud media de salida en un 20 % ahorra $1.260 al mes.

Ejemplo 3: Análisis de documentos con contexto largo

Procesamiento de documentos extensos con salida de resúmenes.

Volumen diario: 500 documentos
Entrada media: 100.000 Tokens por documento
Salida media: 2.000 Tokens por documento
Tokens de entrada diarios: 50M
Tokens de salida diarios: 1M

Componente de coste	Cálculo	Diario	Mensual
Entrada	50M × $1.50/1M	$75.00	$2,250
Salida	1M × $9.00/1M	$9.00	$270
Total		$84.00	$2,520

Para cargas de trabajo con contexto largo y alta proporción de entrada, el Context Caching es fundamental. Si el 60 % del contexto documental es compartido (encabezados comunes, plantillas, instrucciones):

| Total con caching | | $48.00 | $1,440 |

El caching ahorra un 43 %.

Ejemplo 4: Pipeline multimodal (vídeo + audio)

Procesamiento de contenido de vídeo con audio para comprensión de contenido.

Volumen diario: 1.000 vídeos
Entrada de vídeo media: 20.000 Tokens por vídeo
Entrada de audio media: 5.000 Tokens por vídeo
Entrada de texto media: 1.000 Tokens por vídeo
Salida media: 500 Tokens por vídeo
Tokens de vídeo diarios: 20M
Tokens de audio diarios: 5M
Tokens de texto diarios: 1M
Tokens de salida diarios: 500K

Componente de coste	Cálculo	Diario	Mensual
Vídeo entrada	20M × $1.50/1M	$30.00	$900
Audio entrada	5M × $1.50/1M	$7.50	$225
Texto entrada	1M × $1.50/1M	$1.50	$45
Salida	0.5M × $9.00/1M	$4.50	$135
Total		$43.50	$1,305

La tarificación multimodal es directa: todos los tipos de entrada comparten la misma tarifa.

Estrategias de optimización de costes

1. Utilizar Context Caching de forma agresiva

El Context Caching reduce los costes de entrada en un 90 %. Aplíquelo a:

Prompts de sistema e instrucciones
Ejemplos Few-shot
Contexto de documentos compartido entre solicitudes
Definiciones de herramientas y Schemas recurrentes

2. Optimizar la longitud de salida

Los Tokens de salida cuestan 6 veces más que los de entrada. Estrategias:

Configure max_tokens con el valor mínimo necesario para su tarea
Utilice Schemas de salida estructurada para restringir el formato de respuesta
En clasificación, use salidas tipo enum en lugar de explicaciones
En extracción, devuelva solo los campos extraídos

3. Usar Batch API para cargas no urgentes

La Batch API suele ofrecer precios más bajos para cargas de trabajo que toleran mayor latencia. Indicada para:

Procesamiento de datos nocturno
Clasificación masiva
Pipelines de análisis de documentos
Evaluación y pruebas

4. Enrutar según el nivel de la carga de trabajo

No todas las solicitudes necesitan Gemini 3.5 Flash. Dirija las tareas más sencillas a modelos más económicos:

Complejidad de la carga	Modelo recomendado	Motivo
Clasificación simple	Gemini 3.1 Flash Lite Preview ($0.25/$1.50)	6 veces más barato en entrada y salida
Extracción estándar	Gemini 3 Flash Preview ($0.50/$3.00)	3 veces más barato, suficiente para tareas simples
Sub-pasos de Agent	Gemini 3.5 Flash ($1.50/$9.00)	Estabilidad GA, mejor razonamiento
Razonamiento complejo	Gemini 3.1 Pro ($2.00/$12.00)	Mayor calidad en tareas difíciles

5. Monitorizar el coste por tarea exitosa, no solo el coste por Token

Un modelo más barato que requiere 3 reintentos puede salir más caro que uno más costoso que acierta a la primera. Monitorice:

Coste de Tokens por solicitud
Tasa de reintentos
Tasa de fallback
Coste por tarea exitosa (incluyendo reintentos y fallbacks)

Factores de coste ocultos

Reintentos

Si el 10 % de las solicitudes no pasan la validación y requieren reintento, añada un 10 % a su presupuesto de Tokens. En flujos de Agent con cadenas de múltiples pasos, los costes de reintento se acumulan entre pasos.

Fallback a modelos más potentes

Si Gemini 3.5 Flash no puede gestionar el 5 % de las solicitudes y recurre a Gemini 3.1 Pro como fallback, incluya la tarifa Pro en el presupuesto de esas solicitudes.

Crecimiento del contexto en bucles de Agent

Los flujos de Agent tienden a acumular contexto a lo largo de los pasos. Un bucle de Agent de 5 pasos con contexto creciente puede consumir 2-3 veces más Tokens de entrada que el prompt inicial. Presupueste considerando el crecimiento del contexto, no solo la primera solicitud.

Overhead por límites de tasa

Si alcanza los Rate Limits y necesita encolar o reintentar solicitudes, la latencia adicional se traduce en tiempo de ingeniería e impacto en la experiencia de usuario, no solo en gasto de Tokens.

Preguntas frecuentes

¿Cuál es la forma más económica de usar Gemini 3.5 Flash?

Active Context Caching para prompts recurrentes, limite la longitud de salida con Schemas estructurados, use la Batch API para trabajos no urgentes y enrute las tareas simples a modelos Flash más económicos.

¿Es Gemini 3.5 Flash más barato que Claude Haiku 4.5?

No. Claude Haiku 4.5 es más económico tanto en entrada ($1.00 vs. $1.50) como en salida ($5.00 vs. $9.00) por 1M Tokens. Sin embargo, Gemini 3.5 Flash ofrece un contexto de 1M (frente a 200K) y entradas multimodales nativas que Haiku no admite.

¿Cuánto ahorra el Context Caching?

Los cache hits cuestan $0.15 por 1M Tokens frente a $1.50 de entrada estándar, una reducción del 90 %. En cargas de trabajo con prompts de sistema compartidos o contexto recurrente, el caching puede reducir los costes totales entre un 30 y un 50 %.

¿Es Gemini 3.5 Flash más barato que Gemini 3.1 Pro?

Sí. Gemini 3.5 Flash es un 25 % más barato en entrada ($1.50 vs. $2.00) y un 25 % más barato en salida ($9.00 vs. $12.00) en comparación con Gemini 3.1 Pro.

¿Cómo estimo mi coste mensual?

Cálculo: (Tokens de entrada diarios × $1.50/1M) + (Tokens de salida diarios × $9.00/1M) × 30. Reste después el ahorro por Context Caching y sume el overhead por reintentos y fallbacks.

Presupueste sus cargas de trabajo de Gemini 3.5 Flash en EvoLink

EvoLink ofrece una API unificada con monitorización de uso y seguimiento de costes en todos los modelos Gemini. Compare costes, configure alertas de presupuesto y enrute entre niveles Flash desde una sola integración.

Lecturas relacionadas:

Gemini 3.5 Flash API — Página de producto con precios, ID de modelo y Playground
Gemini 3.5 Flash vs Gemini 3 Flash Preview — Comparación generacional con análisis de costes
Gemini 3.5 Flash vs Claude Haiku 4.5 — Comparación de costes entre familias
Gemini 3.5 Flash for Coding Agents — Análisis de costes de Agent

Explorar en EvoLink:

Gemini 3.5 Flash API — $1.50/$9.00 por 1M Tokens
Gemini 3 Flash Preview API — $0.50/$3.00 por 1M Tokens
Familia Gemini API — Compare todas las rutas Gemini por precio

Fuentes

Todas las Publicaciones

#Gemini 3.5 Flash #API pricing #token cost #production budgeting #cost optimization