Gemini 2.5 Flash API
Inicie el modelo Flash Gemini 2.5 en minutos con una clave EvoLink unificada. Elija el formato Google nativo API o el formato OpenAI SDK y luego cree asistentes, análisis y flujos de trabajo agentes de baja latencia sin cambiar su pila de aplicaciones.
PRICING
| PLAN | CONTEXT WINDOW | MAX OUTPUT | INPUT | OUTPUT | CACHE READ |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 1.05M | 65.5K | $0.240-20% $0.300Official Price | $2.00-20% $2.50Official Price | $0.024-21% $0.030Official Price |
| Gemini 2.5 Flash (Beta) | 1.05M | 65.5K | $0.078-74% $0.300Official Price | $0.650-74% $2.50Official Price | $0.008-74% $0.030Official Price |
Pricing Note: Price unit: USD / 1M tokens
Cache Hit: Price applies to cached prompt tokens.
Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.
- · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
- · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.
Gemini 2.5 Flash API para aplicaciones multimodales rápidas y escalables
Maneje contexto amplio y medios mixtos en una sola solicitud. Gemini 2.5 Flash acepta entradas de texto, imágenes, video y audio, devuelve salida de texto y admite contexto extenso para que los equipos puedan brindar soporte en tiempo real, comprensión de contenido y automatización interna a escala.

Capacidades del Gemini 2.5 Flash API
Respuestas de alto rendimiento
Gemini 2.5 Flash está diseñado para cargas de trabajo de baja latencia y gran escala. Úselo para chatear con clientes, descubrir productos o paneles de control en vivo donde los usuarios esperan respuestas rápidas. EvoLink mantiene la integración simple mientras escala la simultaneidad, de modo que el mismo modelo impulse tanto los prototipos como el tráfico de producción.

Comprensión multimodal
Con Gemini 2.5 Flash, una única solicitud puede incluir texto, imágenes, videoclips o audio. Eso facilita resumir reuniones, revisar fotografías de productos o extraer momentos clave de videos de capacitación. Obtiene resultados de texto que son fáciles de almacenar, buscar y dirigir a herramientas posteriores.

Listo para el flujo de trabajo agente
Gemini 2.5 Flash admite llamadas a funciones, salidas estructuradas y almacenamiento en caché de contexto, por lo que los agentes pueden llamar a herramientas, devolver JSON de manera confiable y reutilizar instrucciones grandes. Esto es ideal para clasificación de tickets, comprobaciones de políticas, limpieza de catálogos y otras tareas repetibles donde la coherencia y la velocidad son importantes.

Por qué los desarrolladores eligen Gemini 2.5 Flash
Creado para cargas de trabajo de gran volumen, baja latencia y gran escala con entrada multimodal y contexto extenso.
Rápido para experiencias de usuario
Optimizado para procesamiento a gran escala y tareas de gran volumen y baja latencia, lo que lo convierte en una opción natural para agentes y asistentes en tiempo real.
Escala sin complejidad
Utilice el formato OpenAI SDK de EvoLink con un único punto final /v1/chat/completions, además de transmisión opcional para mejorar la velocidad percibida.
Diseño consciente de los costos
Admite almacenamiento en caché, llamadas a funciones y resultados estructurados para reducir la repetición del trabajo y mantener predecibles los flujos de trabajo automatizados.
Cómo integrar Gemini 2.5 Flash
EvoLink admite el formato Google nativo API para Gemini 2.5 Flash, con opciones de transmisión y asíncrono.
Paso 1: obtenga su clave
Cree una clave EvoLink API y envíela como token de portador en cada solicitud Flash Gemini 2.5.
Paso 2: elige un método
Utilice generateContent para una respuesta completa o streamGenerateContent para fragmentos en tiempo real y envíe una matriz de contenidos para texto o entradas multimodales.
Paso 3: escalar con asíncrono
Configure X-Async-Mode en verdadero para recibir un ID de tarea, luego consulte el punto final de la tarea y lea los recuentos de tokens de metadatos de uso para realizar un seguimiento.
Modelos destacados para Gemini 2.5 Flash
Rápido, de contexto prolongado y diseñado para la comprensión multimodal
Ventana de token de 1 millón
Gemini 2.5 Flash admite hasta 1.048.576 tokens de entrada y hasta 65.536 tokens de salida, lo que permite documentos largos, bases de código grandes o transcripciones de varias horas en una sola solicitud.
Entradas multimodales
Envíe texto, imágenes, video o audio en una llamada Flash Gemini 2.5 y reciba resultados de texto, perfecto para resúmenes, control de calidad y moderación de contenido entre equipos.
Llamada a funciones + salida estructurada
El modelo admite llamadas de funciones y resultados estructurados, por lo que los flujos de trabajo pueden activar herramientas y devolver JSON consistente para la automatización y el análisis posteriores. Ideal para integraciones que requieren esquemas predecibles.
Almacenamiento en caché de contexto
Se admite el almacenamiento en caché, lo que reduce los tokens de aviso repetidos cuando se reutilizan instrucciones largas o documentos compartidos en muchas solicitudes Flash Gemini 2.5, lo que reduce la latencia y el costo.
Modos de transmisión y asíncrono
Elija streamGenerateContent para tokens activos o habilite X-Async-Mode para el procesamiento en segundo plano que devuelve un ID de tarea y resultados posteriores. Esto permite a los equipos equilibrar la velocidad de UX con trabajos por lotes pesados.
Visibilidad de metadatos de uso
Las respuestas incluyen metadatos de uso con recuentos de tokens de solicitudes y candidatos, lo que hace que el seguimiento y la optimización de costos de Gemini 2.5 Flash sean sencillos para los equipos de ingeniería y finanzas.
Gemini 2.5 Flash API Preguntas frecuentes
Everything you need to know about the product and billing.