Seedance 2.0 API — Coming SoonGet early access

Gemini 2.5 Flash API

Inicie el modelo Flash Gemini 2.5 en minutos con una clave EvoLink unificada. Elija el formato Google nativo API o el formato OpenAI SDK y luego cree asistentes, análisis y flujos de trabajo agentes de baja latencia sin cambiar su pila de aplicaciones.

Run With API
Using coding CLIs? Run Gemini 2.5 Flash via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Gemini 2.5 Flash1.05M65.5K
$0.240-20%
$0.300Official Price
$2.00-20%
$2.50Official Price
$0.024-21%
$0.030Official Price
Gemini 2.5 Flash (Beta)1.05M65.5K
$0.078-74%
$0.300Official Price
$0.650-74%
$2.50Official Price
$0.008-74%
$0.030Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.

  • · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
  • · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Gemini 2.5 Flash API para aplicaciones multimodales rápidas y escalables

Maneje contexto amplio y medios mixtos en una sola solicitud. Gemini 2.5 Flash acepta entradas de texto, imágenes, video y audio, devuelve salida de texto y admite contexto extenso para que los equipos puedan brindar soporte en tiempo real, comprensión de contenido y automatización interna a escala.

Muestra de flujo de trabajo de la característica 1 del modelo de IA multimodal

Capacidades del Gemini 2.5 Flash API

Respuestas de alto rendimiento

Gemini 2.5 Flash está diseñado para cargas de trabajo de baja latencia y gran escala. Úselo para chatear con clientes, descubrir productos o paneles de control en vivo donde los usuarios esperan respuestas rápidas. EvoLink mantiene la integración simple mientras escala la simultaneidad, de modo que el mismo modelo impulse tanto los prototipos como el tráfico de producción.

Muestra de productividad de la característica 2 del modelo de IA multimodal

Comprensión multimodal

Con Gemini 2.5 Flash, una única solicitud puede incluir texto, imágenes, videoclips o audio. Eso facilita resumir reuniones, revisar fotografías de productos o extraer momentos clave de videos de capacitación. Obtiene resultados de texto que son fáciles de almacenar, buscar y dirigir a herramientas posteriores.

Muestra de información sobre la característica 3 del modelo de IA multimodal

Listo para el flujo de trabajo agente

Gemini 2.5 Flash admite llamadas a funciones, salidas estructuradas y almacenamiento en caché de contexto, por lo que los agentes pueden llamar a herramientas, devolver JSON de manera confiable y reutilizar instrucciones grandes. Esto es ideal para clasificación de tickets, comprobaciones de políticas, limpieza de catálogos y otras tareas repetibles donde la coherencia y la velocidad son importantes.

Muestra de operaciones de la característica 4 del modelo de IA multimodal

Por qué los desarrolladores eligen Gemini 2.5 Flash

Creado para cargas de trabajo de gran volumen, baja latencia y gran escala con entrada multimodal y contexto extenso.

Rápido para experiencias de usuario

Optimizado para procesamiento a gran escala y tareas de gran volumen y baja latencia, lo que lo convierte en una opción natural para agentes y asistentes en tiempo real.

Escala sin complejidad

Utilice el formato OpenAI SDK de EvoLink con un único punto final /v1/chat/completions, además de transmisión opcional para mejorar la velocidad percibida.

Diseño consciente de los costos

Admite almacenamiento en caché, llamadas a funciones y resultados estructurados para reducir la repetición del trabajo y mantener predecibles los flujos de trabajo automatizados.

Cómo integrar Gemini 2.5 Flash

EvoLink admite el formato Google nativo API para Gemini 2.5 Flash, con opciones de transmisión y asíncrono.

1

Paso 1: obtenga su clave

Cree una clave EvoLink API y envíela como token de portador en cada solicitud Flash Gemini 2.5.

2

Paso 2: elige un método

Utilice generateContent para una respuesta completa o streamGenerateContent para fragmentos en tiempo real y envíe una matriz de contenidos para texto o entradas multimodales.

3

Paso 3: escalar con asíncrono

Configure X-Async-Mode en verdadero para recibir un ID de tarea, luego consulte el punto final de la tarea y lea los recuentos de tokens de metadatos de uso para realizar un seguimiento.

Modelos destacados para Gemini 2.5 Flash

Rápido, de contexto prolongado y diseñado para la comprensión multimodal

Contexto

Ventana de token de 1 millón

Gemini 2.5 Flash admite hasta 1.048.576 tokens de entrada y hasta 65.536 tokens de salida, lo que permite documentos largos, bases de código grandes o transcripciones de varias horas en una sola solicitud.

Multimodal

Entradas multimodales

Envíe texto, imágenes, video o audio en una llamada Flash Gemini 2.5 y reciba resultados de texto, perfecto para resúmenes, control de calidad y moderación de contenido entre equipos.

Control

Llamada a funciones + salida estructurada

El modelo admite llamadas de funciones y resultados estructurados, por lo que los flujos de trabajo pueden activar herramientas y devolver JSON consistente para la automatización y el análisis posteriores. Ideal para integraciones que requieren esquemas predecibles.

Eficiencia

Almacenamiento en caché de contexto

Se admite el almacenamiento en caché, lo que reduce los tokens de aviso repetidos cuando se reutilizan instrucciones largas o documentos compartidos en muchas solicitudes Flash Gemini 2.5, lo que reduce la latencia y el costo.

Entrega

Modos de transmisión y asíncrono

Elija streamGenerateContent para tokens activos o habilite X-Async-Mode para el procesamiento en segundo plano que devuelve un ID de tarea y resultados posteriores. Esto permite a los equipos equilibrar la velocidad de UX con trabajos por lotes pesados.

Observabilidad

Visibilidad de metadatos de uso

Las respuestas incluyen metadatos de uso con recuentos de tokens de solicitudes y candidatos, lo que hace que el seguimiento y la optimización de costos de Gemini 2.5 Flash sean sencillos para los equipos de ingeniería y finanzas.

Gemini 2.5 Flash API Preguntas frecuentes

Everything you need to know about the product and billing.

El Gemini 2.5 Flash API se posiciona como un modelo sólido de precio-rendimiento para procesamiento a gran escala y tareas de alto volumen y baja latencia. Brilla en el chat de atención al cliente, ayudantes de búsqueda de productos, resumen de contenido y copilotos internos que necesitan respuestas rápidas sin perder calidad. Si su carga de trabajo implica muchas solicitudes por minuto y desea resultados consistentes con contexto extenso y entrada multimodal, Gemini 2.5 Flash es un valor predeterminado práctico. Los equipos a menudo comienzan aquí para escalar la producción y pasan a Pro solo cuando se requiere un razonamiento avanzado.
Gemini 2.5 Flash acepta texto, imágenes, video y audio como entradas y devuelve salida de texto. Esto facilita combinar una transcripción con capturas de pantalla, una fotografía del producto o un clip corto y solicitar un único resumen o decisión por escrito. Los equipos suelen utilizar esto para notas de reuniones, enriquecimiento de tickets de soporte, revisión de contenido y búsqueda de conocimiento interno porque el resultado es texto sin formato que se puede almacenar, indexar y enrutar a otros sistemas. También combina bien con búsquedas o búsquedas en bases de datos.
Gemini 2.5 Flash admite hasta 1.048.576 tokens de entrada y hasta 65.536 tokens de salida. En la práctica, eso significa que puede alimentar documentos largos, bases de código grandes o transcripciones de varias horas en una sola solicitud sin cortarlos en fragmentos. Esto es valioso para revisiones de cumplimiento, resúmenes de investigaciones y análisis de múltiples documentos donde la continuidad del contexto es importante y desea una respuesta única y coherente. También reduce la necesidad de una lógica de fragmentación compleja en su aplicación. Esto ayuda cuando necesita una respuesta entre muchas fuentes.
Sí. En el formato Google Native API de EvoLink, puede elegir streamGenerateContent para recibir contenido en fragmentos en tiempo real. Esto es útil para interfaces de usuario de chat, paneles en vivo o cualquier experiencia en la que los usuarios deban ver el progreso de inmediato. Cuando cambia a streaming, sigue usando el mismo cuerpo de solicitud Flash Gemini 2.5, por lo que puede mantener sus indicaciones y entradas multimodales consistentes mientras mejora la velocidad percibida. La transmisión funciona bien con indicadores de mecanografía o resúmenes progresivos. También mejora la velocidad percibida en redes más lentas.
Sí. Configure el encabezado X-Async-Mode en verdadero y la solicitud devolverá inmediatamente un ID de tarea en lugar de esperar la respuesta completa. Luego puede consultar el punto final del estado de la tarea para recuperar el resultado completo en un formato sin transmisión. Este modo es ideal para trabajos por lotes de larga duración, análisis nocturnos o procesamiento de documentos de gran tamaño en los que no desea que espere una solicitud del usuario. También es una buena opción para tuberías en cola y trabajadores en segundo plano. Puede realizar encuestas según su horario y almacenar los resultados más tarde.
Todos los EvoLink API requieren autenticación de token de portador. Genere una clave API en el panel EvoLink y luego inclúyala en el encabezado de Autorización para cada solicitud. Para la producción, almacene la clave en un administrador secreto seguro, afínela por entorno y rótela periódicamente. Esto mantiene controlado el uso de Flash de Gemini 2.5 y, al mismo tiempo, le brinda a su equipo una ruta de integración simple y consistente. Evite incrustar claves en aplicaciones cliente y utilice proxies del lado del servidor en su lugar. Claves separadas para desarrollo, puesta en escena y producción para reducir el riesgo.
Sí. El modelo admite llamadas a funciones y salidas estructuradas, lo que significa que puede solicitar un objeto JSON o activar herramientas específicas como parte de un flujo de trabajo. Esto es útil para enrutar tickets, actualizar registros o crear flujos de agentes que necesitan esquemas predecibles. Al mantener coherente el formato de respuesta, Gemini 2.5 Flash reduce los errores de análisis y hace que la automatización sea más confiable. Defina su esquema claramente y valide las respuestas para mantener sólidas las integraciones. Esto es especialmente útil para ETL, actualizaciones de CRM e informes.
El almacenamiento en caché es compatible con Gemini 2.5 Flash. Puede reutilizar instrucciones del sistema de gran tamaño, textos de políticas o catálogos de productos en muchas solicitudes sin pagar el costo total de los insumos cada vez. Esto reduce los tokens de aviso repetidos y puede mejorar la latencia porque el modelo no necesita reprocesar el mismo contexto en cada llamada. Es una excelente opción para flujos de trabajo recurrentes y asistentes siempre activos. Guarde en caché el tono de la marca, las preguntas frecuentes o las reglas de seguridad para mantener la coherencia en las respuestas. Es especialmente útil para recordatorios repetidos de políticas e incorporaciones.