HappyHorse 1.0 ya disponibleProbar ahora

API Gemini 3.5 Flash

Gemini 3.5 Flash es el modelo Flash de Google listo para producción, diseñado para workflows de agentes, agentes de código y tareas de largo plazo. Combina inteligencia de nivel frontier con velocidad y costo Flash. Accede a través de EvoLink con solicitudes compatibles con OpenAI o la API nativa de Gemini; el model ID es gemini-3.5-flash.
Tipo de modelo:
Precio: 

$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens

$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens

Google Search grounding charged separately per query.

Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.

Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.

Modelo Flash listo para producción, diseñado para workflows de agentes y coding

Gemini 3.5 Flash está disponible de forma general y es estable para uso en producción a gran escala. Diseñado para workflows de agentes, agentes de código, despliegue de sub-agentes y tareas de largo plazo, ofrece inteligencia de nivel frontier a costo Flash con 1M de contexto, razonamiento integrado y soporte completo de herramientas.

Palabra clave de la página

Gemini 3.5 Flash API

Model ID de solicitud

gemini-3.5-flash

API Gemini 3.5 Flash

Casos de uso ideales para la API Gemini 3.5 Flash

Agentes de código y ciclos de desarrollo multi-paso

Gemini 3.5 Flash sobresale en tareas de coding — generación, depuración, refactoring y escritura de tests — a velocidad Flash. Ideal como modelo por defecto en ciclos de agentes de código donde cada iteración consume tokens y la latencia importa.

Agentes de código

Workflows de agentes y despliegue de sub-agentes

Construido para ciclos de ejecución agéntica en paralelo: function calling, salidas estructuradas, ejecución de código y search grounding. Despliégalo como sub-agente en sistemas multi-agente donde la velocidad y el costo por llamada determinan la economía total del workflow.

Workflows de agentes

Tareas de largo plazo y procesamiento documental

Con 1M de contexto de entrada y 65K tokens de salida, Gemini 3.5 Flash maneja tareas de largo plazo que abarcan múltiples pasos — revisión de documentos legales, análisis de codebase, síntesis de investigación y workflows intensivos en PDF — sin truncar el contexto.

Tareas de largo plazo

Inferencia de producción a costo Flash

Disponible de forma general y estable para uso en producción a escala. El caché de contexto, la Batch API y la tarificación multimodal unificada lo convierten en el modelo de alto throughput por defecto para equipos que necesitan calidad de razonamiento sin costo Pro.

Inferencia de producción

Por qué usar EvoLink para la API Gemini 3.5 Flash

Para equipos que ya trabajan sobre infraestructura tipo OpenAI, EvoLink hace que Gemini 3.5 Flash sea más fácil de llevar a producción: una sola pasarela, menor fricción de migración y un mejor enrutamiento entre modelos económicos y premium.

Mantén flujos tipo OpenAI mientras añades Gemini

Si tu equipo ya depende del OpenAI SDK, autenticación unificada y una capa de requests existente, puedes añadir Gemini 3.5 Flash sin reescribir la integración principal.

Usa Flash como capa low cost en una stack multimodelo

Envía primero a Flash el tráfico barato de traducción, extracción y clasificación, y reserva los modelos más potentes para solicitudes más difíciles o de mayor valor usando la misma pasarela.

Menor coste de migración que con integraciones específicas del proveedor

Una sola API key, formatos de request compatibles con OpenAI y Gemini nativo, más soporte de caché y batch, facilitan operar Gemini junto con el resto de tu catálogo de modelos.

Cómo usar la API Gemini 3.5 Flash

Usa esta página como vista general de acceso: elige el formato de request, utiliza el model ID preview y deja los ejemplos detallados de request para la documentación.

1

Paso 1 - Elegir el formato de request

Gemini 3.5 Flash puede llamarse mediante solicitudes compatibles con OpenAI o mediante la API Gemini nativa, lo que facilita encajarlo en stacks existentes sin reescribir toda la integración.

2

Paso 2 - Usar el model ID de request actual

Usa el model ID exacto "gemini-3.5-flash" cuando envíes tráfico de producción. Así mantienes el keyword de la página centrado en la API Gemini 3.5 Flash y, al mismo tiempo, alineado con la ruta que realmente llamas.

3

Paso 3 - Escala aquí las cargas adecuadas

Usa Flash para colas de traducción, trabajos de extracción, etiquetado y otras cargas de alto volumen, y envía los casos límite o las solicitudes más difíciles a modelos más potentes. Los cuerpos de request exactos, parámetros y ejemplos de endpoint deberían quedarse en la documentación.

Funciones y límites de la API Gemini 3.5 Flash

Las capacidades y límites más importantes para planificar integraciones en producción

Contexto

1.050.000 tokens de entrada

Hasta 1.050.000 tokens de entrada y 65.536 tokens de salida.

Multimodal

Entradas multimodales

Entradas de texto, imagen, vídeo, audio y PDF con salida de texto.

Razonamiento

Thinking + salidas estructuradas

Thinking y salidas estructuradas permiten obtener resultados fiables y legibles por máquina.

Herramientas

Function calling + herramientas

Soporta function calling, ejecución de código y search grounding.

Escala

Caché + batch

La caché de contexto y la Batch API son útiles para cargas repetitivas o de gran escala.

Precios

Uso de muy bajo costo

Consulta la tabla de precios en vivo situada arriba para ver la tarifa pay-as-you-go actualmente visible en EvoLink.

Gemini 3.5 Flash vs otros modelos Gemini

Compara posicionamiento, contexto, estilo de razonamiento y herramientas de la familia Gemini para elegir la ruta adecuada

ModelBest forContext windowReasoning styleTooling & streaming
Gemini 3.5 FlashWorkflows de agentes, agentes de código, tareas de largo plazo1M entrada / 65K salidaRazonamiento integrado a velocidad FlashFunction calling, ejecución de código, salidas estructuradas, caché, batch
Gemini 3 Flash PreviewWorkloads rápidos generales, baseline Flash anterior1M entrada / 65K salidaRazonamiento Flash estándarFunction calling, salidas estructuradas, caché
Gemini 3.1 ProRazonamiento más complejo, análisis avanzado1M entrada / 65K salidaRazonamiento más profundo con thinking tokensSuite completa de herramientas, ejecución de código, search grounding
Gemini 3.1 Flash LiteBatches de alto volumen, extracción económica, tareas simples1M entrada / 65K salidaLigero, sin razonamiento profundoFunction calling, salidas estructuradas, caché, batch

Preguntas frecuentes sobre la API Gemini 3.5 Flash

Everything you need to know about the product and billing.

Sí. Google lista Gemini 3.5 Flash como disponible de forma general y estable para uso en producción a gran escala. No es un modelo preview o experimental — puedes enrutar tráfico de producción con confianza.
Sí. Gemini 3.5 Flash está posicionado como una ruta Flash de menor coste para cargas de alto volumen donde el throughput y el precio importan más que la calidad generalista superior que esperarías de un modelo Gemini Flash más grande.
Sí. EvoLink soporta solicitudes compatibles con OpenAI mediante POST /v1/chat/completions y también solicitudes nativas de Gemini mediante POST /v1beta/models/gemini-3.5-flash:{method}.
Gemini 3.5 Flash soporta hasta 1.050.000 tokens de entrada y 65.536 tokens de salida, lo que lo hace útil para documentos largos, lotes grandes y pipelines de varios pasos.
Sí. Gemini 3.5 Flash acepta texto, imagen, vídeo, audio y PDF como entrada y devuelve texto, por lo que es útil para extracción, resumen y flujos documentales multimodales.
Usa el identificador preview exacto "gemini-3.5-flash" en las solicitudes API. Esta página está orientada a la ruta API Gemini 3.5 Flash, mientras que el model ID de la request sigue siendo el identificador preview.
Elige Flash para traducción, extracción, clasificación, etiquetado y otras cargas tolerantes a reintentos que necesitan menor coste a escala. Sube a una ruta Gemini Flash más grande cuando la calidad de salida o la dificultad de la tarea importen más que mantener cada request barata.
Gemini 3.5 Flash encaja mejor en tareas sensibles al coste y de alto throughput, como traducción, clasificación, extracción, etiquetado, procesamiento documental y flujos agénticos ligeros.
No soporta generación de imágenes, generación de audio ni Live API. Por eso encaja mejor en flujos de texto de bajo coste que en tareas en tiempo real o de generación multimedia.

Modelos Gemini API en EvoLink

Gemini 3.5 Flash es la ruta más económica de la familia Gemini. Para capacidades multimodales más potentes, pase a Gemini 3 Flash Preview; para razonamiento avanzado, elija Gemini 3.1 Pro. Todos los modelos comparten el mismo formato de API.