HappyHorse 1.0 ya disponibleProbar ahora
Cómo usar la API de Gemini 3.5 Flash: Model ID, precios y ejemplos de código
guide

Cómo usar la API de Gemini 3.5 Flash: Model ID, precios y ejemplos de código

EvoLink Team
EvoLink Team
Product Team
20 de mayo de 2026
22 min de lectura

Gemini 3.5 Flash es el último modelo Flash listo para producción de Google, disponible de forma general (GA) y estable para uso en producción a escala. Está diseñado para flujos de trabajo agénticos, agentes de codificación, despliegue de sub-agentes y tareas de largo horizonte — combinando inteligencia de nivel frontier con la velocidad y el costo típicos de la gama Flash.

Esta guía cubre todo lo que necesitas para integrar Gemini 3.5 Flash en tu aplicación: Model ID, precios, ejemplos de código en Python y Node.js, llamada a funciones, salidas estructuradas, patrones de flujos de trabajo agénticos, análisis de costos y cómo elegir entre Flash y Pro.

Para la página completa del producto con precios en vivo, consulta API Gemini 3.5 Flash en EvoLink.

Tarjeta de referencia rápida

ElementoValor
Model IDgemini-3.5-flash
EstadoDisponible de forma general (GA), estable para producción
Precio de entrada$1.50 por 1M de tokens
Precio de salida$9.00 por 1M de tokens
Ventana de contexto1,048,576 tokens de entrada
Salida máxima65,535 tokens
Modalidades de entradaTexto, imagen, video, audio, PDF
Modalidades de salidaSolo texto
Llamada a funcionesSoportada
Salidas estructuradasSoportadas
Ejecución de códigoSoportada
Anclaje por búsquedaSoportado
Caché de contextoSoportado
Batch APISoportado
StreamingSoportado

Tabla de contenidos

  1. Cuándo usar Gemini 3.5 Flash
  2. Gemini 3.5 Flash vs otros modelos Gemini
  3. Precios en detalle
  4. Configuración: empezar en 2 minutos
  5. Ejemplos de código
  6. Llamada a funciones
  7. Salidas estructuradas
  8. Flujo de trabajo de agente de codificación
  9. Patrón de despliegue de sub-agente
  10. Análisis de costos: lo que realmente cuestan los bucles de agente
  11. Estrategias de control de costos
  12. Errores comunes y cómo evitarlos
  13. Cuándo NO usar Gemini 3.5 Flash
  14. Preguntas frecuentes

Cuándo usar Gemini 3.5 Flash

Gemini 3.5 Flash no es un modelo económico de propósito general. Google lo posiciona explícitamente para cargas de trabajo específicas de alto valor donde la velocidad, el costo por iteración y el soporte de herramientas importan más que la máxima profundidad de razonamiento.

Mejores casos de uso

Caso de usoPor qué Gemini 3.5 Flash encajaQué medir
Agentes de codificaciónGeneración rápida de código, depuración, refactorización a velocidad Flash por iteraciónIteraciones para corregir, costo por sesión, calidad de diffs
Flujos de trabajo agénticosLlamada a funciones nativa, bucles de ejecución paralela, bajo costo por llamadaPrecisión de llamadas a herramientas, tasa de respaldo, costo total del flujo
Despliegue de sub-agenteDespliegue como sub-agente en sistemas multi-agente donde la economía por llamada importaLatencia por sub-llamada, tasa de error, sobrecarga de orquestación
Tareas de largo horizonte1M de contexto maneja bases de código completas y análisis multi-documento sin truncamientoTasa de utilización del contexto, calidad de salida con conteos altos de tokens
Procesamiento de documentosEntradas de PDF, audio, video a precio unificado — sin recargos por modalidadPrecisión de extracción, costo de procesamiento por documento
Chat de producciónRazonamiento integrado a latencia Flash para aplicaciones orientadas al clienteTiempo al primer token, satisfacción del usuario, costo por conversación

Árbol de decisión de casos de uso

Hazte estas preguntas en orden:

  1. ¿La tarea necesita el razonamiento más profundo posible? Si es así → Gemini 3.1 Pro.
  2. ¿Es una tarea simple de alto volumen (clasificación, enrutamiento, extracción)? Si es así → Gemini 3.1 Flash Lite.
  3. ¿La tarea implica codificación, agentes, herramientas o contexto largo? Si es así → Gemini 3.5 Flash.
  4. ¿Es chat de producción general o resúmenes? Si es así → Gemini 3.5 Flash o Gemini 2.5 Flash (compara según tu carga de trabajo).

Gemini 3.5 Flash vs otros modelos Gemini

Esta es la comparación que importa para las decisiones de enrutamiento en producción.

CaracterísticaGemini 3.5 FlashGemini 3.1 ProGemini 3 FlashGemini 3.1 Flash LiteGemini 2.5 Flash
EstadoGA, estableVista previaVista previaVista previaEstable
Ideal paraAgentes, codificación, largo horizonteRazonamiento más difícilCargas rápidas generalesBatch de alto volumenChat de producción
Costo de entrada$1.50/MTok$2–$4/MTok$0.50/MTok$0.25/MTok$0.30/MTok
Costo de salida$9.00/MTok$12–$18/MTok$3.00/MTok$1.50/MTok$2.50/MTok
Contexto1M / 65K1M / 64K1M / 64K1M / 64K1M / 64K
RazonamientoIntegradoEl más profundo (thinking)EstándarLigeroEstándar
Llamada a funciones
Ejecución de código
Preparación para producciónGAVista previaVista previaVista previaEstable
Conclusión clave: Gemini 3.5 Flash es el único modelo Flash GA-estable de la generación Gemini 3.x con razonamiento integrado y soporte completo de herramientas. Cuesta más que Gemini 3 Flash ($1.50 vs $0.50 por MTok de entrada), pero ofrece inteligencia de nivel frontier que los modelos Flash anteriores no igualan.

Precios en detalle

Precios estándar

Tipo de tokenPrecio por 1M de tokens
Entrada de texto$1.50
Salida de texto$9.00
Entrada de audioUnificado con texto (sin recargo)
Entrada de imagenUnificado con texto (sin recargo)
Entrada de videoUnificado con texto (sin recargo)
Entrada de PDFUnificado con texto (sin recargo)

Opciones de reducción de costos

MétodoCómo funcionaIdeal para
Caché de contextoAlmacena en caché los prefijos de entrada repetidos; los aciertos de caché cuestan menos que las entradas nuevasBucles de agente, contexto de código repetido, prompts de sistema
Batch APIEnvía solicitudes en lotes para procesamiento offline a tarifas con descuentoGeneración de pruebas, extracción masiva, análisis offline
Créditos EvoLinkCompra créditos por anticipado para descuentos por volumenEquipos con uso mensual predecible

Ejemplos de costos reales

EscenarioTokens de entradaTokens de salidaCosto estimado
Pregunta de texto única~500~200$0.003
Revisión de código (1 archivo, ~2K líneas)~8,000~2,000$0.03
Sesión de agente de codificación (20 iteraciones)~80,000~20,000$0.30
Análisis completo de base de código (500K contexto)~500,000~10,000$0.84
Extracción de documento PDF (100 páginas)~150,000~5,000$0.27
Despliegue de agente 8 horas (continuo)~2,000,000~500,000$7.50

Estas estimaciones asumen precios estándar sin caché. Con el caché de contexto habilitado, los costos de entrada de los bucles de agente pueden reducirse significativamente.


Configuración: empezar en 2 minutos

Regístrate en EvoLink y crea una clave API en Panel de control → Keys.

Paso 2: Instalar el SDK de OpenAI

EvoLink es compatible con OpenAI, así que usas el SDK estándar de OpenAI:

Python:
pip install openai
Node.js:
npm install openai

Paso 3: Hacer tu primera solicitud

Python:
from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-api-key",
    base_url="https://api.evolink.ai/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
    ]
)

print(response.choices[0].message.content)
Node.js:
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "your-evolink-api-key",
  baseURL: "https://api.evolink.ai/v1",
});

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "What is Gemini 3.5 Flash best at?" },
  ],
});

console.log(response.choices[0].message.content);

Eso es todo. No necesitas un SDK específico de Google, ni un flujo de autenticación separado, ni configuración de Vertex AI.


Ejemplos de código

Solicitud de texto básica con prompt de sistema

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
        {"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
    ],
    temperature=0.3,
    max_tokens=512
)

Multimodal: análisis de imagen

import base64

with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
            ]
        }
    ]
)

Todas las entradas multimodales comparten el mismo precio por token que el texto — sin recargos por audio o video.

Streaming

Para aplicaciones interactivas donde quieres que los tokens aparezcan a medida que se generan:

Python:
stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
Node.js:
const stream = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) process.stdout.write(content);
}

Conversación multi-turno

messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a linked list implementation in Python."},
]

# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})

# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)

Llamada a funciones

Gemini 3.5 Flash soporta llamada a funciones nativa, esencial para los flujos de trabajo agénticos. Define herramientas y deja que el modelo decida cuándo llamarlas.

Ejemplo en Python

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Search the internal knowledge base",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string", "description": "Search query"},
                    "limit": {"type": "integer", "description": "Max results to return"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
    tools=tools,
    tool_choice="auto"
)

# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Arguments: {tool_call.function.arguments}")

Ejemplo en Node.js

const tools = [
  {
    type: "function",
    function: {
      name: "run_tests",
      description: "Run the test suite and return results",
      parameters: {
        type: "object",
        properties: {
          test_file: { type: "string", description: "Path to test file" },
          verbose: { type: "boolean", description: "Show detailed output" },
        },
        required: ["test_file"],
      },
    },
  },
];

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Run the tests for auth module" }],
  tools,
  tool_choice: "auto",
});

const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
  console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}

Mejores prácticas para la llamada a funciones

PrácticaPor qué
Escribir descripciones de funciones clarasEl modelo se basa en las descripciones para decidir cuándo llamar a cada herramienta
Usar campos requiredEvita que el modelo omita parámetros críticos
Mantener los esquemas de parámetros simplesLos esquemas anidados complejos aumentan la tasa de error
Manejar llamadas a herramientas paralelasGemini 3.5 Flash puede llamar a múltiples herramientas en una sola respuesta
Validar los argumentos de llamadas a herramientasSiempre valida antes de ejecutar — no confíes ciegamente en la salida del modelo

Salidas estructuradas

Para flujos de trabajo que necesitan resultados legibles por máquina, usa el modo JSON o el formato de respuesta:

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
        {"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
    ],
    response_format={"type": "json_object"}
)

import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}

Cuándo usar salidas estructuradas

EscenarioFormatoPor qué
Extracción de datos de documentosModo JSONLos sistemas posteriores necesitan datos estructurados
Respuestas de herramientas de agenteModo JSONLos orquestadores de herramientas necesitan salida analizable
Tareas de clasificaciónModo JSONSe necesita un campo de etiqueta consistente, no texto libre
Generación de códigoTexto planoEl código ya está estructurado; envolverlo en JSON añade sobrecarga
Explicaciones y chatTexto planoEl lenguaje natural se lee mejor sin JSON

Flujo de trabajo de agente de codificación

Este es el caso de uso de mayor valor para Gemini 3.5 Flash. Aquí hay un bucle completo de agente de codificación:

from openai import OpenAI
import subprocess
import json

client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")

def run_tests(test_file: str) -> dict:
    """Run tests and return results."""
    result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
                          capture_output=True, text=True, timeout=60)
    return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}

def read_file(path: str) -> str:
    with open(path) as f:
        return f.read()

def write_file(path: str, content: str):
    with open(path, "w") as f:
        f.write(content)

# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")

messages = [
    {"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
    {"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]

MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=messages,
        temperature=0.2,
        max_tokens=8192
    )

    reply = response.choices[0].message.content
    messages.append({"role": "assistant", "content": reply})

    # Extract and apply the fix
    if "```python" in reply:
        code_block = reply.split("```python")[1].split("```")[0]
        write_file("src/auth.py", code_block)

    # Re-run tests
    test_result = run_tests("tests/test_auth.py")

    if test_result["passed"]:
        print(f"All tests pass after {i + 1} iterations.")
        break

    messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
    print(f"Failed to fix after {MAX_ITERATIONS} iterations.")

Consejos de rendimiento para bucles de agente

ConsejoImpacto
Usar temperature=0.2 para correcciones deterministasReduce la variación aleatoria entre iteraciones
Establecer max_tokens=8192 para salida de códigoPreviene truncamiento en archivos grandes
Incluir la salida de pruebas en el contextoDa al modelo señales concretas de fallo
Limitar iteraciones (15–20)Previene costos descontrolados si el modelo se queda atascado
Usar caché de contextoMismo contexto de código enviado en cada iteración — los aciertos de caché pueden reducir significativamente el costo de entrada

Patrón de despliegue de sub-agente

En sistemas multi-agente, Gemini 3.5 Flash funciona bien como sub-agente manejando tareas específicas mientras un coordinador (Pro u otro modelo) gestiona el flujo de trabajo general:

def coding_sub_agent(task: str, context: str) -> str:
    """Fast coding sub-agent using Gemini 3.5 Flash."""
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
            {"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
        ],
        temperature=0.2,
        max_tokens=4096
    )
    return response.choices[0].message.content

def reasoning_agent(task: str) -> str:
    """Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[
            {"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
            {"role": "user", "content": task}
        ],
        temperature=0.3,
        max_tokens=4096
    )
    return response.choices[0].message.content

# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)

results = []
for subtask in subtasks:
    result = coding_sub_agent(subtask, context=module_code)
    results.append(result)

Qué modelo para qué rol en un sistema multi-agente

Rol del agenteModelo recomendadoPor qué
Coordinador / planificadorGemini 3.1 ProNecesita el razonamiento más profundo para decisiones arquitectónicas
Sub-agente de codificaciónGemini 3.5 FlashIteración rápida, buena calidad de código, bajo costo por llamada
Clasificación / enrutamientoGemini 3.1 Flash LiteOpción más económica para decisiones estructuradas simples
Análisis de documentosGemini 3.5 Flash1M de contexto + multimodal para PDFs e imágenes
Validación / revisiónGemini 3.5 Flash o ProDepende de cuán crítica sea la revisión

Análisis de costos: lo que realmente cuestan los bucles de agente

La mayoría de los desarrolladores subestiman los costos de los agentes porque solo miran los precios por solicitud individual. Aquí hay un desglose realista:

Agente de codificación: sesión de depuración de 20 iteraciones

FaseTokens de entradaTokens de salidaCosto de entradaCosto de salida
Iteración 1 (contexto completo)8,0002,000$0.012$0.018
Iteraciones 2–5 (contexto creciente)40,0006,000$0.060$0.054
Iteraciones 6–10 (contexto grande)60,0005,000$0.090$0.045
Iteraciones 11–20 (meseta)100,0007,000$0.150$0.063
Total208,00020,000$0.312$0.180
Total de la sesión$0.49

Con caché de contexto (asumiendo tasa de acierto del 50% en contexto de código repetido):

Sin cachéCon cachéAhorro
Costo de entrada$0.312~$0.18740%
Costo de salida$0.180$0.1800%
Total$0.492$0.36725%

Comparación de costos: misma sesión de agente en diferentes modelos

ModeloCosto de entradaCosto de salidaTotal de sesiónCompromiso de calidad
Gemini 3.5 Flash$0.312$0.180$0.49Mejor equilibrio para agentes de codificación
Gemini 3.1 Pro$0.416–$0.832$0.240–$0.360$0.66–$1.19Razonamiento más profundo, 2–3x el costo
Gemini 3 Flash$0.104$0.060$0.16Más barato pero codificación más débil
Gemini 3.1 Flash Lite$0.052$0.030$0.08El más barato pero razonamiento limitado

Estrategias de control de costos

1. Habilitar caché de contexto

Si tu agente envía el mismo contexto de código repetidamente, el caché de contexto puede reducir significativamente el costo de entrada en los aciertos de caché.

2. Usar Batch API para trabajo no urgente

Para generación de pruebas, extracción masiva o análisis de código offline, el Batch API proporciona descuentos. La latencia es mayor pero el costo por token es menor.

3. Establecer Max Tokens

Siempre establece max_tokens para prevenir salidas inesperadamente largas que inflan el costo:
response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=messages,
    max_tokens=4096  # Reasonable limit for code output
)

4. Enrutar por complejidad de tarea

No uses un solo modelo para todo. Construye una capa de enrutamiento:

def route_request(task_type: str) -> str:
    routing_table = {
        "architecture": "gemini-3.1-pro-preview",      # Deep reasoning
        "coding": "gemini-3.5-flash",           # Fast iteration
        "classification": "gemini-3.1-flash-lite",  # Cheapest
        "review": "gemini-3.5-flash",           # Good balance
        "chat": "gemini-3.5-flash",             # Production default
    }
    return routing_table.get(task_type, "gemini-3.5-flash")

5. Monitorear el uso de tokens

Rastrea los tokens de entrada y salida por solicitud. El panel de EvoLink proporciona visibilidad en tiempo real del uso. Revisa el uso regularmente y establece límites de presupuesto en el lado de tu aplicación según sea necesario.

6. Truncar el contexto cuando sea posible

No envíes tu contexto completo de 1M de tokens si solo necesitas los últimos 50K tokens. Recorta los turnos de conversación antiguos y mantén solo el contexto relevante.


Errores comunes y cómo evitarlos

ErrorQué sucedeSolución
Codificar en duro el Model ID en todas partesNo se puede cambiar de modelo sin modificar el códigoAlmacenar el Model ID en la configuración; enrutar por tipo de tarea
No establecer max_tokensLa salida puede ser inesperadamente larga y costosaSiempre establecer un límite de salida razonable
Enviar contexto completo en cada iteración sin cachéEl costo de entrada crece linealmente con las iteracionesHabilitar caché de contexto para prefijos repetidos
Usar Flash para tareas que necesitan razonamiento profundoMenor precisión en decisiones arquitectónicas complejasEnrutar los pasos más difíciles a Gemini 3.1 Pro
Usar Pro para tareas que Flash maneja bien2–3x mayor costo con ganancia marginal de calidadFlash por defecto; actualizar a Pro solo cuando sea necesario
Ignorar el costo de reintentos en estimaciones de presupuestoEl costo real es mayor que las estimaciones por solicitud individualIncluir tasa de reintento y costo de respaldo en los cálculos
No validar los argumentos de llamadas a funcionesEl modelo genera parámetros inválidosSiempre validar los argumentos de llamadas a herramientas antes de ejecutar
Tratar la ventana de contexto como ilimitada1M de tokens es grande pero no infinitoMonitorear el uso del contexto; truncar al acercarse a los límites

Cuándo NO usar Gemini 3.5 Flash

Gemini 3.5 Flash es potente pero no universal. Usa otra cosa cuando:

EscenarioPor qué Flash no es adecuadoMejor opción
Generación de imágenes/audio/videoFlash solo genera textoModelos de generación especializados
Razonamiento multi-paso más difícilPro ofrece trazas de razonamiento más profundasGemini 3.1 Pro
Extracción por lotes al costo más bajoFlash Lite es 6x más barato en entradaGemini 3.1 Flash Lite
Conversación de voz en tiempo realFlash no soporta Live APIModelos Gemini con Live API
Computer UseComputer Use no soportadoModelos con soporte de Computer Use

Preguntas frecuentes

¿Cuál es el Model ID de Gemini 3.5 Flash?

El Model ID es gemini-3.5-flash. Usa exactamente esta cadena en las solicitudes API a través de EvoLink.

¿Es Gemini 3.5 Flash gratuito?

Gemini 3.5 Flash tiene un nivel gratuito en la API de Google Gemini. Los precios estándar de pago son $1.50 por 1M de tokens de entrada y $9.00 por 1M de tokens de salida. El caché de contexto y el Batch API ofrecen tarifas reducidas. Para los precios de EvoLink, consulta la página del producto.

¿Puedo usar Gemini 3.5 Flash con el SDK de OpenAI?

Sí. Apunta el SDK de OpenAI a https://api.evolink.ai/v1 y establece model="gemini-3.5-flash". Funciona con Python, Node.js, Go y cualquier otro cliente compatible con OpenAI.

¿Gemini 3.5 Flash soporta llamada a funciones?

Sí. La llamada a funciones, las salidas estructuradas, la ejecución de código y el anclaje por búsqueda están todos soportados nativamente. Puedes definir herramientas y el modelo las llamará cuando sea apropiado.

¿Cómo se compara Gemini 3.5 Flash con Gemini 3 Flash?

Gemini 3.5 Flash es el modelo Flash de generación actual con inteligencia de nivel frontier, rendimiento agéntico y de codificación más fuerte, y razonamiento integrado. Gemini 3 Flash es la generación anterior con menor capacidad pero también menor costo ($0.50 vs $1.50 por MTok de entrada).

¿Cuál es la ventana de contexto?

1,048,576 tokens de entrada y 65,535 tokens de salida. Es lo suficientemente grande para bases de código completas, análisis multi-documento e historiales largos de conversación de agente.

¿Es Gemini 3.5 Flash bueno para agentes de codificación?

Sí. Google lo optimiza explícitamente para tareas de codificación y flujos de trabajo agénticos. Maneja generación de código, depuración, refactorización y análisis multi-archivo a velocidad Flash. Una sesión típica de depuración de 20 iteraciones cuesta alrededor de $0.30–$0.50.

¿Está Gemini 3.5 Flash listo para producción?

Sí. Google lo lista como disponible de forma general (GA) y estable para uso en producción a escala. No es un modelo de vista previa ni experimental.

¿Cuánto cuesta una sesión de agente de codificación?

Una sesión típica de depuración de 20 iteraciones con ~200K tokens de entrada totales y ~20K tokens de salida cuesta aproximadamente $0.49 a precios estándar, o ~$0.37 con el caché de contexto habilitado.

¿Puedo cambiar entre modelos Gemini sin cambiar el código?

Sí. Con EvoLink, todos los modelos Gemini comparten el mismo formato de API. Cambia el parámetro model de "gemini-3.5-flash" a "gemini-3.1-pro" o "gemini-3.1-flash-lite" — no se necesitan otros cambios.

¿Gemini 3.5 Flash soporta salida JSON estructurada?

Sí. Usa response_format={"type": "json_object"} para obtener respuestas JSON estructuradas. Esto es útil para extracción de datos, clasificación y orquestación de herramientas.

Próximos pasos

¿Listo para reducir tus costos de IA en un 89%?

Comienza a usar EvoLink hoy y experimenta el poder del enrutamiento inteligente de API.