HappyHorse 1.0 est disponibleEssayer maintenant
Comment utiliser l'API Gemini 3.5 Flash : Model ID, tarifs et exemples de code
guide

Comment utiliser l'API Gemini 3.5 Flash : Model ID, tarifs et exemples de code

EvoLink Team
EvoLink Team
Product Team
20 mai 2026
23 min de lecture

Gemini 3.5 Flash est le dernier modèle Flash prêt pour la production de Google, disponible en version générale (GA) et stable pour une utilisation en production à grande échelle. Il est conçu pour les workflows agentiques, les agents de codage, le déploiement en sous-agent et les tâches de longue durée — combinant une intelligence de niveau frontier avec la vitesse et le coût typiques de la gamme Flash.

Ce guide couvre tout ce dont vous avez besoin pour intégrer Gemini 3.5 Flash dans votre application : Model ID, tarifs, exemples de code en Python et Node.js, appel de fonctions, sorties structurées, modèles de workflows agentiques, analyse des coûts et comment choisir entre Flash et Pro.

Pour la page produit complète avec les tarifs en direct, consultez API Gemini 3.5 Flash sur EvoLink.

Carte de référence rapide

ÉlémentValeur
Model IDgemini-3.5-flash
StatutDisponible en version générale (GA), stable pour la production
Tarif d'entrée$1.50 par 1M de tokens
Tarif de sortie$9.00 par 1M de tokens
Fenêtre de contexte1 000 000 de tokens en entrée
Sortie maximale65 536 tokens
Modalités d'entréeTexte, image, vidéo, audio, PDF
Modalités de sortieTexte uniquement
Appel de fonctionsPris en charge
Sorties structuréesPris en charge
Exécution de codePris en charge
Ancrage par recherchePris en charge
Mise en cache du contextePris en charge
Batch APIPris en charge
StreamingPris en charge

Table des matières

  1. Quand utiliser Gemini 3.5 Flash
  2. Gemini 3.5 Flash vs autres modèles Gemini
  3. Tarifs en détail
  4. Configuration : démarrer en 2 minutes
  5. Exemples de code
  6. Appel de fonctions
  7. Sorties structurées
  8. Workflow d'agent de codage
  9. Modèle de déploiement en sous-agent
  10. Analyse des coûts : ce que coûtent réellement les boucles d'agent
  11. Stratégies de contrôle des coûts
  12. Erreurs courantes et comment les éviter
  13. Quand NE PAS utiliser Gemini 3.5 Flash
  14. FAQ

Quand utiliser Gemini 3.5 Flash

Gemini 3.5 Flash n'est pas un modèle économique généraliste. Google le positionne explicitement pour des charges de travail spécifiques à forte valeur où la vitesse, le coût par itération et le support d'outils comptent davantage que la profondeur maximale de raisonnement.

Meilleurs cas d'utilisation

Cas d'utilisationPourquoi Gemini 3.5 Flash convientQuoi mesurer
Agents de codageGénération de code rapide, débogage, refactoring à la vitesse Flash par itérationItérations pour corriger, coût par session, qualité des diffs
Workflows agentiquesAppel de fonctions natif, boucles d'exécution parallèle, faible coût par appelPrécision des appels d'outils, taux de repli, coût total du workflow
Déploiement en sous-agentDéployé comme sous-agent dans les systèmes multi-agents où l'économie par appel compteLatence par sous-appel, taux d'erreur, surcoût d'orchestration
Tâches de longue durée1M de contexte gère des bases de code complètes et des analyses multi-documents sans troncatureTaux d'utilisation du contexte, qualité de sortie à nombre élevé de tokens
Traitement de documentsEntrées PDF, audio, vidéo à tarification unifiée — pas de supplément par modalitéPrécision d'extraction, coût de traitement par document
Chat de productionRaisonnement intégré à la latence Flash pour les applications orientées clientTemps au premier token, satisfaction utilisateur, coût par conversation

Arbre de décision des cas d'utilisation

Posez-vous ces questions dans l'ordre :

  1. La tâche nécessite-t-elle le raisonnement le plus profond possible ? Si oui → Gemini 3.1 Pro.
  2. S'agit-il d'une tâche simple à grand volume (classification, routage, extraction) ? Si oui → Gemini 3.1 Flash Lite.
  3. La tâche implique-t-elle du codage, des agents, des outils ou un contexte long ? Si oui → Gemini 3.5 Flash.
  4. S'agit-il de chat de production général ou de résumés ? Si oui → Gemini 3.5 Flash ou Gemini 2.5 Flash (comparez selon votre charge de travail).

Gemini 3.5 Flash vs autres modèles Gemini

Voici la comparaison qui compte pour les décisions de routage en production.

CaractéristiqueGemini 3.5 FlashGemini 3.1 ProGemini 3 FlashGemini 3.1 Flash LiteGemini 2.5 Flash
StatutGA, stableAperçuAperçuAperçuStable
Idéal pourAgents, codage, longue duréeRaisonnement le plus complexeCharges rapides généralesBatch à grand volumeChat de production
Coût d'entrée$1.50/MTok$2–$4/MTok$0.50/MTok$0.25/MTok$0.30/MTok
Coût de sortie$9.00/MTok$12–$18/MTok$3.00/MTok$1.50/MTok$2.50/MTok
Contexte1M / 65K1M / 64K1M / 64K1M / 64K1M / 64K
RaisonnementIntégréLe plus profond (thinking)StandardLégerStandard
Appel de fonctionsOuiOuiOuiOuiOui
Exécution de codeOuiOuiOuiOuiOui
Maturité productionGAAperçuAperçuAperçuStable
Point clé : Gemini 3.5 Flash est le seul modèle Flash GA-stable de la génération Gemini 3.x avec un raisonnement intégré et un support complet des outils. Il coûte plus cher que Gemini 3 Flash ($1.50 vs $0.50 par MTok en entrée), mais offre une intelligence de niveau frontier que les modèles Flash précédents n'atteignent pas.

Tarifs en détail

Tarification standard

Type de tokenPrix par 1M de tokens
Entrée texte$1.50
Sortie texte$9.00
Entrée audioUnifié avec le texte (pas de supplément)
Entrée imageUnifié avec le texte (pas de supplément)
Entrée vidéoUnifié avec le texte (pas de supplément)
Entrée PDFUnifié avec le texte (pas de supplément)

Options de réduction des coûts

MéthodeComment ça fonctionneIdéal pour
Mise en cache du contexteMet en cache les préfixes d'entrée répétés ; les hits de cache coûtent moins que les nouvelles entréesBoucles d'agent, contexte de code répété, prompts système
Batch APISoumettez des requêtes par lots pour un traitement hors ligne à tarifs réduitsGénération de tests, extraction en masse, analyse hors ligne
Crédits EvoLinkAchetez des crédits à l'avance pour des remises sur volumeÉquipes avec une utilisation mensuelle prévisible

Exemples de coûts réels

ScénarioTokens d'entréeTokens de sortieCoût estimé
Question texte unique~500~200$0.003
Revue de code (1 fichier, ~2K lignes)~8 000~2 000$0.03
Session d'agent de codage (20 itérations)~80 000~20 000$0.30
Analyse complète de base de code (500K contexte)~500 000~10 000$0.84
Extraction de document PDF (100 pages)~150 000~5 000$0.27
Déploiement d'agent 8 heures (continu)~2 000 000~500 000$7.50

Ces estimations supposent une tarification standard sans mise en cache. Avec la mise en cache du contexte activée, les coûts d'entrée des boucles d'agent peuvent être considérablement réduits.


Configuration : démarrer en 2 minutes

Inscrivez-vous sur EvoLink et créez une clé API dans Tableau de bord → Keys.

Étape 2 : Installer le SDK OpenAI

EvoLink est compatible OpenAI, vous utilisez donc le SDK OpenAI standard :

Python :
pip install openai
Node.js :
npm install openai

Étape 3 : Faire votre première requête

Python :
from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-api-key",
    base_url="https://api.evolink.ai/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
    ]
)

print(response.choices[0].message.content)
Node.js :
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "your-evolink-api-key",
  baseURL: "https://api.evolink.ai/v1",
});

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "What is Gemini 3.5 Flash best at?" },
  ],
});

console.log(response.choices[0].message.content);

C'est tout. Pas besoin de SDK spécifique à Google, pas de flux d'authentification séparé, pas de configuration Vertex AI.


Exemples de code

Requête texte simple avec prompt système

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
        {"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
    ],
    temperature=0.3,
    max_tokens=512
)

Multimodal : analyse d'image

import base64

with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
            ]
        }
    ]
)

Toutes les entrées multimodales partagent le même tarif par token que le texte — pas de supplément audio ou vidéo.

Streaming

Pour les applications interactives où vous souhaitez que les tokens apparaissent au fur et à mesure de leur génération :

Python :
stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
Node.js :
const stream = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) process.stdout.write(content);
}

Conversation multi-tours

messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a linked list implementation in Python."},
]

# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})

# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)

Appel de fonctions

Gemini 3.5 Flash prend en charge l'appel de fonctions natif, essentiel pour les workflows agentiques. Définissez des outils et laissez le modèle décider quand les appeler.

Exemple Python

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Search the internal knowledge base",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string", "description": "Search query"},
                    "limit": {"type": "integer", "description": "Max results to return"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
    tools=tools,
    tool_choice="auto"
)

# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Arguments: {tool_call.function.arguments}")

Exemple Node.js

const tools = [
  {
    type: "function",
    function: {
      name: "run_tests",
      description: "Run the test suite and return results",
      parameters: {
        type: "object",
        properties: {
          test_file: { type: "string", description: "Path to test file" },
          verbose: { type: "boolean", description: "Show detailed output" },
        },
        required: ["test_file"],
      },
    },
  },
];

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Run the tests for auth module" }],
  tools,
  tool_choice: "auto",
});

const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
  console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}

Bonnes pratiques pour l'appel de fonctions

PratiquePourquoi
Écrire des descriptions de fonctions clairesLe modèle s'appuie sur les descriptions pour décider quand appeler chaque outil
Utiliser les champs requiredEmpêche le modèle d'omettre des paramètres critiques
Garder les schémas de paramètres simplesLes schémas imbriqués complexes augmentent le taux d'erreur
Gérer les appels d'outils parallèlesGemini 3.5 Flash peut appeler plusieurs outils dans une seule réponse
Valider les arguments des appels d'outilsToujours valider avant l'exécution — ne pas faire aveuglément confiance à la sortie du modèle

Sorties structurées

Pour les workflows qui nécessitent des résultats lisibles par machine, utilisez le mode JSON ou le format de réponse :

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
        {"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
    ],
    response_format={"type": "json_object"}
)

import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}

Quand utiliser les sorties structurées

ScénarioFormatPourquoi
Extraction de données depuis des documentsMode JSONLes systèmes en aval ont besoin de données structurées
Réponses d'outils d'agentMode JSONLes orchestrateurs d'outils ont besoin de sorties analysables
Tâches de classificationMode JSONBesoin d'un champ d'étiquette cohérent, pas de texte libre
Génération de codeTexte brutLe code est déjà structuré ; l'encapsulation JSON ajoute du surcoût
Explications et chatTexte brutLe langage naturel se lit mieux sans JSON

Workflow d'agent de codage

C'est le cas d'utilisation à la plus haute valeur pour Gemini 3.5 Flash. Voici une boucle d'agent de codage complète :

from openai import OpenAI
import subprocess
import json

client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")

def run_tests(test_file: str) -> dict:
    """Run tests and return results."""
    result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
                          capture_output=True, text=True, timeout=60)
    return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}

def read_file(path: str) -> str:
    with open(path) as f:
        return f.read()

def write_file(path: str, content: str):
    with open(path, "w") as f:
        f.write(content)

# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")

messages = [
    {"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
    {"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]

MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=messages,
        temperature=0.2,
        max_tokens=8192
    )

    reply = response.choices[0].message.content
    messages.append({"role": "assistant", "content": reply})

    # Extract and apply the fix
    if "```python" in reply:
        code_block = reply.split("```python")[1].split("```")[0]
        write_file("src/auth.py", code_block)

    # Re-run tests
    test_result = run_tests("tests/test_auth.py")

    if test_result["passed"]:
        print(f"All tests pass after {i + 1} iterations.")
        break

    messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
    print(f"Failed to fix after {MAX_ITERATIONS} iterations.")

Conseils de performance pour les boucles d'agent

ConseilImpact
Utiliser temperature=0.2 pour des corrections déterministesRéduit la variation aléatoire entre les itérations
Définir max_tokens=8192 pour la sortie de codeEmpêche la troncature sur les fichiers volumineux
Inclure la sortie des tests dans le contexteFournit au modèle des signaux d'échec concrets
Limiter les itérations (15–20)Empêche les coûts incontrôlés si le modèle est bloqué
Utiliser la mise en cache du contexteMême contexte de code envoyé à chaque itération — les hits de cache peuvent réduire significativement le coût d'entrée

Modèle de déploiement en sous-agent

Dans les systèmes multi-agents, Gemini 3.5 Flash fonctionne bien comme sous-agent gérant des tâches spécifiques tandis qu'un coordinateur (Pro ou un autre modèle) gère le workflow global :

def coding_sub_agent(task: str, context: str) -> str:
    """Fast coding sub-agent using Gemini 3.5 Flash."""
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
            {"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
        ],
        temperature=0.2,
        max_tokens=4096
    )
    return response.choices[0].message.content

def reasoning_agent(task: str) -> str:
    """Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[
            {"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
            {"role": "user", "content": task}
        ],
        temperature=0.3,
        max_tokens=4096
    )
    return response.choices[0].message.content

# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)

results = []
for subtask in subtasks:
    result = coding_sub_agent(subtask, context=module_code)
    results.append(result)

Quel modèle pour quel rôle dans un système multi-agents

Rôle de l'agentModèle recommandéPourquoi
Coordinateur / planificateurGemini 3.1 ProA besoin du raisonnement le plus profond pour les décisions architecturales
Sous-agent de codageGemini 3.5 FlashItération rapide, bonne qualité de code, faible coût par appel
Classification / routageGemini 3.1 Flash LiteOption la moins chère pour les décisions structurées simples
Analyse de documentsGemini 3.5 Flash1M de contexte + multimodal pour PDF et images
Validation / revueGemini 3.5 Flash ou ProDépend du caractère critique de la revue

Analyse des coûts : ce que coûtent réellement les boucles d'agent

La plupart des développeurs sous-estiment les coûts des agents parce qu'ils ne regardent que le prix par requête unique. Voici une ventilation réaliste :

Agent de codage : session de débogage à 20 itérations

PhaseTokens d'entréeTokens de sortieCoût d'entréeCoût de sortie
Itération 1 (contexte complet)8 0002 000$0.012$0.018
Itérations 2–5 (contexte croissant)40 0006 000$0.060$0.054
Itérations 6–10 (contexte large)60 0005 000$0.090$0.045
Itérations 11–20 (plateau)100 0007 000$0.150$0.063
Total208 00020 000$0.312$0.180
Total de la session$0.49

Avec mise en cache du contexte (taux de hit de 50 % supposé sur le contexte de code répété) :

Sans cacheAvec cacheÉconomies
Coût d'entrée$0.312~$0.18740 %
Coût de sortie$0.180$0.1800 %
Total$0.492$0.36725 %

Comparaison des coûts : même session d'agent sur différents modèles

ModèleCoût d'entréeCoût de sortieTotal sessionCompromis qualité
Gemini 3.5 Flash$0.312$0.180$0.49Meilleur équilibre pour les agents de codage
Gemini 3.1 Pro$0.416–$0.832$0.240–$0.360$0.66–$1.19Raisonnement plus profond, 2–3x le coût
Gemini 3 Flash$0.104$0.060$0.16Moins cher mais codage plus faible
Gemini 3.1 Flash Lite$0.052$0.030$0.08Le moins cher mais raisonnement limité

Stratégies de contrôle des coûts

1. Activer la mise en cache du contexte

Si votre agent envoie le même contexte de code de manière répétée, la mise en cache du contexte peut réduire significativement le coût d'entrée sur les hits de cache.

2. Utiliser le Batch API pour le travail non urgent

Pour la génération de tests, l'extraction en masse ou l'analyse de code hors ligne, le Batch API offre des tarifs réduits. La latence est plus élevée mais le coût par token est inférieur.

3. Définir Max Tokens

Définissez toujours max_tokens pour éviter des sorties inattendument longues qui gonflent les coûts :
response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=messages,
    max_tokens=4096  # Reasonable limit for code output
)

4. Router par complexité de tâche

N'utilisez pas un seul modèle pour tout. Construisez une couche de routage :

def route_request(task_type: str) -> str:
    routing_table = {
        "architecture": "gemini-3.1-pro-preview",      # Deep reasoning
        "coding": "gemini-3.5-flash",           # Fast iteration
        "classification": "gemini-3.1-flash-lite",  # Cheapest
        "review": "gemini-3.5-flash",           # Good balance
        "chat": "gemini-3.5-flash",             # Production default
    }
    return routing_table.get(task_type, "gemini-3.5-flash")

5. Surveiller l'utilisation des tokens

Suivez les tokens d'entrée et de sortie par requête. Le tableau de bord d'EvoLink offre une visibilité en temps réel sur l'utilisation. Vérifiez l'utilisation régulièrement et définissez des limites de budget côté application selon vos besoins.

6. Tronquer le contexte quand c'est possible

N'envoyez pas la totalité de votre contexte de 1M de tokens si vous n'avez besoin que des derniers 50K tokens. Supprimez les anciens tours de conversation et ne gardez que le contexte pertinent.


Erreurs courantes et comment les éviter

ErreurCe qui se passeSolution
Coder en dur le Model ID partoutImpossible de changer de modèle sans modifier le codeStocker le Model ID dans la config ; router par type de tâche
Ne pas définir max_tokensLa sortie peut être inattendument longue et coûteuseToujours définir une limite de sortie raisonnable
Envoyer le contexte complet à chaque itération sans cacheLe coût d'entrée croît linéairement avec les itérationsActiver la mise en cache du contexte pour les préfixes répétés
Utiliser Flash pour des tâches nécessitant un raisonnement profondPrécision moindre sur les décisions architecturales complexesRouter les étapes les plus difficiles vers Gemini 3.1 Pro
Utiliser Pro pour des tâches que Flash gère bien2–3x plus cher avec un gain de qualité marginalFlash par défaut ; passer à Pro uniquement si nécessaire
Ignorer le coût des retentatives dans les estimations budgétairesLe coût réel est supérieur aux estimations par requête uniqueInclure le taux de retentative et le coût de repli dans les calculs
Ne pas valider les arguments des appels de fonctionsLe modèle produit des paramètres invalidesToujours valider les arguments des appels d'outils avant l'exécution
Traiter la fenêtre de contexte comme illimitée1M de tokens est grand mais pas infiniSurveiller l'utilisation du contexte ; tronquer quand on approche des limites

Quand NE PAS utiliser Gemini 3.5 Flash

Gemini 3.5 Flash est puissant mais pas universel. Utilisez autre chose quand :

ScénarioPourquoi Flash ne convient pasMeilleur choix
Génération d'images/audio/vidéoFlash ne produit que du texteModèles de génération spécialisés
Raisonnement multi-étapes le plus complexePro offre des traces de raisonnement plus profondesGemini 3.1 Pro
Extraction par lots au coût le plus basFlash Lite est 6x moins cher en entréeGemini 3.1 Flash Lite
Conversation vocale en temps réelFlash ne supporte pas le Live APIModèles Gemini avec Live API
Computer UseComputer Use non supportéModèles avec support Computer Use

FAQ

Quel est le Model ID de Gemini 3.5 Flash ?

Le Model ID est gemini-3.5-flash. Utilisez exactement cette chaîne dans les requêtes API via EvoLink.

Gemini 3.5 Flash est-il gratuit ?

Gemini 3.5 Flash propose un niveau gratuit sur l'API Google Gemini. La tarification standard payante est de $1.50 par 1M de tokens d'entrée et $9.00 par 1M de tokens de sortie. La mise en cache du contexte et le Batch API offrent des tarifs réduits. Pour les tarifs EvoLink, consultez la page produit.

Puis-je utiliser Gemini 3.5 Flash avec le SDK OpenAI ?

Oui. Pointez le SDK OpenAI vers https://api.evolink.ai/v1 et définissez model="gemini-3.5-flash". Fonctionne avec Python, Node.js, Go et tout autre client compatible OpenAI.

Gemini 3.5 Flash supporte-t-il l'appel de fonctions ?

Oui. L'appel de fonctions, les sorties structurées, l'exécution de code et l'ancrage par recherche sont tous supportés nativement. Vous pouvez définir des outils et le modèle les appellera quand c'est approprié.

Comment Gemini 3.5 Flash se compare-t-il à Gemini 3 Flash ?

Gemini 3.5 Flash est le modèle Flash de génération actuelle avec une intelligence de niveau frontier, des performances agentiques et de codage supérieures, et un raisonnement intégré. Gemini 3 Flash est la génération précédente avec des capacités moindres mais aussi un coût inférieur ($0.50 vs $1.50 par MTok en entrée).

Quelle est la taille de la fenêtre de contexte ?

1 000 000 de tokens d'entrée et 65 536 tokens de sortie. C'est suffisant pour des bases de code complètes, des analyses multi-documents et de longs historiques de conversation d'agent.

Gemini 3.5 Flash est-il adapté aux agents de codage ?

Oui. Google l'optimise explicitement pour les tâches de codage et les workflows agentiques. Il gère la génération de code, le débogage, le refactoring et l'analyse multi-fichiers à la vitesse Flash. Une session de débogage typique de 20 itérations coûte environ $0.30–$0.50.

Gemini 3.5 Flash est-il prêt pour la production ?

Oui. Google le liste comme disponible en version générale (GA) et stable pour une utilisation en production à grande échelle. Ce n'est ni un modèle d'aperçu ni un modèle expérimental.

Combien coûte une session d'agent de codage ?

Une session de débogage typique de 20 itérations avec ~200K tokens d'entrée totaux et ~20K tokens de sortie coûte environ $0.49 au tarif standard, ou ~$0.37 avec la mise en cache du contexte activée.

Puis-je passer d'un modèle Gemini à un autre sans changer le code ?

Oui. Avec EvoLink, tous les modèles Gemini partagent le même format d'API. Changez le paramètre model de "gemini-3.5-flash" à "gemini-3.1-pro" ou "gemini-3.1-flash-lite" — aucune autre modification nécessaire.

Gemini 3.5 Flash supporte-t-il la sortie JSON structurée ?

Oui. Utilisez response_format={"type": "json_object"} pour obtenir des réponses JSON structurées. Cela est utile pour l'extraction de données, la classification et l'orchestration d'outils.

Prochaines étapes

Prêt à réduire vos coûts IA de 89 % ?

Commencez avec EvoLink dès aujourd'hui et découvrez la puissance du routage intelligent des API.