HappyHorse 1.0 ist jetzt liveJetzt ausprobieren
Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele
guide

Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

EvoLink Team
EvoLink Team
Product Team
20. Mai 2026
19 Min. Lesezeit

Gemini 3.5 Flash ist Googles neuestes produktionsreifes Flash-Modell, allgemein verfügbar (GA) und stabil für den skalierten Produktionseinsatz. Es wurde für agentische Workflows, Coding Agents, Sub-Agent-Einsätze und langfristige Aufgaben entwickelt — und vereint Intelligenz auf Frontier-Niveau mit Flash-typischer Geschwindigkeit und Kosteneffizienz.

Dieser Leitfaden behandelt alles, was Sie für die Integration von Gemini 3.5 Flash in Ihre Anwendung benötigen: Model ID, Preise, Code-Beispiele in Python und Node.js, Function Calling, strukturierte Ausgaben, Agent-Workflow-Muster, Kostenanalyse und die Wahl zwischen Flash und Pro.

Die vollständige Produktseite mit Live-Preisen finden Sie unter Gemini 3.5 Flash API auf EvoLink.

Kurzreferenzkarte

ElementWert
Model IDgemini-3.5-flash
StatusAllgemein verfügbar (GA), stabil für Produktion
Eingabepreis$1.50 pro 1M Tokens
Ausgabepreis$9.00 pro 1M Tokens
Kontextfenster1.000.000 Eingabe-Tokens
Maximale Ausgabe65.536 Tokens
EingabemodalitätenText, Bild, Video, Audio, PDF
AusgabemodalitätenNur Text
Function CallingUnterstützt
Strukturierte AusgabenUnterstützt
Code-AusführungUnterstützt
Such-GroundingUnterstützt
Context CachingUnterstützt
Batch APIUnterstützt
StreamingUnterstützt

Inhaltsverzeichnis

  1. Wann Gemini 3.5 Flash verwenden
  2. Gemini 3.5 Flash vs. andere Gemini-Modelle
  3. Preise im Detail
  4. Einrichtung: In 2 Minuten starten
  5. Code-Beispiele
  6. Function Calling
  7. Strukturierte Ausgaben
  8. Coding-Agent-Workflow
  9. Sub-Agent-Einsatzmuster
  10. Kostenanalyse: Was Agent-Schleifen tatsächlich kosten
  11. Strategien zur Kostenkontrolle
  12. Häufige Fehler und wie man sie vermeidet
  13. Wann Gemini 3.5 Flash NICHT verwenden
  14. FAQ

Wann Gemini 3.5 Flash verwenden

Gemini 3.5 Flash ist kein universelles Budget-Modell. Google positioniert es explizit für spezifische hochwertige Workloads, bei denen Geschwindigkeit, Kosten pro Iteration und Tool-Unterstützung wichtiger sind als maximale Reasoning-Tiefe.

Beste Anwendungsfälle

AnwendungsfallWarum Gemini 3.5 Flash passtWas zu messen ist
Coding AgentsSchnelle Code-Generierung, Debugging, Refactoring mit Flash-Geschwindigkeit pro IterationIterationen bis zur Lösung, Kosten pro Sitzung, Diff-Qualität
Agentische WorkflowsNatives Function Calling, parallele Ausführungsschleifen, niedrige Kosten pro AufrufTool-Call-Genauigkeit, Fallback-Rate, Gesamt-Workflow-Kosten
Sub-Agent-EinsatzEinsatz als Sub-Agent in Multi-Agent-Systemen, wo die Wirtschaftlichkeit pro Aufruf zähltLatenz pro Sub-Aufruf, Fehlerrate, Orchestrierungs-Overhead
Langfristige Aufgaben1M Kontext verarbeitet vollständige Codebasen und Multi-Dokument-Analysen ohne KürzungKontextauslastung, Ausgabequalität bei hohen Token-Zahlen
DokumentenverarbeitungPDF-, Audio-, Video-Eingaben zu einheitlichen Preisen — keine ModalitätszuschlägeExtraktionsgenauigkeit, Verarbeitungskosten pro Dokument
Produktions-ChatEingebautes Reasoning bei Flash-Latenz für kundenorientierte AnwendungenTime to First Token, Benutzerzufriedenheit, Kosten pro Gespräch

Entscheidungsbaum für Anwendungsfälle

Stellen Sie sich diese Fragen in dieser Reihenfolge:

  1. Erfordert die Aufgabe das tiefstmögliche Reasoning? Wenn ja → Gemini 3.1 Pro.
  2. Ist dies eine hochvolumige, einfache Aufgabe (Klassifizierung, Routing, Extraktion)? Wenn ja → Gemini 3.1 Flash Lite.
  3. Umfasst die Aufgabe Coding, Agents, Tools oder langen Kontext? Wenn ja → Gemini 3.5 Flash.
  4. Handelt es sich um allgemeinen Produktions-Chat oder Zusammenfassungen? Wenn ja → Gemini 3.5 Flash oder Gemini 2.5 Flash (vergleichen Sie anhand Ihres Workloads).

Gemini 3.5 Flash vs. andere Gemini-Modelle

Dies ist der Vergleich, der für Produktions-Routing-Entscheidungen zählt.

MerkmalGemini 3.5 FlashGemini 3.1 ProGemini 3 FlashGemini 3.1 Flash LiteGemini 2.5 Flash
StatusGA, stabilVorschauVorschauVorschauStabil
Ideal fürAgents, Coding, langfristigSchwieriges ReasoningAllgemeine schnelle WorkloadsHochvolumige Batch-VerarbeitungProduktions-Chat
Eingabekosten$1.50/MTok$2–$4/MTok$0.50/MTok$0.25/MTok$0.30/MTok
Ausgabekosten$9.00/MTok$12–$18/MTok$3.00/MTok$1.50/MTok$2.50/MTok
Kontext1M / 65K1M / 64K1M / 64K1M / 64K1M / 64K
ReasoningEingebautTiefstes (Thinking)StandardLeichtgewichtigStandard
Function CallingJaJaJaJaJa
Code-AusführungJaJaJaJaJa
ProduktionsreifeGAVorschauVorschauVorschauStabil
Kernaussage: Gemini 3.5 Flash ist das einzige GA-stabile Flash-Modell der Gemini-3.x-Generation mit eingebautem Reasoning und vollständiger Tool-Unterstützung. Es kostet mehr als Gemini 3 Flash ($1.50 vs. $0.50 pro MTok Eingabe), liefert aber Intelligenz auf Frontier-Niveau, die vorherige Flash-Modelle nicht erreichen.

Preise im Detail

Standardpreise

Token-TypPreis pro 1M Tokens
Texteingabe$1.50
Textausgabe$9.00
AudioeingabeEinheitlich mit Text (kein Zuschlag)
BildeingabeEinheitlich mit Text (kein Zuschlag)
VideoeingabeEinheitlich mit Text (kein Zuschlag)
PDF-EingabeEinheitlich mit Text (kein Zuschlag)

Optionen zur Kostensenkung

MethodeFunktionsweiseIdeal für
Context CachingWiederholte Eingabepräfixe zwischenspeichern; Cache-Treffer kosten weniger als neue EingabenAgent-Schleifen, wiederholter Code-Kontext, System-Prompts
Batch APIAnfragen stapelweise zur Offline-Verarbeitung mit vergünstigten Tarifen einreichenTestgenerierung, Massenextraktion, Offline-Analyse
EvoLink-CreditsCredits vorab kaufen für MengenrabatteTeams mit vorhersehbarem monatlichen Verbrauch

Reale Kostenbeispiele

SzenarioEingabe-TokensAusgabe-TokensGeschätzte Kosten
Einzelne Textfrage~500~200$0.003
Code-Review (1 Datei, ~2K Zeilen)~8.000~2.000$0.03
Coding-Agent-Sitzung (20 Iterationen)~80.000~20.000$0.30
Vollständige Codebase-Analyse (500K Kontext)~500.000~10.000$0.84
PDF-Dokumentenextraktion (100 Seiten)~150.000~5.000$0.27
8-Stunden-Agent-Einsatz (kontinuierlich)~2.000.000~500.000$7.50

Diese Schätzungen basieren auf Standardpreisen ohne Caching. Mit aktiviertem Context Caching können die Eingabekosten bei Agent-Schleifen erheblich gesenkt werden.


Einrichtung: In 2 Minuten starten

Registrieren Sie sich bei EvoLink und erstellen Sie einen API-Key unter Dashboard → Keys.

Schritt 2: OpenAI SDK installieren

EvoLink ist OpenAI-kompatibel, sodass Sie das Standard-OpenAI-SDK verwenden:

Python:
pip install openai
Node.js:
npm install openai

Schritt 3: Erste Anfrage senden

Python:
from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-api-key",
    base_url="https://api.evolink.ai/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
    ]
)

print(response.choices[0].message.content)
Node.js:
import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "your-evolink-api-key",
  baseURL: "https://api.evolink.ai/v1",
});

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "What is Gemini 3.5 Flash best at?" },
  ],
});

console.log(response.choices[0].message.content);

Das war's. Kein Google-spezifisches SDK nötig, kein separater Auth-Flow, kein Vertex-AI-Setup.


Code-Beispiele

Einfache Textanfrage mit System-Prompt

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
        {"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
    ],
    temperature=0.3,
    max_tokens=512
)

Multimodal: Bildanalyse

import base64

with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
            ]
        }
    ]
)

Alle multimodalen Eingaben teilen sich denselben Token-Preis wie Text — keine Audio- oder Videozuschläge.

Streaming

Für interaktive Anwendungen, bei denen Tokens während der Generierung erscheinen sollen:

Python:
stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)
Node.js:
const stream = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) process.stdout.write(content);
}

Multi-Turn-Konversation

messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a linked list implementation in Python."},
]

# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})

# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)

Function Calling

Gemini 3.5 Flash unterstützt natives Function Calling, das für Agent-Workflows unerlässlich ist. Definieren Sie Tools und lassen Sie das Modell entscheiden, wann sie aufgerufen werden.

Python-Beispiel

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Search the internal knowledge base",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string", "description": "Search query"},
                    "limit": {"type": "integer", "description": "Max results to return"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
    tools=tools,
    tool_choice="auto"
)

# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Arguments: {tool_call.function.arguments}")

Node.js-Beispiel

const tools = [
  {
    type: "function",
    function: {
      name: "run_tests",
      description: "Run the test suite and return results",
      parameters: {
        type: "object",
        properties: {
          test_file: { type: "string", description: "Path to test file" },
          verbose: { type: "boolean", description: "Show detailed output" },
        },
        required: ["test_file"],
      },
    },
  },
];

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Run the tests for auth module" }],
  tools,
  tool_choice: "auto",
});

const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
  console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}

Best Practices für Function Calling

PraxisWarum
Klare Funktionsbeschreibungen schreibenDas Modell nutzt Beschreibungen, um zu entscheiden, wann welches Tool aufgerufen wird
required-Felder verwendenVerhindert, dass das Modell kritische Parameter auslässt
Parameter-Schemas einfach haltenKomplexe verschachtelte Schemas erhöhen die Fehlerquote
Parallele Tool-Aufrufe behandelnGemini 3.5 Flash kann in einer Antwort mehrere Tools aufrufen
Tool-Call-Argumente validierenImmer vor der Ausführung validieren — Modellausgaben nicht blind vertrauen

Strukturierte Ausgaben

Für Workflows, die maschinenlesbare Ergebnisse benötigen, verwenden Sie den JSON-Modus oder das Antwortformat:

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
        {"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
    ],
    response_format={"type": "json_object"}
)

import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}

Wann strukturierte Ausgaben verwenden

SzenarioFormatWarum
Datenextraktion aus DokumentenJSON-ModusNachgelagerte Systeme benötigen strukturierte Daten
Agent-Tool-AntwortenJSON-ModusTool-Orchestrierer benötigen parsebare Ausgaben
KlassifizierungsaufgabenJSON-ModusKonsistentes Label-Feld nötig, kein Freitext
Code-GenerierungKlartextCode ist bereits strukturiert; JSON-Wrapping erzeugt Overhead
Erklärungen und ChatKlartextNatürliche Sprache liest sich ohne JSON besser

Coding-Agent-Workflow

Dies ist der wertvollste Anwendungsfall für Gemini 3.5 Flash. Hier ist eine vollständige Coding-Agent-Schleife:

from openai import OpenAI
import subprocess
import json

client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")

def run_tests(test_file: str) -> dict:
    """Run tests and return results."""
    result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
                          capture_output=True, text=True, timeout=60)
    return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}

def read_file(path: str) -> str:
    with open(path) as f:
        return f.read()

def write_file(path: str, content: str):
    with open(path, "w") as f:
        f.write(content)

# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")

messages = [
    {"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
    {"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]

MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=messages,
        temperature=0.2,
        max_tokens=8192
    )

    reply = response.choices[0].message.content
    messages.append({"role": "assistant", "content": reply})

    # Extract and apply the fix
    if "```python" in reply:
        code_block = reply.split("```python")[1].split("```")[0]
        write_file("src/auth.py", code_block)

    # Re-run tests
    test_result = run_tests("tests/test_auth.py")

    if test_result["passed"]:
        print(f"All tests pass after {i + 1} iterations.")
        break

    messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
    print(f"Failed to fix after {MAX_ITERATIONS} iterations.")

Performance-Tipps für Agent-Schleifen

TippAuswirkung
temperature=0.2 für deterministische Fixes verwendenReduziert zufällige Variation zwischen Iterationen
max_tokens=8192 für Code-Ausgabe setzenVerhindert Kürzung bei großen Dateien
Testausgabe im Kontext einschließenGibt dem Modell konkrete Fehlersignale
Iterationen begrenzen (15–20)Verhindert unkontrollierte Kosten, wenn das Modell feststeckt
Context Caching verwendenGleicher Code-Kontext in jeder Iteration — Cache-Treffer können die Eingabekosten erheblich senken

Sub-Agent-Einsatzmuster

In Multi-Agent-Systemen eignet sich Gemini 3.5 Flash gut als Sub-Agent für spezifische Aufgaben, während ein Koordinator (Pro oder ein anderes Modell) den Gesamt-Workflow verwaltet:

def coding_sub_agent(task: str, context: str) -> str:
    """Fast coding sub-agent using Gemini 3.5 Flash."""
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
            {"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
        ],
        temperature=0.2,
        max_tokens=4096
    )
    return response.choices[0].message.content

def reasoning_agent(task: str) -> str:
    """Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[
            {"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
            {"role": "user", "content": task}
        ],
        temperature=0.3,
        max_tokens=4096
    )
    return response.choices[0].message.content

# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)

results = []
for subtask in subtasks:
    result = coding_sub_agent(subtask, context=module_code)
    results.append(result)

Welches Modell für welche Rolle im Multi-Agent-System

Agent-RolleEmpfohlenes ModellWarum
Koordinator / PlanerGemini 3.1 ProBraucht tiefstes Reasoning für Architekturentscheidungen
Coding-Sub-AgentGemini 3.5 FlashSchnelle Iteration, gute Code-Qualität, niedrige Kosten pro Aufruf
Klassifizierung / RoutingGemini 3.1 Flash LiteGünstigste Option für einfache strukturierte Entscheidungen
DokumentenanalyseGemini 3.5 Flash1M Kontext + Multimodal für PDFs und Bilder
Validierung / ReviewGemini 3.5 Flash oder ProHängt davon ab, wie kritisch das Review ist

Kostenanalyse: Was Agent-Schleifen tatsächlich kosten

Die meisten Entwickler unterschätzen Agent-Kosten, weil sie nur Einzelanfragepreise betrachten. Hier ist eine realistische Aufschlüsselung:

Coding Agent: 20-Iterationen-Debug-Sitzung

PhaseEingabe-TokensAusgabe-TokensEingabekostenAusgabekosten
Iteration 1 (voller Kontext)8.0002.000$0.012$0.018
Iterationen 2–5 (wachsender Kontext)40.0006.000$0.060$0.054
Iterationen 6–10 (großer Kontext)60.0005.000$0.090$0.045
Iterationen 11–20 (Plateau)100.0007.000$0.150$0.063
Gesamt208.00020.000$0.312$0.180
Sitzung gesamt$0.49

Mit Context Caching (50 % Trefferquote auf wiederholtem Code-Kontext angenommen):

Ohne CachingMit CachingErsparnis
Eingabekosten$0.312~$0.18740 %
Ausgabekosten$0.180$0.1800 %
Gesamt$0.492$0.36725 %

Kostenvergleich: Gleiche Agent-Sitzung über verschiedene Modelle

ModellEingabekostenAusgabekostenSitzung gesamtQualitäts-Kompromiss
Gemini 3.5 Flash$0.312$0.180$0.49Beste Balance für Coding Agents
Gemini 3.1 Pro$0.416–$0.832$0.240–$0.360$0.66–$1.19Tieferes Reasoning, 2–3x teurer
Gemini 3 Flash$0.104$0.060$0.16Günstiger, aber schwächeres Coding
Gemini 3.1 Flash Lite$0.052$0.030$0.08Am günstigsten, aber begrenztes Reasoning

Strategien zur Kostenkontrolle

1. Context Caching aktivieren

Wenn Ihr Agent wiederholt denselben Code-Kontext sendet, reduziert Context Caching die Eingabekosten bei Cache-Treffern erheblich.

2. Batch API für nicht-dringende Aufgaben nutzen

Für Testgenerierung, Massenextraktion oder Offline-Code-Analyse bietet die Batch API Rabatte. Die Latenz ist höher, aber die Kosten pro Token sind niedriger.

3. Max Tokens setzen

Setzen Sie immer max_tokens, um unerwartet lange Ausgaben zu verhindern, die die Kosten aufblähen:
response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=messages,
    max_tokens=4096  # Reasonable limit for code output
)

4. Nach Aufgabenkomplexität routen

Verwenden Sie nicht ein Modell für alles. Bauen Sie eine Routing-Schicht:

def route_request(task_type: str) -> str:
    routing_table = {
        "architecture": "gemini-3.1-pro-preview",      # Deep reasoning
        "coding": "gemini-3.5-flash",           # Fast iteration
        "classification": "gemini-3.1-flash-lite",  # Cheapest
        "review": "gemini-3.5-flash",           # Good balance
        "chat": "gemini-3.5-flash",             # Production default
    }
    return routing_table.get(task_type, "gemini-3.5-flash")

5. Token-Nutzung überwachen

Verfolgen Sie Eingabe- und Ausgabe-Tokens pro Anfrage. Das EvoLink-Dashboard bietet Echtzeit-Verbrauchsübersicht. Überprüfen Sie den Verbrauch regelmäßig und setzen Sie bei Bedarf Budgetlimits auf Anwendungsseite.

6. Kontext wo möglich kürzen

Senden Sie nicht Ihren gesamten 1M-Token-Kontext, wenn Sie nur die letzten 50K Tokens benötigen. Kürzen Sie alte Gesprächsrunden und behalten Sie nur relevanten Kontext.


Häufige Fehler und wie man sie vermeidet

FehlerWas passiertLösung
Model ID überall hart codierenModellwechsel ohne Code-Änderungen nicht möglichModel ID in Konfiguration speichern; nach Aufgabentyp routen
max_tokens nicht setzenAusgabe kann unerwartet lang und teuer werdenImmer ein vernünftiges Ausgabelimit setzen
Vollen Kontext bei jeder Iteration ohne Caching sendenEingabekosten steigen linear mit IterationenContext Caching für wiederholte Präfixe aktivieren
Flash für Aufgaben nutzen, die tiefes Reasoning erfordernGeringere Genauigkeit bei komplexen ArchitekturentscheidungenSchwierigste Schritte zu Gemini 3.1 Pro routen
Pro für Aufgaben nutzen, die Flash gut bewältigt2–3x höhere Kosten bei marginalem QualitätsgewinnStandard auf Flash; nur bei Bedarf auf Pro upgraden
Retry-Kosten in Budgetschätzungen ignorierenReale Kosten sind höher als Einzelanfrage-SchätzungenRetry-Rate und Fallback-Kosten in Berechnungen einbeziehen
Function-Call-Argumente nicht validierenModell gibt ungültige Parameter ausTool-Call-Argumente immer vor Ausführung validieren
Kontextfenster als unbegrenzt behandeln1M Tokens ist groß, aber nicht unendlichKontextnutzung überwachen; bei Annäherung an Limits kürzen

Wann Gemini 3.5 Flash NICHT verwenden

Gemini 3.5 Flash ist stark, aber nicht universell. Verwenden Sie etwas anderes, wenn:

SzenarioWarum Flash falsch istBessere Wahl
Bild-/Audio-/VideogenerierungFlash gibt nur Text ausSpezialisierte Generierungsmodelle
Schwieriges mehrstufiges ReasoningPro bietet tiefere Reasoning-TracesGemini 3.1 Pro
Günstigste Massenextraktion möglichFlash Lite ist 6x günstiger bei EingabeGemini 3.1 Flash Lite
Echtzeit-SprachkonversationFlash unterstützt keine Live APIGemini-Modelle mit Live-API
Computer UseComputer Use wird nicht unterstütztModelle mit Computer-Use-Unterstützung

FAQ

Wie lautet die Model ID für Gemini 3.5 Flash?

Die Model ID ist gemini-3.5-flash. Verwenden Sie genau diesen String in API-Anfragen über EvoLink.

Ist Gemini 3.5 Flash kostenlos?

Gemini 3.5 Flash bietet einen kostenlosen Zugang über die Google Gemini API. Die kostenpflichtigen Standardpreise betragen $1.50 pro 1M Eingabe-Tokens und $9.00 pro 1M Ausgabe-Tokens. Context Caching und die Batch API bieten vergünstigte Tarife. Die EvoLink-Preise finden Sie auf der Produktseite.

Kann ich Gemini 3.5 Flash mit dem OpenAI SDK nutzen?

Ja. Richten Sie das OpenAI SDK auf https://api.evolink.ai/v1 und setzen Sie model="gemini-3.5-flash". Funktioniert mit Python, Node.js, Go und jedem anderen OpenAI-kompatiblen Client.

Unterstützt Gemini 3.5 Flash Function Calling?

Ja. Function Calling, strukturierte Ausgaben, Code-Ausführung und Such-Grounding werden nativ unterstützt. Sie können Tools definieren, und das Modell ruft sie bei Bedarf auf.

Wie schneidet Gemini 3.5 Flash im Vergleich zu Gemini 3 Flash ab?

Gemini 3.5 Flash ist das aktuelle Flash-Modell mit Frontier-Intelligenz, stärkerer Agent- und Coding-Leistung und eingebautem Reasoning. Gemini 3 Flash ist die vorherige Generation mit geringerer Leistung, aber auch niedrigeren Kosten ($0.50 vs. $1.50 pro MTok Eingabe).

Wie groß ist das Kontextfenster?

1.000.000 Eingabe-Tokens und 65.536 Ausgabe-Tokens. Das reicht für vollständige Codebasen, Multi-Dokument-Analysen und lange Agent-Konversationsverläufe.

Ist Gemini 3.5 Flash gut für Coding Agents?

Ja. Google optimiert es explizit für Coding-Aufgaben und agentische Workflows. Es bewältigt Code-Generierung, Debugging, Refactoring und Multi-Datei-Analyse mit Flash-Geschwindigkeit. Eine typische 20-Iterationen-Debug-Sitzung kostet etwa $0.30–$0.50.

Ist Gemini 3.5 Flash produktionsreif?

Ja. Google listet es als allgemein verfügbar (GA) und stabil für skalierten Produktionseinsatz. Es ist kein Vorschau- oder experimentelles Modell.

Wie viel kostet eine Coding-Agent-Sitzung?

Eine typische 20-Iterationen-Debug-Sitzung mit ~200K Gesamt-Eingabe-Tokens und ~20K Ausgabe-Tokens kostet ungefähr $0.49 zum Standardpreis oder ~$0.37 mit aktiviertem Context Caching.

Kann ich zwischen Gemini-Modellen wechseln, ohne Code zu ändern?

Ja. Bei EvoLink teilen sich alle Gemini-Modelle dasselbe API-Format. Ändern Sie den model-Parameter von "gemini-3.5-flash" auf "gemini-3.1-pro" oder "gemini-3.1-flash-lite" — keine weiteren Änderungen nötig.

Unterstützt Gemini 3.5 Flash strukturierte JSON-Ausgabe?

Ja. Verwenden Sie response_format={"type": "json_object"} für strukturierte JSON-Antworten. Dies ist nützlich für Datenextraktion, Klassifizierung und Tool-Orchestrierung.

Nächste Schritte

Bereit, Ihre KI-Kosten um 89 % zu senken?

Starten Sie noch heute mit EvoLink und erleben Sie die Vorteile intelligenter API-Routing.