guide

Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

Name: EvoLink AI API Gateway
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

20. Mai 2026

19 Min. Lesezeit

Gemini 3.5 Flash ist Googles neuestes produktionsreifes Flash-Modell, allgemein verfügbar (GA) und stabil für den skalierten Produktionseinsatz. Es wurde für agentische Workflows, Coding Agents, Sub-Agent-Einsätze und langfristige Aufgaben entwickelt — und vereint Intelligenz auf Frontier-Niveau mit Flash-typischer Geschwindigkeit und Kosteneffizienz.

Dieser Leitfaden behandelt alles, was Sie für die Integration von Gemini 3.5 Flash in Ihre Anwendung benötigen: Model ID, Preise, Code-Beispiele in Python und Node.js, Function Calling, strukturierte Ausgaben, Agent-Workflow-Muster, Kostenanalyse und die Wahl zwischen Flash und Pro.

Die vollständige Produktseite mit Live-Preisen finden Sie unter Gemini 3.5 Flash API auf EvoLink.

Kurzreferenzkarte

Element	Wert
Model ID	`gemini-3.5-flash`
Status	Allgemein verfügbar (GA), stabil für Produktion
Eingabepreis	$1.50 pro 1M Tokens
Ausgabepreis	$9.00 pro 1M Tokens
Kontextfenster	1.000.000 Eingabe-Tokens
Maximale Ausgabe	65.536 Tokens
Eingabemodalitäten	Text, Bild, Video, Audio, PDF
Ausgabemodalitäten	Nur Text
Function Calling	Unterstützt
Strukturierte Ausgaben	Unterstützt
Code-Ausführung	Unterstützt
Such-Grounding	Unterstützt
Context Caching	Unterstützt
Batch API	Unterstützt
Streaming	Unterstützt

Inhaltsverzeichnis

Wann Gemini 3.5 Flash verwenden
Gemini 3.5 Flash vs. andere Gemini-Modelle
Preise im Detail
Einrichtung: In 2 Minuten starten
Code-Beispiele
Function Calling
Strukturierte Ausgaben
Coding-Agent-Workflow
Sub-Agent-Einsatzmuster
Kostenanalyse: Was Agent-Schleifen tatsächlich kosten
Strategien zur Kostenkontrolle
Häufige Fehler und wie man sie vermeidet
Wann Gemini 3.5 Flash NICHT verwenden
FAQ

Wann Gemini 3.5 Flash verwenden

Gemini 3.5 Flash ist kein universelles Budget-Modell. Google positioniert es explizit für spezifische hochwertige Workloads, bei denen Geschwindigkeit, Kosten pro Iteration und Tool-Unterstützung wichtiger sind als maximale Reasoning-Tiefe.

Beste Anwendungsfälle

Anwendungsfall	Warum Gemini 3.5 Flash passt	Was zu messen ist
Coding Agents	Schnelle Code-Generierung, Debugging, Refactoring mit Flash-Geschwindigkeit pro Iteration	Iterationen bis zur Lösung, Kosten pro Sitzung, Diff-Qualität
Agentische Workflows	Natives Function Calling, parallele Ausführungsschleifen, niedrige Kosten pro Aufruf	Tool-Call-Genauigkeit, Fallback-Rate, Gesamt-Workflow-Kosten
Sub-Agent-Einsatz	Einsatz als Sub-Agent in Multi-Agent-Systemen, wo die Wirtschaftlichkeit pro Aufruf zählt	Latenz pro Sub-Aufruf, Fehlerrate, Orchestrierungs-Overhead
Langfristige Aufgaben	1M Kontext verarbeitet vollständige Codebasen und Multi-Dokument-Analysen ohne Kürzung	Kontextauslastung, Ausgabequalität bei hohen Token-Zahlen
Dokumentenverarbeitung	PDF-, Audio-, Video-Eingaben zu einheitlichen Preisen — keine Modalitätszuschläge	Extraktionsgenauigkeit, Verarbeitungskosten pro Dokument
Produktions-Chat	Eingebautes Reasoning bei Flash-Latenz für kundenorientierte Anwendungen	Time to First Token, Benutzerzufriedenheit, Kosten pro Gespräch

Entscheidungsbaum für Anwendungsfälle

Stellen Sie sich diese Fragen in dieser Reihenfolge:

Erfordert die Aufgabe das tiefstmögliche Reasoning? Wenn ja → Gemini 3.1 Pro.
Ist dies eine hochvolumige, einfache Aufgabe (Klassifizierung, Routing, Extraktion)? Wenn ja → Gemini 3.1 Flash Lite.
Umfasst die Aufgabe Coding, Agents, Tools oder langen Kontext? Wenn ja → Gemini 3.5 Flash.
Handelt es sich um allgemeinen Produktions-Chat oder Zusammenfassungen? Wenn ja → Gemini 3.5 Flash oder Gemini 2.5 Flash (vergleichen Sie anhand Ihres Workloads).

Gemini 3.5 Flash vs. andere Gemini-Modelle

Dies ist der Vergleich, der für Produktions-Routing-Entscheidungen zählt.

Merkmal	Gemini 3.5 Flash	Gemini 3.1 Pro	Gemini 3 Flash	Gemini 3.1 Flash Lite	Gemini 2.5 Flash
Status	GA, stabil	Vorschau	Vorschau	Vorschau	Stabil
Ideal für	Agents, Coding, langfristig	Schwieriges Reasoning	Allgemeine schnelle Workloads	Hochvolumige Batch-Verarbeitung	Produktions-Chat
Eingabekosten	$1.50/MTok	$2–$4/MTok	$0.50/MTok	$0.25/MTok	$0.30/MTok
Ausgabekosten	$9.00/MTok	$12–$18/MTok	$3.00/MTok	$1.50/MTok	$2.50/MTok
Kontext	1M / 65K	1M / 64K	1M / 64K	1M / 64K	1M / 64K
Reasoning	Eingebaut	Tiefstes (Thinking)	Standard	Leichtgewichtig	Standard
Function Calling	Ja	Ja	Ja	Ja	Ja
Code-Ausführung	Ja	Ja	Ja	Ja	Ja
Produktionsreife	GA	Vorschau	Vorschau	Vorschau	Stabil

Kernaussage: Gemini 3.5 Flash ist das einzige GA-stabile Flash-Modell der Gemini-3.x-Generation mit eingebautem Reasoning und vollständiger Tool-Unterstützung. Es kostet mehr als Gemini 3 Flash ($1.50 vs. $0.50 pro MTok Eingabe), liefert aber Intelligenz auf Frontier-Niveau, die vorherige Flash-Modelle nicht erreichen.

Preise im Detail

Standardpreise

Token-Typ	Preis pro 1M Tokens
Texteingabe	$1.50
Textausgabe	$9.00
Audioeingabe	Einheitlich mit Text (kein Zuschlag)
Bildeingabe	Einheitlich mit Text (kein Zuschlag)
Videoeingabe	Einheitlich mit Text (kein Zuschlag)
PDF-Eingabe	Einheitlich mit Text (kein Zuschlag)

Optionen zur Kostensenkung

Methode	Funktionsweise	Ideal für
Context Caching	Wiederholte Eingabepräfixe zwischenspeichern; Cache-Treffer kosten weniger als neue Eingaben	Agent-Schleifen, wiederholter Code-Kontext, System-Prompts
Batch API	Anfragen stapelweise zur Offline-Verarbeitung mit vergünstigten Tarifen einreichen	Testgenerierung, Massenextraktion, Offline-Analyse
EvoLink-Credits	Credits vorab kaufen für Mengenrabatte	Teams mit vorhersehbarem monatlichen Verbrauch

Reale Kostenbeispiele

Szenario	Eingabe-Tokens	Ausgabe-Tokens	Geschätzte Kosten
Einzelne Textfrage	~500	~200	$0.003
Code-Review (1 Datei, ~2K Zeilen)	~8.000	~2.000	$0.03
Coding-Agent-Sitzung (20 Iterationen)	~80.000	~20.000	$0.30
Vollständige Codebase-Analyse (500K Kontext)	~500.000	~10.000	$0.84
PDF-Dokumentenextraktion (100 Seiten)	~150.000	~5.000	$0.27
8-Stunden-Agent-Einsatz (kontinuierlich)	~2.000.000	~500.000	$7.50

Diese Schätzungen basieren auf Standardpreisen ohne Caching. Mit aktiviertem Context Caching können die Eingabekosten bei Agent-Schleifen erheblich gesenkt werden.

Einrichtung: In 2 Minuten starten

Schritt 1: EvoLink-API-Key erhalten

Registrieren Sie sich bei EvoLink und erstellen Sie einen API-Key unter Dashboard → Keys.

Schritt 2: OpenAI SDK installieren

EvoLink ist OpenAI-kompatibel, sodass Sie das Standard-OpenAI-SDK verwenden:

Python:

pip install openai

Node.js:

npm install openai

Schritt 3: Erste Anfrage senden

Python:

from openai import OpenAI

client = OpenAI(
    api_key="your-evolink-api-key",
    base_url="https://api.evolink.ai/v1"
)

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
    ]
)

print(response.choices[0].message.content)

Node.js:

import OpenAI from "openai";

const client = new OpenAI({
  apiKey: "your-evolink-api-key",
  baseURL: "https://api.evolink.ai/v1",
});

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [
    { role: "user", content: "What is Gemini 3.5 Flash best at?" },
  ],
});

console.log(response.choices[0].message.content);

Das war's. Kein Google-spezifisches SDK nötig, kein separater Auth-Flow, kein Vertex-AI-Setup.

Code-Beispiele

Einfache Textanfrage mit System-Prompt

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
        {"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
    ],
    temperature=0.3,
    max_tokens=512
)

Multimodal: Bildanalyse

import base64

with open("screenshot.png", "rb") as f:
    image_data = base64.b64encode(f.read()).decode()

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
                {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
            ]
        }
    ]
)

Alle multimodalen Eingaben teilen sich denselben Token-Preis wie Text — keine Audio- oder Videozuschläge.

Streaming

Für interaktive Anwendungen, bei denen Tokens während der Generierung erscheinen sollen:

Python:

stream = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
    stream=True
)

for chunk in stream:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

Node.js:

const stream = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
  stream: true,
});

for await (const chunk of stream) {
  const content = chunk.choices[0]?.delta?.content;
  if (content) process.stdout.write(content);
}

Multi-Turn-Konversation

messages = [
    {"role": "system", "content": "You are a helpful coding assistant."},
    {"role": "user", "content": "Write a linked list implementation in Python."},
]

# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})

# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)

Function Calling

Gemini 3.5 Flash unterstützt natives Function Calling, das für Agent-Workflows unerlässlich ist. Definieren Sie Tools und lassen Sie das Modell entscheiden, wann sie aufgerufen werden.

Python-Beispiel

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Get current weather for a location",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {"type": "string", "description": "City name"},
                    "unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
                },
                "required": ["location"]
            }
        }
    },
    {
        "type": "function",
        "function": {
            "name": "search_database",
            "description": "Search the internal knowledge base",
            "parameters": {
                "type": "object",
                "properties": {
                    "query": {"type": "string", "description": "Search query"},
                    "limit": {"type": "integer", "description": "Max results to return"}
                },
                "required": ["query"]
            }
        }
    }
]

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
    tools=tools,
    tool_choice="auto"
)

# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
    print(f"Function: {tool_call.function.name}")
    print(f"Arguments: {tool_call.function.arguments}")

Node.js-Beispiel

const tools = [
  {
    type: "function",
    function: {
      name: "run_tests",
      description: "Run the test suite and return results",
      parameters: {
        type: "object",
        properties: {
          test_file: { type: "string", description: "Path to test file" },
          verbose: { type: "boolean", description: "Show detailed output" },
        },
        required: ["test_file"],
      },
    },
  },
];

const response = await client.chat.completions.create({
  model: "gemini-3.5-flash",
  messages: [{ role: "user", content: "Run the tests for auth module" }],
  tools,
  tool_choice: "auto",
});

const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
  console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}

Best Practices für Function Calling

Praxis	Warum
Klare Funktionsbeschreibungen schreiben	Das Modell nutzt Beschreibungen, um zu entscheiden, wann welches Tool aufgerufen wird
`required`-Felder verwenden	Verhindert, dass das Modell kritische Parameter auslässt
Parameter-Schemas einfach halten	Komplexe verschachtelte Schemas erhöhen die Fehlerquote
Parallele Tool-Aufrufe behandeln	Gemini 3.5 Flash kann in einer Antwort mehrere Tools aufrufen
Tool-Call-Argumente validieren	Immer vor der Ausführung validieren — Modellausgaben nicht blind vertrauen

Strukturierte Ausgaben

Für Workflows, die maschinenlesbare Ergebnisse benötigen, verwenden Sie den JSON-Modus oder das Antwortformat:

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=[
        {"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
        {"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
    ],
    response_format={"type": "json_object"}
)

import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}

Wann strukturierte Ausgaben verwenden

Szenario	Format	Warum
Datenextraktion aus Dokumenten	JSON-Modus	Nachgelagerte Systeme benötigen strukturierte Daten
Agent-Tool-Antworten	JSON-Modus	Tool-Orchestrierer benötigen parsebare Ausgaben
Klassifizierungsaufgaben	JSON-Modus	Konsistentes Label-Feld nötig, kein Freitext
Code-Generierung	Klartext	Code ist bereits strukturiert; JSON-Wrapping erzeugt Overhead
Erklärungen und Chat	Klartext	Natürliche Sprache liest sich ohne JSON besser

Coding-Agent-Workflow

Dies ist der wertvollste Anwendungsfall für Gemini 3.5 Flash. Hier ist eine vollständige Coding-Agent-Schleife:

from openai import OpenAI
import subprocess
import json

client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")

def run_tests(test_file: str) -> dict:
    """Run tests and return results."""
    result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
                          capture_output=True, text=True, timeout=60)
    return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}

def read_file(path: str) -> str:
    with open(path) as f:
        return f.read()

def write_file(path: str, content: str):
    with open(path, "w") as f:
        f.write(content)

# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")

messages = [
    {"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
    {"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]

MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=messages,
        temperature=0.2,
        max_tokens=8192
    )

    reply = response.choices[0].message.content
    messages.append({"role": "assistant", "content": reply})

    # Extract and apply the fix
    if "```python" in reply:
        code_block = reply.split("```python")[1].split("```")[0]
        write_file("src/auth.py", code_block)

    # Re-run tests
    test_result = run_tests("tests/test_auth.py")

    if test_result["passed"]:
        print(f"All tests pass after {i + 1} iterations.")
        break

    messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
    print(f"Failed to fix after {MAX_ITERATIONS} iterations.")

Performance-Tipps für Agent-Schleifen

Tipp	Auswirkung
`temperature=0.2` für deterministische Fixes verwenden	Reduziert zufällige Variation zwischen Iterationen
`max_tokens=8192` für Code-Ausgabe setzen	Verhindert Kürzung bei großen Dateien
Testausgabe im Kontext einschließen	Gibt dem Modell konkrete Fehlersignale
Iterationen begrenzen (15–20)	Verhindert unkontrollierte Kosten, wenn das Modell feststeckt
Context Caching verwenden	Gleicher Code-Kontext in jeder Iteration — Cache-Treffer können die Eingabekosten erheblich senken

Sub-Agent-Einsatzmuster

In Multi-Agent-Systemen eignet sich Gemini 3.5 Flash gut als Sub-Agent für spezifische Aufgaben, während ein Koordinator (Pro oder ein anderes Modell) den Gesamt-Workflow verwaltet:

def coding_sub_agent(task: str, context: str) -> str:
    """Fast coding sub-agent using Gemini 3.5 Flash."""
    response = client.chat.completions.create(
        model="gemini-3.5-flash",
        messages=[
            {"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
            {"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
        ],
        temperature=0.2,
        max_tokens=4096
    )
    return response.choices[0].message.content

def reasoning_agent(task: str) -> str:
    """Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
    response = client.chat.completions.create(
        model="gemini-3.1-pro-preview",
        messages=[
            {"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
            {"role": "user", "content": task}
        ],
        temperature=0.3,
        max_tokens=4096
    )
    return response.choices[0].message.content

# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)

results = []
for subtask in subtasks:
    result = coding_sub_agent(subtask, context=module_code)
    results.append(result)

Welches Modell für welche Rolle im Multi-Agent-System

Agent-Rolle	Empfohlenes Modell	Warum
Koordinator / Planer	Gemini 3.1 Pro	Braucht tiefstes Reasoning für Architekturentscheidungen
Coding-Sub-Agent	Gemini 3.5 Flash	Schnelle Iteration, gute Code-Qualität, niedrige Kosten pro Aufruf
Klassifizierung / Routing	Gemini 3.1 Flash Lite	Günstigste Option für einfache strukturierte Entscheidungen
Dokumentenanalyse	Gemini 3.5 Flash	1M Kontext + Multimodal für PDFs und Bilder
Validierung / Review	Gemini 3.5 Flash oder Pro	Hängt davon ab, wie kritisch das Review ist

Kostenanalyse: Was Agent-Schleifen tatsächlich kosten

Die meisten Entwickler unterschätzen Agent-Kosten, weil sie nur Einzelanfragepreise betrachten. Hier ist eine realistische Aufschlüsselung:

Coding Agent: 20-Iterationen-Debug-Sitzung

Phase	Eingabe-Tokens	Ausgabe-Tokens	Eingabekosten	Ausgabekosten
Iteration 1 (voller Kontext)	8.000	2.000	$0.012	$0.018
Iterationen 2–5 (wachsender Kontext)	40.000	6.000	$0.060	$0.054
Iterationen 6–10 (großer Kontext)	60.000	5.000	$0.090	$0.045
Iterationen 11–20 (Plateau)	100.000	7.000	$0.150	$0.063
Gesamt	208.000	20.000	$0.312	$0.180
Sitzung gesamt				$0.49

Mit Context Caching (50 % Trefferquote auf wiederholtem Code-Kontext angenommen):

	Ohne Caching	Mit Caching	Ersparnis
Eingabekosten	$0.312	~$0.187	40 %
Ausgabekosten	$0.180	$0.180	0 %
Gesamt	$0.492	$0.367	25 %

Kostenvergleich: Gleiche Agent-Sitzung über verschiedene Modelle

Modell	Eingabekosten	Ausgabekosten	Sitzung gesamt	Qualitäts-Kompromiss
Gemini 3.5 Flash	$0.312	$0.180	$0.49	Beste Balance für Coding Agents
Gemini 3.1 Pro	$0.416–$0.832	$0.240–$0.360	$0.66–$1.19	Tieferes Reasoning, 2–3x teurer
Gemini 3 Flash	$0.104	$0.060	$0.16	Günstiger, aber schwächeres Coding
Gemini 3.1 Flash Lite	$0.052	$0.030	$0.08	Am günstigsten, aber begrenztes Reasoning

Strategien zur Kostenkontrolle

1. Context Caching aktivieren

Wenn Ihr Agent wiederholt denselben Code-Kontext sendet, reduziert Context Caching die Eingabekosten bei Cache-Treffern erheblich.

2. Batch API für nicht-dringende Aufgaben nutzen

Für Testgenerierung, Massenextraktion oder Offline-Code-Analyse bietet die Batch API Rabatte. Die Latenz ist höher, aber die Kosten pro Token sind niedriger.

3. Max Tokens setzen

Setzen Sie immer max_tokens, um unerwartet lange Ausgaben zu verhindern, die die Kosten aufblähen:

response = client.chat.completions.create(
    model="gemini-3.5-flash",
    messages=messages,
    max_tokens=4096  # Reasonable limit for code output
)

4. Nach Aufgabenkomplexität routen

Verwenden Sie nicht ein Modell für alles. Bauen Sie eine Routing-Schicht:

def route_request(task_type: str) -> str:
    routing_table = {
        "architecture": "gemini-3.1-pro-preview",      # Deep reasoning
        "coding": "gemini-3.5-flash",           # Fast iteration
        "classification": "gemini-3.1-flash-lite",  # Cheapest
        "review": "gemini-3.5-flash",           # Good balance
        "chat": "gemini-3.5-flash",             # Production default
    }
    return routing_table.get(task_type, "gemini-3.5-flash")

5. Token-Nutzung überwachen

Verfolgen Sie Eingabe- und Ausgabe-Tokens pro Anfrage. Das EvoLink-Dashboard bietet Echtzeit-Verbrauchsübersicht. Überprüfen Sie den Verbrauch regelmäßig und setzen Sie bei Bedarf Budgetlimits auf Anwendungsseite.

6. Kontext wo möglich kürzen

Senden Sie nicht Ihren gesamten 1M-Token-Kontext, wenn Sie nur die letzten 50K Tokens benötigen. Kürzen Sie alte Gesprächsrunden und behalten Sie nur relevanten Kontext.

Häufige Fehler und wie man sie vermeidet

Fehler	Was passiert	Lösung
Model ID überall hart codieren	Modellwechsel ohne Code-Änderungen nicht möglich	Model ID in Konfiguration speichern; nach Aufgabentyp routen
`max_tokens` nicht setzen	Ausgabe kann unerwartet lang und teuer werden	Immer ein vernünftiges Ausgabelimit setzen
Vollen Kontext bei jeder Iteration ohne Caching senden	Eingabekosten steigen linear mit Iterationen	Context Caching für wiederholte Präfixe aktivieren
Flash für Aufgaben nutzen, die tiefes Reasoning erfordern	Geringere Genauigkeit bei komplexen Architekturentscheidungen	Schwierigste Schritte zu Gemini 3.1 Pro routen
Pro für Aufgaben nutzen, die Flash gut bewältigt	2–3x höhere Kosten bei marginalem Qualitätsgewinn	Standard auf Flash; nur bei Bedarf auf Pro upgraden
Retry-Kosten in Budgetschätzungen ignorieren	Reale Kosten sind höher als Einzelanfrage-Schätzungen	Retry-Rate und Fallback-Kosten in Berechnungen einbeziehen
Function-Call-Argumente nicht validieren	Modell gibt ungültige Parameter aus	Tool-Call-Argumente immer vor Ausführung validieren
Kontextfenster als unbegrenzt behandeln	1M Tokens ist groß, aber nicht unendlich	Kontextnutzung überwachen; bei Annäherung an Limits kürzen

Wann Gemini 3.5 Flash NICHT verwenden

Gemini 3.5 Flash ist stark, aber nicht universell. Verwenden Sie etwas anderes, wenn:

Szenario	Warum Flash falsch ist	Bessere Wahl
Bild-/Audio-/Videogenerierung	Flash gibt nur Text aus	Spezialisierte Generierungsmodelle
Schwieriges mehrstufiges Reasoning	Pro bietet tiefere Reasoning-Traces	Gemini 3.1 Pro
Günstigste Massenextraktion möglich	Flash Lite ist 6x günstiger bei Eingabe	Gemini 3.1 Flash Lite
Echtzeit-Sprachkonversation	Flash unterstützt keine Live API	Gemini-Modelle mit Live-API
Computer Use	Computer Use wird nicht unterstützt	Modelle mit Computer-Use-Unterstützung

FAQ

Wie lautet die Model ID für Gemini 3.5 Flash?

Die Model ID ist gemini-3.5-flash. Verwenden Sie genau diesen String in API-Anfragen über EvoLink.

Ist Gemini 3.5 Flash kostenlos?

Gemini 3.5 Flash bietet einen kostenlosen Zugang über die Google Gemini API. Die kostenpflichtigen Standardpreise betragen $1.50 pro 1M Eingabe-Tokens und $9.00 pro 1M Ausgabe-Tokens. Context Caching und die Batch API bieten vergünstigte Tarife. Die EvoLink-Preise finden Sie auf der Produktseite.

Kann ich Gemini 3.5 Flash mit dem OpenAI SDK nutzen?

Ja. Richten Sie das OpenAI SDK auf https://api.evolink.ai/v1 und setzen Sie model="gemini-3.5-flash". Funktioniert mit Python, Node.js, Go und jedem anderen OpenAI-kompatiblen Client.

Unterstützt Gemini 3.5 Flash Function Calling?

Ja. Function Calling, strukturierte Ausgaben, Code-Ausführung und Such-Grounding werden nativ unterstützt. Sie können Tools definieren, und das Modell ruft sie bei Bedarf auf.

Wie schneidet Gemini 3.5 Flash im Vergleich zu Gemini 3 Flash ab?

Gemini 3.5 Flash ist das aktuelle Flash-Modell mit Frontier-Intelligenz, stärkerer Agent- und Coding-Leistung und eingebautem Reasoning. Gemini 3 Flash ist die vorherige Generation mit geringerer Leistung, aber auch niedrigeren Kosten ($0.50 vs. $1.50 pro MTok Eingabe).

Wie groß ist das Kontextfenster?

1.000.000 Eingabe-Tokens und 65.536 Ausgabe-Tokens. Das reicht für vollständige Codebasen, Multi-Dokument-Analysen und lange Agent-Konversationsverläufe.

Ist Gemini 3.5 Flash gut für Coding Agents?

Ja. Google optimiert es explizit für Coding-Aufgaben und agentische Workflows. Es bewältigt Code-Generierung, Debugging, Refactoring und Multi-Datei-Analyse mit Flash-Geschwindigkeit. Eine typische 20-Iterationen-Debug-Sitzung kostet etwa $0.30–$0.50.

Ist Gemini 3.5 Flash produktionsreif?

Ja. Google listet es als allgemein verfügbar (GA) und stabil für skalierten Produktionseinsatz. Es ist kein Vorschau- oder experimentelles Modell.

Wie viel kostet eine Coding-Agent-Sitzung?

Eine typische 20-Iterationen-Debug-Sitzung mit ~200K Gesamt-Eingabe-Tokens und ~20K Ausgabe-Tokens kostet ungefähr $0.49 zum Standardpreis oder ~$0.37 mit aktiviertem Context Caching.

Kann ich zwischen Gemini-Modellen wechseln, ohne Code zu ändern?

Ja. Bei EvoLink teilen sich alle Gemini-Modelle dasselbe API-Format. Ändern Sie den model-Parameter von "gemini-3.5-flash" auf "gemini-3.1-pro" oder "gemini-3.1-flash-lite" — keine weiteren Änderungen nötig.

Unterstützt Gemini 3.5 Flash strukturierte JSON-Ausgabe?

Ja. Verwenden Sie response_format={"type": "json_object"} für strukturierte JSON-Antworten. Dies ist nützlich für Datenextraktion, Klassifizierung und Tool-Orchestrierung.

Nächste Schritte

Gemini 3.5 Flash API — Vollständige Produktseite — Live-Preise, Status und Modelldetails
Alle Gemini-Modelle vergleichen — Seite-an-Seite-Vergleich von 7 Gemini-Routen
Gemini 3.5 Flash Release Notes — Was sich von Vorschau zu GA geändert hat
EvoLink API-Dokumentation — Vollständige API-Referenz und Integrationsleitfäden
API-Key erstellen — In 2 Minuten loslegen

Alle Beiträge

#Gemini 3.5 Flash #Gemini API #Google AI #API-Leitfaden #Coding Agents #Agentic Workflows #Function Calling

Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

Kurzreferenzkarte

Inhaltsverzeichnis

Wann Gemini 3.5 Flash verwenden

Beste Anwendungsfälle

Entscheidungsbaum für Anwendungsfälle

Gemini 3.5 Flash vs. andere Gemini-Modelle

Preise im Detail

Standardpreise

Optionen zur Kostensenkung

Reale Kostenbeispiele

Einrichtung: In 2 Minuten starten

Schritt 1: EvoLink-API-Key erhalten

Schritt 2: OpenAI SDK installieren

Schritt 3: Erste Anfrage senden

Code-Beispiele

Einfache Textanfrage mit System-Prompt

Multimodal: Bildanalyse

Streaming

Multi-Turn-Konversation

Function Calling

Python-Beispiel

Node.js-Beispiel

Best Practices für Function Calling

Strukturierte Ausgaben

Wann strukturierte Ausgaben verwenden

Coding-Agent-Workflow

Performance-Tipps für Agent-Schleifen

Sub-Agent-Einsatzmuster

Welches Modell für welche Rolle im Multi-Agent-System

Kostenanalyse: Was Agent-Schleifen tatsächlich kosten

Coding Agent: 20-Iterationen-Debug-Sitzung

Kostenvergleich: Gleiche Agent-Sitzung über verschiedene Modelle

Strategien zur Kostenkontrolle

1. Context Caching aktivieren

2. Batch API für nicht-dringende Aufgaben nutzen

3. Max Tokens setzen

4. Nach Aufgabenkomplexität routen

5. Token-Nutzung überwachen

6. Kontext wo möglich kürzen

Häufige Fehler und wie man sie vermeidet

Wann Gemini 3.5 Flash NICHT verwenden

FAQ

Wie lautet die Model ID für Gemini 3.5 Flash?

Ist Gemini 3.5 Flash kostenlos?

Kann ich Gemini 3.5 Flash mit dem OpenAI SDK nutzen?

Unterstützt Gemini 3.5 Flash Function Calling?

Wie schneidet Gemini 3.5 Flash im Vergleich zu Gemini 3 Flash ab?

Wie groß ist das Kontextfenster?

Ist Gemini 3.5 Flash gut für Coding Agents?

Ist Gemini 3.5 Flash produktionsreif?

Wie viel kostet eine Coding-Agent-Sitzung?

Kann ich zwischen Gemini-Modellen wechseln, ohne Code zu ändern?

Unterstützt Gemini 3.5 Flash strukturierte JSON-Ausgabe?

Nächste Schritte

Ähnliche Artikel

So verwenden Sie die Seedream 5.0 Lite API 2026: Schritt-für-Schritt-Integration mit EvoLink (Asynchroner Workflow)

Gemini 3.5 Flash API ist jetzt verfügbar: Modell-ID, Preise und Produktionshinweise

DeepSeek Status und Fallback-Optionen für Coding-Workloads

Bereit, Ihre KI-Kosten um 89 % zu senken?