
Gemini 3.5 Flash API verwenden: Model ID, Preise und Code-Beispiele

Gemini 3.5 Flash ist Googles neuestes produktionsreifes Flash-Modell, allgemein verfügbar (GA) und stabil für den skalierten Produktionseinsatz. Es wurde für agentische Workflows, Coding Agents, Sub-Agent-Einsätze und langfristige Aufgaben entwickelt — und vereint Intelligenz auf Frontier-Niveau mit Flash-typischer Geschwindigkeit und Kosteneffizienz.
Dieser Leitfaden behandelt alles, was Sie für die Integration von Gemini 3.5 Flash in Ihre Anwendung benötigen: Model ID, Preise, Code-Beispiele in Python und Node.js, Function Calling, strukturierte Ausgaben, Agent-Workflow-Muster, Kostenanalyse und die Wahl zwischen Flash und Pro.
Kurzreferenzkarte
| Element | Wert |
|---|---|
| Model ID | gemini-3.5-flash |
| Status | Allgemein verfügbar (GA), stabil für Produktion |
| Eingabepreis | $1.50 pro 1M Tokens |
| Ausgabepreis | $9.00 pro 1M Tokens |
| Kontextfenster | 1.000.000 Eingabe-Tokens |
| Maximale Ausgabe | 65.536 Tokens |
| Eingabemodalitäten | Text, Bild, Video, Audio, PDF |
| Ausgabemodalitäten | Nur Text |
| Function Calling | Unterstützt |
| Strukturierte Ausgaben | Unterstützt |
| Code-Ausführung | Unterstützt |
| Such-Grounding | Unterstützt |
| Context Caching | Unterstützt |
| Batch API | Unterstützt |
| Streaming | Unterstützt |
Inhaltsverzeichnis
- Wann Gemini 3.5 Flash verwenden
- Gemini 3.5 Flash vs. andere Gemini-Modelle
- Preise im Detail
- Einrichtung: In 2 Minuten starten
- Code-Beispiele
- Function Calling
- Strukturierte Ausgaben
- Coding-Agent-Workflow
- Sub-Agent-Einsatzmuster
- Kostenanalyse: Was Agent-Schleifen tatsächlich kosten
- Strategien zur Kostenkontrolle
- Häufige Fehler und wie man sie vermeidet
- Wann Gemini 3.5 Flash NICHT verwenden
- FAQ
Wann Gemini 3.5 Flash verwenden
Gemini 3.5 Flash ist kein universelles Budget-Modell. Google positioniert es explizit für spezifische hochwertige Workloads, bei denen Geschwindigkeit, Kosten pro Iteration und Tool-Unterstützung wichtiger sind als maximale Reasoning-Tiefe.
Beste Anwendungsfälle
| Anwendungsfall | Warum Gemini 3.5 Flash passt | Was zu messen ist |
|---|---|---|
| Coding Agents | Schnelle Code-Generierung, Debugging, Refactoring mit Flash-Geschwindigkeit pro Iteration | Iterationen bis zur Lösung, Kosten pro Sitzung, Diff-Qualität |
| Agentische Workflows | Natives Function Calling, parallele Ausführungsschleifen, niedrige Kosten pro Aufruf | Tool-Call-Genauigkeit, Fallback-Rate, Gesamt-Workflow-Kosten |
| Sub-Agent-Einsatz | Einsatz als Sub-Agent in Multi-Agent-Systemen, wo die Wirtschaftlichkeit pro Aufruf zählt | Latenz pro Sub-Aufruf, Fehlerrate, Orchestrierungs-Overhead |
| Langfristige Aufgaben | 1M Kontext verarbeitet vollständige Codebasen und Multi-Dokument-Analysen ohne Kürzung | Kontextauslastung, Ausgabequalität bei hohen Token-Zahlen |
| Dokumentenverarbeitung | PDF-, Audio-, Video-Eingaben zu einheitlichen Preisen — keine Modalitätszuschläge | Extraktionsgenauigkeit, Verarbeitungskosten pro Dokument |
| Produktions-Chat | Eingebautes Reasoning bei Flash-Latenz für kundenorientierte Anwendungen | Time to First Token, Benutzerzufriedenheit, Kosten pro Gespräch |
Entscheidungsbaum für Anwendungsfälle
Stellen Sie sich diese Fragen in dieser Reihenfolge:
- Erfordert die Aufgabe das tiefstmögliche Reasoning? Wenn ja → Gemini 3.1 Pro.
- Ist dies eine hochvolumige, einfache Aufgabe (Klassifizierung, Routing, Extraktion)? Wenn ja → Gemini 3.1 Flash Lite.
- Umfasst die Aufgabe Coding, Agents, Tools oder langen Kontext? Wenn ja → Gemini 3.5 Flash.
- Handelt es sich um allgemeinen Produktions-Chat oder Zusammenfassungen? Wenn ja → Gemini 3.5 Flash oder Gemini 2.5 Flash (vergleichen Sie anhand Ihres Workloads).
Gemini 3.5 Flash vs. andere Gemini-Modelle
Dies ist der Vergleich, der für Produktions-Routing-Entscheidungen zählt.
| Merkmal | Gemini 3.5 Flash | Gemini 3.1 Pro | Gemini 3 Flash | Gemini 3.1 Flash Lite | Gemini 2.5 Flash |
|---|---|---|---|---|---|
| Status | GA, stabil | Vorschau | Vorschau | Vorschau | Stabil |
| Ideal für | Agents, Coding, langfristig | Schwieriges Reasoning | Allgemeine schnelle Workloads | Hochvolumige Batch-Verarbeitung | Produktions-Chat |
| Eingabekosten | $1.50/MTok | $2–$4/MTok | $0.50/MTok | $0.25/MTok | $0.30/MTok |
| Ausgabekosten | $9.00/MTok | $12–$18/MTok | $3.00/MTok | $1.50/MTok | $2.50/MTok |
| Kontext | 1M / 65K | 1M / 64K | 1M / 64K | 1M / 64K | 1M / 64K |
| Reasoning | Eingebaut | Tiefstes (Thinking) | Standard | Leichtgewichtig | Standard |
| Function Calling | Ja | Ja | Ja | Ja | Ja |
| Code-Ausführung | Ja | Ja | Ja | Ja | Ja |
| Produktionsreife | GA | Vorschau | Vorschau | Vorschau | Stabil |
Preise im Detail
Standardpreise
| Token-Typ | Preis pro 1M Tokens |
|---|---|
| Texteingabe | $1.50 |
| Textausgabe | $9.00 |
| Audioeingabe | Einheitlich mit Text (kein Zuschlag) |
| Bildeingabe | Einheitlich mit Text (kein Zuschlag) |
| Videoeingabe | Einheitlich mit Text (kein Zuschlag) |
| PDF-Eingabe | Einheitlich mit Text (kein Zuschlag) |
Optionen zur Kostensenkung
| Methode | Funktionsweise | Ideal für |
|---|---|---|
| Context Caching | Wiederholte Eingabepräfixe zwischenspeichern; Cache-Treffer kosten weniger als neue Eingaben | Agent-Schleifen, wiederholter Code-Kontext, System-Prompts |
| Batch API | Anfragen stapelweise zur Offline-Verarbeitung mit vergünstigten Tarifen einreichen | Testgenerierung, Massenextraktion, Offline-Analyse |
| EvoLink-Credits | Credits vorab kaufen für Mengenrabatte | Teams mit vorhersehbarem monatlichen Verbrauch |
Reale Kostenbeispiele
| Szenario | Eingabe-Tokens | Ausgabe-Tokens | Geschätzte Kosten |
|---|---|---|---|
| Einzelne Textfrage | ~500 | ~200 | $0.003 |
| Code-Review (1 Datei, ~2K Zeilen) | ~8.000 | ~2.000 | $0.03 |
| Coding-Agent-Sitzung (20 Iterationen) | ~80.000 | ~20.000 | $0.30 |
| Vollständige Codebase-Analyse (500K Kontext) | ~500.000 | ~10.000 | $0.84 |
| PDF-Dokumentenextraktion (100 Seiten) | ~150.000 | ~5.000 | $0.27 |
| 8-Stunden-Agent-Einsatz (kontinuierlich) | ~2.000.000 | ~500.000 | $7.50 |
Diese Schätzungen basieren auf Standardpreisen ohne Caching. Mit aktiviertem Context Caching können die Eingabekosten bei Agent-Schleifen erheblich gesenkt werden.
Einrichtung: In 2 Minuten starten
Schritt 1: EvoLink-API-Key erhalten
Schritt 2: OpenAI SDK installieren
EvoLink ist OpenAI-kompatibel, sodass Sie das Standard-OpenAI-SDK verwenden:
pip install openainpm install openaiSchritt 3: Erste Anfrage senden
from openai import OpenAI
client = OpenAI(
api_key="your-evolink-api-key",
base_url="https://api.evolink.ai/v1"
)
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "user", "content": "What is Gemini 3.5 Flash best at?"}
]
)
print(response.choices[0].message.content)import OpenAI from "openai";
const client = new OpenAI({
apiKey: "your-evolink-api-key",
baseURL: "https://api.evolink.ai/v1",
});
const response = await client.chat.completions.create({
model: "gemini-3.5-flash",
messages: [
{ role: "user", content: "What is Gemini 3.5 Flash best at?" },
],
});
console.log(response.choices[0].message.content);Das war's. Kein Google-spezifisches SDK nötig, kein separater Auth-Flow, kein Vertex-AI-Setup.
Code-Beispiele
Einfache Textanfrage mit System-Prompt
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "system", "content": "You are a senior software engineer. Be concise and precise."},
{"role": "user", "content": "Explain the difference between a mutex and a semaphore in 3 sentences."}
],
temperature=0.3,
max_tokens=512
)Multimodal: Bildanalyse
import base64
with open("screenshot.png", "rb") as f:
image_data = base64.b64encode(f.read()).decode()
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "What error is shown in this screenshot? Suggest a fix."},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_data}"}}
]
}
]
)Alle multimodalen Eingaben teilen sich denselben Token-Preis wie Text — keine Audio- oder Videozuschläge.
Streaming
Für interaktive Anwendungen, bei denen Tokens während der Generierung erscheinen sollen:
stream = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[{"role": "user", "content": "Write a Python function that validates email addresses."}],
stream=True
)
for chunk in stream:
if chunk.choices[0].delta.content:
print(chunk.choices[0].delta.content, end="", flush=True)const stream = await client.chat.completions.create({
model: "gemini-3.5-flash",
messages: [{ role: "user", content: "Write a Python function that validates email addresses." }],
stream: true,
});
for await (const chunk of stream) {
const content = chunk.choices[0]?.delta?.content;
if (content) process.stdout.write(content);
}Multi-Turn-Konversation
messages = [
{"role": "system", "content": "You are a helpful coding assistant."},
{"role": "user", "content": "Write a linked list implementation in Python."},
]
# First turn
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
assistant_message = response.choices[0].message.content
messages.append({"role": "assistant", "content": assistant_message})
# Follow-up
messages.append({"role": "user", "content": "Now add a reverse() method."})
response = client.chat.completions.create(model="gemini-3.5-flash", messages=messages)
print(response.choices[0].message.content)Function Calling
Gemini 3.5 Flash unterstützt natives Function Calling, das für Agent-Workflows unerlässlich ist. Definieren Sie Tools und lassen Sie das Modell entscheiden, wann sie aufgerufen werden.
Python-Beispiel
tools = [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "Get current weather for a location",
"parameters": {
"type": "object",
"properties": {
"location": {"type": "string", "description": "City name"},
"unit": {"type": "string", "enum": ["celsius", "fahrenheit"]}
},
"required": ["location"]
}
}
},
{
"type": "function",
"function": {
"name": "search_database",
"description": "Search the internal knowledge base",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string", "description": "Search query"},
"limit": {"type": "integer", "description": "Max results to return"}
},
"required": ["query"]
}
}
}
]
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[{"role": "user", "content": "What's the weather in Tokyo and find articles about climate change?"}],
tools=tools,
tool_choice="auto"
)
# The model may call one or both tools
for tool_call in response.choices[0].message.tool_calls:
print(f"Function: {tool_call.function.name}")
print(f"Arguments: {tool_call.function.arguments}")Node.js-Beispiel
const tools = [
{
type: "function",
function: {
name: "run_tests",
description: "Run the test suite and return results",
parameters: {
type: "object",
properties: {
test_file: { type: "string", description: "Path to test file" },
verbose: { type: "boolean", description: "Show detailed output" },
},
required: ["test_file"],
},
},
},
];
const response = await client.chat.completions.create({
model: "gemini-3.5-flash",
messages: [{ role: "user", content: "Run the tests for auth module" }],
tools,
tool_choice: "auto",
});
const toolCalls = response.choices[0].message.tool_calls;
for (const call of toolCalls) {
console.log(`Call: ${call.function.name}(${call.function.arguments})`);
}Best Practices für Function Calling
| Praxis | Warum |
|---|---|
| Klare Funktionsbeschreibungen schreiben | Das Modell nutzt Beschreibungen, um zu entscheiden, wann welches Tool aufgerufen wird |
required-Felder verwenden | Verhindert, dass das Modell kritische Parameter auslässt |
| Parameter-Schemas einfach halten | Komplexe verschachtelte Schemas erhöhen die Fehlerquote |
| Parallele Tool-Aufrufe behandeln | Gemini 3.5 Flash kann in einer Antwort mehrere Tools aufrufen |
| Tool-Call-Argumente validieren | Immer vor der Ausführung validieren — Modellausgaben nicht blind vertrauen |
Strukturierte Ausgaben
Für Workflows, die maschinenlesbare Ergebnisse benötigen, verwenden Sie den JSON-Modus oder das Antwortformat:
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "system", "content": "Extract structured data from the text. Return valid JSON only."},
{"role": "user", "content": "John Smith, age 34, works at Acme Corp as a senior engineer since 2022. Email: [email protected]"}
],
response_format={"type": "json_object"}
)
import json
data = json.loads(response.choices[0].message.content)
print(data)
# {"name": "John Smith", "age": 34, "company": "Acme Corp", "role": "senior engineer", "start_year": 2022, "email": "[email protected]"}Wann strukturierte Ausgaben verwenden
| Szenario | Format | Warum |
|---|---|---|
| Datenextraktion aus Dokumenten | JSON-Modus | Nachgelagerte Systeme benötigen strukturierte Daten |
| Agent-Tool-Antworten | JSON-Modus | Tool-Orchestrierer benötigen parsebare Ausgaben |
| Klassifizierungsaufgaben | JSON-Modus | Konsistentes Label-Feld nötig, kein Freitext |
| Code-Generierung | Klartext | Code ist bereits strukturiert; JSON-Wrapping erzeugt Overhead |
| Erklärungen und Chat | Klartext | Natürliche Sprache liest sich ohne JSON besser |
Coding-Agent-Workflow
Dies ist der wertvollste Anwendungsfall für Gemini 3.5 Flash. Hier ist eine vollständige Coding-Agent-Schleife:
from openai import OpenAI
import subprocess
import json
client = OpenAI(api_key="your-evolink-api-key", base_url="https://api.evolink.ai/v1")
def run_tests(test_file: str) -> dict:
"""Run tests and return results."""
result = subprocess.run(["python", "-m", "pytest", test_file, "-v", "--tb=short"],
capture_output=True, text=True, timeout=60)
return {"passed": result.returncode == 0, "output": result.stdout + result.stderr}
def read_file(path: str) -> str:
with open(path) as f:
return f.read()
def write_file(path: str, content: str):
with open(path, "w") as f:
f.write(content)
# Initial context
module_code = read_file("src/auth.py")
test_code = read_file("tests/test_auth.py")
test_result = run_tests("tests/test_auth.py")
messages = [
{"role": "system", "content": """You are a coding agent. Your job is to fix failing tests.
Rules:
1. Read the code and test output carefully.
2. Identify the root cause.
3. Output the complete fixed file content.
4. Do not change test expectations — fix the implementation."""},
{"role": "user", "content": f"""Module code:\n```python\n{module_code}\n```\n\nTest code:\n```python\n{test_code}\n```\n\nTest output:\n```\n{test_result['output']}\n```"""}
]
MAX_ITERATIONS = 15
for i in range(MAX_ITERATIONS):
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=messages,
temperature=0.2,
max_tokens=8192
)
reply = response.choices[0].message.content
messages.append({"role": "assistant", "content": reply})
# Extract and apply the fix
if "```python" in reply:
code_block = reply.split("```python")[1].split("```")[0]
write_file("src/auth.py", code_block)
# Re-run tests
test_result = run_tests("tests/test_auth.py")
if test_result["passed"]:
print(f"All tests pass after {i + 1} iterations.")
break
messages.append({"role": "user", "content": f"Tests still failing:\n```\n{test_result['output']}\n```\nAnalyze the failure and try again."})
else:
print(f"Failed to fix after {MAX_ITERATIONS} iterations.")Performance-Tipps für Agent-Schleifen
| Tipp | Auswirkung |
|---|---|
temperature=0.2 für deterministische Fixes verwenden | Reduziert zufällige Variation zwischen Iterationen |
max_tokens=8192 für Code-Ausgabe setzen | Verhindert Kürzung bei großen Dateien |
| Testausgabe im Kontext einschließen | Gibt dem Modell konkrete Fehlersignale |
| Iterationen begrenzen (15–20) | Verhindert unkontrollierte Kosten, wenn das Modell feststeckt |
| Context Caching verwenden | Gleicher Code-Kontext in jeder Iteration — Cache-Treffer können die Eingabekosten erheblich senken |
Sub-Agent-Einsatzmuster
In Multi-Agent-Systemen eignet sich Gemini 3.5 Flash gut als Sub-Agent für spezifische Aufgaben, während ein Koordinator (Pro oder ein anderes Modell) den Gesamt-Workflow verwaltet:
def coding_sub_agent(task: str, context: str) -> str:
"""Fast coding sub-agent using Gemini 3.5 Flash."""
response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=[
{"role": "system", "content": "You are a fast coding sub-agent. Complete the task concisely."},
{"role": "user", "content": f"Context:\n{context}\n\nTask:\n{task}"}
],
temperature=0.2,
max_tokens=4096
)
return response.choices[0].message.content
def reasoning_agent(task: str) -> str:
"""Deep reasoning agent using Gemini 3.1 Pro for complex decisions."""
response = client.chat.completions.create(
model="gemini-3.1-pro-preview",
messages=[
{"role": "system", "content": "You are a senior architect. Analyze deeply and decide."},
{"role": "user", "content": task}
],
temperature=0.3,
max_tokens=4096
)
return response.choices[0].message.content
# Coordinator pattern: Pro decides, Flash executes
plan = reasoning_agent("Design a refactoring plan for the auth module to support OAuth2.")
subtasks = parse_subtasks(plan)
results = []
for subtask in subtasks:
result = coding_sub_agent(subtask, context=module_code)
results.append(result)Welches Modell für welche Rolle im Multi-Agent-System
| Agent-Rolle | Empfohlenes Modell | Warum |
|---|---|---|
| Koordinator / Planer | Gemini 3.1 Pro | Braucht tiefstes Reasoning für Architekturentscheidungen |
| Coding-Sub-Agent | Gemini 3.5 Flash | Schnelle Iteration, gute Code-Qualität, niedrige Kosten pro Aufruf |
| Klassifizierung / Routing | Gemini 3.1 Flash Lite | Günstigste Option für einfache strukturierte Entscheidungen |
| Dokumentenanalyse | Gemini 3.5 Flash | 1M Kontext + Multimodal für PDFs und Bilder |
| Validierung / Review | Gemini 3.5 Flash oder Pro | Hängt davon ab, wie kritisch das Review ist |
Kostenanalyse: Was Agent-Schleifen tatsächlich kosten
Die meisten Entwickler unterschätzen Agent-Kosten, weil sie nur Einzelanfragepreise betrachten. Hier ist eine realistische Aufschlüsselung:
Coding Agent: 20-Iterationen-Debug-Sitzung
| Phase | Eingabe-Tokens | Ausgabe-Tokens | Eingabekosten | Ausgabekosten |
|---|---|---|---|---|
| Iteration 1 (voller Kontext) | 8.000 | 2.000 | $0.012 | $0.018 |
| Iterationen 2–5 (wachsender Kontext) | 40.000 | 6.000 | $0.060 | $0.054 |
| Iterationen 6–10 (großer Kontext) | 60.000 | 5.000 | $0.090 | $0.045 |
| Iterationen 11–20 (Plateau) | 100.000 | 7.000 | $0.150 | $0.063 |
| Gesamt | 208.000 | 20.000 | $0.312 | $0.180 |
| Sitzung gesamt | $0.49 |
Mit Context Caching (50 % Trefferquote auf wiederholtem Code-Kontext angenommen):
| Ohne Caching | Mit Caching | Ersparnis | |
|---|---|---|---|
| Eingabekosten | $0.312 | ~$0.187 | 40 % |
| Ausgabekosten | $0.180 | $0.180 | 0 % |
| Gesamt | $0.492 | $0.367 | 25 % |
Kostenvergleich: Gleiche Agent-Sitzung über verschiedene Modelle
| Modell | Eingabekosten | Ausgabekosten | Sitzung gesamt | Qualitäts-Kompromiss |
|---|---|---|---|---|
| Gemini 3.5 Flash | $0.312 | $0.180 | $0.49 | Beste Balance für Coding Agents |
| Gemini 3.1 Pro | $0.416–$0.832 | $0.240–$0.360 | $0.66–$1.19 | Tieferes Reasoning, 2–3x teurer |
| Gemini 3 Flash | $0.104 | $0.060 | $0.16 | Günstiger, aber schwächeres Coding |
| Gemini 3.1 Flash Lite | $0.052 | $0.030 | $0.08 | Am günstigsten, aber begrenztes Reasoning |
Strategien zur Kostenkontrolle
1. Context Caching aktivieren
Wenn Ihr Agent wiederholt denselben Code-Kontext sendet, reduziert Context Caching die Eingabekosten bei Cache-Treffern erheblich.
2. Batch API für nicht-dringende Aufgaben nutzen
Für Testgenerierung, Massenextraktion oder Offline-Code-Analyse bietet die Batch API Rabatte. Die Latenz ist höher, aber die Kosten pro Token sind niedriger.
3. Max Tokens setzen
max_tokens, um unerwartet lange Ausgaben zu verhindern, die die Kosten aufblähen:response = client.chat.completions.create(
model="gemini-3.5-flash",
messages=messages,
max_tokens=4096 # Reasonable limit for code output
)4. Nach Aufgabenkomplexität routen
Verwenden Sie nicht ein Modell für alles. Bauen Sie eine Routing-Schicht:
def route_request(task_type: str) -> str:
routing_table = {
"architecture": "gemini-3.1-pro-preview", # Deep reasoning
"coding": "gemini-3.5-flash", # Fast iteration
"classification": "gemini-3.1-flash-lite", # Cheapest
"review": "gemini-3.5-flash", # Good balance
"chat": "gemini-3.5-flash", # Production default
}
return routing_table.get(task_type, "gemini-3.5-flash")5. Token-Nutzung überwachen
Verfolgen Sie Eingabe- und Ausgabe-Tokens pro Anfrage. Das EvoLink-Dashboard bietet Echtzeit-Verbrauchsübersicht. Überprüfen Sie den Verbrauch regelmäßig und setzen Sie bei Bedarf Budgetlimits auf Anwendungsseite.
6. Kontext wo möglich kürzen
Senden Sie nicht Ihren gesamten 1M-Token-Kontext, wenn Sie nur die letzten 50K Tokens benötigen. Kürzen Sie alte Gesprächsrunden und behalten Sie nur relevanten Kontext.
Häufige Fehler und wie man sie vermeidet
| Fehler | Was passiert | Lösung |
|---|---|---|
| Model ID überall hart codieren | Modellwechsel ohne Code-Änderungen nicht möglich | Model ID in Konfiguration speichern; nach Aufgabentyp routen |
max_tokens nicht setzen | Ausgabe kann unerwartet lang und teuer werden | Immer ein vernünftiges Ausgabelimit setzen |
| Vollen Kontext bei jeder Iteration ohne Caching senden | Eingabekosten steigen linear mit Iterationen | Context Caching für wiederholte Präfixe aktivieren |
| Flash für Aufgaben nutzen, die tiefes Reasoning erfordern | Geringere Genauigkeit bei komplexen Architekturentscheidungen | Schwierigste Schritte zu Gemini 3.1 Pro routen |
| Pro für Aufgaben nutzen, die Flash gut bewältigt | 2–3x höhere Kosten bei marginalem Qualitätsgewinn | Standard auf Flash; nur bei Bedarf auf Pro upgraden |
| Retry-Kosten in Budgetschätzungen ignorieren | Reale Kosten sind höher als Einzelanfrage-Schätzungen | Retry-Rate und Fallback-Kosten in Berechnungen einbeziehen |
| Function-Call-Argumente nicht validieren | Modell gibt ungültige Parameter aus | Tool-Call-Argumente immer vor Ausführung validieren |
| Kontextfenster als unbegrenzt behandeln | 1M Tokens ist groß, aber nicht unendlich | Kontextnutzung überwachen; bei Annäherung an Limits kürzen |
Wann Gemini 3.5 Flash NICHT verwenden
Gemini 3.5 Flash ist stark, aber nicht universell. Verwenden Sie etwas anderes, wenn:
| Szenario | Warum Flash falsch ist | Bessere Wahl |
|---|---|---|
| Bild-/Audio-/Videogenerierung | Flash gibt nur Text aus | Spezialisierte Generierungsmodelle |
| Schwieriges mehrstufiges Reasoning | Pro bietet tiefere Reasoning-Traces | Gemini 3.1 Pro |
| Günstigste Massenextraktion möglich | Flash Lite ist 6x günstiger bei Eingabe | Gemini 3.1 Flash Lite |
| Echtzeit-Sprachkonversation | Flash unterstützt keine Live API | Gemini-Modelle mit Live-API |
| Computer Use | Computer Use wird nicht unterstützt | Modelle mit Computer-Use-Unterstützung |
FAQ
Wie lautet die Model ID für Gemini 3.5 Flash?
gemini-3.5-flash. Verwenden Sie genau diesen String in API-Anfragen über EvoLink.Ist Gemini 3.5 Flash kostenlos?
Gemini 3.5 Flash bietet einen kostenlosen Zugang über die Google Gemini API. Die kostenpflichtigen Standardpreise betragen $1.50 pro 1M Eingabe-Tokens und $9.00 pro 1M Ausgabe-Tokens. Context Caching und die Batch API bieten vergünstigte Tarife. Die EvoLink-Preise finden Sie auf der Produktseite.
Kann ich Gemini 3.5 Flash mit dem OpenAI SDK nutzen?
https://api.evolink.ai/v1 und setzen Sie model="gemini-3.5-flash". Funktioniert mit Python, Node.js, Go und jedem anderen OpenAI-kompatiblen Client.Unterstützt Gemini 3.5 Flash Function Calling?
Ja. Function Calling, strukturierte Ausgaben, Code-Ausführung und Such-Grounding werden nativ unterstützt. Sie können Tools definieren, und das Modell ruft sie bei Bedarf auf.
Wie schneidet Gemini 3.5 Flash im Vergleich zu Gemini 3 Flash ab?
Gemini 3.5 Flash ist das aktuelle Flash-Modell mit Frontier-Intelligenz, stärkerer Agent- und Coding-Leistung und eingebautem Reasoning. Gemini 3 Flash ist die vorherige Generation mit geringerer Leistung, aber auch niedrigeren Kosten ($0.50 vs. $1.50 pro MTok Eingabe).
Wie groß ist das Kontextfenster?
1.000.000 Eingabe-Tokens und 65.536 Ausgabe-Tokens. Das reicht für vollständige Codebasen, Multi-Dokument-Analysen und lange Agent-Konversationsverläufe.
Ist Gemini 3.5 Flash gut für Coding Agents?
Ja. Google optimiert es explizit für Coding-Aufgaben und agentische Workflows. Es bewältigt Code-Generierung, Debugging, Refactoring und Multi-Datei-Analyse mit Flash-Geschwindigkeit. Eine typische 20-Iterationen-Debug-Sitzung kostet etwa $0.30–$0.50.
Ist Gemini 3.5 Flash produktionsreif?
Ja. Google listet es als allgemein verfügbar (GA) und stabil für skalierten Produktionseinsatz. Es ist kein Vorschau- oder experimentelles Modell.
Wie viel kostet eine Coding-Agent-Sitzung?
Eine typische 20-Iterationen-Debug-Sitzung mit ~200K Gesamt-Eingabe-Tokens und ~20K Ausgabe-Tokens kostet ungefähr $0.49 zum Standardpreis oder ~$0.37 mit aktiviertem Context Caching.
Kann ich zwischen Gemini-Modellen wechseln, ohne Code zu ändern?
model-Parameter von "gemini-3.5-flash" auf "gemini-3.1-pro" oder "gemini-3.1-flash-lite" — keine weiteren Änderungen nötig.Unterstützt Gemini 3.5 Flash strukturierte JSON-Ausgabe?
response_format={"type": "json_object"} für strukturierte JSON-Antworten. Dies ist nützlich für Datenextraktion, Klassifizierung und Tool-Orchestrierung.Nächste Schritte
- Gemini 3.5 Flash API — Vollständige Produktseite — Live-Preise, Status und Modelldetails
- Alle Gemini-Modelle vergleichen — Seite-an-Seite-Vergleich von 7 Gemini-Routen
- Gemini 3.5 Flash Release Notes — Was sich von Vorschau zu GA geändert hat
- EvoLink API-Dokumentation — Vollständige API-Referenz und Integrationsleitfäden
- API-Key erstellen — In 2 Minuten loslegen


