HappyHorse 1.0 ist jetzt liveJetzt ausprobieren

Gemini 3.5 Flash API

Gemini 3.5 Flash ist Googles produktionsreifes Flash-Modell für Agent-Workflows, Coding-Agents und langfristige Aufgaben. Es kombiniert Frontier-Intelligenz mit Flash-Geschwindigkeit und -Kosten. Zugang über EvoLink mit OpenAI-kompatiblen oder nativen Gemini-Requests; Modell-ID ist gemini-3.5-flash.
Preis: 

$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens

$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens

Google Search grounding charged separately per query.

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

Produktionsreifes Flash-Modell für Agent-Workflows und Coding

Gemini 3.5 Flash ist allgemein verfügbar und stabil für produktiven Einsatz in großem Maßstab. Entwickelt für Agent-Workflows, Coding-Agents, Sub-Agent-Deployment und langfristige Aufgaben — mit Frontier-Intelligenz zu Flash-Kosten, 1M Kontext, integriertem Reasoning und vollem Tool-Support.

Seiten-Keyword

Gemini 3.5 Flash API

Request-Modell-ID

gemini-3.5-flash

Gemini 3.5 Flash API

Geeignete Einsatzfälle für die Gemini 3.5 Flash API

Coding-Agents und mehrstufige Entwicklungsschleifen

Gemini 3.5 Flash glänzt bei Coding-Aufgaben — Codegenerierung, Debugging, Refactoring und Testschreiben — mit Flash-Geschwindigkeit. Ideal als Standardmodell in Coding-Agent-Schleifen, wo jede Iteration Tokens verbraucht und Latenz zählt.

Coding-Agents

Agent-Workflows und Sub-Agent-Deployment

Gebaut für parallele agentische Ausführungsschleifen: Function Calling, strukturierte Ausgaben, Code-Ausführung und Search Grounding. Setzen Sie es als Sub-Agent in Multi-Agent-Systemen ein, wo Geschwindigkeit und Kosten pro Aufruf die Gesamtwirtschaftlichkeit bestimmen.

Agent-Workflows

Langfristige Aufgaben und Dokumentenverarbeitung

Mit 1M Eingabekontext und 65K Ausgabe-Token bewältigt Gemini 3.5 Flash langfristige Aufgaben über viele Schritte — juristische Dokumentenprüfung, Codebase-Analyse, Forschungssynthese und PDF-intensive Workflows — ohne Kontextkürzung.

Langfristige Aufgaben

Produktionsinferenz zu Flash-Kosten

Allgemein verfügbar und stabil für skalierten Produktionseinsatz. Kontext-Caching, Batch API und einheitliche multimodale Preise machen es zum Standard-Hochdurchsatzmodell für Teams, die Reasoning-Qualität ohne Pro-Kosten benötigen.

Produktionsinferenz

Warum EvoLink für die Gemini 3.5 Flash API

Für Teams mit OpenAI-ähnlicher Infrastruktur macht EvoLink Gemini 3.5 Flash produktionsnäher: ein Gateway, geringere Migrationskosten und saubereres Routing zwischen günstigen und Premium-Modellen.

Gemini nutzen und OpenAI-Workflows behalten

Wenn Ihr Team bereits auf OpenAI SDK, gemeinsamer Authentifizierung und bestehenden Request-Layern aufbaut, können Sie Gemini 3.5 Flash hinzufügen, ohne die Kernintegration neu zu schreiben.

Flash als günstige Stufe im Multi-Model-Stack einsetzen

Leiten Sie günstige Übersetzungs-, Extraktions- und Klassifizierungsanfragen zuerst an Flash weiter und senden Sie nur schwierigere oder wertvollere Requests auf stärkere Modelle im selben Gateway.

Weniger Migrationsaufwand als bei vendorspezifischen Integrationen

Ein API-Schlüssel, OpenAI-kompatible und native Gemini-Formate sowie Caching- und Batch-Support erleichtern den gemeinsamen Betrieb von Gemini mit Ihrem übrigen Modellkatalog.

So verwenden Sie die Gemini 3.5 Flash API

Nutzen Sie diese Seite als Zugriffsübersicht: Wählen Sie das Request-Format, verwenden Sie die Preview-Modell-ID und lassen Sie detaillierte Request-Beispiele in der Dokumentation.

1

Schritt 1 - Request-Format wählen

Gemini 3.5 Flash kann über OpenAI-kompatible Requests oder die native Gemini API aufgerufen werden. So passt das Modell in bestehende Stacks, ohne den gesamten Integrationspfad neu aufzubauen.

2

Schritt 2 - Die aktuelle Request-Modell-ID verwenden

Verwenden Sie für produktiven Traffic die genaue Request-Modell-ID "gemini-3.5-flash". So bleibt das Seiten-Keyword auf Gemini 3.5 Flash API fokussiert und passt gleichzeitig zur tatsächlich aufgerufenen Route.

3

Schritt 3 - Die richtigen Workloads hier skalieren

Nutzen Sie Flash für Übersetzungs-Queues, Extraktionsjobs, Tagging und andere Workloads mit hohem Volumen, und leiten Sie Grenzfälle oder schwierigere Requests an stärkere Modelle weiter. Exakte Request-Bodies, Parameter und Endpoint-Beispiele gehören in die Dokumentation.

Funktionen und Limits der Gemini 3.5 Flash API

Die wichtigsten Fähigkeiten und Grenzen für Produktionsintegrationen

Kontext

1.050.000 Eingabe-Token

Bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token.

Multimodal

Multimodale Eingaben

Text-, Bild-, Video-, Audio- und PDF-Eingaben mit Textausgabe.

Reasoning

Thinking + strukturierte Ausgaben

Thinking und strukturierte Ausgaben werden unterstützt, um zuverlässige, maschinenlesbare Ergebnisse zu erzeugen.

Tools

Function Calling + Tools

Function Calling, Code-Ausführung und Search Grounding werden unterstützt.

Skalierung

Caching + Batch

Kontext-Caching und Batch API eignen sich für wiederholte oder großvolumige Workloads.

Preise

Sehr günstige Nutzung

Die aktuellen Pay-as-you-go-Preise auf EvoLink entnehmen Sie bitte der Live-Preistabelle oben auf der Seite.

Gemini 3.5 Flash im Vergleich zu anderen Gemini-Modellen

Vergleichen Sie Positionierung, Kontext, Reasoning-Stil und Tooling der Gemini-Familie, um die richtige Route für Ihren Workload zu wählen

ModelBest forContext windowReasoning styleTooling & streaming
Gemini 3.5 FlashAgent-Workflows, Coding-Agents, langfristige Aufgaben1M Eingabe / 65K AusgabeIntegriertes Reasoning mit Flash-GeschwindigkeitFunction Calling, Code-Ausführung, strukturierte Ausgaben, Caching, Batch
Gemini 3 Flash PreviewAllgemeine schnelle Workloads, vorherige Flash-Generation1M Eingabe / 65K AusgabeStandard-Flash-ReasoningFunction Calling, strukturierte Ausgaben, Caching
Gemini 3.1 ProSchwierigste Reasoning-Aufgaben, komplexe Analyse1M Eingabe / 65K AusgabeTiefstes Reasoning mit Thinking-TokenVolle Tool-Suite, Code-Ausführung, Search Grounding
Gemini 3.1 Flash LiteHochvolumige Batches, günstige Extraktion, einfache Aufgaben1M Eingabe / 65K AusgabeLeichtgewichtig, kein tiefes ReasoningFunction Calling, strukturierte Ausgaben, Caching, Batch

FAQs zur Gemini 3.5 Flash API

Everything you need to know about the product and billing.

Ja. Google listet Gemini 3.5 Flash als allgemein verfügbar und stabil für skalierten Produktionseinsatz. Es ist kein Preview- oder experimentelles Modell — Sie können Produktionstraffic vertrauensvoll darüber routen.
Ja. Gemini 3.5 Flash ist als günstigere Flash-Route für Workloads mit hohem Volumen positioniert, bei denen Durchsatz und Preis wichtiger sind als die stärkere allgemeine Qualität, die Sie von einem größeren Gemini-Flash-Modell erwarten würden.
Ja. EvoLink unterstützt OpenAI-kompatible Requests über POST /v1/chat/completions und zusätzlich native Google-Gemini-Requests über POST /v1beta/models/gemini-3.5-flash:{method}.
Gemini 3.5 Flash unterstützt bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token. Damit eignet sich das Modell für lange Dokumente, große Batches und mehrstufige Verarbeitung.
Ja. Gemini 3.5 Flash unterstützt Text, Bilder, Video, Audio und PDF als Eingabe und gibt Text aus. Das ist hilfreich für Extraktion, Zusammenfassung und multimodale Dokumenten-Workflows.
Verwenden Sie in API-Anfragen die genaue Preview-Modell-ID "gemini-3.5-flash". Diese Seite zielt auf die Gemini 3.5 Flash API ab, während die Request-ID weiterhin die Preview-Kennung ist.
Wählen Sie Flash für Übersetzung, Extraktion, Klassifizierung, Tagging und andere retry-freundliche Workloads, die niedrige Kosten bei hoher Skalierung brauchen. Wechseln Sie zu einer größeren Gemini-Flash-Route, wenn Ausgabequalität oder Aufgabenschwierigkeit wichtiger sind als möglichst günstige einzelne Requests.
Gemini 3.5 Flash eignet sich besonders für kostenkritische Aufgaben mit hohem Durchsatz wie Übersetzung, Klassifizierung, Extraktion, Tagging, Dokumentenverarbeitung und leichte Agenten-Workflows.
Bildgenerierung, Audiogenerierung und die Live API werden nicht unterstützt. Das Modell ist daher besser für günstige Text-Workflows als für Echtzeit- oder Mediengenerierung geeignet.

Gemini API-Modelle auf EvoLink

Gemini 3.5 Flash ist die günstigste Route der Gemini-Familie. Für stärkere Multimodalität wechseln Sie zu Gemini 3 Flash Preview, für Frontier-Reasoning zu Gemini 3.1 Pro. Alle Modelle nutzen dasselbe API-Format.