Gemini 3.1 Flash Lite API
- One API for Code Agents & CLIs. (View Docs)
$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens
$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens
Google Search grounding charged separately per query.
Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.
Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.
Ein kostengünstiges Gemini-Modell für Übersetzung, Extraktion und Dokumenten-Workflows
Gemini 3.1 Flash Lite passt zu Workloads mit hohem Durchsatz, bei denen Kosten, Latenz und Retry-Fähigkeit wichtiger sind als die Qualität eines Premium-Modells. Mit 1M Kontext, multimodalen Eingaben und Tool-Support eignet es sich gut als günstigere Verarbeitungsschicht in einem breiteren Gemini-Stack.
Seiten-Keyword
Gemini 3.1 Flash Lite API
Request-Modell-ID
gemini-3.1-flash-lite-preview

Geeignete Einsatzfälle für die Gemini 3.1 Flash Lite API
Günstige Verarbeitung hoher Volumina
Flash Lite eignet sich gut als günstige Verarbeitungsschicht in einem größeren KI-Stack. Nutzen Sie es für Übersetzungs-Backfills, Tagging-Queues, Extraktionsjobs und eine erste Klassifizierungsrunde, bevor Sonderfälle an ein stärkeres Modell weitergeleitet werden.

Multimodale Eingaben mit 1M Kontext
Senden Sie Text, Bilder, Video, Audio oder PDFs in einer einzigen Anfrage mit bis zu 1.050.000 Eingabe-Token. Verarbeiten Sie lange Dokumente, große Batches oder mehrstufige Kontexte, ohne Inhalte aufzuteilen.

Agenten-Teilschritte und Tool-Nutzung
Unterstützt Function Calling, strukturierte Ausgaben, Thinking, Code-Ausführung, Search Grounding und Caching. Das macht Flash Lite nützlich für günstige Agenten-Teilschritte, Retrieval-Bereinigung und strukturierte Vorverarbeitung in Multi-Model-Pipelines.

Warum EvoLink für die Gemini 3.1 Flash Lite API
Für Teams mit OpenAI-ähnlicher Infrastruktur macht EvoLink Gemini 3.1 Flash Lite produktionsnäher: ein Gateway, geringere Migrationskosten und saubereres Routing zwischen günstigen und Premium-Modellen.
Gemini nutzen und OpenAI-Workflows behalten
Wenn Ihr Team bereits auf OpenAI SDK, gemeinsamer Authentifizierung und bestehenden Request-Layern aufbaut, können Sie Gemini 3.1 Flash Lite hinzufügen, ohne die Kernintegration neu zu schreiben.
Flash Lite als günstige Stufe im Multi-Model-Stack einsetzen
Leiten Sie günstige Übersetzungs-, Extraktions- und Klassifizierungsanfragen zuerst an Flash Lite weiter und senden Sie nur schwierigere oder wertvollere Requests auf stärkere Modelle im selben Gateway.
Weniger Migrationsaufwand als bei vendorspezifischen Integrationen
Ein API-Schlüssel, OpenAI-kompatible und native Gemini-Formate sowie Caching- und Batch-Support erleichtern den gemeinsamen Betrieb von Gemini mit Ihrem übrigen Modellkatalog.
So verwenden Sie die Gemini 3.1 Flash Lite API
Nutzen Sie diese Seite als Zugriffsübersicht: Wählen Sie das Request-Format, verwenden Sie die Preview-Modell-ID und lassen Sie detaillierte Request-Beispiele in der Dokumentation.
Schritt 1 - Request-Format wählen
Gemini 3.1 Flash Lite kann über OpenAI-kompatible Requests oder die native Gemini API aufgerufen werden. So passt das Modell in bestehende Stacks, ohne den gesamten Integrationspfad neu aufzubauen.
Schritt 2 - Die aktuelle Request-Modell-ID verwenden
Verwenden Sie für produktiven Traffic die genaue Request-Modell-ID "gemini-3.1-flash-lite-preview". So bleibt das Seiten-Keyword auf Gemini 3.1 Flash Lite API fokussiert und passt gleichzeitig zur tatsächlich aufgerufenen Route.
Schritt 3 - Die richtigen Workloads hier skalieren
Nutzen Sie Flash Lite für Übersetzungs-Queues, Extraktionsjobs, Tagging und andere Workloads mit hohem Volumen, und leiten Sie Grenzfälle oder schwierigere Requests an stärkere Modelle weiter. Exakte Request-Bodies, Parameter und Endpoint-Beispiele gehören in die Dokumentation.
Funktionen und Limits der Gemini 3.1 Flash Lite API
Die wichtigsten Fähigkeiten und Grenzen für Produktionsintegrationen
1.050.000 Eingabe-Token
Bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token.
Multimodale Eingaben
Text-, Bild-, Video-, Audio- und PDF-Eingaben mit Textausgabe.
Thinking + strukturierte Ausgaben
Thinking und strukturierte Ausgaben werden unterstützt, um zuverlässige, maschinenlesbare Ergebnisse zu erzeugen.
Function Calling + Tools
Function Calling, Code-Ausführung und Search Grounding werden unterstützt.
Caching + Batch
Kontext-Caching und Batch API eignen sich für wiederholte oder großvolumige Workloads.
Sehr günstige Nutzung
Die aktuellen Pay-as-you-go-Preise auf EvoLink entnehmen Sie bitte der Live-Preistabelle oben auf der Seite.
FAQs zur Gemini 3.1 Flash Lite API
Everything you need to know about the product and billing.
Weiter mit Gemini-Familienseiten und Integrationsanleitungen
Wo Gemini 3.1 Flash Lite in der Gemini-Familie steht
Verstehen Sie diese Route als die kostengünstigere Ausführungsschicht der Gemini-Familie, nicht als Ersatz für stärkere Allzweckmodelle. Sie passt zu Workloads mit hohem Durchsatz, die retry-freundlich und batch-orientiert sind; wenn Aufgabenschwierigkeit oder Ausgabequalität wichtiger werden, wechseln Sie zu einer stärkeren Flash-Route auf der Seite.
Familien-Modelllinks und Integrationsinhalte an einem Ort bündeln, damit die Seite fokussiert bleibt und der nächste Schritt klarer ist.