Gemini 3.1 Flash Lite API

Gemini 3.1 Flash Lite ist ein kostengünstiges Gemini-Modell mit hohem Durchsatz für Übersetzung, Extraktion, Klassifizierung und Dokumentenverarbeitung. Über EvoLink greifen Sie per OpenAI-kompatiblen Requests oder nativer Gemini API darauf zu; die aktuelle Request-Modell-ID lautet gemini-3.1-flash-lite-preview.
Preis: 

$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens

$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens

Google Search grounding charged separately per query.

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

Ein kostengünstiges Gemini-Modell für Übersetzung, Extraktion und Dokumenten-Workflows

Gemini 3.1 Flash Lite passt zu Workloads mit hohem Durchsatz, bei denen Kosten, Latenz und Retry-Fähigkeit wichtiger sind als die Qualität eines Premium-Modells. Mit 1M Kontext, multimodalen Eingaben und Tool-Support eignet es sich gut als günstigere Verarbeitungsschicht in einem breiteren Gemini-Stack.

Seiten-Keyword

Gemini 3.1 Flash Lite API

Request-Modell-ID

gemini-3.1-flash-lite-preview

Gemini 3.1 Flash Lite API

Geeignete Einsatzfälle für die Gemini 3.1 Flash Lite API

Günstige Verarbeitung hoher Volumina

Flash Lite eignet sich gut als günstige Verarbeitungsschicht in einem größeren KI-Stack. Nutzen Sie es für Übersetzungs-Backfills, Tagging-Queues, Extraktionsjobs und eine erste Klassifizierungsrunde, bevor Sonderfälle an ein stärkeres Modell weitergeleitet werden.

Kostengünstige Verarbeitung

Multimodale Eingaben mit 1M Kontext

Senden Sie Text, Bilder, Video, Audio oder PDFs in einer einzigen Anfrage mit bis zu 1.050.000 Eingabe-Token. Verarbeiten Sie lange Dokumente, große Batches oder mehrstufige Kontexte, ohne Inhalte aufzuteilen.

Langer Kontext

Agenten-Teilschritte und Tool-Nutzung

Unterstützt Function Calling, strukturierte Ausgaben, Thinking, Code-Ausführung, Search Grounding und Caching. Das macht Flash Lite nützlich für günstige Agenten-Teilschritte, Retrieval-Bereinigung und strukturierte Vorverarbeitung in Multi-Model-Pipelines.

Agenten-Workflows

Warum EvoLink für die Gemini 3.1 Flash Lite API

Für Teams mit OpenAI-ähnlicher Infrastruktur macht EvoLink Gemini 3.1 Flash Lite produktionsnäher: ein Gateway, geringere Migrationskosten und saubereres Routing zwischen günstigen und Premium-Modellen.

Gemini nutzen und OpenAI-Workflows behalten

Wenn Ihr Team bereits auf OpenAI SDK, gemeinsamer Authentifizierung und bestehenden Request-Layern aufbaut, können Sie Gemini 3.1 Flash Lite hinzufügen, ohne die Kernintegration neu zu schreiben.

Flash Lite als günstige Stufe im Multi-Model-Stack einsetzen

Leiten Sie günstige Übersetzungs-, Extraktions- und Klassifizierungsanfragen zuerst an Flash Lite weiter und senden Sie nur schwierigere oder wertvollere Requests auf stärkere Modelle im selben Gateway.

Weniger Migrationsaufwand als bei vendorspezifischen Integrationen

Ein API-Schlüssel, OpenAI-kompatible und native Gemini-Formate sowie Caching- und Batch-Support erleichtern den gemeinsamen Betrieb von Gemini mit Ihrem übrigen Modellkatalog.

So verwenden Sie die Gemini 3.1 Flash Lite API

Nutzen Sie diese Seite als Zugriffsübersicht: Wählen Sie das Request-Format, verwenden Sie die Preview-Modell-ID und lassen Sie detaillierte Request-Beispiele in der Dokumentation.

1

Schritt 1 - Request-Format wählen

Gemini 3.1 Flash Lite kann über OpenAI-kompatible Requests oder die native Gemini API aufgerufen werden. So passt das Modell in bestehende Stacks, ohne den gesamten Integrationspfad neu aufzubauen.

2

Schritt 2 - Die aktuelle Request-Modell-ID verwenden

Verwenden Sie für produktiven Traffic die genaue Request-Modell-ID "gemini-3.1-flash-lite-preview". So bleibt das Seiten-Keyword auf Gemini 3.1 Flash Lite API fokussiert und passt gleichzeitig zur tatsächlich aufgerufenen Route.

3

Schritt 3 - Die richtigen Workloads hier skalieren

Nutzen Sie Flash Lite für Übersetzungs-Queues, Extraktionsjobs, Tagging und andere Workloads mit hohem Volumen, und leiten Sie Grenzfälle oder schwierigere Requests an stärkere Modelle weiter. Exakte Request-Bodies, Parameter und Endpoint-Beispiele gehören in die Dokumentation.

Funktionen und Limits der Gemini 3.1 Flash Lite API

Die wichtigsten Fähigkeiten und Grenzen für Produktionsintegrationen

Kontext

1.050.000 Eingabe-Token

Bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token.

Multimodal

Multimodale Eingaben

Text-, Bild-, Video-, Audio- und PDF-Eingaben mit Textausgabe.

Reasoning

Thinking + strukturierte Ausgaben

Thinking und strukturierte Ausgaben werden unterstützt, um zuverlässige, maschinenlesbare Ergebnisse zu erzeugen.

Tools

Function Calling + Tools

Function Calling, Code-Ausführung und Search Grounding werden unterstützt.

Skalierung

Caching + Batch

Kontext-Caching und Batch API eignen sich für wiederholte oder großvolumige Workloads.

Preise

Sehr günstige Nutzung

Die aktuellen Pay-as-you-go-Preise auf EvoLink entnehmen Sie bitte der Live-Preistabelle oben auf der Seite.

FAQs zur Gemini 3.1 Flash Lite API

Everything you need to know about the product and billing.

Ja. Gemini 3.1 Flash Lite ist als günstigere Flash-Route für Workloads mit hohem Volumen positioniert, bei denen Durchsatz und Preis wichtiger sind als die stärkere allgemeine Qualität, die Sie von einem größeren Gemini-Flash-Modell erwarten würden.
Ja. EvoLink unterstützt OpenAI-kompatible Requests über POST /v1/chat/completions und zusätzlich native Google-Gemini-Requests über POST /v1beta/models/gemini-3.1-flash-lite-preview:{method}.
Gemini 3.1 Flash Lite unterstützt bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token. Damit eignet sich das Modell für lange Dokumente, große Batches und mehrstufige Verarbeitung.
Ja. Gemini 3.1 Flash Lite unterstützt Text, Bilder, Video, Audio und PDF als Eingabe und gibt Text aus. Das ist hilfreich für Extraktion, Zusammenfassung und multimodale Dokumenten-Workflows.
Verwenden Sie in API-Anfragen die genaue Preview-Modell-ID "gemini-3.1-flash-lite-preview". Diese Seite zielt auf die Gemini 3.1 Flash Lite API ab, während die Request-ID weiterhin die Preview-Kennung ist.
Wählen Sie Flash Lite für Übersetzung, Extraktion, Klassifizierung, Tagging und andere retry-freundliche Workloads, die niedrige Kosten bei hoher Skalierung brauchen. Wechseln Sie zu einer größeren Gemini-Flash-Route, wenn Ausgabequalität oder Aufgabenschwierigkeit wichtiger sind als möglichst günstige einzelne Requests.
Gemini 3.1 Flash Lite eignet sich besonders für kostenkritische Aufgaben mit hohem Durchsatz wie Übersetzung, Klassifizierung, Extraktion, Tagging, Dokumentenverarbeitung und leichte Agenten-Workflows.
Bildgenerierung, Audiogenerierung und die Live API werden nicht unterstützt. Auch Google Maps Grounding ist nicht verfügbar. Das Modell ist daher besser für günstige Text-Workflows als für Echtzeit- oder Mediengenerierung geeignet.

Weiter mit Gemini-Familienseiten und Integrationsanleitungen

Wo Gemini 3.1 Flash Lite in der Gemini-Familie steht

Verstehen Sie diese Route als die kostengünstigere Ausführungsschicht der Gemini-Familie, nicht als Ersatz für stärkere Allzweckmodelle. Sie passt zu Workloads mit hohem Durchsatz, die retry-freundlich und batch-orientiert sind; wenn Aufgabenschwierigkeit oder Ausgabequalität wichtiger werden, wechseln Sie zu einer stärkeren Flash-Route auf der Seite.

Familien-Modelllinks und Integrationsinhalte an einem Ort bündeln, damit die Seite fokussiert bleibt und der nächste Schritt klarer ist.