Gemini 3.1 Flash Lite API

Gemini 3.1 Flash Lite ist ein kostengünstiges Gemini-Modell mit hohem Durchsatz für Übersetzung, Extraktion, Klassifizierung und Dokumentenverarbeitung. Über EvoLink greifen Sie per OpenAI-kompatiblen Requests oder nativer Gemini API darauf zu; die aktuelle Request-Modell-ID lautet gemini-3.1-flash-lite-preview.

Using coding CLIs? Run Gemini 3.1 Flash Lite via EvoCode
- One API for Code Agents & CLIs. (View Docs)

Modelltyp:

✓Gemini 3.1 Flash Lite Preview

Preis:

$0.234(~ 15.9 credits) per 1M input tokens; $1.399(~ 95.1 credits) per 1M output tokens

$0.028(~ 1.9 credits) per 1M cache read tokens; $0.466(~ 31.7 credits) per 1M audio tokens

Google Search grounding charged separately per query.

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ	AUDIO INPUT
Gemini 3.1 Flash Lite	1,050,000	65,536	$0.234-6% (15.9 Credits)	$1.399-7% (95.1 Credits)	$0.028-7% (1.9 Credits)	$0.466-7% (31.7 Credits)
Web Search Tool Server-side web search capability						$0.013/search (0.89 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Audio Input: Audio tokens charged at a separate rate.

Ein kostengünstiges Gemini-Modell für Übersetzung, Extraktion und Dokumenten-Workflows

Gemini 3.1 Flash Lite passt zu Workloads mit hohem Durchsatz, bei denen Kosten, Latenz und Retry-Fähigkeit wichtiger sind als die Qualität eines Premium-Modells. Mit 1M Kontext, multimodalen Eingaben und Tool-Support eignet es sich gut als günstigere Verarbeitungsschicht in einem breiteren Gemini-Stack.

Seiten-Keyword

Gemini 3.1 Flash Lite API

Request-Modell-ID

gemini-3.1-flash-lite-preview

Geeignete Einsatzfälle für die Gemini 3.1 Flash Lite API

Günstige Verarbeitung hoher Volumina

Flash Lite eignet sich gut als günstige Verarbeitungsschicht in einem größeren KI-Stack. Nutzen Sie es für Übersetzungs-Backfills, Tagging-Queues, Extraktionsjobs und eine erste Klassifizierungsrunde, bevor Sonderfälle an ein stärkeres Modell weitergeleitet werden.

Anwendungsfälle

Multimodale Eingaben mit 1M Kontext

Senden Sie Text, Bilder, Video, Audio oder PDFs in einer einzigen Anfrage mit bis zu 1.050.000 Eingabe-Token. Verarbeiten Sie lange Dokumente, große Batches oder mehrstufige Kontexte, ohne Inhalte aufzuteilen.

Token-Limits

Agenten-Teilschritte und Tool-Nutzung

Unterstützt Function Calling, strukturierte Ausgaben, Thinking, Code-Ausführung, Search Grounding und Caching. Das macht Flash Lite nützlich für günstige Agenten-Teilschritte, Retrieval-Bereinigung und strukturierte Vorverarbeitung in Multi-Model-Pipelines.

Unterstützte Funktionen

Warum EvoLink für die Gemini 3.1 Flash Lite API

Für Teams mit OpenAI-ähnlicher Infrastruktur macht EvoLink Gemini 3.1 Flash Lite produktionsnäher: ein Gateway, geringere Migrationskosten und saubereres Routing zwischen günstigen und Premium-Modellen.

Gemini nutzen und OpenAI-Workflows behalten

Wenn Ihr Team bereits auf OpenAI SDK, gemeinsamer Authentifizierung und bestehenden Request-Layern aufbaut, können Sie Gemini 3.1 Flash Lite hinzufügen, ohne die Kernintegration neu zu schreiben.

Flash Lite als günstige Stufe im Multi-Model-Stack einsetzen

Leiten Sie günstige Übersetzungs-, Extraktions- und Klassifizierungsanfragen zuerst an Flash Lite weiter und senden Sie nur schwierigere oder wertvollere Requests auf stärkere Modelle im selben Gateway.

Weniger Migrationsaufwand als bei vendorspezifischen Integrationen

Ein API-Schlüssel, OpenAI-kompatible und native Gemini-Formate sowie Caching- und Batch-Support erleichtern den gemeinsamen Betrieb von Gemini mit Ihrem übrigen Modellkatalog.

So verwenden Sie die Gemini 3.1 Flash Lite API

Nutzen Sie diese Seite als Zugriffsübersicht: Wählen Sie das Request-Format, verwenden Sie die Preview-Modell-ID und lassen Sie detaillierte Request-Beispiele in der Dokumentation.

Schritt 1 - Request-Format wählen

Gemini 3.1 Flash Lite kann über OpenAI-kompatible Requests oder die native Gemini API aufgerufen werden. So passt das Modell in bestehende Stacks, ohne den gesamten Integrationspfad neu aufzubauen.

Schritt 2 - Die aktuelle Request-Modell-ID verwenden

Verwenden Sie für produktiven Traffic die genaue Request-Modell-ID "gemini-3.1-flash-lite-preview". So bleibt das Seiten-Keyword auf Gemini 3.1 Flash Lite API fokussiert und passt gleichzeitig zur tatsächlich aufgerufenen Route.

Schritt 3 - Die richtigen Workloads hier skalieren

Nutzen Sie Flash Lite für Übersetzungs-Queues, Extraktionsjobs, Tagging und andere Workloads mit hohem Volumen, und leiten Sie Grenzfälle oder schwierigere Requests an stärkere Modelle weiter. Exakte Request-Bodies, Parameter und Endpoint-Beispiele gehören in die Dokumentation.

Entwickler-Playground öffnen

Funktionen und Limits der Gemini 3.1 Flash Lite API

Die wichtigsten Fähigkeiten und Grenzen für Produktionsintegrationen

Kontext

1.050.000 Eingabe-Token

Bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token.

Multimodal

Multimodale Eingaben

Text-, Bild-, Video-, Audio- und PDF-Eingaben mit Textausgabe.

Reasoning

Thinking + strukturierte Ausgaben

Thinking und strukturierte Ausgaben werden unterstützt, um zuverlässige, maschinenlesbare Ergebnisse zu erzeugen.

Tools

Function Calling + Tools

Function Calling, Code-Ausführung und Search Grounding werden unterstützt.

Skalierung

Caching + Batch

Kontext-Caching und Batch API eignen sich für wiederholte oder großvolumige Workloads.

Preise

Sehr günstige Nutzung

Die aktuellen Pay-as-you-go-Preise auf EvoLink entnehmen Sie bitte der Live-Preistabelle oben auf der Seite.

FAQs zur Gemini 3.1 Flash Lite API

Everything you need to know about the product and billing.

Ja. Gemini 3.1 Flash Lite ist als günstigere Flash-Route für Workloads mit hohem Volumen positioniert, bei denen Durchsatz und Preis wichtiger sind als die stärkere allgemeine Qualität, die Sie von einem größeren Gemini-Flash-Modell erwarten würden.

Ja. EvoLink unterstützt OpenAI-kompatible Requests über POST /v1/chat/completions und zusätzlich native Google-Gemini-Requests über POST /v1beta/models/gemini-3.1-flash-lite-preview:{method}.

Gemini 3.1 Flash Lite unterstützt bis zu 1.050.000 Eingabe-Token und 65.536 Ausgabe-Token. Damit eignet sich das Modell für lange Dokumente, große Batches und mehrstufige Verarbeitung.

Ja. Gemini 3.1 Flash Lite unterstützt Text, Bilder, Video, Audio und PDF als Eingabe und gibt Text aus. Das ist hilfreich für Extraktion, Zusammenfassung und multimodale Dokumenten-Workflows.

Verwenden Sie in API-Anfragen die genaue Preview-Modell-ID "gemini-3.1-flash-lite-preview". Diese Seite zielt auf die Gemini 3.1 Flash Lite API ab, während die Request-ID weiterhin die Preview-Kennung ist.

Wählen Sie Flash Lite für Übersetzung, Extraktion, Klassifizierung, Tagging und andere retry-freundliche Workloads, die niedrige Kosten bei hoher Skalierung brauchen. Wechseln Sie zu einer größeren Gemini-Flash-Route, wenn Ausgabequalität oder Aufgabenschwierigkeit wichtiger sind als möglichst günstige einzelne Requests.

Gemini 3.1 Flash Lite eignet sich besonders für kostenkritische Aufgaben mit hohem Durchsatz wie Übersetzung, Klassifizierung, Extraktion, Tagging, Dokumentenverarbeitung und leichte Agenten-Workflows.

Bildgenerierung, Audiogenerierung und die Live API werden nicht unterstützt. Auch Google Maps Grounding ist nicht verfügbar. Das Modell ist daher besser für günstige Text-Workflows als für Echtzeit- oder Mediengenerierung geeignet.

Gemini API-Modelle auf EvoLink

Gemini 3.1 Flash Lite ist die günstigste Route der Gemini-Familie. Für stärkere Multimodalität wechseln Sie zu Gemini 3 Flash Preview, für Frontier-Reasoning zu Gemini 3.1 Pro. Alle Modelle nutzen dasselbe API-Format.

Gemini-Familie entdecken Gemini 3 Flash Preview Gemini 3.1 Pro Gemini 2.5 Flash