pricing

Gemini 3.5 Flash Preisübersicht: Token-Kosten, Workload-Beispiele und Produktionsbudgetierung

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

20. Mai 2026

9 Min. Lesezeit

Zuletzt geprüft: 20. Mai 2026. Die folgenden Preisdaten basieren auf der offiziellen Google-Modelldokumentation und den an diesem Datum verifizierten EvoLink-Plattformdaten.

Gemini 3.5 Flash ist Googles stabiles, kosteneffizientes Modell für Produktions-Workloads mit hohem Volumen. Allerdings ist „kosteneffizient" relativ: Mit $1.50/$9.00 pro 1M Tokens liegt es zwischen günstigen Optionen wie Gemini 3 Flash Preview und Premium-Modellen wie Gemini 3.1 Pro. Dieser Leitfaden schlüsselt alle Preisdimensionen auf und zeigt, was reale Produktions-Workloads tatsächlich kosten.

Zusammenfassung

Input: $1.50 pro 1M Tokens
Output: $9.00 pro 1M Tokens
Cache-Treffer: $0.15 pro 1M Tokens (90 % Ersparnis bei gecachtem Input)
Audio-/Video-Input: $1.50 pro 1M Tokens (identisch mit Text)
Context Caching, Batch API und Google Search Grounding werden unterstützt
Der größte Kostentreiber sind Output-Tokens, nicht Input — optimieren Sie zuerst die Ausgabelänge

Vollständige Preistabelle

Token-Typ	Preis pro 1M Tokens	Hinweise
Text-Input	$1.50	Standard-Text-Prompt-Tokens
Text-Output	$9.00	Vom Modell generierte Antwort-Tokens
Cache-Treffer (Input)	$0.15	90 % Rabatt gegenüber Standard-Input; Speicherkosten $1.00/Stunde
Audio-Input	$1.50	Verarbeitete Audio-Tokens
Video-Input	$1.50	Verarbeitete Video-Frame-Tokens
Bild-Input	$1.50	Verarbeitete Bild-Tokens
PDF-Input	$1.50	Verarbeitete Dokument-Tokens

Batch- und Flex-Preise

Google bietet auch vergünstigte Preise für nicht zeitkritische Workloads:

Preisstufe	Input / 1M	Output / 1M	Anwendungsfall
Standard	$1.50	$9.00	Echtzeit-Anfragen
Batch	$0.75	$4.50	Asynchrone Massenverarbeitung
Flex	$0.75	$4.50	Flexible Lieferzeit
Priority	$2.70	$16.20	Garantiert niedrige Latenz

Batch- und Flex-Preise bieten einen 50 % Rabatt gegenüber den Standardtarifen.

Wichtige Beobachtungen

Output-Tokens kosten 6-mal mehr als Input-Tokens. Dies ist der wichtigste Hebel zur Kostensteuerung.
Cache-Treffer reduzieren die Input-Kosten um 90 % — berücksichtigen Sie jedoch die Cache-Speicherkosten von $1.00/Stunde.
Batch-/Flex-Preise halbieren sowohl Input- als auch Output-Kosten bei nicht zeitkritischen Workloads.
Alle multimodalen Inputs (Audio, Video, Bild, PDF) werden zum gleichen Tarif wie Text-Input abgerechnet.

Preisvergleich mit Gemini 3.5 Flash

Modell	Input / 1M	Output / 1M	Cache-Treffer / 1M	Kontext
Gemini 3.1 Flash Lite Preview	$0.25	$1.50	$0.025	1M
Gemini 3 Flash Preview	$0.50	$3.00	$0.05	1M
Claude Haiku 4.5	$1.00	$5.00	$0.10	200K
Gemini 3.5 Flash	$1.50	$9.00	$0.15	1M
Gemini 3.1 Pro	$2.00	$12.00	—	1M
Claude Sonnet 4.6	$3.00	$15.00	$0.30	200K

Gemini 3.5 Flash ist als Flash-Modell der mittleren Preisklasse positioniert — leistungsfähiger und stabiler als die Preview-Flash-Modelle, aber deutlich günstiger als Modelle der Pro- oder Sonnet-Klasse.

Workload-Kostenbeispiele

Beispiel 1: Klassifizierungspipeline

Hochvolumige Klassifizierung mit kurzen Prompts und kurzen Antworten.

Tägliches Volumen: 100.000 Anfragen
Durchschnittlicher Input: 500 Tokens pro Anfrage
Durchschnittlicher Output: 50 Tokens pro Anfrage
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 5M

Kostenkomponente	Berechnung	Täglich	Monatlich
Input	50M × $1.50/1M	$75.00	$2,250
Output	5M × $9.00/1M	$45.00	$1,350
Gesamt		$120.00	$3,600

Mit Context Caching (80 % der Input-Tokens gecacht):

Kostenkomponente	Berechnung	Täglich	Monatlich
Input (nicht gecacht 20 %)	10M × $1.50/1M	$15.00	$450
Input (gecacht 80 %)	40M × $0.15/1M	$6.00	$180
Output	5M × $9.00/1M	$45.00	$1,350
Gesamt mit Caching		$66.00	$1,980

Caching spart in diesem Szenario 45 %.

Beispiel 2: Coding Agent

Agent-Workflow mit mittlerem Input (Code-Kontext) und hohem Output (generierter Code).

Tägliches Volumen: 5.000 Agent-Sessions
Durchschnittlicher Input: 10.000 Tokens pro Session
Durchschnittlicher Output: 3.000 Tokens pro Session
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 15M

Kostenkomponente	Berechnung	Täglich	Monatlich
Input	50M × $1.50/1M	$75.00	$2,250
Output	15M × $9.00/1M	$135.00	$4,050
Gesamt		$210.00	$6,300

Der Output dominiert mit 64 % der Gesamtkosten. Eine Reduzierung der durchschnittlichen Ausgabelänge um 20 % spart $1.260 pro Monat.

Beispiel 3: Dokumentenanalyse mit langem Kontext

Verarbeitung großer Dokumente mit zusammenfassender Ausgabe.

Tägliches Volumen: 500 Dokumente
Durchschnittlicher Input: 100.000 Tokens pro Dokument
Durchschnittlicher Output: 2.000 Tokens pro Dokument
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 1M

Kostenkomponente	Berechnung	Täglich	Monatlich
Input	50M × $1.50/1M	$75.00	$2,250
Output	1M × $9.00/1M	$9.00	$270
Gesamt		$84.00	$2,520

Bei inputlastigen Workloads mit langem Kontext ist Context Caching entscheidend. Wenn 60 % des Dokumentkontexts gemeinsam genutzt werden (gemeinsame Header, Vorlagen, Anweisungen):

| Gesamt mit Caching | | $48.00 | $1,440 |

Caching spart 43 %.

Beispiel 4: Multimodale Pipeline (Video + Audio)

Verarbeitung von Videoinhalten mit Audio zur Inhaltserkennung.

Tägliches Volumen: 1.000 Videos
Durchschnittlicher Video-Input: 20.000 Tokens pro Video
Durchschnittlicher Audio-Input: 5.000 Tokens pro Video
Durchschnittlicher Text-Input: 1.000 Tokens pro Video
Durchschnittlicher Output: 500 Tokens pro Video
Tägliche Video-Tokens: 20M
Tägliche Audio-Tokens: 5M
Tägliche Text-Tokens: 1M
Tägliche Output-Tokens: 500K

Kostenkomponente	Berechnung	Täglich	Monatlich
Video-Input	20M × $1.50/1M	$30.00	$900
Audio-Input	5M × $1.50/1M	$7.50	$225
Text-Input	1M × $1.50/1M	$1.50	$45
Output	0.5M × $9.00/1M	$4.50	$135
Gesamt		$43.50	$1,305

Die multimodale Preisgestaltung ist unkompliziert — alle Input-Typen werden zum gleichen Tarif abgerechnet.

Strategien zur Kostenoptimierung

1. Context Caching intensiv nutzen

Context Caching reduziert die Input-Kosten um 90 %. Setzen Sie Caching ein für:

Systemprompts und Anweisungen
Few-Shot-Beispiele
Gemeinsam genutzten Dokumentkontext über Anfragen hinweg
Wiederkehrende Tool-Definitionen und Schemas

2. Ausgabelänge optimieren

Output-Tokens kosten 6-mal mehr als Input. Optimierungsstrategien:

Setzen Sie max_tokens auf das für Ihre Aufgabe nötige Minimum
Verwenden Sie strukturierte Output-Schemas zur Einschränkung des Antwortformats
Nutzen Sie bei Klassifizierungen Enum-Ausgaben statt Erklärungen
Geben Sie bei Extraktionen nur die extrahierten Felder zurück

3. Batch API für nicht zeitkritische Workloads verwenden

Die Batch API bietet in der Regel günstigere Preise für Workloads, die höhere Latenz tolerieren können. Geeignet für:

Nächtliche Datenverarbeitung
Massenklassifizierung
Dokumentenanalyse-Pipelines
Evaluierung und Tests

4. Nach Workload-Stufe routen

Nicht jede Anfrage benötigt Gemini 3.5 Flash. Leiten Sie einfachere Aufgaben an günstigere Modelle weiter:

Workload-Komplexität	Empfohlenes Modell	Begründung
Einfache Klassifizierung	Gemini 3.1 Flash Lite Preview ($0.25/$1.50)	6-mal günstigerer Input und Output
Standard-Extraktion	Gemini 3 Flash Preview ($0.50/$3.00)	3-mal günstiger, ausreichend für einfache Aufgaben
Agent-Unterschritte	Gemini 3.5 Flash ($1.50/$9.00)	GA-Stabilität, besseres Reasoning
Komplexes Reasoning	Gemini 3.1 Pro ($2.00/$12.00)	Höhere Qualität bei schwierigen Aufgaben

5. Kosten pro erfolgreicher Aufgabe überwachen, nicht nur Token-Kosten

Ein günstigeres Modell, das 3 Wiederholungen benötigt, kann teurer sein als ein teureres Modell, das beim ersten Versuch erfolgreich ist. Verfolgen Sie:

Token-Kosten pro Anfrage
Wiederholungsrate
Fallback-Rate
Kosten pro erfolgreicher Aufgabe (einschließlich Wiederholungen und Fallbacks)

Versteckte Kostenfaktoren

Wiederholungen

Wenn 10 % der Anfragen die Validierung nicht bestehen und wiederholt werden müssen, planen Sie 10 % mehr in Ihrem Token-Budget ein. Bei Agent-Workflows mit mehrstufigen Ketten summieren sich die Wiederholungskosten über die Schritte hinweg.

Fallback auf leistungsstärkere Modelle

Wenn Gemini 3.5 Flash 5 % der Anfragen nicht bewältigt und Sie auf Gemini 3.1 Pro zurückfallen, berücksichtigen Sie die Pro-Preise für diese Anfragen im Budget.

Kontextwachstum in Agent-Schleifen

Agent-Workflows akkumulieren häufig Kontext über mehrere Schritte. Eine 5-Schritte-Agent-Schleife mit wachsendem Kontext kann 2-3-mal mehr Input-Tokens verbrauchen als der ursprüngliche Prompt. Planen Sie das Kontextwachstum in Ihr Budget ein, nicht nur die erste Anfrage.

Rate-Limit-Overhead

Wenn Sie Rate Limits erreichen und Anfragen in die Warteschlange stellen oder wiederholen müssen, schlägt sich die zusätzliche Latenz nicht nur in Token-Kosten nieder, sondern auch in Entwicklungszeit und Beeinträchtigung der Benutzererfahrung.

FAQ

Wie nutze ich Gemini 3.5 Flash am günstigsten?

Aktivieren Sie Context Caching für wiederkehrende Prompts, beschränken Sie die Ausgabelänge mit strukturierten Schemas, nutzen Sie die Batch API für nicht zeitkritische Arbeiten und leiten Sie einfache Aufgaben an günstigere Flash-Modelle weiter.

Ist Gemini 3.5 Flash günstiger als Claude Haiku 4.5?

Nein. Claude Haiku 4.5 ist sowohl beim Input ($1.00 vs. $1.50) als auch beim Output ($5.00 vs. $9.00) pro 1M Tokens günstiger. Allerdings bietet Gemini 3.5 Flash einen 1M-Kontext (vs. 200K) und native multimodale Inputs, die Haiku nicht unterstützt.

Wie viel spart Context Caching?

Cache-Treffer kosten $0.15 pro 1M Tokens gegenüber $1.50 für Standard-Input — eine Reduktion um 90 %. Bei Workloads mit gemeinsamen Systemprompts oder wiederkehrendem Kontext kann Caching die Gesamtkosten um 30-50 % senken.

Ist Gemini 3.5 Flash günstiger als Gemini 3.1 Pro?

Ja. Gemini 3.5 Flash ist beim Input 25 % günstiger ($1.50 vs. $2.00) und beim Output ebenfalls 25 % günstiger ($9.00 vs. $12.00) im Vergleich zu Gemini 3.1 Pro.

Wie schätze ich meine monatlichen Kosten?

Berechnung: (tägliche Input-Tokens × $1.50/1M) + (tägliche Output-Tokens × $9.00/1M) × 30. Ziehen Sie dann die Einsparungen durch Context Caching ab und addieren Sie den Aufschlag für Wiederholungen und Fallbacks.

Budgetieren Sie Ihre Gemini 3.5 Flash Workloads auf EvoLink

EvoLink bietet eine einheitliche API mit Nutzungsüberwachung und Kostenverfolgung über alle Gemini-Modelle hinweg. Vergleichen Sie Kosten, richten Sie Budgetwarnungen ein und wechseln Sie zwischen Flash-Stufen — alles über eine einzige Integration.

Weiterführende Lektüre:

Gemini 3.5 Flash API — Produktseite mit Preisen, Modell-ID und Playground
Gemini 3.5 Flash vs Gemini 3 Flash Preview — Generationenvergleich mit Kostenanalyse
Gemini 3.5 Flash vs Claude Haiku 4.5 — Familienübergreifender Kostenvergleich
Gemini 3.5 Flash for Coding Agents — Agent-Kostenanalyse

Auf EvoLink entdecken:

Gemini 3.5 Flash API — $1.50/$9.00 pro 1M Tokens
Gemini 3 Flash Preview API — $0.50/$3.00 pro 1M Tokens
Gemini API Familie — Alle Gemini-Routen nach Preis vergleichen

Quellen

Alle Beiträge

#Gemini 3.5 Flash #API pricing #token cost #production budgeting #cost optimization