
Gemini 3.5 Flash Preisübersicht: Token-Kosten, Workload-Beispiele und Produktionsbudgetierung

$1.50/$9.00 pro 1M Tokens liegt es zwischen günstigen Optionen wie Gemini 3 Flash Preview und Premium-Modellen wie Gemini 3.1 Pro. Dieser Leitfaden schlüsselt alle Preisdimensionen auf und zeigt, was reale Produktions-Workloads tatsächlich kosten.Zusammenfassung
- Input: $1.50 pro 1M Tokens
- Output: $9.00 pro 1M Tokens
- Cache-Treffer: $0.15 pro 1M Tokens (90 % Ersparnis bei gecachtem Input)
- Audio-/Video-Input: $1.50 pro 1M Tokens (identisch mit Text)
- Context Caching, Batch API und Google Search Grounding werden unterstützt
- Der größte Kostentreiber sind Output-Tokens, nicht Input — optimieren Sie zuerst die Ausgabelänge
Vollständige Preistabelle
| Token-Typ | Preis pro 1M Tokens | Hinweise |
|---|---|---|
| Text-Input | $1.50 | Standard-Text-Prompt-Tokens |
| Text-Output | $9.00 | Vom Modell generierte Antwort-Tokens |
| Cache-Treffer (Input) | $0.15 | 90 % Rabatt gegenüber Standard-Input; Speicherkosten $1.00/Stunde |
| Audio-Input | $1.50 | Verarbeitete Audio-Tokens |
| Video-Input | $1.50 | Verarbeitete Video-Frame-Tokens |
| Bild-Input | $1.50 | Verarbeitete Bild-Tokens |
| PDF-Input | $1.50 | Verarbeitete Dokument-Tokens |
Batch- und Flex-Preise
Google bietet auch vergünstigte Preise für nicht zeitkritische Workloads:
| Preisstufe | Input / 1M | Output / 1M | Anwendungsfall |
|---|---|---|---|
| Standard | $1.50 | $9.00 | Echtzeit-Anfragen |
| Batch | $0.75 | $4.50 | Asynchrone Massenverarbeitung |
| Flex | $0.75 | $4.50 | Flexible Lieferzeit |
| Priority | $2.70 | $16.20 | Garantiert niedrige Latenz |
Wichtige Beobachtungen
- Output-Tokens kosten 6-mal mehr als Input-Tokens. Dies ist der wichtigste Hebel zur Kostensteuerung.
- Cache-Treffer reduzieren die Input-Kosten um 90 % — berücksichtigen Sie jedoch die Cache-Speicherkosten von
$1.00/Stunde. - Batch-/Flex-Preise halbieren sowohl Input- als auch Output-Kosten bei nicht zeitkritischen Workloads.
- Alle multimodalen Inputs (Audio, Video, Bild, PDF) werden zum gleichen Tarif wie Text-Input abgerechnet.
Preisvergleich mit Gemini 3.5 Flash
| Modell | Input / 1M | Output / 1M | Cache-Treffer / 1M | Kontext |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | $0.025 | 1M |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | — | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 200K |
Workload-Kostenbeispiele
Beispiel 1: Klassifizierungspipeline
Hochvolumige Klassifizierung mit kurzen Prompts und kurzen Antworten.
Tägliches Volumen: 100.000 Anfragen
Durchschnittlicher Input: 500 Tokens pro Anfrage
Durchschnittlicher Output: 50 Tokens pro Anfrage
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 5M
| Kostenkomponente | Berechnung | Täglich | Monatlich |
|---|---|---|---|
| Input | 50M × $1.50/1M | $75.00 | $2,250 |
| Output | 5M × $9.00/1M | $45.00 | $1,350 |
| Gesamt | $120.00 | $3,600 |
Mit Context Caching (80 % der Input-Tokens gecacht):
| Kostenkomponente | Berechnung | Täglich | Monatlich |
|---|---|---|---|
| Input (nicht gecacht 20 %) | 10M × $1.50/1M | $15.00 | $450 |
| Input (gecacht 80 %) | 40M × $0.15/1M | $6.00 | $180 |
| Output | 5M × $9.00/1M | $45.00 | $1,350 |
| Gesamt mit Caching | $66.00 | $1,980 |
Beispiel 2: Coding Agent
Agent-Workflow mit mittlerem Input (Code-Kontext) und hohem Output (generierter Code).
Tägliches Volumen: 5.000 Agent-Sessions
Durchschnittlicher Input: 10.000 Tokens pro Session
Durchschnittlicher Output: 3.000 Tokens pro Session
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 15M
| Kostenkomponente | Berechnung | Täglich | Monatlich |
|---|---|---|---|
| Input | 50M × $1.50/1M | $75.00 | $2,250 |
| Output | 15M × $9.00/1M | $135.00 | $4,050 |
| Gesamt | $210.00 | $6,300 |
Der Output dominiert mit 64 % der Gesamtkosten. Eine Reduzierung der durchschnittlichen Ausgabelänge um 20 % spart $1.260 pro Monat.
Beispiel 3: Dokumentenanalyse mit langem Kontext
Verarbeitung großer Dokumente mit zusammenfassender Ausgabe.
Tägliches Volumen: 500 Dokumente
Durchschnittlicher Input: 100.000 Tokens pro Dokument
Durchschnittlicher Output: 2.000 Tokens pro Dokument
Tägliche Input-Tokens: 50M
Tägliche Output-Tokens: 1M
| Kostenkomponente | Berechnung | Täglich | Monatlich |
|---|---|---|---|
| Input | 50M × $1.50/1M | $75.00 | $2,250 |
| Output | 1M × $9.00/1M | $9.00 | $270 |
| Gesamt | $84.00 | $2,520 |
Bei inputlastigen Workloads mit langem Kontext ist Context Caching entscheidend. Wenn 60 % des Dokumentkontexts gemeinsam genutzt werden (gemeinsame Header, Vorlagen, Anweisungen):
Beispiel 4: Multimodale Pipeline (Video + Audio)
Verarbeitung von Videoinhalten mit Audio zur Inhaltserkennung.
Tägliches Volumen: 1.000 Videos
Durchschnittlicher Video-Input: 20.000 Tokens pro Video
Durchschnittlicher Audio-Input: 5.000 Tokens pro Video
Durchschnittlicher Text-Input: 1.000 Tokens pro Video
Durchschnittlicher Output: 500 Tokens pro Video
Tägliche Video-Tokens: 20M
Tägliche Audio-Tokens: 5M
Tägliche Text-Tokens: 1M
Tägliche Output-Tokens: 500K
| Kostenkomponente | Berechnung | Täglich | Monatlich |
|---|---|---|---|
| Video-Input | 20M × $1.50/1M | $30.00 | $900 |
| Audio-Input | 5M × $1.50/1M | $7.50 | $225 |
| Text-Input | 1M × $1.50/1M | $1.50 | $45 |
| Output | 0.5M × $9.00/1M | $4.50 | $135 |
| Gesamt | $43.50 | $1,305 |
Die multimodale Preisgestaltung ist unkompliziert — alle Input-Typen werden zum gleichen Tarif abgerechnet.
Strategien zur Kostenoptimierung
1. Context Caching intensiv nutzen
Context Caching reduziert die Input-Kosten um 90 %. Setzen Sie Caching ein für:
- Systemprompts und Anweisungen
- Few-Shot-Beispiele
- Gemeinsam genutzten Dokumentkontext über Anfragen hinweg
- Wiederkehrende Tool-Definitionen und Schemas
2. Ausgabelänge optimieren
Output-Tokens kosten 6-mal mehr als Input. Optimierungsstrategien:
- Setzen Sie
max_tokensauf das für Ihre Aufgabe nötige Minimum - Verwenden Sie strukturierte Output-Schemas zur Einschränkung des Antwortformats
- Nutzen Sie bei Klassifizierungen Enum-Ausgaben statt Erklärungen
- Geben Sie bei Extraktionen nur die extrahierten Felder zurück
3. Batch API für nicht zeitkritische Workloads verwenden
Die Batch API bietet in der Regel günstigere Preise für Workloads, die höhere Latenz tolerieren können. Geeignet für:
- Nächtliche Datenverarbeitung
- Massenklassifizierung
- Dokumentenanalyse-Pipelines
- Evaluierung und Tests
4. Nach Workload-Stufe routen
Nicht jede Anfrage benötigt Gemini 3.5 Flash. Leiten Sie einfachere Aufgaben an günstigere Modelle weiter:
| Workload-Komplexität | Empfohlenes Modell | Begründung |
|---|---|---|
| Einfache Klassifizierung | Gemini 3.1 Flash Lite Preview ($0.25/$1.50) | 6-mal günstigerer Input und Output |
| Standard-Extraktion | Gemini 3 Flash Preview ($0.50/$3.00) | 3-mal günstiger, ausreichend für einfache Aufgaben |
| Agent-Unterschritte | Gemini 3.5 Flash ($1.50/$9.00) | GA-Stabilität, besseres Reasoning |
| Komplexes Reasoning | Gemini 3.1 Pro ($2.00/$12.00) | Höhere Qualität bei schwierigen Aufgaben |
5. Kosten pro erfolgreicher Aufgabe überwachen, nicht nur Token-Kosten
Ein günstigeres Modell, das 3 Wiederholungen benötigt, kann teurer sein als ein teureres Modell, das beim ersten Versuch erfolgreich ist. Verfolgen Sie:
- Token-Kosten pro Anfrage
- Wiederholungsrate
- Fallback-Rate
- Kosten pro erfolgreicher Aufgabe (einschließlich Wiederholungen und Fallbacks)
Versteckte Kostenfaktoren
Wiederholungen
Wenn 10 % der Anfragen die Validierung nicht bestehen und wiederholt werden müssen, planen Sie 10 % mehr in Ihrem Token-Budget ein. Bei Agent-Workflows mit mehrstufigen Ketten summieren sich die Wiederholungskosten über die Schritte hinweg.
Fallback auf leistungsstärkere Modelle
Wenn Gemini 3.5 Flash 5 % der Anfragen nicht bewältigt und Sie auf Gemini 3.1 Pro zurückfallen, berücksichtigen Sie die Pro-Preise für diese Anfragen im Budget.
Kontextwachstum in Agent-Schleifen
Agent-Workflows akkumulieren häufig Kontext über mehrere Schritte. Eine 5-Schritte-Agent-Schleife mit wachsendem Kontext kann 2-3-mal mehr Input-Tokens verbrauchen als der ursprüngliche Prompt. Planen Sie das Kontextwachstum in Ihr Budget ein, nicht nur die erste Anfrage.
Rate-Limit-Overhead
Wenn Sie Rate Limits erreichen und Anfragen in die Warteschlange stellen oder wiederholen müssen, schlägt sich die zusätzliche Latenz nicht nur in Token-Kosten nieder, sondern auch in Entwicklungszeit und Beeinträchtigung der Benutzererfahrung.
FAQ
Wie nutze ich Gemini 3.5 Flash am günstigsten?
Aktivieren Sie Context Caching für wiederkehrende Prompts, beschränken Sie die Ausgabelänge mit strukturierten Schemas, nutzen Sie die Batch API für nicht zeitkritische Arbeiten und leiten Sie einfache Aufgaben an günstigere Flash-Modelle weiter.
Ist Gemini 3.5 Flash günstiger als Claude Haiku 4.5?
Nein. Claude Haiku 4.5 ist sowohl beim Input ($1.00 vs. $1.50) als auch beim Output ($5.00 vs. $9.00) pro 1M Tokens günstiger. Allerdings bietet Gemini 3.5 Flash einen 1M-Kontext (vs. 200K) und native multimodale Inputs, die Haiku nicht unterstützt.
Wie viel spart Context Caching?
Cache-Treffer kosten $0.15 pro 1M Tokens gegenüber $1.50 für Standard-Input — eine Reduktion um 90 %. Bei Workloads mit gemeinsamen Systemprompts oder wiederkehrendem Kontext kann Caching die Gesamtkosten um 30-50 % senken.
Ist Gemini 3.5 Flash günstiger als Gemini 3.1 Pro?
Ja. Gemini 3.5 Flash ist beim Input 25 % günstiger ($1.50 vs. $2.00) und beim Output ebenfalls 25 % günstiger ($9.00 vs. $12.00) im Vergleich zu Gemini 3.1 Pro.
Wie schätze ich meine monatlichen Kosten?
(tägliche Input-Tokens × $1.50/1M) + (tägliche Output-Tokens × $9.00/1M) × 30. Ziehen Sie dann die Einsparungen durch Context Caching ab und addieren Sie den Aufschlag für Wiederholungen und Fallbacks.Budgetieren Sie Ihre Gemini 3.5 Flash Workloads auf EvoLink
EvoLink bietet eine einheitliche API mit Nutzungsüberwachung und Kostenverfolgung über alle Gemini-Modelle hinweg. Vergleichen Sie Kosten, richten Sie Budgetwarnungen ein und wechseln Sie zwischen Flash-Stufen — alles über eine einzige Integration.
Weiterführende Lektüre:
- Gemini 3.5 Flash API — Produktseite mit Preisen, Modell-ID und Playground
- Gemini 3.5 Flash vs Gemini 3 Flash Preview — Generationenvergleich mit Kostenanalyse
- Gemini 3.5 Flash vs Claude Haiku 4.5 — Familienübergreifender Kostenvergleich
- Gemini 3.5 Flash for Coding Agents — Agent-Kostenanalyse
Auf EvoLink entdecken:
- Gemini 3.5 Flash API — $1.50/$9.00 pro 1M Tokens
- Gemini 3 Flash Preview API — $0.50/$3.00 pro 1M Tokens
- Gemini API Familie — Alle Gemini-Routen nach Preis vergleichen


