Gemini Omni kommt baldMehr erfahren
Gemini 3.5 Flash Preisübersicht: Token-Kosten, Workload-Beispiele und Produktionsbudgetierung
pricing

Gemini 3.5 Flash Preisübersicht: Token-Kosten, Workload-Beispiele und Produktionsbudgetierung

EvoLink Team
EvoLink Team
Product Team
20. Mai 2026
9 Min. Lesezeit
Zuletzt geprüft: 20. Mai 2026. Die folgenden Preisdaten basieren auf der offiziellen Google-Modelldokumentation und den an diesem Datum verifizierten EvoLink-Plattformdaten.
Gemini 3.5 Flash ist Googles stabiles, kosteneffizientes Modell für Produktions-Workloads mit hohem Volumen. Allerdings ist „kosteneffizient" relativ: Mit $1.50/$9.00 pro 1M Tokens liegt es zwischen günstigen Optionen wie Gemini 3 Flash Preview und Premium-Modellen wie Gemini 3.1 Pro. Dieser Leitfaden schlüsselt alle Preisdimensionen auf und zeigt, was reale Produktions-Workloads tatsächlich kosten.

Zusammenfassung

  • Input: $1.50 pro 1M Tokens
  • Output: $9.00 pro 1M Tokens
  • Cache-Treffer: $0.15 pro 1M Tokens (90 % Ersparnis bei gecachtem Input)
  • Audio-/Video-Input: $1.50 pro 1M Tokens (identisch mit Text)
  • Context Caching, Batch API und Google Search Grounding werden unterstützt
  • Der größte Kostentreiber sind Output-Tokens, nicht Input — optimieren Sie zuerst die Ausgabelänge

Vollständige Preistabelle

Token-TypPreis pro 1M TokensHinweise
Text-Input$1.50Standard-Text-Prompt-Tokens
Text-Output$9.00Vom Modell generierte Antwort-Tokens
Cache-Treffer (Input)$0.1590 % Rabatt gegenüber Standard-Input; Speicherkosten $1.00/Stunde
Audio-Input$1.50Verarbeitete Audio-Tokens
Video-Input$1.50Verarbeitete Video-Frame-Tokens
Bild-Input$1.50Verarbeitete Bild-Tokens
PDF-Input$1.50Verarbeitete Dokument-Tokens

Batch- und Flex-Preise

Google bietet auch vergünstigte Preise für nicht zeitkritische Workloads:

PreisstufeInput / 1MOutput / 1MAnwendungsfall
Standard$1.50$9.00Echtzeit-Anfragen
Batch$0.75$4.50Asynchrone Massenverarbeitung
Flex$0.75$4.50Flexible Lieferzeit
Priority$2.70$16.20Garantiert niedrige Latenz
Batch- und Flex-Preise bieten einen 50 % Rabatt gegenüber den Standardtarifen.

Wichtige Beobachtungen

  • Output-Tokens kosten 6-mal mehr als Input-Tokens. Dies ist der wichtigste Hebel zur Kostensteuerung.
  • Cache-Treffer reduzieren die Input-Kosten um 90 % — berücksichtigen Sie jedoch die Cache-Speicherkosten von $1.00/Stunde.
  • Batch-/Flex-Preise halbieren sowohl Input- als auch Output-Kosten bei nicht zeitkritischen Workloads.
  • Alle multimodalen Inputs (Audio, Video, Bild, PDF) werden zum gleichen Tarif wie Text-Input abgerechnet.

Preisvergleich mit Gemini 3.5 Flash

ModellInput / 1MOutput / 1MCache-Treffer / 1MKontext
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash ist als Flash-Modell der mittleren Preisklasse positioniert — leistungsfähiger und stabiler als die Preview-Flash-Modelle, aber deutlich günstiger als Modelle der Pro- oder Sonnet-Klasse.

Workload-Kostenbeispiele

Beispiel 1: Klassifizierungspipeline

Hochvolumige Klassifizierung mit kurzen Prompts und kurzen Antworten.

Tägliches Volumen: 100.000 Anfragen Durchschnittlicher Input: 500 Tokens pro Anfrage Durchschnittlicher Output: 50 Tokens pro Anfrage Tägliche Input-Tokens: 50M Tägliche Output-Tokens: 5M
KostenkomponenteBerechnungTäglichMonatlich
Input50M × $1.50/1M$75.00$2,250
Output5M × $9.00/1M$45.00$1,350
Gesamt$120.00$3,600

Mit Context Caching (80 % der Input-Tokens gecacht):

KostenkomponenteBerechnungTäglichMonatlich
Input (nicht gecacht 20 %)10M × $1.50/1M$15.00$450
Input (gecacht 80 %)40M × $0.15/1M$6.00$180
Output5M × $9.00/1M$45.00$1,350
Gesamt mit Caching$66.00$1,980
Caching spart in diesem Szenario 45 %.

Beispiel 2: Coding Agent

Agent-Workflow mit mittlerem Input (Code-Kontext) und hohem Output (generierter Code).

Tägliches Volumen: 5.000 Agent-Sessions Durchschnittlicher Input: 10.000 Tokens pro Session Durchschnittlicher Output: 3.000 Tokens pro Session Tägliche Input-Tokens: 50M Tägliche Output-Tokens: 15M
KostenkomponenteBerechnungTäglichMonatlich
Input50M × $1.50/1M$75.00$2,250
Output15M × $9.00/1M$135.00$4,050
Gesamt$210.00$6,300

Der Output dominiert mit 64 % der Gesamtkosten. Eine Reduzierung der durchschnittlichen Ausgabelänge um 20 % spart $1.260 pro Monat.

Beispiel 3: Dokumentenanalyse mit langem Kontext

Verarbeitung großer Dokumente mit zusammenfassender Ausgabe.

Tägliches Volumen: 500 Dokumente Durchschnittlicher Input: 100.000 Tokens pro Dokument Durchschnittlicher Output: 2.000 Tokens pro Dokument Tägliche Input-Tokens: 50M Tägliche Output-Tokens: 1M
KostenkomponenteBerechnungTäglichMonatlich
Input50M × $1.50/1M$75.00$2,250
Output1M × $9.00/1M$9.00$270
Gesamt$84.00$2,520

Bei inputlastigen Workloads mit langem Kontext ist Context Caching entscheidend. Wenn 60 % des Dokumentkontexts gemeinsam genutzt werden (gemeinsame Header, Vorlagen, Anweisungen):

| Gesamt mit Caching | | $48.00 | $1,440 |
Caching spart 43 %.

Beispiel 4: Multimodale Pipeline (Video + Audio)

Verarbeitung von Videoinhalten mit Audio zur Inhaltserkennung.

Tägliches Volumen: 1.000 Videos Durchschnittlicher Video-Input: 20.000 Tokens pro Video Durchschnittlicher Audio-Input: 5.000 Tokens pro Video Durchschnittlicher Text-Input: 1.000 Tokens pro Video Durchschnittlicher Output: 500 Tokens pro Video Tägliche Video-Tokens: 20M Tägliche Audio-Tokens: 5M Tägliche Text-Tokens: 1M Tägliche Output-Tokens: 500K
KostenkomponenteBerechnungTäglichMonatlich
Video-Input20M × $1.50/1M$30.00$900
Audio-Input5M × $1.50/1M$7.50$225
Text-Input1M × $1.50/1M$1.50$45
Output0.5M × $9.00/1M$4.50$135
Gesamt$43.50$1,305

Die multimodale Preisgestaltung ist unkompliziert — alle Input-Typen werden zum gleichen Tarif abgerechnet.

Strategien zur Kostenoptimierung

1. Context Caching intensiv nutzen

Context Caching reduziert die Input-Kosten um 90 %. Setzen Sie Caching ein für:

  • Systemprompts und Anweisungen
  • Few-Shot-Beispiele
  • Gemeinsam genutzten Dokumentkontext über Anfragen hinweg
  • Wiederkehrende Tool-Definitionen und Schemas

2. Ausgabelänge optimieren

Output-Tokens kosten 6-mal mehr als Input. Optimierungsstrategien:

  • Setzen Sie max_tokens auf das für Ihre Aufgabe nötige Minimum
  • Verwenden Sie strukturierte Output-Schemas zur Einschränkung des Antwortformats
  • Nutzen Sie bei Klassifizierungen Enum-Ausgaben statt Erklärungen
  • Geben Sie bei Extraktionen nur die extrahierten Felder zurück

3. Batch API für nicht zeitkritische Workloads verwenden

Die Batch API bietet in der Regel günstigere Preise für Workloads, die höhere Latenz tolerieren können. Geeignet für:

  • Nächtliche Datenverarbeitung
  • Massenklassifizierung
  • Dokumentenanalyse-Pipelines
  • Evaluierung und Tests

4. Nach Workload-Stufe routen

Nicht jede Anfrage benötigt Gemini 3.5 Flash. Leiten Sie einfachere Aufgaben an günstigere Modelle weiter:

Workload-KomplexitätEmpfohlenes ModellBegründung
Einfache KlassifizierungGemini 3.1 Flash Lite Preview ($0.25/$1.50)6-mal günstigerer Input und Output
Standard-ExtraktionGemini 3 Flash Preview ($0.50/$3.00)3-mal günstiger, ausreichend für einfache Aufgaben
Agent-UnterschritteGemini 3.5 Flash ($1.50/$9.00)GA-Stabilität, besseres Reasoning
Komplexes ReasoningGemini 3.1 Pro ($2.00/$12.00)Höhere Qualität bei schwierigen Aufgaben

5. Kosten pro erfolgreicher Aufgabe überwachen, nicht nur Token-Kosten

Ein günstigeres Modell, das 3 Wiederholungen benötigt, kann teurer sein als ein teureres Modell, das beim ersten Versuch erfolgreich ist. Verfolgen Sie:

  • Token-Kosten pro Anfrage
  • Wiederholungsrate
  • Fallback-Rate
  • Kosten pro erfolgreicher Aufgabe (einschließlich Wiederholungen und Fallbacks)

Versteckte Kostenfaktoren

Wiederholungen

Wenn 10 % der Anfragen die Validierung nicht bestehen und wiederholt werden müssen, planen Sie 10 % mehr in Ihrem Token-Budget ein. Bei Agent-Workflows mit mehrstufigen Ketten summieren sich die Wiederholungskosten über die Schritte hinweg.

Fallback auf leistungsstärkere Modelle

Wenn Gemini 3.5 Flash 5 % der Anfragen nicht bewältigt und Sie auf Gemini 3.1 Pro zurückfallen, berücksichtigen Sie die Pro-Preise für diese Anfragen im Budget.

Kontextwachstum in Agent-Schleifen

Agent-Workflows akkumulieren häufig Kontext über mehrere Schritte. Eine 5-Schritte-Agent-Schleife mit wachsendem Kontext kann 2-3-mal mehr Input-Tokens verbrauchen als der ursprüngliche Prompt. Planen Sie das Kontextwachstum in Ihr Budget ein, nicht nur die erste Anfrage.

Rate-Limit-Overhead

Wenn Sie Rate Limits erreichen und Anfragen in die Warteschlange stellen oder wiederholen müssen, schlägt sich die zusätzliche Latenz nicht nur in Token-Kosten nieder, sondern auch in Entwicklungszeit und Beeinträchtigung der Benutzererfahrung.

FAQ

Wie nutze ich Gemini 3.5 Flash am günstigsten?

Aktivieren Sie Context Caching für wiederkehrende Prompts, beschränken Sie die Ausgabelänge mit strukturierten Schemas, nutzen Sie die Batch API für nicht zeitkritische Arbeiten und leiten Sie einfache Aufgaben an günstigere Flash-Modelle weiter.

Ist Gemini 3.5 Flash günstiger als Claude Haiku 4.5?

Nein. Claude Haiku 4.5 ist sowohl beim Input ($1.00 vs. $1.50) als auch beim Output ($5.00 vs. $9.00) pro 1M Tokens günstiger. Allerdings bietet Gemini 3.5 Flash einen 1M-Kontext (vs. 200K) und native multimodale Inputs, die Haiku nicht unterstützt.

Wie viel spart Context Caching?

Cache-Treffer kosten $0.15 pro 1M Tokens gegenüber $1.50 für Standard-Input — eine Reduktion um 90 %. Bei Workloads mit gemeinsamen Systemprompts oder wiederkehrendem Kontext kann Caching die Gesamtkosten um 30-50 % senken.

Ist Gemini 3.5 Flash günstiger als Gemini 3.1 Pro?

Ja. Gemini 3.5 Flash ist beim Input 25 % günstiger ($1.50 vs. $2.00) und beim Output ebenfalls 25 % günstiger ($9.00 vs. $12.00) im Vergleich zu Gemini 3.1 Pro.

Wie schätze ich meine monatlichen Kosten?

Berechnung: (tägliche Input-Tokens × $1.50/1M) + (tägliche Output-Tokens × $9.00/1M) × 30. Ziehen Sie dann die Einsparungen durch Context Caching ab und addieren Sie den Aufschlag für Wiederholungen und Fallbacks.

EvoLink bietet eine einheitliche API mit Nutzungsüberwachung und Kostenverfolgung über alle Gemini-Modelle hinweg. Vergleichen Sie Kosten, richten Sie Budgetwarnungen ein und wechseln Sie zwischen Flash-Stufen — alles über eine einzige Integration.

Weiterführende Lektüre:

Auf EvoLink entdecken:

Quellen

Bereit, Ihre KI-Kosten um 89 % zu senken?

Starten Sie noch heute mit EvoLink und erleben Sie die Vorteile intelligenter API-Routing.