Gemini 2.5 Flash API
Starten Sie das Gemini-2.5-Flash-Modell in Minuten mit einem einheitlichen EvoLink-Key. Wählen Sie Google Native API-Format oder OpenAI SDK-Format, und bauen Sie Low-Latency-Assistenten, Analytics und agentische Workflows ohne Änderungen an Ihrem App-Stack.
PRICING
| PLAN | CONTEXT WINDOW | MAX OUTPUT | INPUT | OUTPUT | CACHE READ |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 1.05M | 65.5K | $0.240-20% $0.300Official Price | $2.00-20% $2.50Official Price | $0.024-21% $0.030Official Price |
| Gemini 2.5 Flash (Beta) | 1.05M | 65.5K | $0.078-74% $0.300Official Price | $0.650-74% $2.50Official Price | $0.008-74% $0.030Official Price |
Pricing Note: Price unit: USD / 1M tokens
Cache Hit: Price applies to cached prompt tokens.
Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.
- · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
- · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.
Gemini 2.5 Flash API für schnelle, skalierbare multimodale Apps
Verarbeiten Sie großen Kontext und gemischte Medien in einer Anfrage. Gemini 2.5 Flash akzeptiert Text-, Bild-, Video- und Audio-Inputs, liefert Text-Output und unterstützt Long Context – so können Teams Real-Time-Support, Content-Verständnis und interne Automation skalieren.

Fähigkeiten der Gemini 2.5 Flash API
High-Throughput-Responses
Gemini 2.5 Flash ist für großskalige, latenzarme Workloads gebaut. Nutzen Sie es für Kundenchat, Product Discovery oder Live-Dashboards, bei denen Nutzer schnelle Antworten erwarten. EvoLink hält die Integration einfach, während Sie Concurrency skalieren – dasselbe Modell bedient Prototypen und Produktions-Traffic.

Multimodales Verständnis
Mit Gemini 2.5 Flash kann eine Anfrage Text, Bilder, Videoclips oder Audio enthalten. So lassen sich Meetings zusammenfassen, Produktfotos prüfen oder Schlüsselmomente aus Trainingsvideos extrahieren. Sie erhalten Text-Output, der sich leicht speichern, durchsuchen und an Downstream-Tools routen lässt.

Agentic Workflow Ready
Gemini 2.5 Flash unterstützt Function Calling, Structured Outputs und Context Caching, sodass Agents Tools aufrufen, zuverlässig JSON liefern und große Instruktionen wiederverwenden können. Ideal für Ticket-Triage, Policy-Checks, Katalog-Bereinigung und andere wiederholbare Tasks, bei denen Konsistenz und Speed zählen.

Warum Entwickler Gemini 2.5 Flash wählen
Gebaut für großskalige, latenzarme High-Volume-Workloads mit multimodalem Input und Long Context.
Schnell für user-facing Experiences
Optimiert für großskalige Verarbeitung und niedrige Latenz bei hohen Volumina – ideal für Real-Time-Agents und Assistenten.
Skalieren ohne Komplexität
Nutzen Sie EvoLinks OpenAI SDK-Format mit einem einzigen /v1/chat/completions-Endpoint sowie optionales Streaming für höhere gefühlte Geschwindigkeit.
Kostenbewusst by design
Unterstützt Caching, Function Calling und strukturierte Outputs, um Wiederholungen zu reduzieren und automatisierte Workflows planbar zu halten.
So integrieren Sie Gemini 2.5 Flash
EvoLink unterstützt das Google Native API-Format für Gemini 2.5 Flash, inklusive Streaming und Async-Optionen.
Schritt 1 — Key holen
Erstellen Sie einen EvoLink API-Key und senden Sie ihn als Bearer-Token bei jeder Gemini-2.5-Flash-Anfrage.
Schritt 2 — Methode wählen
Nutzen Sie generateContent für die vollständige Antwort oder streamGenerateContent für Echtzeit-Chunks und senden Sie ein contents-Array für Text- oder multimodale Inputs.
Schritt 3 — Mit Async skalieren
Setzen Sie X-Async-Mode auf true, um eine Task-ID zu erhalten, und fragen Sie dann den Task-Endpoint ab; usageMetadata liefert Token-Zahlen fürs Tracking.
Model-Highlights für Gemini 2.5 Flash
Schnell, Long Context und für multimodales Verständnis gebaut
1M Token Window
Gemini 2.5 Flash unterstützt bis zu 1.048.576 Input-Token und bis zu 65.536 Output-Token und ermöglicht lange Dokumente, große Codebasen oder mehrstündige Transkripte in einer Anfrage.
Multimodale Inputs
Senden Sie Text, Bilder, Video oder Audio in einem Gemini-2.5-Flash-Call und erhalten Sie Text-Output – ideal für Summaries, QA und Content Moderation über Teams hinweg.
Function Calling + Structured Output
Das Modell unterstützt Function Calling und strukturierte Outputs, sodass Workflows Tools auslösen und konsistentes JSON für Downstream-Automation und Analytics liefern können. Ideal für Integrationen mit vorhersehbaren Schemas.
Context Caching
Caching wird unterstützt und reduziert wiederholte Prompt-Tokens, wenn Sie lange Instruktionen oder gemeinsame Dokumente über viele Gemini-2.5-Flash-Requests wiederverwenden – geringere Latenz und Kosten.
Streaming und Async-Modi
Wählen Sie streamGenerateContent für Live-Tokens oder aktivieren Sie X-Async-Mode für Background-Processing mit Task-ID und späteren Ergebnissen. So balancieren Teams UX-Speed und schwere Batch-Jobs.
Usage Metadata Visibility
Antworten enthalten usageMetadata mit Prompt- und Candidate-Token-Zahlen, was das Cost Tracking und die Optimierung für Engineering- und Finance-Teams vereinfacht.
Gemini 2.5 Flash API – FAQs
Everything you need to know about the product and billing.