Seedance 2.0 API — Coming SoonGet early access

Gemini 2.5 Flash API

Starten Sie das Gemini-2.5-Flash-Modell in Minuten mit einem einheitlichen EvoLink-Key. Wählen Sie Google Native API-Format oder OpenAI SDK-Format, und bauen Sie Low-Latency-Assistenten, Analytics und agentische Workflows ohne Änderungen an Ihrem App-Stack.

Run With API
Using coding CLIs? Run Gemini 2.5 Flash via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Gemini 2.5 Flash1.05M65.5K
$0.240-20%
$0.300Official Price
$2.00-20%
$2.50Official Price
$0.024-21%
$0.030Official Price
Gemini 2.5 Flash (Beta)1.05M65.5K
$0.078-74%
$0.300Official Price
$0.650-74%
$2.50Official Price
$0.008-74%
$0.030Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.

  • · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
  • · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Gemini 2.5 Flash API für schnelle, skalierbare multimodale Apps

Verarbeiten Sie großen Kontext und gemischte Medien in einer Anfrage. Gemini 2.5 Flash akzeptiert Text-, Bild-, Video- und Audio-Inputs, liefert Text-Output und unterstützt Long Context – so können Teams Real-Time-Support, Content-Verständnis und interne Automation skalieren.

Workflow-Showcase eines multimodalen KI-Modells Feature 1

Fähigkeiten der Gemini 2.5 Flash API

High-Throughput-Responses

Gemini 2.5 Flash ist für großskalige, latenzarme Workloads gebaut. Nutzen Sie es für Kundenchat, Product Discovery oder Live-Dashboards, bei denen Nutzer schnelle Antworten erwarten. EvoLink hält die Integration einfach, während Sie Concurrency skalieren – dasselbe Modell bedient Prototypen und Produktions-Traffic.

Produktivitäts-Showcase eines multimodalen KI-Modells Feature 2

Multimodales Verständnis

Mit Gemini 2.5 Flash kann eine Anfrage Text, Bilder, Videoclips oder Audio enthalten. So lassen sich Meetings zusammenfassen, Produktfotos prüfen oder Schlüsselmomente aus Trainingsvideos extrahieren. Sie erhalten Text-Output, der sich leicht speichern, durchsuchen und an Downstream-Tools routen lässt.

Insight-Showcase eines multimodalen KI-Modells Feature 3

Agentic Workflow Ready

Gemini 2.5 Flash unterstützt Function Calling, Structured Outputs und Context Caching, sodass Agents Tools aufrufen, zuverlässig JSON liefern und große Instruktionen wiederverwenden können. Ideal für Ticket-Triage, Policy-Checks, Katalog-Bereinigung und andere wiederholbare Tasks, bei denen Konsistenz und Speed zählen.

Operations-Showcase eines multimodalen KI-Modells Feature 4

Warum Entwickler Gemini 2.5 Flash wählen

Gebaut für großskalige, latenzarme High-Volume-Workloads mit multimodalem Input und Long Context.

Schnell für user-facing Experiences

Optimiert für großskalige Verarbeitung und niedrige Latenz bei hohen Volumina – ideal für Real-Time-Agents und Assistenten.

Skalieren ohne Komplexität

Nutzen Sie EvoLinks OpenAI SDK-Format mit einem einzigen /v1/chat/completions-Endpoint sowie optionales Streaming für höhere gefühlte Geschwindigkeit.

Kostenbewusst by design

Unterstützt Caching, Function Calling und strukturierte Outputs, um Wiederholungen zu reduzieren und automatisierte Workflows planbar zu halten.

So integrieren Sie Gemini 2.5 Flash

EvoLink unterstützt das Google Native API-Format für Gemini 2.5 Flash, inklusive Streaming und Async-Optionen.

1

Schritt 1 — Key holen

Erstellen Sie einen EvoLink API-Key und senden Sie ihn als Bearer-Token bei jeder Gemini-2.5-Flash-Anfrage.

2

Schritt 2 — Methode wählen

Nutzen Sie generateContent für die vollständige Antwort oder streamGenerateContent für Echtzeit-Chunks und senden Sie ein contents-Array für Text- oder multimodale Inputs.

3

Schritt 3 — Mit Async skalieren

Setzen Sie X-Async-Mode auf true, um eine Task-ID zu erhalten, und fragen Sie dann den Task-Endpoint ab; usageMetadata liefert Token-Zahlen fürs Tracking.

Model-Highlights für Gemini 2.5 Flash

Schnell, Long Context und für multimodales Verständnis gebaut

Context

1M Token Window

Gemini 2.5 Flash unterstützt bis zu 1.048.576 Input-Token und bis zu 65.536 Output-Token und ermöglicht lange Dokumente, große Codebasen oder mehrstündige Transkripte in einer Anfrage.

Multimodal

Multimodale Inputs

Senden Sie Text, Bilder, Video oder Audio in einem Gemini-2.5-Flash-Call und erhalten Sie Text-Output – ideal für Summaries, QA und Content Moderation über Teams hinweg.

Control

Function Calling + Structured Output

Das Modell unterstützt Function Calling und strukturierte Outputs, sodass Workflows Tools auslösen und konsistentes JSON für Downstream-Automation und Analytics liefern können. Ideal für Integrationen mit vorhersehbaren Schemas.

Efficiency

Context Caching

Caching wird unterstützt und reduziert wiederholte Prompt-Tokens, wenn Sie lange Instruktionen oder gemeinsame Dokumente über viele Gemini-2.5-Flash-Requests wiederverwenden – geringere Latenz und Kosten.

Delivery

Streaming und Async-Modi

Wählen Sie streamGenerateContent für Live-Tokens oder aktivieren Sie X-Async-Mode für Background-Processing mit Task-ID und späteren Ergebnissen. So balancieren Teams UX-Speed und schwere Batch-Jobs.

Observability

Usage Metadata Visibility

Antworten enthalten usageMetadata mit Prompt- und Candidate-Token-Zahlen, was das Cost Tracking und die Optimierung für Engineering- und Finance-Teams vereinfacht.

Gemini 2.5 Flash API – FAQs

Everything you need to know about the product and billing.

Die Gemini 2.5 Flash API ist als starkes Price-to-Performance-Modell für großskalige Verarbeitung und latenzarme High-Volume-Tasks positioniert. Sie überzeugt in Customer-Support-Chat, Produktsuche, Content-Summaries und internen Copilots, die schnelle Antworten ohne Qualitätsverlust brauchen. Wenn Ihr Workload viele Requests pro Minute umfasst und Sie konsistente Ergebnisse mit Long Context und multimodalem Input wollen, ist Gemini 2.5 Flash ein praktischer Default. Teams starten oft hier für Production Scale und wechseln erst zu Pro, wenn fortgeschrittenes Reasoning nötig ist.
Gemini 2.5 Flash akzeptiert Text, Bilder, Video und Audio als Inputs und liefert Text-Output. Damit lässt sich ein Transkript mit Screenshots, einem Produktfoto oder einem Clip kombinieren, um eine einzelne schriftliche Summary oder Entscheidung zu erhalten. Teams nutzen das für Meeting Notes, Support-Ticket-Enrichment, Content Review und interne Knowledge Search, weil der Output reiner Text ist, der sich speichern, indexieren und weiterleiten lässt. Es passt auch gut zu Search- oder Database-Lookups.
Gemini 2.5 Flash unterstützt bis zu 1.048.576 Input-Token und bis zu 65.536 Output-Token. Praktisch heißt das: Sie können lange Dokumente, große Codebasen oder mehrstündige Transkripte in einer Anfrage übergeben, ohne sie in Fragmente zu zerlegen. Das ist wertvoll für Compliance-Reviews, Research-Summaries und Multi-Dokument-Analysen, bei denen Kontextkontinuität zählt und eine kohärente Antwort gewünscht ist. Es reduziert außerdem die Notwendigkeit komplexer Chunking-Logik in Ihrer App. Das hilft, wenn Sie eine Antwort über viele Quellen hinweg brauchen.
Ja. Im Google Native API-Format von EvoLink können Sie streamGenerateContent wählen, um Inhalte in Echtzeit-Chunks zu erhalten. Das ist nützlich für Chat-UIs, Live-Dashboards oder Experiences, bei denen Nutzer sofort Fortschritt sehen sollen. Beim Streaming nutzen Sie denselben Gemini-2.5-Flash-Request-Body, sodass Prompts und multimodale Inputs konsistent bleiben und die gefühlte Geschwindigkeit steigt. Streaming funktioniert gut mit Typing-Indikatoren oder progressiven Summaries. Es verbessert auch die gefühlte Geschwindigkeit auf langsameren Netzwerken.
Ja. Setzen Sie den Header X-Async-Mode auf true, dann gibt die Anfrage sofort eine Task-ID zurück, statt auf die vollständige Antwort zu warten. Sie können anschließend den Task-Status-Endpoint abfragen und das Ergebnis in einem non-streaming Format abrufen. Dieser Modus ist ideal für lange Batch-Jobs, Nightly Analytics oder große Dokumentverarbeitung, bei denen keine User-Anfrage warten soll. Er passt auch zu Queued Pipelines und Background Workern. Sie können in Ihrem eigenen Rhythmus pollen und Ergebnisse später speichern.
Alle EvoLink APIs verlangen Bearer-Token-Authentifizierung. Erstellen Sie einen API-Key im EvoLink-Dashboard und fügen Sie ihn im Authorization-Header jeder Anfrage hinzu. Für Produktion: Key in einem sicheren Secret-Manager speichern, pro Umgebung scopen und regelmäßig rotieren. Das hält Ihre Gemini-2.5-Flash-Nutzung kontrolliert und bietet eine konsistente, einfache Integration. Vermeiden Sie Keys in Client-Apps und nutzen Sie serverseitige Proxies. Trennen Sie Keys für Dev, Staging und Produktion, um Risiken zu reduzieren.
Ja. Das Modell unterstützt Function Calling und strukturierte Outputs, sodass Sie ein JSON-Objekt anfordern oder spezifische Tools im Workflow auslösen können. Das hilft beim Routing von Tickets, Aktualisieren von Records oder beim Aufbau von Agent-Flows mit vorhersehbaren Schemas. Durch konsistentes Response-Format reduziert Gemini 2.5 Flash Parsing-Fehler und macht Automation zuverlässiger. Definieren Sie Ihr Schema klar und validieren Sie Responses, um Integrationen robust zu halten. Besonders hilfreich für ETL, CRM-Updates und Reporting.
Caching wird für Gemini 2.5 Flash unterstützt. Sie können große System-Instruktionen, Policy-Text oder Produktkataloge über viele Requests hinweg wiederverwenden, ohne jedes Mal die vollen Input-Kosten zu zahlen. Das reduziert wiederholte Prompt-Tokens und kann die Latenz verbessern, weil das Modell den gleichen Kontext nicht erneut verarbeiten muss. Es passt gut zu wiederkehrenden Workflows und Always-on-Assistenten. Cachen Sie Brand-Tone, FAQs oder Safety-Regeln, um Antworten konsistent zu halten. Besonders hilfreich für wiederholtes Onboarding und Policy-Reminder.