Seedance 2.0 API — Coming SoonGet early access

Gemini 2.5 플래시 API

통합된 EvoLink 키를 사용하여 몇 분 안에 Gemini 2.5 플래시 모델을 실행하세요. Google 기본 API 형식 또는 OpenAI SDK 형식을 선택한 다음 앱 스택을 변경하지 않고도 지연 시간이 짧은 도우미, 분석 및 에이전트 워크플로를 구축하세요.

Run With API
Using coding CLIs? Run Gemini 2.5 Flash via EvoCode — One API for Code Agents & CLIs. (View Docs)
$

PRICING

PLANCONTEXT WINDOWMAX OUTPUTINPUTOUTPUTCACHE READ
Gemini 2.5 Flash1.05M65.5K
$0.240-20%
$0.300Official Price
$2.00-20%
$2.50Official Price
$0.024-21%
$0.030Official Price
Gemini 2.5 Flash (Beta)1.05M65.5K
$0.078-74%
$0.300Official Price
$0.650-74%
$2.50Official Price
$0.008-74%
$0.030Official Price

Pricing Note: Price unit: USD / 1M tokens

Cache Hit: Price applies to cached prompt tokens.

Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.

  • · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
  • · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.

Gemini 2.5 플래시 API 빠르고 확장 가능한 다중 모드 앱용

한 번의 요청으로 대규모 컨텍스트와 혼합 미디어를 처리합니다. Gemini 2.5 Flash는 텍스트, 이미지, 비디오 및 오디오 입력을 받아들이고 텍스트 출력을 반환하며 긴 컨텍스트를 지원하므로 팀이 대규모로 실시간 지원, 콘텐츠 이해 및 내부 자동화를 제공할 수 있습니다.

멀티모달 AI 모델 기능의 워크플로 쇼케이스 1

Gemini 2.5 플래시 API의 기능

처리량이 많은 응답

Gemini 2.5 플래시는 대기 시간이 짧은 대규모 워크로드를 위해 제작되었습니다. 사용자가 빠른 답변을 기대하는 고객 채팅, 제품 검색 또는 라이브 대시보드에 사용하세요. EvoLink은 동시성을 확장하는 동시에 통합을 단순하게 유지하므로 동일한 모델이 프로토타입과 프로덕션 트래픽을 모두 지원합니다.

멀티모달 AI 모델 기능 2의 생산성 쇼케이스

다중 모드 이해

Gemini 2.5 Flash를 사용하면 단일 요청에 텍스트, 이미지, 비디오 클립 또는 오디오가 포함될 수 있습니다. 이를 통해 회의를 쉽게 요약하고, 제품 사진을 검토하고, 교육 비디오에서 주요 순간을 추출할 수 있습니다. 쉽게 저장, 검색하고 다운스트림 도구로 라우팅할 수 있는 텍스트 출력을 얻을 수 있습니다.

다중 모드 AI 모델 기능의 통찰력 쇼케이스 3

에이전트 워크플로 준비

Gemini 2.5 Flash는 함수 호출, 구조화된 출력 및 컨텍스트 캐싱을 지원하므로 에이전트는 도구를 호출하고 JSON을 안정적으로 반환하며 대규모 명령을 재사용할 수 있습니다. 이는 티켓 분류, 정책 확인, 카탈로그 정리 및 일관성과 속도가 중요한 기타 반복 가능한 작업에 이상적입니다.

멀티모달 AI 모델 기능 4의 운영 쇼케이스

개발자가 Gemini 2.5 플래시를 선택하는 이유

다중 모드 입력 및 긴 컨텍스트를 갖춘 대규모, 짧은 대기 시간, 대용량 워크로드용으로 구축되었습니다.

사용자 대면 경험을 위한 빠른 속도

대규모 처리 및 짧은 대기 시간, 대용량 작업에 최적화되어 실시간 상담원 및 보조자에게 적합합니다.

복잡성 없이 확장

단일 /v1/chat/completions 엔드포인트와 함께 EvoLink의 OpenAI SDK 형식을 사용하고 선택적 스트리밍을 사용하여 인식 속도를 향상시킵니다.

비용을 고려한 설계

캐싱, 함수 호출 및 구조화된 출력을 지원하여 반복 작업을 줄이고 자동화된 워크플로를 예측 가능하게 유지합니다.

Gemini 2.5 플래시 통합 방법

EvoLink은 스트리밍 및 비동기 옵션을 사용하여 Gemini 2.5 Flash에 대한 Google 기본 API 형식을 지원합니다.

1

1단계 - 키 받기

EvoLink API 키를 생성하고 Gemini 2.5 플래시 요청마다 Bearer 토큰으로 보냅니다.

2

2단계 - 방법 선택

전체 응답의 경우 generateContent를 사용하고 실시간 청크의 경우 streamGenerateContent를 사용하고 텍스트 또는 다중 모드 입력의 경우 콘텐츠 배열을 보냅니다.

3

3단계 - 비동기식으로 확장

X-Async-Mode를 true로 설정하여 작업 ID를 받은 다음, 작업 엔드포인트를 쿼리하고 추적을 위해 UsageMetadata 토큰 수를 읽습니다.

Gemini 2.5 플래시의 모델 하이라이트

빠르고 긴 컨텍스트를 제공하며 다중 모드 이해를 위해 구축됨

문맥

1M 토큰 창

Gemini 2.5 Flash는 최대 1,048,576개의 입력 토큰과 최대 65,536개의 출력 토큰을 지원하여 단일 요청으로 긴 문서, 대규모 코드베이스 또는 여러 시간 분량의 기록을 가능하게 합니다.

다중 모드

다중 모드 입력

한 번의 Gemini 2.5 플래시 통화로 텍스트, 이미지, 비디오 또는 오디오를 보내고 텍스트 출력을 수신합니다. 팀 전체의 요약, QA 및 콘텐츠 조정에 적합합니다.

제어

함수 호출 + 구조화된 출력

이 모델은 함수 호출 및 구조화된 출력을 지원하므로 워크플로는 다운스트림 자동화 및 분석을 위해 도구를 트리거하고 일관된 JSON을 반환할 수 있습니다. 예측 가능한 스키마가 필요한 통합에 적합합니다.

능률

컨텍스트 캐싱

캐싱이 지원되어 많은 Gemini 2.5 플래시 요청에서 긴 지침이나 공유 문서를 재사용할 때 반복되는 프롬프트 토큰을 줄여 대기 시간과 비용을 낮춥니다.

배달

스트리밍 및 비동기 모드

라이브 토큰의 경우 streamGenerateContent를 선택하거나 작업 ID 및 이후 결과를 반환하는 백그라운드 처리를 위해 X-Async-Mode를 활성화합니다. 이를 통해 팀은 UX 속도와 대규모 일괄 작업의 균형을 맞출 수 있습니다.

관찰 가능성

사용량 메타데이터 가시성

응답에는 프롬프트 및 후보 토큰 수와 함께 UsageMetadata가 포함되므로 엔지니어링 및 재무 팀이 Gemini 2.5 플래시 비용 추적 및 최적화를 간단하게 수행할 수 있습니다.

Gemini 2.5 플래시 API FAQ

Everything you need to know about the product and billing.

Gemini 2.5 플래시 API은 대규모 처리 및 짧은 대기 시간, 대용량 작업을 위한 강력한 가격 대비 성능 모델로 자리매김했습니다. 품질 저하 없이 빠른 응답이 필요한 고객 지원 채팅, 제품 검색 도우미, 콘텐츠 요약 및 내부 부조종사에서 빛을 발합니다. 워크로드에 분당 많은 요청이 포함되어 있고 긴 컨텍스트 및 다중 모드 입력으로 일관된 결과를 원하는 경우 Gemini 2.5 플래시가 실제 기본값입니다. 팀은 생산 규모를 위해 여기에서 시작하고 고급 추론이 필요한 경우에만 Pro로 이동하는 경우가 많습니다.
Gemini 2.5 Flash는 텍스트, 이미지, 비디오 및 오디오를 입력으로 받아들이고 텍스트 출력을 반환합니다. 이를 통해 스크립트를 스크린샷, 제품 사진 또는 짧은 클립과 쉽게 결합하고 단일 서면 요약 또는 결정을 요청할 수 있습니다. 출력은 저장, 색인화 및 다른 시스템으로 라우팅될 수 있는 일반 텍스트이기 때문에 팀에서는 회의 메모, 지원 티켓 강화, 콘텐츠 검토 및 내부 지식 검색에 이 기능을 자주 사용합니다. 또한 검색이나 데이터베이스 조회와도 잘 어울립니다.
Gemini 2.5 Flash는 최대 1,048,576개의 입력 토큰과 최대 65,536개의 출력 토큰을 지원합니다. 실제로 이는 긴 문서, 대규모 코드베이스 또는 여러 시간 분량의 기록을 조각으로 자르지 않고도 한 번의 요청으로 공급할 수 있음을 의미합니다. 이는 컨텍스트 연속성이 중요하고 일관된 단일 응답을 원하는 규정 준수 검토, 연구 요약 및 다중 문서 분석에 유용합니다. 또한 앱에 복잡한 청킹 로직이 필요하지 않습니다. 이는 여러 소스에 걸쳐 하나의 답변이 필요할 때 도움이 됩니다.
예. EvoLink의 Google 기본 API 형식에서는 streamGenerateContent를 선택하여 실시간 청크로 콘텐츠를 수신할 수 있습니다. 이는 채팅 UI, 라이브 대시보드 또는 사용자가 진행 상황을 즉시 확인해야 하는 모든 환경에 유용합니다. 스트리밍으로 전환해도 동일한 Gemini 2.5 Flash 요청 본문을 계속 사용하므로 인식 속도를 향상시키면서 프롬프트와 다중 모드 입력을 일관되게 유지할 수 있습니다. 스트리밍은 입력 표시기 또는 점진적인 요약과 잘 작동합니다. 또한 느린 네트워크에서 인지되는 속도도 향상됩니다.
예. X-Async-Mode 헤더를 true로 설정하면 요청이 전체 응답을 기다리는 대신 작업 ID를 즉시 반환합니다. 그런 다음 작업 상태 엔드포인트를 쿼리하여 비스트리밍 형식으로 완료된 결과를 검색할 수 있습니다. 이 모드는 사용자가 요청하는 것을 기다리지 않으려는 장기 실행 일괄 작업, 야간 분석 또는 대규모 문서 처리에 이상적입니다. 대기 중인 파이프라인과 백그라운드 작업자에게도 적합합니다. 일정에 대해 투표하고 나중에 결과를 저장할 수 있습니다.
모든 EvoLink API에는 Bearer 토큰 인증이 필요합니다. EvoLink 대시보드에서 API 키를 생성한 다음 각 요청의 Authorization 헤더에 포함합니다. 프로덕션의 경우 보안 비밀 관리자에 키를 저장하고 환경별로 범위를 지정하고 정기적으로 교체하세요. 이를 통해 팀에 일관되고 간단한 통합 경로를 제공하는 동시에 Gemini 2.5 플래시 사용을 제어할 수 있습니다. 클라이언트 앱에 키를 삽입하지 말고 대신 서버측 프록시를 사용하세요. 개발, 스테이징, 프로덕션 키를 분리하여 위험을 줄입니다.
예. 이 모델은 함수 호출 및 구조화된 출력을 지원합니다. 즉, JSON 개체를 요청하거나 워크플로의 일부로 특정 도구를 트리거할 수 있습니다. 이는 티켓 라우팅, 레코드 업데이트 또는 예측 가능한 스키마가 필요한 에이전트 흐름 구축에 유용합니다. Gemini 2.5 Flash는 응답 형식을 일관되게 유지함으로써 구문 분석 오류를 줄이고 자동화의 안정성을 높입니다. 스키마를 명확하게 정의하고 응답을 검증하여 통합을 강력하게 유지하세요. 이는 ETL, CRM 업데이트 및 보고에 특히 유용합니다.
캐싱은 Gemini 2.5 플래시에서 지원됩니다. 매번 전체 입력 비용을 지불하지 않고도 여러 요청에 걸쳐 대규모 시스템 지침, 정책 텍스트 또는 제품 카탈로그를 재사용할 수 있습니다. 이렇게 하면 반복되는 프롬프트 토큰이 줄어들고 모델이 모든 호출에서 동일한 컨텍스트를 다시 처리할 필요가 없기 때문에 대기 시간이 향상될 수 있습니다. 반복되는 워크플로와 항상 켜져 있는 보조자에게 매우 적합합니다. 브랜드 톤, FAQ 또는 안전 규칙을 캐시하여 응답의 일관성을 유지하세요. 반복적인 온보딩 및 정책 알림에 특히 유용합니다.