Gemini 2.5 플래시 API
통합된 EvoLink 키를 사용하여 몇 분 안에 Gemini 2.5 플래시 모델을 실행하세요. Google 기본 API 형식 또는 OpenAI SDK 형식을 선택한 다음 앱 스택을 변경하지 않고도 지연 시간이 짧은 도우미, 분석 및 에이전트 워크플로를 구축하세요.
PRICING
| PLAN | CONTEXT WINDOW | MAX OUTPUT | INPUT | OUTPUT | CACHE READ |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 1.05M | 65.5K | $0.240-20% $0.300Official Price | $2.00-20% $2.50Official Price | $0.024-21% $0.030Official Price |
| Gemini 2.5 Flash (Beta) | 1.05M | 65.5K | $0.078-74% $0.300Official Price | $0.650-74% $2.50Official Price | $0.008-74% $0.030Official Price |
Pricing Note: Price unit: USD / 1M tokens
Cache Hit: Price applies to cached prompt tokens.
Two ways to run Gemini 2.5 Flash — pick the tier that matches your workload.
- · Gemini 2.5 Flash: the default tier for production reliability and predictable availability.
- · Gemini 2.5 Flash (Beta): a lower-cost tier with best-effort availability; retries recommended for retry-tolerant workloads.
Gemini 2.5 플래시 API 빠르고 확장 가능한 다중 모드 앱용
한 번의 요청으로 대규모 컨텍스트와 혼합 미디어를 처리합니다. Gemini 2.5 Flash는 텍스트, 이미지, 비디오 및 오디오 입력을 받아들이고 텍스트 출력을 반환하며 긴 컨텍스트를 지원하므로 팀이 대규모로 실시간 지원, 콘텐츠 이해 및 내부 자동화를 제공할 수 있습니다.

Gemini 2.5 플래시 API의 기능
처리량이 많은 응답
Gemini 2.5 플래시는 대기 시간이 짧은 대규모 워크로드를 위해 제작되었습니다. 사용자가 빠른 답변을 기대하는 고객 채팅, 제품 검색 또는 라이브 대시보드에 사용하세요. EvoLink은 동시성을 확장하는 동시에 통합을 단순하게 유지하므로 동일한 모델이 프로토타입과 프로덕션 트래픽을 모두 지원합니다.

다중 모드 이해
Gemini 2.5 Flash를 사용하면 단일 요청에 텍스트, 이미지, 비디오 클립 또는 오디오가 포함될 수 있습니다. 이를 통해 회의를 쉽게 요약하고, 제품 사진을 검토하고, 교육 비디오에서 주요 순간을 추출할 수 있습니다. 쉽게 저장, 검색하고 다운스트림 도구로 라우팅할 수 있는 텍스트 출력을 얻을 수 있습니다.

에이전트 워크플로 준비
Gemini 2.5 Flash는 함수 호출, 구조화된 출력 및 컨텍스트 캐싱을 지원하므로 에이전트는 도구를 호출하고 JSON을 안정적으로 반환하며 대규모 명령을 재사용할 수 있습니다. 이는 티켓 분류, 정책 확인, 카탈로그 정리 및 일관성과 속도가 중요한 기타 반복 가능한 작업에 이상적입니다.

개발자가 Gemini 2.5 플래시를 선택하는 이유
다중 모드 입력 및 긴 컨텍스트를 갖춘 대규모, 짧은 대기 시간, 대용량 워크로드용으로 구축되었습니다.
사용자 대면 경험을 위한 빠른 속도
대규모 처리 및 짧은 대기 시간, 대용량 작업에 최적화되어 실시간 상담원 및 보조자에게 적합합니다.
복잡성 없이 확장
단일 /v1/chat/completions 엔드포인트와 함께 EvoLink의 OpenAI SDK 형식을 사용하고 선택적 스트리밍을 사용하여 인식 속도를 향상시킵니다.
비용을 고려한 설계
캐싱, 함수 호출 및 구조화된 출력을 지원하여 반복 작업을 줄이고 자동화된 워크플로를 예측 가능하게 유지합니다.
Gemini 2.5 플래시 통합 방법
EvoLink은 스트리밍 및 비동기 옵션을 사용하여 Gemini 2.5 Flash에 대한 Google 기본 API 형식을 지원합니다.
1단계 - 키 받기
EvoLink API 키를 생성하고 Gemini 2.5 플래시 요청마다 Bearer 토큰으로 보냅니다.
2단계 - 방법 선택
전체 응답의 경우 generateContent를 사용하고 실시간 청크의 경우 streamGenerateContent를 사용하고 텍스트 또는 다중 모드 입력의 경우 콘텐츠 배열을 보냅니다.
3단계 - 비동기식으로 확장
X-Async-Mode를 true로 설정하여 작업 ID를 받은 다음, 작업 엔드포인트를 쿼리하고 추적을 위해 UsageMetadata 토큰 수를 읽습니다.
Gemini 2.5 플래시의 모델 하이라이트
빠르고 긴 컨텍스트를 제공하며 다중 모드 이해를 위해 구축됨
1M 토큰 창
Gemini 2.5 Flash는 최대 1,048,576개의 입력 토큰과 최대 65,536개의 출력 토큰을 지원하여 단일 요청으로 긴 문서, 대규모 코드베이스 또는 여러 시간 분량의 기록을 가능하게 합니다.
다중 모드 입력
한 번의 Gemini 2.5 플래시 통화로 텍스트, 이미지, 비디오 또는 오디오를 보내고 텍스트 출력을 수신합니다. 팀 전체의 요약, QA 및 콘텐츠 조정에 적합합니다.
함수 호출 + 구조화된 출력
이 모델은 함수 호출 및 구조화된 출력을 지원하므로 워크플로는 다운스트림 자동화 및 분석을 위해 도구를 트리거하고 일관된 JSON을 반환할 수 있습니다. 예측 가능한 스키마가 필요한 통합에 적합합니다.
컨텍스트 캐싱
캐싱이 지원되어 많은 Gemini 2.5 플래시 요청에서 긴 지침이나 공유 문서를 재사용할 때 반복되는 프롬프트 토큰을 줄여 대기 시간과 비용을 낮춥니다.
스트리밍 및 비동기 모드
라이브 토큰의 경우 streamGenerateContent를 선택하거나 작업 ID 및 이후 결과를 반환하는 백그라운드 처리를 위해 X-Async-Mode를 활성화합니다. 이를 통해 팀은 UX 속도와 대규모 일괄 작업의 균형을 맞출 수 있습니다.
사용량 메타데이터 가시성
응답에는 프롬프트 및 후보 토큰 수와 함께 UsageMetadata가 포함되므로 엔지니어링 및 재무 팀이 Gemini 2.5 플래시 비용 추적 및 최적화를 간단하게 수행할 수 있습니다.
Gemini 2.5 플래시 API FAQ
Everything you need to know about the product and billing.