HappyHorse 1.0 곧 출시자세히 보기

Gemini 2.5 Flash Lite API

EvoLink에서 OpenAI 호환 요청 또는 네이티브 Gemini 요청을 통해 Gemini 2.5 Flash Lite를 사용하세요. 이 라우트는 더 강력한 Gemini 모델로의 업그레이드보다 비용 관리가 중요한 저비용, 대량 텍스트 워크로드를 위해 설계되었습니다.
가격: 

$0.081(~ 5.8 credits) per 1M input tokens; $0.321(~ 23.1 credits) per 1M output tokens

$0.0083(~ 0.6 credits) per 1M cache read tokens; $0.240(~ 17.3 credits) per 1M audio tokens

Google Search grounding charged separately per query.

99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.

모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.

Gemini 2.5 Flash Lite API

Gemini 2.5 Flash Lite는 EvoLink에서 Google의 가장 저렴한 Gemini 텍스트 라우트입니다. 낮은 토큰 비용이 Gemini 2.5 Flash나 Pro로의 업그레이드보다 중요할 때 번역, 분류, 추출, 태깅, 요약을 대규모로 처리하는 데 사용하세요.

페이지 키워드

Gemini 2.5 Flash Lite API

요청 모델 ID

gemini-2.5-flash-lite

Gemini 2.5 Flash Lite API

최적의 워크로드

번역 및 현지화 파이프라인

제품 카피, 지원 콘텐츠, 도움말 센터 기사, 다국어 백로그의 대량 배치 처리에 Flash Lite를 사용하세요. 요청당 비용을 낮게 유지하는 것이 더 강력한 추론 모델로의 업그레이드보다 중요한 경우에 적합합니다.

번역 및 현지화 파이프라인

분류, 태깅 및 추출 큐

대량의 티켓, 양식, 카탈로그 콘텐츠, CRM 노트 또는 내부 텍스트 기록에서 라벨링, 정렬, 정규화 또는 구조화된 필드를 추출하는 큐에 적합합니다.

분류, 태깅 및 추출 큐

요약 및 배치 텍스트 처리

긴 텍스트 요약, 반복 콘텐츠 압축 또는 데이터셋 전처리를 위한 저비용 레이어로 사용하고, 더 어려운 케이스만 Gemini 2.5 Flash나 Gemini 2.5 Pro로 라우팅하세요.

요약 및 배치 텍스트 처리

이 라우트를 선택할 때

Flash Lite는 Gemini 라우팅 전략에서 저비용 레이어로 가장 효과적입니다: 하나의 게이트웨이, 하나의 인증 패턴, 그리고 저렴한 대량 처리와 더 강력한 Gemini 라우트 간의 명확한 분리.

비용과 처리량이 결정을 이끌 때 Flash Lite를 선택

워크로드가 주로 번역, 태깅, 추출, 요약 또는 배치 텍스트 정리인 경우, Flash Lite는 별도의 통합 경로를 만들지 않으면서 단가를 낮게 유지하는 실용적인 출발점입니다.

어려운 추론 작업에는 Flash Lite를 기본으로 사용하지 마세요

작업의 품질 기준이 높거나, 추론 경로가 더 복잡하거나, 저비용 1차 처리 레이어를 통과하는 엣지 케이스가 너무 많을 때 Flash Lite를 스택의 중심으로 두어서는 안 됩니다.

품질이 가격보다 중요할 때 Gemini 2.5 Flash 또는 Pro로 업그레이드

더 강력한 범용 라우트가 필요하면 Gemini 2.5 Flash로, 작업이 더 높은 성능의 프리미엄 모델을 정당화하면 Gemini 2.5 Pro로 업그레이드하세요. EvoLink는 하나의 게이트웨이에서 이러한 라우팅 분리를 쉽게 운영할 수 있게 합니다.

시작 방법

이 페이지를 빠른 라우트 가이드로 사용하세요: 요청 형식을 선택하고, 올바른 모델 ID를 사용하며, 상세한 요청 구문은 문서를 참조하세요.

1

1단계 – 요청 형식 선택

이미 사용 중인 스택에 따라 OpenAI 호환 요청 또는 네이티브 Gemini 요청으로 Gemini 2.5 Flash Lite를 호출하세요.

2

2단계 – 올바른 모델 ID 사용

이 라우트의 요청 모델 ID로 "gemini-2.5-flash-lite"를 사용하세요.

3

3단계 – 적합한 워크로드를 여기로 라우팅

번역, 분류, 추출, 태깅, 요약, 배치 텍스트 처리에 Flash Lite를 사용하세요. 작업이 더 강력한 Gemini 라우트를 필요로 할 때만 업그레이드하세요.

핵심 기능 및 제한

이 라우트가 워크로드에 적합한지 판단할 때 중요한 주요 제한 및 프로덕션 시그널

컨텍스트

1,048,576 입력 토큰

긴 프롬프트, 대용량 문서, 배치 텍스트 처리를 위한 최대 1,048,576 입력 토큰 지원.

출력

65,536 최대 출력 토큰

라벨, 요약, 추출된 필드, 텍스트 응답과 같은 간결한 출력에 가장 적합.

입력

텍스트 + 오디오 입력, 텍스트 출력

텍스트와 오디오 입력을 받아들이며, 전사 관련 및 텍스트 처리 워크플로우를 위한 텍스트 출력을 제공합니다.

캐싱

암시적 캐싱

반복되는 컨텍스트는 암시적 캐싱의 혜택을 받을 수 있어 중복 요청의 비용을 줄이는 데 도움이 됩니다.

스케일

Batch API

큐, 오프라인 또는 기타 대량 처리 패턴을 위한 Batch API를 지원합니다.

가격

가장 저렴한 Gemini 텍스트 라우트

능력과 가격 모두에서 Gemini 2.5 Flash 아래에 위치하여 대량 텍스트 워크로드를 위한 실용적인 예산 레이어입니다.

Gemini 2.5 Flash Lite API FAQ

Everything you need to know about the product and billing.

네. Flash Lite는 가격과 능력 모두에서 Gemini 2.5 Flash 아래에 위치하며, 저비용 대량 텍스트 워크로드를 위해 설계되었습니다.
네. EvoLink는 이 라우트에 대해 OpenAI 호환 요청과 네이티브 Gemini 요청을 모두 지원합니다.
요청 모델 ID로 "gemini-2.5-flash-lite"를 사용하세요.
Gemini 2.5 Flash Lite는 최대 1,048,576 입력 토큰과 최대 65,536 출력 토큰을 지원합니다.
네. 이 라우트는 텍스트와 오디오 입력을 지원하며, 텍스트 출력을 제공합니다.
암시적 캐싱은 요청 간에 컨텍스트가 겹칠 때 반복 토큰 비용을 줄일 수 있으며, 반복 프롬프트와 배치 워크로드에 특히 유용합니다.
번역, 태깅, 추출, 요약 및 기타 대량 텍스트 작업에서 가장 낮은 실용 비용이 필요할 때 Flash Lite를 선택하세요. 더 강력한 범용 라우트가 필요할 때는 Flash로 업그레이드하세요.
번역, 분류, 추출, 태깅, 요약 및 기타 배치 텍스트 처리 워크로드에서 비용과 처리량이 기본적으로 더 강력한 모델을 사용하는 것보다 중요할 때 가장 적합합니다.
네. Gemini 2.5 Flash Lite는 function calling을 지원하지만, 일반적으로 가장 복잡한 도구 중심 추론 작업의 최강 옵션이 아닌 저비용 텍스트 라우트로 위치시키는 것이 가장 좋습니다.

Gemini 라우팅의 다음 단계

Gemini 패밀리에서 Flash Lite의 위치

대량 텍스트 처리에는 Flash Lite를 사용하고, 더 강력한 범용 라우트가 필요하면 Gemini 2.5 Flash로, 작업이 프리미엄 추론 품질을 정당화하면 Gemini 2.5 Pro로 업그레이드하세요.

Flash Lite의 스택 내 역할이 명확해지면 이 영역에서 적절한 Gemini 라우트나 문서로 이동하세요.