Gemini 3.1 Flash Lite API
- One API for Code Agents & CLIs. (View Docs)
$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens
$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens
Google Search grounding charged separately per query.
99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.
모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.
번역·추출·문서 워크플로에 맞는 저비용 Gemini 모델
Gemini 3.1 Flash Lite는 비용, 지연 시간, 재시도 용이성이 프리미엄 모델 품질보다 중요한 고처리량 작업에 잘 맞습니다. 1M 컨텍스트, 멀티모달 입력, 도구 지원을 바탕으로 더 큰 Gemini 스택 안에서 저비용 처리 계층으로 활용하기 좋습니다.
페이지 키워드
Gemini 3.1 Flash Lite API
요청 모델 ID
gemini-3.1-flash-lite-preview

Gemini 3.1 Flash Lite API에 잘 맞는 사용 사례
저비용 대량 처리
Flash Lite는 더 큰 AI 스택 안에서 저렴한 처리 계층으로 쓰기 좋습니다. 번역 재처리, 태깅 큐, 추출 작업, 1차 분류를 먼저 처리하고, 예외 케이스만 더 강한 모델로 넘길 수 있습니다.

1M 컨텍스트의 멀티모달 입력
텍스트, 이미지, 비디오, 오디오, PDF를 한 번의 요청으로 보낼 수 있으며 최대 1,050,000 입력 토큰을 지원합니다. 긴 문서, 큰 배치, 다단계 컨텍스트도 나누지 않고 처리할 수 있습니다.

에이전트 하위 작업과 도구 사용
Function Calling, 구조화 출력, Thinking, 코드 실행, Search Grounding, 캐싱을 지원합니다. 덕분에 저비용 에이전트 하위 작업, retrieval 정리, 멀티모델 파이프라인 내 구조화 전처리에 적합합니다.

Gemini 3.1 Flash Lite API에 EvoLink를 쓰는 이유
이미 OpenAI 스타일 인프라 위에서 제품을 운영하는 팀이라면, EvoLink를 통해 Gemini 3.1 Flash Lite를 훨씬 쉽게 프로덕션에 올릴 수 있습니다. 게이트웨이를 하나로 통합할 수 있고, 마이그레이션 비용도 낮으며, 저비용 모델과 상위 모델 간 라우팅도 정리하기 쉽습니다.
OpenAI 스타일 워크플로를 유지한 채 Gemini를 추가할 수 있습니다
팀이 이미 OpenAI SDK, 통합 인증, 기존 요청 계층을 중심으로 구축되어 있다면 핵심 통합 로직을 다시 쓰지 않고도 Gemini 3.1 Flash Lite를 추가할 수 있습니다.
Flash Lite를 멀티모델 스택의 저비용 계층으로 활용할 수 있습니다
번역, 추출, 분류처럼 저렴하게 처리할 수 있는 트래픽은 먼저 Flash Lite로 보내고, 더 어려운 요청이나 더 중요한 요청만 강한 모델로 넘기는 설계를 같은 게이트웨이에서 운영할 수 있습니다.
벤더 전용 통합보다 마이그레이션 비용이 낮습니다
API 키 하나, OpenAI 호환 형식과 Gemini 네이티브 형식, 그리고 캐시와 Batch 지원까지 제공하므로 기존 모델 카탈로그와 함께 Gemini를 운영하기가 더 쉽습니다.
Gemini 3.1 Flash Lite API 사용 방법
이 페이지는 접속 개요로 사용하고, 요청 형식과 preview 모델 ID를 확인한 뒤 자세한 request 예시는 문서에서 확인하도록 구성하는 편이 좋습니다.
1단계 - 요청 형식 선택
Gemini 3.1 Flash Lite는 OpenAI 호환 요청과 Gemini 네이티브 API 모두로 호출할 수 있어, 전체 통합 경로를 다시 쓰지 않고도 기존 스택에 맞춰 붙이기 쉽습니다.
2단계 - 현재 request model ID 사용
프로덕션 트래픽을 보낼 때는 정확한 request model ID인 "gemini-3.1-flash-lite-preview"를 사용하세요. 이렇게 하면 페이지 키워드는 Gemini 3.1 Flash Lite API에 맞추면서 실제 호출 경로와도 일치시킬 수 있습니다.
3단계 - 맞는 워크로드를 여기에 배치
번역 큐, 추출 작업, 태깅 같은 고처리량 작업은 Flash Lite에 우선 배치하고, 예외 케이스나 더 어려운 요청만 더 강한 모델로 넘기세요. 정확한 request body, 파라미터, endpoint 예시는 문서에서 확인하는 편이 적합합니다.
Gemini 3.1 Flash Lite API 기능과 제한
프로덕션 통합을 계획할 때 가장 중요한 핵심 기능과 제한 사항
1,050,000 입력 토큰
최대 1,050,000 입력 토큰과 65,536 출력 토큰을 지원합니다.
멀티모달 입력
텍스트, 이미지, 비디오, 오디오, PDF를 입력할 수 있고 출력은 텍스트입니다.
Thinking + 구조화 출력
Thinking과 구조화 출력을 지원해 안정적이고 기계가 읽기 쉬운 결과를 만들 수 있습니다.
Function Calling + 도구
Function Calling, 코드 실행, Search Grounding을 지원합니다.
캐싱 + Batch
컨텍스트 캐싱과 Batch API는 반복 처리나 대규모 워크로드에 적합합니다.
저비용 운영
현재 EvoLink의 pay-as-you-go 요금은 페이지 상단의 실시간 가격표를 기준으로 확인하세요.
Gemini 3.1 Flash Lite API FAQ
Everything you need to know about the product and billing.
Gemini 패밀리 페이지와 통합 가이드 계속 보기
Gemini 패밀리에서 Gemini 3.1 Flash Lite의 위치
이 경로는 Gemini 패밀리의 저비용 실행 계층으로, 더 강한 범용 모델의 대체품이 아닙니다. 고처리량, 재시도 친화적, 배치 지향 워크로드에 적합합니다. 작업 난이도나 출력 품질이 더 중요해지면 사이트의 더 강한 Flash 경로로 올리세요.
패밀리 모델 링크와 통합 콘텐츠를 한 곳에 모아 페이지 역할을 명확히 하고 다음 단계를 쉽게 찾을 수 있도록 합니다.