Gemini 3.1 Flash Lite API

Gemini 3.1 Flash Lite는 번역, 추출, 분류, 문서 처리에 적합한 저비용·고처리량 Gemini 모델입니다. EvoLink에서 OpenAI 호환 요청 또는 Gemini 네이티브 API로 사용할 수 있으며, 현재 request model ID는 gemini-3.1-flash-lite-preview입니다.

코딩 CLI를 사용하시나요? EvoCode(으)로 Gemini 3.1 Flash Lite 실행 — 코드 에이전트와 CLI를 위한 단일 API. (문서 보기)

모델 유형:

✓Gemini 3.1 Flash Lite Preview

가격:

$0.234(~ 15.9 credits) 100만 입력 토큰당; $1.399(~ 95.1 credits) 100만 출력 토큰당

$0.028(~ 1.9 credits) 100만 캐시 읽기 토큰당; $0.466(~ 31.7 credits) 100만 오디오 토큰당

Google 검색 그라운딩은 쿼리당 별도로 청구됩니다.

99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.

모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.

PRICING

PLAN	CONTEXT WINDOW	MAX OUTPUT	INPUT	OUTPUT	CACHE READ	AUDIO INPUT
Gemini 3.1 Flash Lite	1,050,000	65,536	$0.234-6% (15.9 Credits)	$1.399-7% (95.1 Credits)	$0.028-7% (1.9 Credits)	$0.467-7% (31.7 Credits)
Web Search Tool Server-side web search capability						$0.014/search (0.89 Credits)

Pricing Note: Prices show both USD and Credits. Units default to / 1M tokens unless noted separately.

Cache Hit: Price applies to cached prompt tokens.

Audio Input: Audio tokens charged at a separate rate.

번역·추출·문서 워크플로에 맞는 저비용 Gemini 모델

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Gemini 3.1 Flash Lite는 비용, 지연 시간, 재시도 용이성이 프리미엄 모델 품질보다 중요한 고처리량 작업에 잘 맞습니다. 1M 컨텍스트, 멀티모달 입력, 도구 지원을 바탕으로 더 큰 Gemini 스택 안에서 저비용 처리 계층으로 활용하기 좋습니다.

페이지 키워드

Gemini 3.1 Flash Lite API

요청 모델 ID

gemini-3.1-flash-lite-preview

Gemini 3.1 Flash Lite API에 잘 맞는 사용 사례

저비용 대량 처리

Flash Lite는 더 큰 AI 스택 안에서 저렴한 처리 계층으로 쓰기 좋습니다. 번역 재처리, 태깅 큐, 추출 작업, 1차 분류를 먼저 처리하고, 예외 케이스만 더 강한 모델로 넘길 수 있습니다.

1M 컨텍스트의 멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF를 한 번의 요청으로 보낼 수 있으며 최대 1,050,000 입력 토큰을 지원합니다. 긴 문서, 큰 배치, 다단계 컨텍스트도 나누지 않고 처리할 수 있습니다.

에이전트 하위 작업과 도구 사용

Function Calling, 구조화 출력, Thinking, 코드 실행, Search Grounding, 캐싱을 지원합니다. 덕분에 저비용 에이전트 하위 작업, retrieval 정리, 멀티모델 파이프라인 내 구조화 전처리에 적합합니다.

Gemini 3.1 Flash Lite API에 EvoLink를 쓰는 이유

이미 OpenAI 스타일 인프라 위에서 제품을 운영하는 팀이라면, EvoLink를 통해 Gemini 3.1 Flash Lite를 훨씬 쉽게 프로덕션에 올릴 수 있습니다. 게이트웨이를 하나로 통합할 수 있고, 마이그레이션 비용도 낮으며, 저비용 모델과 상위 모델 간 라우팅도 정리하기 쉽습니다.

OpenAI 스타일 워크플로를 유지한 채 Gemini를 추가할 수 있습니다

팀이 이미 OpenAI SDK, 통합 인증, 기존 요청 계층을 중심으로 구축되어 있다면 핵심 통합 로직을 다시 쓰지 않고도 Gemini 3.1 Flash Lite를 추가할 수 있습니다.

Flash Lite를 멀티모델 스택의 저비용 계층으로 활용할 수 있습니다

번역, 추출, 분류처럼 저렴하게 처리할 수 있는 트래픽은 먼저 Flash Lite로 보내고, 더 어려운 요청이나 더 중요한 요청만 강한 모델로 넘기는 설계를 같은 게이트웨이에서 운영할 수 있습니다.

벤더 전용 통합보다 마이그레이션 비용이 낮습니다

API 키 하나, OpenAI 호환 형식과 Gemini 네이티브 형식, 그리고 캐시와 Batch 지원까지 제공하므로 기존 모델 카탈로그와 함께 Gemini를 운영하기가 더 쉽습니다.

Gemini 3.1 Flash Lite API 사용 방법

이 페이지는 접속 개요로 사용하고, 요청 형식과 preview 모델 ID를 확인한 뒤 자세한 request 예시는 문서에서 확인하도록 구성하는 편이 좋습니다.

1단계 - 요청 형식 선택

Gemini 3.1 Flash Lite는 OpenAI 호환 요청과 Gemini 네이티브 API 모두로 호출할 수 있어, 전체 통합 경로를 다시 쓰지 않고도 기존 스택에 맞춰 붙이기 쉽습니다.

2단계 - 현재 request model ID 사용

프로덕션 트래픽을 보낼 때는 정확한 request model ID인 "gemini-3.1-flash-lite-preview"를 사용하세요. 이렇게 하면 페이지 키워드는 Gemini 3.1 Flash Lite API에 맞추면서 실제 호출 경로와도 일치시킬 수 있습니다.

3단계 - 맞는 워크로드를 여기에 배치

번역 큐, 추출 작업, 태깅 같은 고처리량 작업은 Flash Lite에 우선 배치하고, 예외 케이스나 더 어려운 요청만 더 강한 모델로 넘기세요. 정확한 request body, 파라미터, endpoint 예시는 문서에서 확인하는 편이 적합합니다.

Gemini 3.1 Flash Lite API 기능과 제한

프로덕션 통합을 계획할 때 가장 중요한 핵심 기능과 제한 사항

컨텍스트

1,050,000 입력 토큰

최대 1,050,000 입력 토큰과 65,536 출력 토큰을 지원합니다.

멀티모달

멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF를 입력할 수 있고 출력은 텍스트입니다.

추론

Thinking + 구조화 출력

Thinking과 구조화 출력을 지원해 안정적이고 기계가 읽기 쉬운 결과를 만들 수 있습니다.

도구

Function Calling + 도구

Function Calling, 코드 실행, Search Grounding을 지원합니다.

스케일

캐싱 + Batch

컨텍스트 캐싱과 Batch API는 반복 처리나 대규모 워크로드에 적합합니다.

요금

저비용 운영

현재 EvoLink의 pay-as-you-go 요금은 페이지 상단의 실시간 가격표를 기준으로 확인하세요.

Gemini 3.1 Flash Lite API FAQ

Everything you need to know about the product and billing.

네. Gemini 3.1 Flash Lite는 고처리량 워크로드를 위한 저비용 Flash 경로로 포지셔닝되어 있으며, 더 큰 Gemini Flash 모델에서 기대하는 강한 범용 품질보다 처리량과 가격이 중요한 작업에 적합합니다.

네. EvoLink는 POST /v1/chat/completions 기반의 OpenAI 호환 요청을 지원하고, POST /v1beta/models/gemini-3.1-flash-lite-preview:{method} 기반의 Gemini 네이티브 요청도 지원합니다.

Gemini 3.1 Flash Lite는 최대 1,050,000 입력 토큰과 65,536 출력 토큰을 지원하므로 긴 문서, 대량 배치, 다단계 처리 파이프라인에 적합합니다.

네. Gemini 3.1 Flash Lite는 텍스트, 이미지, 비디오, 오디오, PDF를 입력으로 받을 수 있고 출력은 텍스트이므로, 추출, 요약, 멀티모달 문서 처리 워크플로에 유용합니다.

API 요청에는 정확한 preview 모델 식별자인 "gemini-3.1-flash-lite-preview"를 사용하세요. 이 페이지는 Gemini 3.1 Flash Lite API 경로를 대상으로 하지만, 실제 request model ID는 계속 preview 식별자입니다.

번역, 추출, 분류, 태깅처럼 재시도가 가능하고 대규모로 저렴하게 돌려야 하는 작업에는 Flash Lite가 적합합니다. 출력 품질이나 작업 난도가 개별 요청 비용보다 더 중요해지면 더 큰 Gemini Flash 경로로 올리는 편이 맞습니다.

Gemini 3.1 Flash Lite는 번역, 분류, 추출, 태깅, 문서 처리, 경량 에이전트 워크플로처럼 비용 민감도가 높고 처리량이 중요한 작업에 특히 잘 맞습니다.

이미지 생성, 오디오 생성, Live API는 지원되지 않습니다. Google Maps Grounding도 사용할 수 없습니다. 따라서 실시간이나 미디어 생성 작업보다 저비용 텍스트 처리 흐름에 더 적합합니다.

EvoLink의 Gemini API 모델

Gemini 3.1 Flash Lite는 Gemini 패밀리에서 가장 저렴한 라우트입니다. 더 강력한 멀티모달 기능이 필요하면 Gemini 3 Flash Preview로, 최첨단 추론이 필요하면 Gemini 3.1 Pro로 업그레이드하세요. 모든 모델은 동일한 API 형식을 공유합니다.

Gemini 패밀리 둘러보기 Gemini 3 Flash Preview Gemini 3.1 Pro Gemini 2.5 Flash