Gemini 3.5 Flash API
$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens
$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens
Google Search grounding charged separately per query.
99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.
모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.
에이전트 워크플로와 코딩을 위한 프로덕션 준비 Flash 모델
Gemini 3.5 Flash는 일반 공개되어 대규모 프로덕션에 안정적으로 사용할 수 있습니다. 에이전트 워크플로, 코딩 에이전트, 서브 에이전트 배포, 장기 작업을 위해 구축되었으며, Flash 비용으로 프론티어 수준의 지능을 제공합니다. 1M 컨텍스트, 내장 추론, 전체 도구 지원을 갖추고 있습니다.
페이지 키워드
Gemini 3.5 Flash API
요청 모델 ID
gemini-3.5-flash

Gemini 3.5 Flash API에 잘 맞는 사용 사례
코딩 에이전트와 다단계 개발 루프
Gemini 3.5 Flash는 코딩 작업 — 코드 생성, 디버깅, 리팩토링, 테스트 작성 — 에서 Flash 속도로 탁월한 성능을 발휘합니다. 각 반복마다 토큰을 소비하고 지연 시간이 중요한 코딩 에이전트 루프의 기본 모델로 이상적입니다.

에이전트 워크플로와 서브 에이전트 배포
병렬 에이전트 실행 루프를 위해 구축: Function Calling, 구조화 출력, 코드 실행, Search Grounding. 속도와 호출당 비용이 전체 워크플로 경제성을 결정하는 멀티 에이전트 시스템에서 서브 에이전트로 배포하세요.

장기 작업과 문서 처리
1M 입력 컨텍스트와 65K 출력 토큰으로 Gemini 3.5 Flash는 여러 단계에 걸친 장기 작업 — 법률 문서 검토, 코드베이스 분석, 연구 종합, PDF 워크플로 — 을 컨텍스트 잘림 없이 처리합니다.

Flash 비용의 프로덕션 추론
일반 공개되어 대규모 프로덕션에 안정적. 컨텍스트 캐싱, Batch API, 통일 멀티모달 가격으로 Pro 비용 없이 추론 품질이 필요한 팀의 기본 고처리량 모델입니다.

Gemini 3.5 Flash API에 EvoLink를 쓰는 이유
이미 OpenAI 스타일 인프라 위에서 제품을 운영하는 팀이라면, EvoLink를 통해 Gemini 3.5 Flash를 훨씬 쉽게 프로덕션에 올릴 수 있습니다. 게이트웨이를 하나로 통합할 수 있고, 마이그레이션 비용도 낮으며, 저비용 모델과 상위 모델 간 라우팅도 정리하기 쉽습니다.
OpenAI 스타일 워크플로를 유지한 채 Gemini를 추가할 수 있습니다
팀이 이미 OpenAI SDK, 통합 인증, 기존 요청 계층을 중심으로 구축되어 있다면 핵심 통합 로직을 다시 쓰지 않고도 Gemini 3.5 Flash를 추가할 수 있습니다.
Flash를 멀티모델 스택의 저비용 계층으로 활용할 수 있습니다
번역, 추출, 분류처럼 저렴하게 처리할 수 있는 트래픽은 먼저 Flash로 보내고, 더 어려운 요청이나 더 중요한 요청만 강한 모델로 넘기는 설계를 같은 게이트웨이에서 운영할 수 있습니다.
벤더 전용 통합보다 마이그레이션 비용이 낮습니다
API 키 하나, OpenAI 호환 형식과 Gemini 네이티브 형식, 그리고 캐시와 Batch 지원까지 제공하므로 기존 모델 카탈로그와 함께 Gemini를 운영하기가 더 쉽습니다.
Gemini 3.5 Flash API 사용 방법
이 페이지는 접속 개요로 사용하고, 요청 형식과 preview 모델 ID를 확인한 뒤 자세한 request 예시는 문서에서 확인하도록 구성하는 편이 좋습니다.
1단계 - 요청 형식 선택
Gemini 3.5 Flash는 OpenAI 호환 요청과 Gemini 네이티브 API 모두로 호출할 수 있어, 전체 통합 경로를 다시 쓰지 않고도 기존 스택에 맞춰 붙이기 쉽습니다.
2단계 - 현재 request model ID 사용
프로덕션 트래픽을 보낼 때는 정확한 request model ID인 "gemini-3.5-flash"를 사용하세요. 이렇게 하면 페이지 키워드는 Gemini 3.5 Flash API에 맞추면서 실제 호출 경로와도 일치시킬 수 있습니다.
3단계 - 맞는 워크로드를 여기에 배치
번역 큐, 추출 작업, 태깅 같은 고처리량 작업은 Flash에 우선 배치하고, 예외 케이스나 더 어려운 요청만 더 강한 모델로 넘기세요. 정확한 request body, 파라미터, endpoint 예시는 문서에서 확인하는 편이 적합합니다.
Gemini 3.5 Flash API 기능과 제한
프로덕션 통합을 계획할 때 가장 중요한 핵심 기능과 제한 사항
1,048,576 입력 토큰
최대 1,048,576 입력 토큰과 65,535 출력 토큰을 지원합니다.
멀티모달 입력
텍스트, 이미지, 비디오, 오디오, PDF를 입력할 수 있고 출력은 텍스트입니다.
Thinking + 구조화 출력
Thinking과 구조화 출력을 지원해 안정적이고 기계가 읽기 쉬운 결과를 만들 수 있습니다.
Function Calling + 도구
Function Calling, 코드 실행, Search Grounding을 지원합니다.
캐싱 + Batch
컨텍스트 캐싱과 Batch API는 반복 처리나 대규모 워크로드에 적합합니다.
저비용 운영
현재 EvoLink의 pay-as-you-go 요금은 페이지 상단의 실시간 가격표를 기준으로 확인하세요.
Gemini 3.5 Flash vs 다른 Gemini 모델
Gemini 패밀리의 포지셔닝, 컨텍스트, 추론 스타일, 도구를 비교하여 워크로드에 맞는 경로를 선택하세요
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Gemini 3.5 Flash | 에이전트 워크플로, 코딩 에이전트, 장기 작업 | 1M 입력 / 65K 출력 | Flash 속도의 내장 추론 | Function Calling, 코드 실행, 구조화 출력, 캐싱, Batch |
| Gemini 3 Flash Preview | 일반 빠른 워크로드, 이전 세대 Flash 기준선 | 1M 입력 / 65K 출력 | 표준 Flash 추론 | Function Calling, 구조화 출력, 캐싱 |
| Gemini 3.1 Pro | 가장 어려운 추론, 복잡한 분석, 프론티어 작업 | 1M 입력 / 65K 출력 | Thinking 토큰을 사용한 가장 깊은 추론 | 전체 도구 스위트, 코드 실행, Search Grounding |
| Gemini 3.1 Flash Lite | 대량 배치, 저비용 추출, 단순 작업 | 1M 입력 / 65K 출력 | 경량, 깊은 추론 없음 | Function Calling, 구조화 출력, 캐싱, Batch |
Gemini 3.5 Flash API FAQ
Everything you need to know about the product and billing.
EvoLink의 Gemini API 모델
Gemini 3.5 Flash는 Gemini 패밀리에서 가장 저렴한 라우트입니다. 더 강력한 멀티모달 기능이 필요하면 Gemini 3 Flash Preview로, 최첨단 추론이 필요하면 Gemini 3.1 Pro로 업그레이드하세요. 모든 모델은 동일한 API 형식을 공유합니다.