
Gemini 3.5 Flash vs Gemini 3 Flash Preview: 가격, 컨텍스트, 마이그레이션 가이드

핵심 요약
- Gemini 3 Flash Preview는
$0.50/$3.00/ 1M 토큰(입력/출력)으로 여전히 저렴한 선택입니다. 비용에 민감하고 대량 처리가 필요하며 Preview 상태를 수용할 수 있는 워크로드에 적합합니다. - Gemini 3.5 Flash는
$1.50/$9.00/ 1M 토큰이지만, 안정적인 GA 모델로서 추론, 함수 호출, 구조화된 출력이 강화되어 에이전트 워크플로우에 적합합니다. - 두 모델 모두 1M 토큰 컨텍스트 윈도우와 65,536 토큰 출력 상한을 공유합니다.
- API 수준의 마이그레이션은 간단합니다(모델 ID 변경). 하지만 예산에 미치는 영향은 상당하므로 전환 전에 반드시 검토하세요.
상세 비교 표
| 항목 | Gemini 3.5 Flash | Gemini 3 Flash Preview |
|---|---|---|
| Model ID | gemini-3.5-flash | gemini-3-flash-preview |
| 상태 | 안정 버전 (GA) | Preview |
| 입력 가격 | $1.50 / 1M tokens | $0.50 / 1M tokens |
| 출력 가격 | $9.00 / 1M tokens | $3.00 / 1M tokens |
| 캐시 히트 가격 | $0.15 / 1M tokens | $0.05 / 1M tokens |
| 오디오 입력 가격 | $1.50 / 1M tokens | $1.00 / 1M tokens |
| 컨텍스트 윈도우 | 1,000,000 tokens | 1,048,576 tokens |
| 출력 상한 | 65,536 tokens | 65,536 tokens |
| 멀티모달 입력 | Text, image, video, audio, PDF | Text, image, video, audio, PDF |
| 함수 호출 | Yes | Yes |
| 구조화된 출력 | Yes | Yes |
| 코드 실행 | Yes | Yes |
| Context caching | Yes | Yes |
| Batch API | Yes | Yes |
| Google Search grounding | Yes | Yes |
| 내장 추론 | Yes (강화) | Yes |
Gemini 3 Flash Preview를 유지해야 하는 경우
다음 상황에서는 Gemini 3 Flash Preview가 여전히 좋은 선택입니다.
비용이 가장 중요한 경우
$0.50, 출력 $3.00 / 1M 토큰으로, Gemini 3 Flash Preview는 Gemini 3.5 Flash보다 3배 저렴합니다. 분류, 추출, 포맷팅, 라우팅 등 이미 품질이 충분한 대량 처리 작업에서는 비용 차이가 빠르게 누적됩니다.| 모델 | 일일 입력 비용 | 일일 출력 비용 | 일일 합계 | 월간 합계 |
|---|---|---|---|---|
| Gemini 3 Flash Preview | $5.00 | $6.00 | $11.00 | $330 |
| Gemini 3.5 Flash | $15.00 | $18.00 | $33.00 | $990 |
파이프라인 하나에서 월 $660 차이가 발생합니다.
Preview 상태를 수용할 수 있는 경우
가끔 API 동작이 변경되어도 문제없는 워크로드이고, 이미 Preview 모델 운영(버전 고정, 업데이트 후 테스트 등)에 익숙하다면, Gemini 3 Flash Preview를 유지하는 것이 불필요한 마이그레이션 비용을 절약합니다.
현재 품질이 합격 기준을 충족하는 경우
기존 Gemini 3 Flash Preview 연동이 스키마 유효성, 사실 정확도, 지연 시간, 재시도율에서 기준을 통과하고 있다면, 새 모델이 있다는 이유만으로 마이그레이션할 필요는 없습니다.
Gemini 3.5 Flash로 마이그레이션해야 하는 경우
다음 상황에서는 Gemini 3.5 Flash가 더 나은 선택입니다.
GA 수준의 안정성이 필요한 경우
Preview 모델은 버전 간 동작이 변경될 수 있습니다. Gemini 3.5 Flash는 안정적인 GA 모델로, 예기치 않은 리그레션을 감당할 수 없는 프로덕션 배포에 적합합니다.
에이전트 워크플로우에 더 강한 추론이 필요한 경우
Gemini 3.5 Flash는 강화된 내장 추론 기능을 포함합니다. 다단계 계획, 도구 선택, 복잡한 함수 호출 체인을 포함하는 에이전트 하위 단계에서 향상된 추론은 재시도율과 폴백 빈도를 줄여 토큰 가격 상승분을 상쇄할 수 있습니다.
구조화된 출력의 신뢰성이 중요한 경우
파이프라인이 엄격한 스키마 준수(JSON mode, 함수 호출 응답, 타입 지정 출력)에 의존하는 경우, Gemini 3.5 Flash의 개선된 구조화된 출력으로 검증 실패와 하위 오류 처리를 줄일 수 있습니다.
새 프로젝트를 처음부터 구축하는 경우
기존 Gemini 3 Flash Preview 연동이 없는 새 프로젝트에서는 처음부터 Gemini 3.5 Flash를 채택하여, 향후 폐기될 수 있는 Preview 모델 위에 구축하는 위험을 피할 수 있습니다.
마이그레이션 체크리스트
Gemini 3 Flash Preview에서 Gemini 3.5 Flash로 마이그레이션을 결정한 경우:
1. 모델 ID 업데이트
gemini-3-flash-preview → gemini-3.5-flash
EvoLink의 통합 API를 사용하고 있다면 요청의 model 파라미터만 변경하면 됩니다. 엔드포인트나 인증 변경은 필요 없습니다.
2. 예산 재추정
현재 Gemini 3 Flash Preview 지출에 약 3배를 곱해서 Gemini 3.5 Flash 비용을 추정하세요. 향상된 추론으로 재시도율이 낮아질 수 있는 워크로드에서는 그 절감분도 고려하세요.
3. 병렬 평가 수행
프로덕션 트래픽을 전환하기 전에 동일한 워크로드 샘플로 두 모델을 모두 실행하세요. 비교 항목:
- 작업 성공률
- 재시도율
- 지연 시간 (첫 번째 토큰까지의 시간 및 전체 완료 시간)
- 스키마 유효성
- 성공한 작업당 비용
4. 모니터링 및 알림 업데이트
비용 알림과 예산 임계값을 새로운 가격 체계에 맞게 조정하세요.
5. 폴백 계획 수립
마이그레이션 기간 동안 Gemini 3 Flash Preview를 폴백 경로로 유지하세요. Gemini 3.5 Flash에서 할당량 압력이나 지연 시간 급등이 발생하면 코드 변경 없이 되돌릴 수 있습니다.
성공한 작업당 비용: 진정한 비교 기준
토큰 단가는 비용의 일부일 뿐입니다. Gemini 3.5 Flash가 여러분의 워크로드에서 재시도를 줄이고, 폴백을 줄이고, 첫 번째 시도 성공률을 높인다면, 실질적인 비용 차이는 줄어듭니다.
| 지표 | 확인할 사항 |
|---|---|
| 요청당 토큰 비용 | 직접적인 가격 차이 |
| 재시도율 | 첫 번째 응답이 검증에 실패하는 빈도 |
| 폴백율 | Flash가 더 강력한 모델로 에스컬레이션하는 빈도 |
| 지연 시간 | 첫 번째 토큰까지의 시간 및 전체 완료 시간 |
| 작업 성공률 | 첫 번째 시도에서 수용 기준을 충족하는 비율 |
| 성공한 작업당 비용 | 재시도, 폴백, 낭비된 토큰을 포함한 혼합 비용 |
토큰 단가가 3배 비싸더라도 첫 번째 시도에 성공하는 모델이, 2~3번 재시도가 필요한 모델보다 저렴할 수 있습니다.
Gemini 3.1 Flash Lite Preview는?
$0.25/$1.50 / 1M 토큰)도 고려해 볼 만합니다. Gemini Flash 패밀리에서 가장 저렴한 옵션으로, 지연 시간과 비용이 품질보다 중요한 대용량 재시도 허용 워크로드를 위해 설계되었습니다.| 모델 | 입력 | 출력 | 적합한 용도 |
|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | 최대 볼륨, 비용 최우선 |
| Gemini 3 Flash Preview | $0.50 | $3.00 | 비용과 기능의 균형 |
| Gemini 3.5 Flash | $1.50 | $9.00 | GA 안정성 및 에이전트 워크플로우 |
FAQ
Gemini 3.5 Flash는 Gemini 3 Flash Preview를 직접 대체할 수 있나요?
기능적으로는 그렇습니다. 두 모델 모두 동일한 입력 모달리티, 함수 호출, 구조화된 출력, context caching을 지원합니다. 다만 Gemini 3.5 Flash는 더 높은 가격의 GA 모델이고, Gemini 3 Flash Preview는 Preview 가격으로 계속 사용할 수 있습니다.
Gemini 3 Flash Preview는 폐기되나요?
EvoLink를 통해 두 모델 모두 사용할 수 있나요?
네. EvoLink의 통합 API는 두 모델 ID를 모두 지원합니다. 비용, 품질, 지연 시간 요구 사항에 따라 서로 다른 워크로드를 서로 다른 모델로 라우팅할 수 있으며, 별도의 제공업체 통합을 관리할 필요가 없습니다.
3배 가격 인상이 가치가 있나요?
워크로드에 따라 다릅니다. 대량 처리, 비용 민감 작업에서 Gemini 3 Flash Preview가 이미 품질 기준을 충족하는 경우 업그레이드가 정당화되지 않을 수 있습니다. 에이전트 워크플로우, 구조화된 출력 파이프라인, GA 안정성이 필요한 프로덕션 시스템에서는 추론과 신뢰성 향상이 비용 증가를 상쇄할 수 있습니다.
마이그레이션 전에 어떻게 테스트하나요?
프로덕션 워크로드의 대표적인 샘플로 두 모델을 모두 실행하세요. 작업 성공률, 재시도율, 지연 시간, 성공한 작업당 비용을 비교합니다. "새 모델이 전반적으로 더 낫다"는 가정이 아닌 실측 결과에 기반해 결정하세요.
EvoLink에서 Gemini Flash 모델 비교
EvoLink는 Gemini 3.5 Flash와 Gemini 3 Flash Preview에 모두 액세스할 수 있는 통합 API를 제공합니다. 하나의 통합으로 라우팅, 폴백 동작, 워크로드 수준 비용을 테스트할 수 있습니다.
관련 글:
- Gemini 3.5 Flash API — 가격, 모델 ID, Playground가 포함된 제품 페이지
- Gemini 3.5 Flash 가격 가이드 — 토큰 비용 분석 및 프로덕션 예산 사례
- Gemini 3.5 Flash로 코딩 에이전트 구축 — 에이전트 워크플로우 평가 및 비용 분석
- Gemini 3.5 Flash vs Claude Haiku 4.5 — 패밀리 간 비용 효율 모델 비교
- Gemini 3.5 Flash API 출시 추적 — 출시 상태 추적
EvoLink에서 탐색:
- Gemini 3.5 Flash API — $1.50/$9.00 100만 토큰당, 안정 GA 버전
- Gemini 3 Flash Preview API — $0.50/$3.00 100만 토큰당, 프리뷰
- Gemini API 패밀리 — 가격과 워크로드로 모든 Gemini 경로 비교


