Gemini Omni 곧 출시자세히 보기
Gemini 3.5 Flash 요금 가이드: Token 비용, 워크로드 예시, 프로덕션 예산 계획
pricing

Gemini 3.5 Flash 요금 가이드: Token 비용, 워크로드 예시, 프로덕션 예산 계획

EvoLink Team
EvoLink Team
Product Team
2026년 5월 20일
16분 소요
최종 확인일: 2026년 5월 20일. 아래 요금 데이터는 Google 공식 모델 문서와 해당 날짜에 검증한 EvoLink 플랫폼 데이터를 기반으로 합니다.
Gemini 3.5 Flash는 대규모 프로덕션 워크로드를 위한 Google의 안정적이고 비용 효율적인 모델입니다. 다만 "비용 효율적"이라는 표현은 상대적입니다. 100만 Token당 $1.50/$9.00이라는 가격은 Gemini 3 Flash Preview 같은 저가 옵션과 Gemini 3.1 Pro 같은 프리미엄 모델 사이에 위치합니다. 이 가이드에서는 모든 요금 항목을 상세히 분석하고, 실제 프로덕션 워크로드에서 발생하는 비용을 보여드립니다.

핵심 요약

  • 입력: $1.50 / 100만 Token
  • 출력: $9.00 / 100만 Token
  • 캐시 히트: $0.15 / 100만 Token (캐시된 입력에서 90% 절감)
  • 오디오/비디오 입력: $1.50 / 100만 Token (텍스트와 동일)
  • Context Caching, Batch API, Google Search Grounding 지원
  • 가장 큰 비용 요인은 출력 Token입니다. 입력이 아닙니다. 출력 길이 최적화를 우선으로 진행하세요.

전체 요금표

Token 유형100만 Token당 가격비고
텍스트 입력$1.50표준 텍스트 프롬프트 Token
텍스트 출력$9.00모델이 생성한 응답 Token
캐시 히트 (입력)$0.15표준 입력 대비 90% 할인; 스토리지 비용 $1.00/시간
오디오 입력$1.50처리된 오디오 Token
비디오 입력$1.50처리된 비디오 프레임 Token
이미지 입력$1.50처리된 이미지 Token
PDF 입력$1.50처리된 문서 Token

Batch 및 Flex 요금

Google은 급하지 않은 워크로드를 위한 할인 요금도 제공합니다:

요금 등급입력 / 100만출력 / 100만사용 사례
Standard$1.50$9.00실시간 요청
Batch$0.75$4.50비동기 대량 처리
Flex$0.75$4.50유연한 전달 타이밍
Priority$2.70$16.20저지연 보장
Batch 및 Flex 요금은 표준 요금 대비 50% 할인을 제공합니다.

핵심 포인트

  • 출력 Token은 입력의 6배 비용이 듭니다. 이것이 가장 중요한 비용 조절 레버입니다.
  • 캐시 히트는 입력 비용을 90% 줄여줍니다 — 단, 캐시 스토리지 비용 $1.00/시간을 고려해야 합니다.
  • Batch/Flex 요금은 급하지 않은 워크로드의 입출력 비용을 절반으로 줄여줍니다.
  • 모든 멀티모달 입력(오디오, 비디오, 이미지, PDF)은 텍스트 입력과 동일한 요금이 적용됩니다.

Gemini 3.5 Flash 가격 비교

모델입력 / 100만출력 / 100만캐시 히트 / 100만컨텍스트
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash는 중간 가격대의 Flash 모델로 자리잡고 있습니다. 프리뷰 Flash 모델보다 성능과 안정성이 뛰어나면서도, Pro급이나 Sonnet급 모델보다 훨씬 저렴합니다.

워크로드 비용 예시

예시 1: 분류 파이프라인

짧은 프롬프트와 짧은 응답으로 대량 분류 작업을 처리합니다.

일일 요청 수: 100,000건 평균 입력: 500 Token / 요청 평균 출력: 50 Token / 요청 일일 입력 Token: 50M 일일 출력 Token: 5M
비용 항목계산 방식일일 비용월간 비용
입력50M × $1.50/1M$75.00$2,250
출력5M × $9.00/1M$45.00$1,350
합계$120.00$3,600

Context Caching 적용 시 (입력 Token의 80%가 캐시 히트):

비용 항목계산 방식일일 비용월간 비용
입력 (비캐시 20%)10M × $1.50/1M$15.00$450
입력 (캐시 80%)40M × $0.15/1M$6.00$180
출력5M × $9.00/1M$45.00$1,350
캐싱 적용 합계$66.00$1,980
이 시나리오에서 캐싱으로 45%를 절감할 수 있습니다.

예시 2: 코딩 Agent

중간 수준의 입력(코드 컨텍스트)과 대량의 출력(생성 코드)이 발생하는 Agent 워크플로우입니다.

일일 세션 수: 5,000회 평균 입력: 10,000 Token / 세션 평균 출력: 3,000 Token / 세션 일일 입력 Token: 50M 일일 출력 Token: 15M
비용 항목계산 방식일일 비용월간 비용
입력50M × $1.50/1M$75.00$2,250
출력15M × $9.00/1M$135.00$4,050
합계$210.00$6,300

출력이 전체 비용의 64%를 차지합니다. 평균 출력 길이를 20% 줄이면 월 $1,260를 절약할 수 있습니다.

예시 3: 긴 컨텍스트 문서 분석

대용량 문서를 처리하고 요약을 생성하는 워크로드입니다.

일일 문서 수: 500건 평균 입력: 100,000 Token / 문서 평균 출력: 2,000 Token / 문서 일일 입력 Token: 50M 일일 출력 Token: 1M
비용 항목계산 방식일일 비용월간 비용
입력50M × $1.50/1M$75.00$2,250
출력1M × $9.00/1M$9.00$270
합계$84.00$2,520

입력 중심의 긴 컨텍스트 워크로드에서는 Context Caching이 필수적입니다. 문서 컨텍스트의 60%가 공유 가능한 경우(공통 헤더, 템플릿, 지시문):

| 캐싱 적용 합계 | | $48.00 | $1,440 |
캐싱으로 43%를 절감할 수 있습니다.

예시 4: 멀티모달 파이프라인 (비디오 + 오디오)

콘텐츠 이해를 위해 오디오가 포함된 비디오 콘텐츠를 처리합니다.

일일 비디오 수: 1,000개 평균 비디오 입력: 20,000 Token / 비디오 평균 오디오 입력: 5,000 Token / 비디오 평균 텍스트 입력: 1,000 Token / 비디오 평균 출력: 500 Token / 비디오 일일 비디오 Token: 20M 일일 오디오 Token: 5M 일일 텍스트 Token: 1M 일일 출력 Token: 500K
비용 항목계산 방식일일 비용월간 비용
비디오 입력20M × $1.50/1M$30.00$900
오디오 입력5M × $1.50/1M$7.50$225
텍스트 입력1M × $1.50/1M$1.50$45
출력0.5M × $9.00/1M$4.50$135
합계$43.50$1,305

멀티모달 요금은 간단합니다. 모든 입력 유형에 동일한 요율이 적용됩니다.

비용 최적화 전략

1. Context Caching을 적극 활용합니다

Context Caching은 입력 비용을 90% 줄여줍니다. 다음 항목에 캐싱을 적용하세요:

  • 시스템 프롬프트와 지시문
  • Few-shot 예시
  • 요청 간 공유되는 문서 컨텍스트
  • 반복 사용하는 도구 정의와 Schema

2. 출력 길이를 최적화합니다

출력 Token은 입력의 6배 비용입니다. 최적화 방법:

  • max_tokens를 태스크에 필요한 최소값으로 설정합니다
  • 구조화된 출력 Schema로 응답 형식을 제한합니다
  • 분류 태스크에서는 설명 대신 열거형 출력을 사용합니다
  • 추출 태스크에서는 추출된 필드만 반환합니다

3. 급하지 않은 워크로드에는 Batch API를 사용합니다

Batch API는 높은 레이턴시를 허용할 수 있는 워크로드에 더 저렴한 요금을 제공합니다. 적합한 용도:

  • 야간 데이터 처리
  • 대량 분류
  • 문서 분석 파이프라인
  • 평가 및 테스트

4. 워크로드 등급별로 라우팅합니다

모든 요청에 Gemini 3.5 Flash가 필요한 것은 아닙니다. 간단한 태스크는 더 저렴한 모델로 라우팅하세요:

워크로드 복잡도추천 모델이유
단순 분류Gemini 3.1 Flash Lite Preview ($0.25/$1.50)입출력 모두 6배 저렴
표준 추출Gemini 3 Flash Preview ($0.50/$3.00)3배 저렴, 간단한 태스크에 충분
Agent 하위 단계Gemini 3.5 Flash ($1.50/$9.00)GA 안정성, 우수한 추론 능력
복잡한 추론Gemini 3.1 Pro ($2.00/$12.00)어려운 태스크에서 높은 품질

5. Token 비용이 아닌 성공 태스크당 비용을 모니터링합니다

저렴하지만 3번 재시도가 필요한 모델은 한 번에 성공하는 비싼 모델보다 실제로 더 비쌀 수 있습니다. 다음을 추적하세요:

  • 요청당 Token 비용
  • 재시도율
  • 폴백율
  • 성공 태스크당 비용 (재시도 및 폴백 포함)

놓치기 쉬운 비용 요인

재시도

요청의 10%가 검증 실패로 재시도가 필요하다면, Token 예산에 10%를 추가해야 합니다. 다단계 Agent 워크플로우에서는 재시도 비용이 단계마다 누적됩니다.

더 강력한 모델로의 폴백

Gemini 3.5 Flash가 요청의 5%를 처리하지 못해 Gemini 3.1 Pro로 폴백하는 경우, 해당 요청은 Pro급 요금으로 예산에 반영해야 합니다.

Agent 루프에서의 컨텍스트 증가

Agent 워크플로우는 단계를 거듭할수록 컨텍스트가 누적되는 경향이 있습니다. 5단계 Agent 루프는 초기 프롬프트 대비 2~3배의 입력 Token을 소비할 수 있습니다. 첫 번째 요청만이 아니라 컨텍스트 증가를 고려한 예산을 세우세요.

Rate Limit 오버헤드

Rate Limit에 도달하면 큐잉이나 재시도가 필요하며, 이로 인한 레이턴시는 Token 비용뿐 아니라 엔지니어링 시간과 사용자 경험에도 영향을 미칩니다.

자주 묻는 질문

Gemini 3.5 Flash를 가장 저렴하게 사용하는 방법은?

반복 프롬프트에 Context Caching을 활성화하고, 구조화된 Schema로 출력 길이를 제한하며, 급하지 않은 작업에는 Batch API를 사용하고, 간단한 태스크는 더 저렴한 Flash 모델로 라우팅합니다.

Gemini 3.5 Flash가 Claude Haiku 4.5보다 저렴한가요?

아닙니다. Claude Haiku 4.5는 입력($1.00 vs $1.50)과 출력($5.00 vs $9.00) 모두 100만 Token당 더 저렴합니다. 다만 Gemini 3.5 Flash는 1M 컨텍스트(vs 200K)를 제공하며, Haiku가 지원하지 않는 네이티브 멀티모달 입력을 지원합니다.

Context Caching으로 얼마나 절약할 수 있나요?

캐시 히트는 100만 Token당 $0.15로, 표준 입력 $1.50 대비 90% 절감됩니다. 공유 시스템 프롬프트나 반복 컨텍스트가 포함된 워크로드에서는 총 비용을 30~50% 줄일 수 있습니다.

Gemini 3.5 Flash가 Gemini 3.1 Pro보다 저렴한가요?

네. Gemini 3.5 Flash는 입력에서 25% 저렴하고($1.50 vs $2.00), 출력에서도 25% 저렴합니다($9.00 vs $12.00).

월간 비용은 어떻게 추정하나요?

계산식: (일일 입력 Token x $1.50/1M) + (일일 출력 Token x $9.00/1M) x 30. 여기서 Context Caching 절감분을 빼고, 재시도와 폴백에 따른 추가 비용을 더합니다.

EvoLink에서 Gemini 3.5 Flash 워크로드 예산을 계획하세요

EvoLink는 모든 Gemini 모델에 걸쳐 사용량 모니터링과 비용 추적이 가능한 통합 API를 제공합니다. 하나의 통합으로 비용 비교, 예산 알림 설정, Flash 등급 간 라우팅 전환이 가능합니다.

관련 글:

EvoLink에서 살펴보기:

출처

AI 비용을 89% 절감할 준비가 되셨나요?

오늘 EvoLink를 시작하고 지능형 API 라우팅의 힘을 경험해보세요.