HappyHorse 1.0 정식 출시지금 사용하기

Gemini 3.5 Flash API

Gemini 3.5 Flash는 에이전트 워크플로, 코딩 에이전트, 장기 작업을 위한 Google의 프로덕션 준비 Flash 모델입니다. 프론티어 수준의 지능을 Flash 속도와 비용으로 제공합니다. EvoLink에서 OpenAI 호환 또는 Gemini 네이티브 요청으로 접근 가능하며, 모델 ID는 gemini-3.5-flash입니다.
모델 유형:
가격: 

$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens

$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens

Google Search grounding charged separately per query.

99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.

모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.

에이전트 워크플로와 코딩을 위한 프로덕션 준비 Flash 모델

Gemini 3.5 Flash는 일반 공개되어 대규모 프로덕션에 안정적으로 사용할 수 있습니다. 에이전트 워크플로, 코딩 에이전트, 서브 에이전트 배포, 장기 작업을 위해 구축되었으며, Flash 비용으로 프론티어 수준의 지능을 제공합니다. 1M 컨텍스트, 내장 추론, 전체 도구 지원을 갖추고 있습니다.

페이지 키워드

Gemini 3.5 Flash API

요청 모델 ID

gemini-3.5-flash

Gemini 3.5 Flash API

Gemini 3.5 Flash API에 잘 맞는 사용 사례

코딩 에이전트와 다단계 개발 루프

Gemini 3.5 Flash는 코딩 작업 — 코드 생성, 디버깅, 리팩토링, 테스트 작성 — 에서 Flash 속도로 탁월한 성능을 발휘합니다. 각 반복마다 토큰을 소비하고 지연 시간이 중요한 코딩 에이전트 루프의 기본 모델로 이상적입니다.

코딩 에이전트

에이전트 워크플로와 서브 에이전트 배포

병렬 에이전트 실행 루프를 위해 구축: Function Calling, 구조화 출력, 코드 실행, Search Grounding. 속도와 호출당 비용이 전체 워크플로 경제성을 결정하는 멀티 에이전트 시스템에서 서브 에이전트로 배포하세요.

에이전트 워크플로

장기 작업과 문서 처리

1M 입력 컨텍스트와 65K 출력 토큰으로 Gemini 3.5 Flash는 여러 단계에 걸친 장기 작업 — 법률 문서 검토, 코드베이스 분석, 연구 종합, PDF 워크플로 — 을 컨텍스트 잘림 없이 처리합니다.

장기 작업

Flash 비용의 프로덕션 추론

일반 공개되어 대규모 프로덕션에 안정적. 컨텍스트 캐싱, Batch API, 통일 멀티모달 가격으로 Pro 비용 없이 추론 품질이 필요한 팀의 기본 고처리량 모델입니다.

프로덕션 추론

Gemini 3.5 Flash API에 EvoLink를 쓰는 이유

이미 OpenAI 스타일 인프라 위에서 제품을 운영하는 팀이라면, EvoLink를 통해 Gemini 3.5 Flash를 훨씬 쉽게 프로덕션에 올릴 수 있습니다. 게이트웨이를 하나로 통합할 수 있고, 마이그레이션 비용도 낮으며, 저비용 모델과 상위 모델 간 라우팅도 정리하기 쉽습니다.

OpenAI 스타일 워크플로를 유지한 채 Gemini를 추가할 수 있습니다

팀이 이미 OpenAI SDK, 통합 인증, 기존 요청 계층을 중심으로 구축되어 있다면 핵심 통합 로직을 다시 쓰지 않고도 Gemini 3.5 Flash를 추가할 수 있습니다.

Flash를 멀티모델 스택의 저비용 계층으로 활용할 수 있습니다

번역, 추출, 분류처럼 저렴하게 처리할 수 있는 트래픽은 먼저 Flash로 보내고, 더 어려운 요청이나 더 중요한 요청만 강한 모델로 넘기는 설계를 같은 게이트웨이에서 운영할 수 있습니다.

벤더 전용 통합보다 마이그레이션 비용이 낮습니다

API 키 하나, OpenAI 호환 형식과 Gemini 네이티브 형식, 그리고 캐시와 Batch 지원까지 제공하므로 기존 모델 카탈로그와 함께 Gemini를 운영하기가 더 쉽습니다.

Gemini 3.5 Flash API 사용 방법

이 페이지는 접속 개요로 사용하고, 요청 형식과 preview 모델 ID를 확인한 뒤 자세한 request 예시는 문서에서 확인하도록 구성하는 편이 좋습니다.

1

1단계 - 요청 형식 선택

Gemini 3.5 Flash는 OpenAI 호환 요청과 Gemini 네이티브 API 모두로 호출할 수 있어, 전체 통합 경로를 다시 쓰지 않고도 기존 스택에 맞춰 붙이기 쉽습니다.

2

2단계 - 현재 request model ID 사용

프로덕션 트래픽을 보낼 때는 정확한 request model ID인 "gemini-3.5-flash"를 사용하세요. 이렇게 하면 페이지 키워드는 Gemini 3.5 Flash API에 맞추면서 실제 호출 경로와도 일치시킬 수 있습니다.

3

3단계 - 맞는 워크로드를 여기에 배치

번역 큐, 추출 작업, 태깅 같은 고처리량 작업은 Flash에 우선 배치하고, 예외 케이스나 더 어려운 요청만 더 강한 모델로 넘기세요. 정확한 request body, 파라미터, endpoint 예시는 문서에서 확인하는 편이 적합합니다.

Gemini 3.5 Flash API 기능과 제한

프로덕션 통합을 계획할 때 가장 중요한 핵심 기능과 제한 사항

컨텍스트

1,048,576 입력 토큰

최대 1,048,576 입력 토큰과 65,535 출력 토큰을 지원합니다.

멀티모달

멀티모달 입력

텍스트, 이미지, 비디오, 오디오, PDF를 입력할 수 있고 출력은 텍스트입니다.

추론

Thinking + 구조화 출력

Thinking과 구조화 출력을 지원해 안정적이고 기계가 읽기 쉬운 결과를 만들 수 있습니다.

도구

Function Calling + 도구

Function Calling, 코드 실행, Search Grounding을 지원합니다.

스케일

캐싱 + Batch

컨텍스트 캐싱과 Batch API는 반복 처리나 대규모 워크로드에 적합합니다.

요금

저비용 운영

현재 EvoLink의 pay-as-you-go 요금은 페이지 상단의 실시간 가격표를 기준으로 확인하세요.

Gemini 3.5 Flash vs 다른 Gemini 모델

Gemini 패밀리의 포지셔닝, 컨텍스트, 추론 스타일, 도구를 비교하여 워크로드에 맞는 경로를 선택하세요

ModelBest forContext windowReasoning styleTooling & streaming
Gemini 3.5 Flash에이전트 워크플로, 코딩 에이전트, 장기 작업1M 입력 / 65K 출력Flash 속도의 내장 추론Function Calling, 코드 실행, 구조화 출력, 캐싱, Batch
Gemini 3 Flash Preview일반 빠른 워크로드, 이전 세대 Flash 기준선1M 입력 / 65K 출력표준 Flash 추론Function Calling, 구조화 출력, 캐싱
Gemini 3.1 Pro가장 어려운 추론, 복잡한 분석, 프론티어 작업1M 입력 / 65K 출력Thinking 토큰을 사용한 가장 깊은 추론전체 도구 스위트, 코드 실행, Search Grounding
Gemini 3.1 Flash Lite대량 배치, 저비용 추출, 단순 작업1M 입력 / 65K 출력경량, 깊은 추론 없음Function Calling, 구조화 출력, 캐싱, Batch

Gemini 3.5 Flash API FAQ

Everything you need to know about the product and billing.

네. Google은 Gemini 3.5 Flash를 일반 공개 및 대규모 프로덕션에 안정적으로 사용 가능하다고 명시합니다. 프리뷰나 실험 모델이 아니므로 프로덕션 트래픽을 안심하고 라우팅할 수 있습니다.
네. Gemini 3.5 Flash는 고처리량 워크로드를 위한 저비용 Flash 경로로 포지셔닝되어 있으며, 더 큰 Gemini Flash 모델에서 기대하는 강한 범용 품질보다 처리량과 가격이 중요한 작업에 적합합니다.
네. EvoLink는 POST /v1/chat/completions 기반의 OpenAI 호환 요청을 지원하고, POST /v1beta/models/gemini-3.5-flash:{method} 기반의 Gemini 네이티브 요청도 지원합니다.
Gemini 3.5 Flash는 최대 1,048,576 입력 토큰과 65,535 출력 토큰을 지원하므로 긴 문서, 대량 배치, 다단계 처리 파이프라인에 적합합니다.
네. Gemini 3.5 Flash는 텍스트, 이미지, 비디오, 오디오, PDF를 입력으로 받을 수 있고 출력은 텍스트이므로, 추출, 요약, 멀티모달 문서 처리 워크플로에 유용합니다.
API 요청에는 정확한 preview 모델 식별자인 "gemini-3.5-flash"를 사용하세요. 이 페이지는 Gemini 3.5 Flash API 경로를 대상으로 하지만, 실제 request model ID는 계속 preview 식별자입니다.
번역, 추출, 분류, 태깅처럼 재시도가 가능하고 대규모로 저렴하게 돌려야 하는 작업에는 Flash가 적합합니다. 출력 품질이나 작업 난도가 개별 요청 비용보다 더 중요해지면 더 큰 Gemini Flash 경로로 올리는 편이 맞습니다.
Gemini 3.5 Flash는 번역, 분류, 추출, 태깅, 문서 처리, 경량 에이전트 워크플로처럼 비용 민감도가 높고 처리량이 중요한 작업에 특히 잘 맞습니다.
이미지 생성, 오디오 생성, Live API는 지원되지 않습니다. 따라서 실시간이나 미디어 생성 작업보다 저비용 텍스트 처리 흐름에 더 적합합니다.

EvoLink의 Gemini API 모델

Gemini 3.5 Flash는 Gemini 패밀리에서 가장 저렴한 라우트입니다. 더 강력한 멀티모달 기능이 필요하면 Gemini 3 Flash Preview로, 최첨단 추론이 필요하면 Gemini 3.1 Pro로 업그레이드하세요. 모든 모델은 동일한 API 형식을 공유합니다.