Gemini 3.5 Flash API
$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens
$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens
Google Search grounding charged separately per query.
稳定性最高,保证 99.9% 可用性。推荐用于生产环境。
所有版本使用同一个 API 端点,仅 model 参数不同。
面向 Agent 工作流和编码任务的正式版 Flash 模型
Gemini 3.5 Flash 已正式发布(GA),可直接用于生产级大规模流量。专为 Agent 工作流、编码 Agent、子 Agent 部署和长周期任务打造,以 Flash 级成本提供前沿智能,支持 1M 上下文、内置推理和完整工具能力。
页面关键词
Gemini 3.5 Flash API
请求模型 ID
gemini-3.5-flash

Gemini 3.5 Flash API 最适合的场景
编码 Agent 和多步开发循环
Gemini 3.5 Flash 擅长编码任务 — 代码生成、调试、重构和测试编写 — Flash 级速度。适合作为编码 Agent 循环的默认模型,每次迭代消耗 token 时延迟和成本都很关键。

Agent 工作流与子 Agent 部署
为并行 Agent 执行循环而生:函数调用、结构化输出、代码执行和搜索接地。在多 Agent 系统中作为子 Agent 部署,每次调用的速度和成本决定整体工作流经济性。

长周期任务和文档处理
1M 输入上下文和 65K 输出 token,Gemini 3.5 Flash 可处理跨多步骤的长周期任务 — 法律文档审查、代码库分析、研究综合和 PDF 密集型工作流 — 无需截断上下文。


为什么用 EvoLink 接入 Gemini 3.5 Flash API
EvoLink 让 Gemini 3.5 Flash 易于接入现有架构:统一网关、OpenAI 兼容请求,以及在 Gemini 家族 Flash Lite / Flash / Pro 之间清晰路由。
保留 OpenAI 风格工作流接入 Gemini
已经基于 OpenAI SDK 构建的团队可以直接接入 Gemini 3.5 Flash,无需重写请求层、认证流程或降级逻辑。
把 Flash 用作多模型架构里的均衡层
把均衡的多模态和推理工作负载路由到 Flash,把可重试的批量任务下放到 Flash Lite,把最难的推理升级到 Pro — 都在同一个网关上。
比厂商专属集成迁移成本更低
一个 API Key、同时支持 OpenAI 兼容和 Gemini 原生请求格式、加上缓存和批量支持,让 Gemini 和其他模型并行运营更轻松。
如何使用 Gemini 3.5 Flash API
本页作为接入概览:选择请求格式、使用请求模型 ID,详细请求示例参考 docs。
第 1 步 - 选择请求格式
Gemini 3.5 Flash 可以通过 OpenAI 兼容接口或 Gemini 原生 API 调用,这样更容易塞进现有架构,不用重建集成路径。
第 2 步 - 使用当前请求模型 ID
在发送生产流量时,使用精确的模型 ID "gemini-3.5-flash"。这样既保持页面关键词聚焦在 Gemini 3.5 Flash API,又匹配你实际调用的路由。
第 3 步 - 在这里挑选合适的工作负载
用 Flash 跑多模态推理、音频/视频理解、规划和均衡 Agent 工作流。把便宜的大批量任务下放到 Flash Lite,把最难的推理升级到 Pro。完整请求体、参数和端点示例请继续看 docs。
Gemini 3.5 Flash API 功能和限制
规划生产集成的核心能力和限制
1,048,576 输入 Token
最多支持 1,048,576 输入 Token 和 65,535 输出 Token。
多模态输入
支持文本、图像、视频、音频和 PDF 输入,统一价格,文本输出。
推理 + 结构化输出
支持内置推理和结构化输出,可获得可靠、机器可读的结果。
函数调用 + 工具
支持函数调用、代码执行和 Google 搜索接地。
缓存 + 批量
支持上下文缓存和 Batch API,适合重复或大规模工作负载。
统一音频/视频定价
查看上方实时定价表,确认 EvoLink 当前按用量计费的最新费率。
Gemini 3.5 Flash 与其他 Gemini 模型对比
比较 Gemini 家族中的定位、上下文、推理方式和工具支持,为你的工作负载选择合适的路由
| Model | Best for | Context window | Reasoning style | Tooling & streaming |
|---|---|---|---|---|
| Gemini 3.5 Flash | Agent 工作流、编码 Agent、长周期任务 | 1M 输入 / 65K 输出 | Flash 速度下的内置推理 | 函数调用、代码执行、结构化输出、缓存、批量 |
| Gemini 3 Flash Preview | 通用快速工作负载,上一代 Flash 基线 | 1M 输入 / 65K 输出 | 标准 Flash 推理 | 函数调用、结构化输出、缓存 |
| Gemini 3.1 Pro | 最难推理、复杂分析、前沿任务 | 1M 输入 / 65K 输出 | 含思考 token 的深度推理 | 完整工具套件、代码执行、搜索接地 |
| Gemini 3.1 Flash Lite | 高吞吐批量、低成本提取、简单任务 | 1M 输入 / 65K 输出 | 轻量级,无深度推理 | 函数调用、结构化输出、缓存、批量 |
Gemini 3.5 Flash API 常见问题
Everything you need to know about the product and billing.
EvoLink 上的 Gemini API 模型
Gemini 3.5 Flash 是 Gemini 家族里均衡的多模态路由。下放到 Gemini 3.1 Flash Lite 跑便宜的高吞吐任务,或升级到 Gemini 3.1 Pro 处理前沿推理。所有模型共享同一 API 格式,改一个参数就能切换。