HappyHorse 1.0 正式上线立即体验

Gemini 3.5 Flash API

Gemini 3.5 Flash 是 Google 面向 Agent 工作流、编码 Agent 和长周期任务的正式版 Flash 模型,以 Flash 级速度和成本提供前沿智能。通过 EvoLink 用 OpenAI 兼容或 Gemini 原生接口接入,模型 ID 为 gemini-3.5-flash。
模型类型:
价格: 

$1.399(~ 95.1 credits) per 1M input tokens; $8.387(~ 570.3 credits) per 1M output tokens

$0.141(~ 9.6 credits) per 1M cache read tokens; $1.399(~ 95.1 credits) per 1M audio tokens

Google Search grounding charged separately per query.

稳定性最高,保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点,仅 model 参数不同。

面向 Agent 工作流和编码任务的正式版 Flash 模型

Gemini 3.5 Flash 已正式发布(GA),可直接用于生产级大规模流量。专为 Agent 工作流、编码 Agent、子 Agent 部署和长周期任务打造,以 Flash 级成本提供前沿智能,支持 1M 上下文、内置推理和完整工具能力。

页面关键词

Gemini 3.5 Flash API

请求模型 ID

gemini-3.5-flash

Gemini 3.5 Flash API 展示

Gemini 3.5 Flash API 最适合的场景

编码 Agent 和多步开发循环

Gemini 3.5 Flash 擅长编码任务 — 代码生成、调试、重构和测试编写 — Flash 级速度。适合作为编码 Agent 循环的默认模型,每次迭代消耗 token 时延迟和成本都很关键。

编码 Agent

Agent 工作流与子 Agent 部署

为并行 Agent 执行循环而生:函数调用、结构化输出、代码执行和搜索接地。在多 Agent 系统中作为子 Agent 部署,每次调用的速度和成本决定整体工作流经济性。

Agent 工作流

长周期任务和文档处理

1M 输入上下文和 65K 输出 token,Gemini 3.5 Flash 可处理跨多步骤的长周期任务 — 法律文档审查、代码库分析、研究综合和 PDF 密集型工作流 — 无需截断上下文。

长周期任务

Flash 级成本的生产推理

正式发布(GA),稳定可用于大规模生产。上下文缓存、批量 API 和统一多模态定价,使其成为需要推理质量但不需要 Pro 级成本的团队的默认高吞吐模型。

生产推理

为什么用 EvoLink 接入 Gemini 3.5 Flash API

EvoLink 让 Gemini 3.5 Flash 易于接入现有架构:统一网关、OpenAI 兼容请求,以及在 Gemini 家族 Flash Lite / Flash / Pro 之间清晰路由。

保留 OpenAI 风格工作流接入 Gemini

已经基于 OpenAI SDK 构建的团队可以直接接入 Gemini 3.5 Flash,无需重写请求层、认证流程或降级逻辑。

把 Flash 用作多模型架构里的均衡层

把均衡的多模态和推理工作负载路由到 Flash,把可重试的批量任务下放到 Flash Lite,把最难的推理升级到 Pro — 都在同一个网关上。

比厂商专属集成迁移成本更低

一个 API Key、同时支持 OpenAI 兼容和 Gemini 原生请求格式、加上缓存和批量支持,让 Gemini 和其他模型并行运营更轻松。

如何使用 Gemini 3.5 Flash API

本页作为接入概览:选择请求格式、使用请求模型 ID,详细请求示例参考 docs。

1

第 1 步 - 选择请求格式

Gemini 3.5 Flash 可以通过 OpenAI 兼容接口或 Gemini 原生 API 调用,这样更容易塞进现有架构,不用重建集成路径。

2

第 2 步 - 使用当前请求模型 ID

在发送生产流量时,使用精确的模型 ID "gemini-3.5-flash"。这样既保持页面关键词聚焦在 Gemini 3.5 Flash API,又匹配你实际调用的路由。

3

第 3 步 - 在这里挑选合适的工作负载

用 Flash 跑多模态推理、音频/视频理解、规划和均衡 Agent 工作流。把便宜的大批量任务下放到 Flash Lite,把最难的推理升级到 Pro。完整请求体、参数和端点示例请继续看 docs。

Gemini 3.5 Flash API 功能和限制

规划生产集成的核心能力和限制

上下文

1,048,576 输入 Token

最多支持 1,048,576 输入 Token 和 65,535 输出 Token。

多模态

多模态输入

支持文本、图像、视频、音频和 PDF 输入,统一价格,文本输出。

推理

推理 + 结构化输出

支持内置推理和结构化输出,可获得可靠、机器可读的结果。

工具

函数调用 + 工具

支持函数调用、代码执行和 Google 搜索接地。

扩展性

缓存 + 批量

支持上下文缓存和 Batch API,适合重复或大规模工作负载。

价格

统一音频/视频定价

查看上方实时定价表,确认 EvoLink 当前按用量计费的最新费率。

Gemini 3.5 Flash 与其他 Gemini 模型对比

比较 Gemini 家族中的定位、上下文、推理方式和工具支持,为你的工作负载选择合适的路由

ModelBest forContext windowReasoning styleTooling & streaming
Gemini 3.5 FlashAgent 工作流、编码 Agent、长周期任务1M 输入 / 65K 输出Flash 速度下的内置推理函数调用、代码执行、结构化输出、缓存、批量
Gemini 3 Flash Preview通用快速工作负载,上一代 Flash 基线1M 输入 / 65K 输出标准 Flash 推理函数调用、结构化输出、缓存
Gemini 3.1 Pro最难推理、复杂分析、前沿任务1M 输入 / 65K 输出含思考 token 的深度推理完整工具套件、代码执行、搜索接地
Gemini 3.1 Flash Lite高吞吐批量、低成本提取、简单任务1M 输入 / 65K 输出轻量级,无深度推理函数调用、结构化输出、缓存、批量

Gemini 3.5 Flash API 常见问题

Everything you need to know about the product and billing.

可以。Google 将 Gemini 3.5 Flash 标记为正式发布(GA),稳定可用于大规模生产。它不是预览或实验模型,可以放心路由生产流量。
Gemini 3.5 Flash 是当代 Flash 模型,具备前沿智能、更强的 Agent 和编码性能、内置推理输出、文本/图像/视频/音频统一定价。Gemini 3 Flash 是上一代 Flash。Flash Lite 是低成本路由,适合可重试的高吞吐任务。
支持。EvoLink 提供 OpenAI 兼容接口 POST /v1/chat/completions,同时支持 Google 原生 API POST /v1beta/models/gemini-3.5-flash:{method}。
Gemini 3.5 Flash 支持最多 1,048,576 输入 Token 和 65,535 输出 Token,适合长文档、多模态上下文和多步 Agent 流水线。
可以。Gemini 3.5 Flash 支持文本、图像、视频、音频和 PDF 输入,文本输出。音频和视频输入与文本共享同一 token 价,让多模态工作负载成本可预期。
在 API 请求中使用精确的模型标识 "gemini-3.5-flash"。本页面针对 Gemini 3.5 Flash API 路由,请求模型 ID 与页面 slug 一致。
选择 Flash 跑均衡的多模态推理负载 — 音频/视频理解、Agent 规划、需要推理的决策步骤,且成本可控。批量可重试任务下放到 Flash Lite,最难的推理升级到 Pro。
Gemini 3.5 Flash 最适合音频/视频/图像多模态推理、Agent 工作流、结构化规划,以及推理质量和成本都要平衡的生产流量。
本模型为文本输出 Flash,不支持图像生成、音频生成和 Live API。图像生成请使用 Nano Banana / Gemini 3 Flash Image 路由。

EvoLink 上的 Gemini API 模型

Gemini 3.5 Flash 是 Gemini 家族里均衡的多模态路由。下放到 Gemini 3.1 Flash Lite 跑便宜的高吞吐任务,或升级到 Gemini 3.1 Pro 处理前沿推理。所有模型共享同一 API 格式,改一个参数就能切换。