
Gemini 3.5 Flash API 发布追踪:定价、延迟与模型 ID

gemini-3.5-flash 模型 ID。本页面追踪 Google 已确认的信息、尚未确认的内容,以及开发者如何在不依赖推测性细节的情况下为未来的 Flash 模型发布做好准备。对于生产团队来说,核心问题不在于一个未发布的 Flash 模型听起来是否有吸引力,而在于 Google 官方文档中已记录的内容:模型 ID、API 渠道、定价、上下文限制、延迟特性、速率限制和支持的区域。
摘要
- 截至 2026 年 5 月 18 日,已检查的 Google 官方 Gemini API 模型文档中未列出 Gemini 3.5 Flash。
- 已检查的文档中未确认官方的
gemini-3.5-flash模型 ID、定价信息、发布说明、上下文窗口或速率限制配置。 - Google 当前的 Gemini 3 系列包括 Gemini 3 Flash、Gemini 3.1 Flash-Lite 和 Gemini 3.1 Pro 等模型。
- 在 Google 发布官方详情或您获得发布后的测试数据之前,请勿声称 Gemini 3.5 Flash 更便宜、更快或更适合特定工作负载。
- 如果该模型发布,请通过每成功任务的成本、延迟、重试率、回退率和真实工作负载的质量来评估它。
当前官方状态
| 项目 | 当前状态 | 监控来源 |
|---|---|---|
| 官方 Gemini 3.5 Flash 发布 | 已检查的 Google 文档中未确认 | Gemini API 发布说明 |
| Gemini API 模型 ID | 未确认 | Gemini API 模型列表 |
| Vertex/Google 模型可用性 | 未确认 | Google Cloud 模型文档 |
| 定价 | 未确认 | Gemini API 定价 |
| 延迟配置 | 未确认 | 官方模型文档及真实工作负载测试 |
| 上下文窗口和输出限制 | 未确认 | 官方模型文档或模型卡片 |
| 工具调用和结构化输出 | 对于 Gemini 3.5 Flash 未确认 | 官方能力表 |
这并不意味着 Google 永远不会发布 Gemini 3.5 Flash。这意味着在 Google 发布官方详情之前,开发者不应将其视为可用的 API 模型,也不应围绕它编写生产建议。
Google 当前列出的替代模型
对于发布追踪内容,这一区别很重要。本文可以安全地帮助开发者监控未来的 Flash 版本发布,但不应将 Gemini 3.5 Flash 的定价或延迟指南呈现为该模型已经存在的事实。
使用 Gemini 3.5 Flash 前需要验证的内容
如果 Google 后续发布 Gemini 3.5 Flash,在规划生产流量之前,请从官方文档中验证以下内容。
1. 确切的模型 ID
gemini-3.5-flash。Google 可能使用预览后缀、带日期的模型字符串、特定渠道名称或其他命名模式。2. API 渠道
检查该模型是出现在 Gemini API、Vertex AI、Google AI Studio 中,还是仅在其中部分平台可用。可用性应始终按渠道描述。
3. 定价
在估算生产支出之前,请等待官方定价信息。Flash 系列模型通常被用于成本敏感型工作负载的评估,但已检查的文档中未确认任何 Gemini 3.5 Flash 的价格。
4. 延迟和吞吐量
不要仅凭 "Flash" 这个名称推断延迟表现。请在实际提示上测量首 token 时间、完整生成时间、速率限制行为和吞吐量。
5. 上下文窗口
检查官方输入上下文、输出限制、缓存定价以及任何会改变定价的 token 阈值。一个快速的模型如果提示较大或重试频繁,仍然可能变得昂贵。
6. 工具和结构化输出支持
对于 Agent 工作流,请验证工具调用、结构化输出、Schema 遵循和错误恢复能力。Flash 模型只有在能可靠遵循所需结构的情况下,才对 Agent 子步骤有用。
发布后的安全用例框架
下表是发布后的评估框架,而非对 Gemini 3.5 Flash 已确认能力的声明。
| 工作负载 | 为什么未来的 Flash 模型可能被测试 | 需要测量的指标 |
|---|---|---|
| 分类 | 大量结构化决策可能受益于更低的延迟 | 准确率、置信度、重试率 |
| 数据提取 | 重复的基于 Schema 的任务可能是良好的候选项 | Schema 有效性、精确率、召回率 |
| 短摘要 | 短输入和输出更容易评估 | 事实准确性、延迟、每条通过摘要的成本 |
| 聊天自动补全 | 交互式产品通常需要快速响应 | 首 token 时间、用户接受率 |
| Agent 子步骤 | 某些工具步骤简单且重复 | 工具 Schema 遵循率、回退率 |
| 轻量级编码辅助 | 简单的解释可能不需要最强大的模型 | 正确性、幻觉率、升级率 |
在发布之前,请避免说 Gemini 3.5 Flash "最适合" 这些任务。更安全的表述是:"如果 Google 发布该模型,这些是首先需要测试的工作负载。"
何时不应在没有更多测试的情况下使用 Flash 模型
即使在发布之后,Flash 模型在处理复杂或高风险任务之前也应经过仔细测试。
复杂推理
对于多步骤规划、模糊分析或困难调试,请使用真实的成功标准将 Flash 与更强大的模型进行比较,而不是假设速度就足够了。
编码 Agent
编码 Agent 需要可靠的规划、多文件上下文处理、差异生成和工具使用能力。未来的 Flash 模型可能对较小的编码子步骤有用,但复杂的代码仓库工作应单独进行基准测试。
长文档或高风险文档
法律、金融、医疗、安全和政策文档需要仔细审查。如果使用未来的 Flash 模型,请在适当的地方配合验证、回退和人工审核。
长上下文指令跟随
检查模型是否能在您计划使用的完整上下文中遵循指令。上下文长度、延迟和成本必须一起评估。
如何将 Flash 与 Pro 模型进行比较
如果 Gemini 3.5 Flash 和未来的 Gemini 3.5 Pro 都可用,请根据任务结果而非模型名称进行比较。
| 维度 | 比较内容 |
|---|---|
| 延迟 | 首 token 时间和完整生成时间 |
| Token 成本 | 官方输入、输出、缓存、批量、弹性和优先级定价 |
| 重试率 | 第一次回答未通过验证的频率 |
| 回退率 | Flash 需要升级到 Pro 或其他模型的频率 |
| 成功率 | 满足验收标准的任务百分比 |
| 每成功任务的成本 | 重试和回退后的混合成本 |
| 质量风险 | 对您的用例而言的错误严重程度 |
仅凭 token 价格是不够的。一个更便宜的模型如果产生更多的重试、失败的工具调用或人工审核,可能反而更贵。
生产路由检查清单
在将未来的 Gemini 3.5 Flash 模型添加到生产环境之前,请确保您的应用能够智能地测量和路由。
保持模型选择可配置
将模型 ID 和提供商特定选项存储在配置中。这样在 Google 发布、重命名、弃用或替换模型时,无需修改代码。
记录工作负载结果
追踪模型 ID、输入 token、输出 token、延迟、错误率、重试次数、回退次数,以及最终任务是否成功。
添加验证
对错误输出代价高昂的工作流,使用 Schema 验证、事实检查、特定任务测试或人工审核。
构建回退路径
为配额压力、上游中断、延迟尖峰和模型特定的质量退化做好规划。回退应基于实时信号,而不仅仅是静态规则。
发布后更新本文
一旦 Google 发布官方详情,请将本发布追踪框架替换为确切的模型 ID、定价、延迟观察和经过验证的生产建议。
使用 EvoLink 进行 Flash 模型评估
EvoLink 提供统一的 API 层,用于比较和管理多个模型系列。对于关注未来 Gemini Flash 模型的团队,这可以减少集成开销,并更轻松地跨提供商测试延迟、回退行为和工作负载级别的成本。
一旦 Gemini 3.5 Flash 出现在支持的上游渠道中,本页面将更新确切的模型 ID、定价说明、可用性详情和路由示例。
相关文章
- Gemini 3.5 Pro API 发布追踪 - 继续查看同组发布追踪
- Gemini 3.5 Pro 与 Flash 发布追踪 - 继续查看同组发布追踪
需要监控的官方来源
常见问题
Gemini 3.5 Flash 是否已在 API 中可用?
gemini-3.5-flash。Gemini 3.5 Flash 的模型 ID 是什么?
gemini-3.5-flash。Gemini 3.5 Flash 比 Gemini 3.5 Pro 更便宜吗?
这一点尚未确认。已检查的官方文档中没有 Gemini 3.5 Flash 的定价行,成本应通过 token 定价、重试率、回退率、延迟和每成功任务的成本来综合评估。
开发者应该首先监控什么?
关注官方模型列表、定价页面、发布说明和 Vertex/Google 模型文档。发布后,测试延迟、结构化输出可靠性、工具行为以及真实生产任务上的质量。
本页面后续能成为生产指南吗?
可以。在 Google 发布 Gemini 3.5 Flash 详情后,本页面将更新为确切的模型 ID、官方定价、上下文限制、速率限制、支持的渠道和经过验证的路由指导。


