HappyHorse 1.0 正式上线立即体验
Gemini 3.5 Pro 与 Gemini 3.5 Flash:发布前对比追踪
发布观察

Gemini 3.5 Pro 与 Gemini 3.5 Flash:发布前对比追踪

EvoLink Team
EvoLink Team
Product Team
2026年5月18日
15 分钟阅读
截至 2026 年 5 月 18 日,Google 官方 Gemini API 和 Vertex/Google 模型文档中列出 Gemini 3.5 Pro、Gemini 3.5 Flash、gemini-3.5-progemini-3.5-flash。本页面是发布前的对比追踪,而非声称任一模型已经发布。

最安全的准备方式是将 Google 已确认的信息与开发者可能希望在 Google 后续发布这些模型名称时评估的内容区分开来。在此之前,请使用当前的官方 Gemini 模型进行生产规划,并将 Gemini 3.5 Pro 与 Gemini 3.5 Flash 的对比视为一个关注主题。

摘要

  • 截至 2026 年 5 月 18 日,已检查的 Google 官方文档中未列出 Gemini 3.5 Pro 和 Gemini 3.5 Flash。
  • 这些名称没有已确认的官方 API 模型 ID、定价行、上下文窗口、速率限制或发布说明。
  • 当前官方 Gemini 3 系列包括 Gemini 3.1 Pro、Gemini 3 Flash 和 Gemini 3.1 Flash-Lite 等模型。
  • 在 Google 确认模型和定价之前,请勿发布诸如 "3.5 Pro 更适合编码" 或 "3.5 Flash 更便宜" 之类的固定声明。
  • 如果 Google 发布了这两个名称,请按工作负载进行比较:每成功任务的成本、延迟、上下文行为、工具可靠性和回退率。

当前官方状态

下表反映了 2026 年 5 月 18 日的文档检查结果。
项目Gemini 3.5 ProGemini 3.5 Flash监控来源
官方发布未确认未确认Gemini API 发布说明
API 模型 ID未确认未确认Gemini API 模型列表
定价未确认未确认Gemini API 定价
Vertex/Google 模型可用性未确认未确认Google Cloud 模型文档
上下文窗口未确认未确认官方模型文档或模型卡片
工具和 Agent 支持未确认未确认官方能力表

这意味着 Gemini 3.5 Pro 和 Gemini 3.5 Flash 之间的任何详细比较目前都是一个准备框架,而非官方产品对比。

Google 当前列出的替代模型

Google 当前的 Gemini API 模型文档列出了 Gemini 3 系列模型,如 Gemini 3.1 ProGemini 3 FlashGemini 3.1 Flash-Lite 及相关的 Gemini 3 音频、图像和实时变体。同一文档指出 Gemini 3 Pro Preview 已于 2026 年 3 月 9 日弃用并关停,迁移指引指向 Gemini 3.1 Pro Preview。
定价页面包含 Gemini 3.1 Pro Preview 的定价行,包括 gemini-3.1-pro-previewgemini-3.1-pro-preview-customtools。已检查的官方文档中未提供 Gemini 3.5 Pro 或 Gemini 3.5 Flash 的定价。

从 SEO 和事实安全的角度,本文应针对发布追踪意图进行排名,而非声称是一个完整的 Pro 与 Flash 对比。

安全的对比框架

如果 Google 后续发布 Gemini 3.5 Pro 和 Gemini 3.5 Flash,开发者应使用实际的生产测量数据进行比较,而非根据名称进行推测。

维度Gemini 3.5 Pro 需要验证的内容Gemini 3.5 Flash 需要验证的内容
模型 ID确切的 API 字符串、预览或 GA 状态、渠道支持确切的 API 字符串、预览或 GA 状态、渠道支持
定价输入、输出、缓存、批量、弹性和优先级定价输入、输出、缓存、批量、弹性和优先级定价
延迟复杂任务的首 token 时间和完整生成时间高并发任务的首 token 时间和完整生成时间
上下文可用上下文窗口、输出限制、长上下文退化情况可用上下文窗口以及短上下文任务是否保持稳定
工具调用Schema 遵循、工具错误恢复、规划质量快速工具子步骤、提取可靠性、重试行为
实际成本每成功复杂任务的成本每成功高并发任务的成本
回退行为配额、延迟或质量故障时的处理方式Flash 何时应升级到 Pro 或其他模型

此对比应仅在模型出现在官方文档中,或您自己的发布后基准测试数据可用后才进行更新。

发布后 Pro 可能更优的场景

如果 Google 发布 Gemini 3.5 Pro 模型,对于质量和推理深度比原始延迟更重要的工作负载,它可能值得优先评估。但不要仅凭名称假设这一点,需要实际测试。

复杂推理

评估多步骤问题求解、任务分解和推理密集型工作流。测量任务完成率、重试率和每成功任务的成本。

编码 Agent

对于编码 Agent,请测试真实的代码仓库任务,而非短代码片段。追踪差异质量、工具调用可靠性、多文件上下文处理能力,以及模型是否能以更少的重试次数完成工作。

长上下文分析

首先检查官方上下文窗口。然后在实际的上下文长度下测试检索准确性、指令保持度和输出质量,包括您的产品实际使用的 token 范围。

高价值请求

对于战略、金融、法律、医疗或企业支持场景,请添加人工审核和安全检查。未来的 Pro 模型可能有助于提升质量,但不应单独替代领域安全措施。

发布后 Flash 可能更优的场景

如果 Google 发布 Gemini 3.5 Flash 模型,对于速度、规模和成本控制比最大推理深度更重要的工作负载,它可能值得优先评估。同样,请等待官方定价并测试实际模型。

低延迟产品流程

测量聊天自动补全、交互式助手、建议和短回复的首 token 时间和端到端延迟。

高并发任务

对于分类、提取、格式化、短摘要和路由决策,请计算每成功任务的成本,而非仅比较 token 价格。

Agent 子步骤

许多 Agent 工作流包含较小的步骤,如参数提取、输出格式化和状态摘要。Flash 模型只有在可靠性足够高、不会导致昂贵重试的情况下,才对这些步骤有用。

为什么路由通常优于固定选择

生产系统很少只有一种工作负载。一个典型的应用包含短请求、长请求、简单转换、困难推理任务、延迟敏感流程和高价值用户操作。静态的纯 Pro 或纯 Flash 配置通常会在成本或质量上有所损失。

工作负载发布后更安全的初始路由升级或回退信号
分类Flash 候选置信度或准确率下降时升级
短摘要Flash 候选长文档或含糊文档时升级
复杂分析Pro 候选延迟、配额或错误率飙升时回退
编码 Agent 规划Pro 候选与其他编码专用模型进行比较
工具参数提取Flash 候选反复出现 Schema 失败时升级
长上下文审查Pro 候选先验证上下文成本和准确性
高风险回答Pro 加安全措施添加人工审核或多模型验证

正确的生产问题不是 "永远选 Pro 还是 Flash?" 而是 "在当前的延迟、成本、质量和可靠性约束下,哪个模型应该处理这个请求?"

成本:不要仅比较 Token 价格

一个更便宜的模型如果产生更多的重试、失败会话、回退或人工审核,可能反而更贵。一个更昂贵的模型如果能以更少的尝试完成特定工作流的任务,可能反而更便宜。

在得出结论之前,请追踪以下指标:

指标重要原因
输入 token长提示会放大成本差异
输出 tokenAgent 和聊天工作流可能生成大量输出
重试率失败的尝试会倍增实际支出
回退率频繁升级会改变混合成本
延迟慢响应会损害产品体验和吞吐量
任务成功率每成功任务的成本才是有用的生产指标

避免使用虚假价格发布发布前的示例。一旦 Google 发布官方定价,请使用有来源的计算更新本文。

如何在 Gemini 3.5 发布前做好准备

将模型 ID 保存在配置中

不要硬编码推测性 ID,如 gemini-3.5-progemini-3.5-flash。将模型 ID 和路由规则存储在配置中,这样新模型可以在不重写应用代码的情况下进行测试。

记录工作负载结果

记录模型 ID、输入 token、输出 token、延迟、错误率、重试次数、回退次数和最终任务结果。这使得新模型在发布后能够快速评估。

设计回退路径

为模型不可用、配额限制、延迟尖峰和质量退化做好规划。健壮的模型层应该能够绕过故障进行路由,而不是将单一模型视为永久依赖。

将发布追踪与建议分开

在发布之前,撰写已确认的信息和需要关注的内容。发布之后,用官方定价、API ID、能力和经过验证的生产建议更新本文。

EvoLink 提供统一的 API 层,用于比较和管理多个模型系列。对于关注未来 Gemini 模型的团队,这可以减少集成开销,并更轻松地跨提供商测试模型路由、回退行为和工作负载级别的成本。

一旦 Gemini 3.5 Pro 或 Gemini 3.5 Flash 出现在支持的上游渠道中,本页面将更新确切的模型 ID、定价说明、可用性详情和路由示例。

相关文章

需要监控的官方来源

常见问题

Gemini 3.5 Pro 和 Gemini 3.5 Flash 是否已在 API 中可用?

根据 2026 年 5 月 18 日检查的 Google 官方文档,尚未可用。Google 的 Gemini API 模型列表、定价页面、发布说明和 Vertex/Google 模型文档中均未列出 Gemini 3.5 Pro、Gemini 3.5 Flash、gemini-3.5-progemini-3.5-flash

Gemini 3.5 Flash 比 Gemini 3.5 Pro 更便宜吗?

这一点尚未确认。已检查的官方文档中没有这两个模型名称的定价行。如果两者都发布了,请比较官方 token 定价和实际生产指标,如重试率、回退率、延迟和每成功任务的成本。

哪个更适合编码 Agent?

这一点尚未确认。如果未来的 Pro 模型发布,它可能是编码 Agent 规划和复杂代码仓库任务的候选者,但这必须通过真实的编码工作负载和官方能力详情来验证。

开发者应该为两个模型都做准备吗?

开发者可以通过使模型选择可配置、记录工作负载结果和设计回退路径来安全地做好准备。他们不应依赖推测性模型 ID 或在官方发布详情出来之前发布固定建议。

发布后应该更新什么?

更新本文的确切发布日期、模型 ID、API 渠道、定价、上下文窗口、速率限制、能力表,以及来自真实工作负载的经过验证的对比结果。

准备好把 AI 成本降低 89% 吗?

现在就开始使用 EvoLink,体验智能 API 路由的强大能力。