Gemini Omni 即将上线了解更多
Gemini 3.5 Flash 定价指南:Token 费用、工作负载示例与生产预算
pricing

Gemini 3.5 Flash 定价指南:Token 费用、工作负载示例与生产预算

EvoLink Team
EvoLink Team
Product Team
2026年5月20日
13 分钟阅读
最后验证时间:2026 年 5 月 20 日。以下定价数据基于 Google 官方模型文档以及 EvoLink 平台在该日期的核实信息。
Gemini 3.5 Flash 是 Google 面向大规模生产工作负载的稳定、高性价比模型。不过"高性价比"是相对的——$1.50/$9.00 每百万 Token 的价格介于 Gemini 3 Flash Preview 等低价方案和 Gemini 3.1 Pro 等高端模型之间。本指南逐一拆解各项定价维度,并展示真实生产场景下的实际开销。

要点速览

  • 输入:$1.50 / 百万 Token
  • 输出:$9.00 / 百万 Token
  • 缓存命中:$0.15 / 百万 Token(缓存输入可节省 90%)
  • 音频/视频输入:$1.50 / 百万 Token(与文本同价)
  • 支持 Context Caching、Batch API 和 Google Search Grounding
  • 最大的成本来源是输出 Token,而非输入——优先优化输出长度

完整定价表

Token 类型每百万 Token 价格备注
文本输入$1.50标准文本提示 Token
文本输出$9.00模型生成的响应 Token
缓存命中(输入)$0.15相比标准输入打 9 折;存储费用 $1.00/小时
音频输入$1.50处理后的音频 Token
视频输入$1.50处理后的视频帧 Token
图片输入$1.50处理后的图片 Token
PDF 输入$1.50处理后的文档 Token

Batch 与 Flex 定价

Google 还为非紧急工作负载提供折扣价格:

定价层级输入 / 百万输出 / 百万适用场景
Standard$1.50$9.00实时请求
Batch$0.75$4.50异步批量处理
Flex$0.75$4.50灵活交付时间
Priority$2.70$16.20保证低延迟
Batch 和 Flex 定价相比标准费率提供 50% 折扣

关键观察

  • 输出 Token 的价格是输入的 6 倍,这是最重要的成本控制杠杆。
  • 缓存命中可将输入成本降低 90%——但需考虑 $1.00/小时 的缓存存储费用。
  • Batch/Flex 定价可将非紧急工作负载的输入和输出成本减半。
  • 所有多模态输入(音频、视频、图片、PDF)与文本输入同价。

Gemini 3.5 Flash 价格对比

模型输入 / 百万输出 / 百万缓存命中 / 百万上下文
Gemini 3.1 Flash Lite Preview$0.25$1.50$0.0251M
Gemini 3 Flash Preview$0.50$3.00$0.051M
Claude Haiku 4.5$1.00$5.00$0.10200K
Gemini 3.5 Flash$1.50$9.00$0.151M
Gemini 3.1 Pro$2.00$12.001M
Claude Sonnet 4.6$3.00$15.00$0.30200K
Gemini 3.5 Flash 定位为中端 Flash 模型——能力和稳定性优于预览版 Flash 模型,但价格远低于 Pro 或 Sonnet 级别。

工作负载成本示例

示例 1:分类流水线

大批量分类任务,提示短、响应短。

每日请求量:100,000 次 平均输入:500 Token / 请求 平均输出:50 Token / 请求 每日输入 Token:50M 每日输出 Token:5M
成本项计算方式日费用月费用
输入50M × $1.50/1M$75.00$2,250
输出5M × $9.00/1M$45.00$1,350
合计$120.00$3,600

启用 Context Caching(80% 输入 Token 命中缓存):

成本项计算方式日费用月费用
输入(未缓存 20%)10M × $1.50/1M$15.00$450
输入(缓存 80%)40M × $0.15/1M$6.00$180
输出5M × $9.00/1M$45.00$1,350
缓存后合计$66.00$1,980
在该场景下,缓存节省了 45% 的费用。

示例 2:编码 Agent

Agent 工作流,中等输入(代码上下文)、大量输出(生成代码)。

每日会话数:5,000 次 平均输入:10,000 Token / 会话 平均输出:3,000 Token / 会话 每日输入 Token:50M 每日输出 Token:15M
成本项计算方式日费用月费用
输入50M × $1.50/1M$75.00$2,250
输出15M × $9.00/1M$135.00$4,050
合计$210.00$6,300

输出占总成本的 64%。将平均输出长度缩减 20%,每月可节省 $1,260。

示例 3:长上下文文档分析

处理大文档并生成摘要。

每日文档数:500 份 平均输入:100,000 Token / 文档 平均输出:2,000 Token / 文档 每日输入 Token:50M 每日输出 Token:1M
成本项计算方式日费用月费用
输入50M × $1.50/1M$75.00$2,250
输出1M × $9.00/1M$9.00$270
合计$84.00$2,520

对于输入密集的长上下文工作负载,Context Caching 至关重要。假设 60% 的文档上下文可共享(通用页眉、模板、指令):

| 缓存后合计 | | $48.00 | $1,440 |
缓存节省了 43%。

示例 4:多模态流水线(视频 + 音频)

处理带音频的视频内容,用于内容理解。

每日视频数:1,000 个 平均视频输入:20,000 Token / 视频 平均音频输入:5,000 Token / 视频 平均文本输入:1,000 Token / 视频 平均输出:500 Token / 视频 每日视频 Token:20M 每日音频 Token:5M 每日文本 Token:1M 每日输出 Token:500K
成本项计算方式日费用月费用
视频输入20M × $1.50/1M$30.00$900
音频输入5M × $1.50/1M$7.50$225
文本输入1M × $1.50/1M$1.50$45
输出0.5M × $9.00/1M$4.50$135
合计$43.50$1,305

多模态定价非常直接——所有输入类型采用相同费率。

成本优化策略

1. 积极使用 Context Caching

Context Caching 可将输入成本降低 90%。建议缓存以下内容:

  • 系统提示和指令
  • Few-shot 示例
  • 跨请求共享的文档上下文
  • 重复的工具定义和 Schema

2. 优化输出长度

输出 Token 的价格是输入的 6 倍。优化策略包括:

  • max_tokens 设为任务所需的最小值
  • 使用结构化输出 Schema 约束响应格式
  • 分类任务采用枚举式输出,避免冗余解释
  • 提取任务仅返回目标字段

3. 非紧急工作负载使用 Batch API

Batch API 通常为可接受较高延迟的工作负载提供更低定价,适用于:

  • 夜间数据处理
  • 批量分类
  • 文档分析流水线
  • 评估与测试

4. 按工作负载分层路由

并非每个请求都需要 Gemini 3.5 Flash。将简单任务路由到更便宜的模型:

工作负载复杂度推荐模型理由
简单分类Gemini 3.1 Flash Lite Preview ($0.25/$1.50)输入输出均便宜 6 倍
标准提取Gemini 3 Flash Preview ($0.50/$3.00)便宜 3 倍,简单任务够用
Agent 子步骤Gemini 3.5 Flash ($1.50/$9.00)GA 级稳定性,更强推理
复杂推理Gemini 3.1 Pro ($2.00/$12.00)困难任务质量更高

5. 关注每成功任务的成本,而非单纯的 Token 费用

一个便宜但需要重试 3 次的模型,实际成本可能超过一次就成功的贵模型。建议追踪:

  • 每次请求的 Token 成本
  • 重试率
  • 回退率
  • 每成功任务的成本(含重试和回退)

容易忽视的成本因素

重试

如果 10% 的请求未通过验证需要重试,就要在 Token 预算上增加 10%。对于多步骤 Agent 工作流,重试成本会跨步骤叠加。

回退到更强模型

如果 Gemini 3.5 Flash 无法处理 5% 的请求、需要回退到 Gemini 3.1 Pro,记得将这部分按 Pro 级定价计入预算。

Agent 循环中的上下文增长

Agent 工作流在多步骤执行中往往会不断累积上下文。一个 5 步 Agent 循环可能消耗初始提示 2-3 倍的输入 Token。预算时要考虑上下文增长,而不仅仅是首次请求。

速率限制带来的额外开销

触发速率限制后的排队或重试,带来的延迟不仅是 Token 开支的问题,还会转化为工程时间成本和用户体验损失。

常见问题

使用 Gemini 3.5 Flash 最省钱的方式是什么?

启用 Context Caching 缓存重复提示、使用结构化 Schema 约束输出长度、非紧急任务使用 Batch API、将简单任务路由到更便宜的 Flash 模型。

Gemini 3.5 Flash 比 Claude Haiku 4.5 更便宜吗?

不是。Claude Haiku 4.5 在输入($1.00 vs $1.50)和输出($5.00 vs $9.00)每百万 Token 上都更便宜。但 Gemini 3.5 Flash 提供 1M 上下文(vs 200K),并原生支持 Haiku 不具备的多模态输入。

Context Caching 能省多少?

缓存命中价格为 $0.15 / 百万 Token,标准输入为 $1.50——降低了 90%。对于包含共享系统提示或重复上下文的工作负载,缓存可将总成本降低 30-50%。

Gemini 3.5 Flash 比 Gemini 3.1 Pro 更便宜吗?

是的。Gemini 3.5 Flash 输入便宜 25%($1.50 vs $2.00),输出也便宜 25%($9.00 vs $12.00)。

如何估算月度费用?

公式:(每日输入 Token × $1.50/1M) + (每日输出 Token × $9.00/1M) × 30。然后减去 Context Caching 节省的部分,加上重试和回退带来的额外开销。

EvoLink 提供统一 API,支持跨所有 Gemini 模型的用量监控和成本追踪。一个集成即可完成成本对比、预算告警设置以及 Flash 层级间的路由切换。

相关阅读:

在 EvoLink 上探索:

参考来源

准备好把 AI 成本降低 89% 吗?

现在就开始使用 EvoLink,体验智能 API 路由的强大能力。