pricing

Gemini 3.5 Flash 定价指南：Token 费用、工作负载示例与生产预算

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink Team

Product Team

2026年5月20日

13 分钟阅读

最后验证时间：2026 年 5 月 20 日。以下定价数据基于 Google 官方模型文档以及 EvoLink 平台在该日期的核实信息。

Gemini 3.5 Flash 是 Google 面向大规模生产工作负载的稳定、高性价比模型。不过"高性价比"是相对的——$1.50/$9.00 每百万 Token 的价格介于 Gemini 3 Flash Preview 等低价方案和 Gemini 3.1 Pro 等高端模型之间。本指南逐一拆解各项定价维度，并展示真实生产场景下的实际开销。

要点速览

输入：$1.50 / 百万 Token
输出：$9.00 / 百万 Token
缓存命中：$0.15 / 百万 Token（缓存输入可节省 90%）
音频/视频输入：$1.50 / 百万 Token（与文本同价）
支持 Context Caching、Batch API 和 Google Search Grounding
最大的成本来源是输出 Token，而非输入——优先优化输出长度

完整定价表

Token 类型	每百万 Token 价格	备注
文本输入	$1.50	标准文本提示 Token
文本输出	$9.00	模型生成的响应 Token
缓存命中（输入）	$0.15	相比标准输入打 9 折；存储费用 $1.00/小时
音频输入	$1.50	处理后的音频 Token
视频输入	$1.50	处理后的视频帧 Token
图片输入	$1.50	处理后的图片 Token
PDF 输入	$1.50	处理后的文档 Token

Batch 与 Flex 定价

Google 还为非紧急工作负载提供折扣价格：

定价层级	输入 / 百万	输出 / 百万	适用场景
Standard	$1.50	$9.00	实时请求
Batch	$0.75	$4.50	异步批量处理
Flex	$0.75	$4.50	灵活交付时间
Priority	$2.70	$16.20	保证低延迟

Batch 和 Flex 定价相比标准费率提供 50% 折扣。

关键观察

输出 Token 的价格是输入的 6 倍，这是最重要的成本控制杠杆。
缓存命中可将输入成本降低 90%——但需考虑 $1.00/小时 的缓存存储费用。
Batch/Flex 定价可将非紧急工作负载的输入和输出成本减半。
所有多模态输入（音频、视频、图片、PDF）与文本输入同价。

Gemini 3.5 Flash 价格对比

模型	输入 / 百万	输出 / 百万	缓存命中 / 百万	上下文
Gemini 3.1 Flash Lite Preview	$0.25	$1.50	$0.025	1M
Gemini 3 Flash Preview	$0.50	$3.00	$0.05	1M
Claude Haiku 4.5	$1.00	$5.00	$0.10	200K
Gemini 3.5 Flash	$1.50	$9.00	$0.15	1M
Gemini 3.1 Pro	$2.00	$12.00	—	1M
Claude Sonnet 4.6	$3.00	$15.00	$0.30	200K

Gemini 3.5 Flash 定位为中端 Flash 模型——能力和稳定性优于预览版 Flash 模型，但价格远低于 Pro 或 Sonnet 级别。

工作负载成本示例

示例 1：分类流水线

大批量分类任务，提示短、响应短。

每日请求量：100,000 次
平均输入：500 Token / 请求
平均输出：50 Token / 请求
每日输入 Token：50M
每日输出 Token：5M

成本项	计算方式	日费用	月费用
输入	50M × $1.50/1M	$75.00	$2,250
输出	5M × $9.00/1M	$45.00	$1,350
合计		$120.00	$3,600

启用 Context Caching（80% 输入 Token 命中缓存）：

成本项	计算方式	日费用	月费用
输入（未缓存 20%）	10M × $1.50/1M	$15.00	$450
输入（缓存 80%）	40M × $0.15/1M	$6.00	$180
输出	5M × $9.00/1M	$45.00	$1,350
缓存后合计		$66.00	$1,980

在该场景下，缓存节省了 45% 的费用。

示例 2：编码 Agent

Agent 工作流，中等输入（代码上下文）、大量输出（生成代码）。

每日会话数：5,000 次
平均输入：10,000 Token / 会话
平均输出：3,000 Token / 会话
每日输入 Token：50M
每日输出 Token：15M

成本项	计算方式	日费用	月费用
输入	50M × $1.50/1M	$75.00	$2,250
输出	15M × $9.00/1M	$135.00	$4,050
合计		$210.00	$6,300

输出占总成本的 64%。将平均输出长度缩减 20%，每月可节省 $1,260。

示例 3：长上下文文档分析

处理大文档并生成摘要。

每日文档数：500 份
平均输入：100,000 Token / 文档
平均输出：2,000 Token / 文档
每日输入 Token：50M
每日输出 Token：1M

成本项	计算方式	日费用	月费用
输入	50M × $1.50/1M	$75.00	$2,250
输出	1M × $9.00/1M	$9.00	$270
合计		$84.00	$2,520

对于输入密集的长上下文工作负载，Context Caching 至关重要。假设 60% 的文档上下文可共享（通用页眉、模板、指令）：

| 缓存后合计 | | $48.00 | $1,440 |

缓存节省了 43%。

示例 4：多模态流水线（视频 + 音频）

处理带音频的视频内容，用于内容理解。

每日视频数：1,000 个
平均视频输入：20,000 Token / 视频
平均音频输入：5,000 Token / 视频
平均文本输入：1,000 Token / 视频
平均输出：500 Token / 视频
每日视频 Token：20M
每日音频 Token：5M
每日文本 Token：1M
每日输出 Token：500K

成本项	计算方式	日费用	月费用
视频输入	20M × $1.50/1M	$30.00	$900
音频输入	5M × $1.50/1M	$7.50	$225
文本输入	1M × $1.50/1M	$1.50	$45
输出	0.5M × $9.00/1M	$4.50	$135
合计		$43.50	$1,305

多模态定价非常直接——所有输入类型采用相同费率。

成本优化策略

1. 积极使用 Context Caching

Context Caching 可将输入成本降低 90%。建议缓存以下内容：

系统提示和指令
Few-shot 示例
跨请求共享的文档上下文
重复的工具定义和 Schema

2. 优化输出长度

输出 Token 的价格是输入的 6 倍。优化策略包括：

将 max_tokens 设为任务所需的最小值
使用结构化输出 Schema 约束响应格式
分类任务采用枚举式输出，避免冗余解释
提取任务仅返回目标字段

3. 非紧急工作负载使用 Batch API

Batch API 通常为可接受较高延迟的工作负载提供更低定价，适用于：

夜间数据处理
批量分类
文档分析流水线
评估与测试

4. 按工作负载分层路由

并非每个请求都需要 Gemini 3.5 Flash。将简单任务路由到更便宜的模型：

工作负载复杂度	推荐模型	理由
简单分类	Gemini 3.1 Flash Lite Preview ($0.25/$1.50)	输入输出均便宜 6 倍
标准提取	Gemini 3 Flash Preview ($0.50/$3.00)	便宜 3 倍，简单任务够用
Agent 子步骤	Gemini 3.5 Flash ($1.50/$9.00)	GA 级稳定性，更强推理
复杂推理	Gemini 3.1 Pro ($2.00/$12.00)	困难任务质量更高

5. 关注每成功任务的成本，而非单纯的 Token 费用

一个便宜但需要重试 3 次的模型，实际成本可能超过一次就成功的贵模型。建议追踪：

每次请求的 Token 成本
重试率
回退率
每成功任务的成本（含重试和回退）

容易忽视的成本因素

重试

如果 10% 的请求未通过验证需要重试，就要在 Token 预算上增加 10%。对于多步骤 Agent 工作流，重试成本会跨步骤叠加。

回退到更强模型

如果 Gemini 3.5 Flash 无法处理 5% 的请求、需要回退到 Gemini 3.1 Pro，记得将这部分按 Pro 级定价计入预算。

Agent 循环中的上下文增长

Agent 工作流在多步骤执行中往往会不断累积上下文。一个 5 步 Agent 循环可能消耗初始提示 2-3 倍的输入 Token。预算时要考虑上下文增长，而不仅仅是首次请求。

速率限制带来的额外开销

触发速率限制后的排队或重试，带来的延迟不仅是 Token 开支的问题，还会转化为工程时间成本和用户体验损失。

常见问题

使用 Gemini 3.5 Flash 最省钱的方式是什么？

启用 Context Caching 缓存重复提示、使用结构化 Schema 约束输出长度、非紧急任务使用 Batch API、将简单任务路由到更便宜的 Flash 模型。

Gemini 3.5 Flash 比 Claude Haiku 4.5 更便宜吗？

不是。Claude Haiku 4.5 在输入（$1.00 vs $1.50）和输出（$5.00 vs $9.00）每百万 Token 上都更便宜。但 Gemini 3.5 Flash 提供 1M 上下文（vs 200K），并原生支持 Haiku 不具备的多模态输入。

Context Caching 能省多少？

缓存命中价格为 $0.15 / 百万 Token，标准输入为 $1.50——降低了 90%。对于包含共享系统提示或重复上下文的工作负载，缓存可将总成本降低 30-50%。

Gemini 3.5 Flash 比 Gemini 3.1 Pro 更便宜吗？

是的。Gemini 3.5 Flash 输入便宜 25%（$1.50 vs $2.00），输出也便宜 25%（$9.00 vs $12.00）。

如何估算月度费用？

公式：(每日输入 Token × $1.50/1M) + (每日输出 Token × $9.00/1M) × 30。然后减去 Context Caching 节省的部分，加上重试和回退带来的额外开销。

在 EvoLink 上规划 Gemini 3.5 Flash 工作负载预算

EvoLink 提供统一 API，支持跨所有 Gemini 模型的用量监控和成本追踪。一个集成即可完成成本对比、预算告警设置以及 Flash 层级间的路由切换。

参考来源

所有文章

#Gemini 3.5 Flash #API pricing #token cost #production budgeting #cost optimization