
Gemini 3.5 Flash 定价指南:Token 费用、工作负载示例与生产预算

$1.50/$9.00 每百万 Token 的价格介于 Gemini 3 Flash Preview 等低价方案和 Gemini 3.1 Pro 等高端模型之间。本指南逐一拆解各项定价维度,并展示真实生产场景下的实际开销。要点速览
- 输入:$1.50 / 百万 Token
- 输出:$9.00 / 百万 Token
- 缓存命中:$0.15 / 百万 Token(缓存输入可节省 90%)
- 音频/视频输入:$1.50 / 百万 Token(与文本同价)
- 支持 Context Caching、Batch API 和 Google Search Grounding
- 最大的成本来源是输出 Token,而非输入——优先优化输出长度
完整定价表
| Token 类型 | 每百万 Token 价格 | 备注 |
|---|---|---|
| 文本输入 | $1.50 | 标准文本提示 Token |
| 文本输出 | $9.00 | 模型生成的响应 Token |
| 缓存命中(输入) | $0.15 | 相比标准输入打 9 折;存储费用 $1.00/小时 |
| 音频输入 | $1.50 | 处理后的音频 Token |
| 视频输入 | $1.50 | 处理后的视频帧 Token |
| 图片输入 | $1.50 | 处理后的图片 Token |
| PDF 输入 | $1.50 | 处理后的文档 Token |
Batch 与 Flex 定价
Google 还为非紧急工作负载提供折扣价格:
| 定价层级 | 输入 / 百万 | 输出 / 百万 | 适用场景 |
|---|---|---|---|
| Standard | $1.50 | $9.00 | 实时请求 |
| Batch | $0.75 | $4.50 | 异步批量处理 |
| Flex | $0.75 | $4.50 | 灵活交付时间 |
| Priority | $2.70 | $16.20 | 保证低延迟 |
关键观察
- 输出 Token 的价格是输入的 6 倍,这是最重要的成本控制杠杆。
- 缓存命中可将输入成本降低 90%——但需考虑
$1.00/小时的缓存存储费用。 - Batch/Flex 定价可将非紧急工作负载的输入和输出成本减半。
- 所有多模态输入(音频、视频、图片、PDF)与文本输入同价。
Gemini 3.5 Flash 价格对比
| 模型 | 输入 / 百万 | 输出 / 百万 | 缓存命中 / 百万 | 上下文 |
|---|---|---|---|---|
| Gemini 3.1 Flash Lite Preview | $0.25 | $1.50 | $0.025 | 1M |
| Gemini 3 Flash Preview | $0.50 | $3.00 | $0.05 | 1M |
| Claude Haiku 4.5 | $1.00 | $5.00 | $0.10 | 200K |
| Gemini 3.5 Flash | $1.50 | $9.00 | $0.15 | 1M |
| Gemini 3.1 Pro | $2.00 | $12.00 | — | 1M |
| Claude Sonnet 4.6 | $3.00 | $15.00 | $0.30 | 200K |
工作负载成本示例
示例 1:分类流水线
大批量分类任务,提示短、响应短。
每日请求量:100,000 次
平均输入:500 Token / 请求
平均输出:50 Token / 请求
每日输入 Token:50M
每日输出 Token:5M
| 成本项 | 计算方式 | 日费用 | 月费用 |
|---|---|---|---|
| 输入 | 50M × $1.50/1M | $75.00 | $2,250 |
| 输出 | 5M × $9.00/1M | $45.00 | $1,350 |
| 合计 | $120.00 | $3,600 |
启用 Context Caching(80% 输入 Token 命中缓存):
| 成本项 | 计算方式 | 日费用 | 月费用 |
|---|---|---|---|
| 输入(未缓存 20%) | 10M × $1.50/1M | $15.00 | $450 |
| 输入(缓存 80%) | 40M × $0.15/1M | $6.00 | $180 |
| 输出 | 5M × $9.00/1M | $45.00 | $1,350 |
| 缓存后合计 | $66.00 | $1,980 |
示例 2:编码 Agent
Agent 工作流,中等输入(代码上下文)、大量输出(生成代码)。
每日会话数:5,000 次
平均输入:10,000 Token / 会话
平均输出:3,000 Token / 会话
每日输入 Token:50M
每日输出 Token:15M
| 成本项 | 计算方式 | 日费用 | 月费用 |
|---|---|---|---|
| 输入 | 50M × $1.50/1M | $75.00 | $2,250 |
| 输出 | 15M × $9.00/1M | $135.00 | $4,050 |
| 合计 | $210.00 | $6,300 |
输出占总成本的 64%。将平均输出长度缩减 20%,每月可节省 $1,260。
示例 3:长上下文文档分析
处理大文档并生成摘要。
每日文档数:500 份
平均输入:100,000 Token / 文档
平均输出:2,000 Token / 文档
每日输入 Token:50M
每日输出 Token:1M
| 成本项 | 计算方式 | 日费用 | 月费用 |
|---|---|---|---|
| 输入 | 50M × $1.50/1M | $75.00 | $2,250 |
| 输出 | 1M × $9.00/1M | $9.00 | $270 |
| 合计 | $84.00 | $2,520 |
对于输入密集的长上下文工作负载,Context Caching 至关重要。假设 60% 的文档上下文可共享(通用页眉、模板、指令):
示例 4:多模态流水线(视频 + 音频)
处理带音频的视频内容,用于内容理解。
每日视频数:1,000 个
平均视频输入:20,000 Token / 视频
平均音频输入:5,000 Token / 视频
平均文本输入:1,000 Token / 视频
平均输出:500 Token / 视频
每日视频 Token:20M
每日音频 Token:5M
每日文本 Token:1M
每日输出 Token:500K
| 成本项 | 计算方式 | 日费用 | 月费用 |
|---|---|---|---|
| 视频输入 | 20M × $1.50/1M | $30.00 | $900 |
| 音频输入 | 5M × $1.50/1M | $7.50 | $225 |
| 文本输入 | 1M × $1.50/1M | $1.50 | $45 |
| 输出 | 0.5M × $9.00/1M | $4.50 | $135 |
| 合计 | $43.50 | $1,305 |
多模态定价非常直接——所有输入类型采用相同费率。
成本优化策略
1. 积极使用 Context Caching
Context Caching 可将输入成本降低 90%。建议缓存以下内容:
- 系统提示和指令
- Few-shot 示例
- 跨请求共享的文档上下文
- 重复的工具定义和 Schema
2. 优化输出长度
输出 Token 的价格是输入的 6 倍。优化策略包括:
- 将
max_tokens设为任务所需的最小值 - 使用结构化输出 Schema 约束响应格式
- 分类任务采用枚举式输出,避免冗余解释
- 提取任务仅返回目标字段
3. 非紧急工作负载使用 Batch API
Batch API 通常为可接受较高延迟的工作负载提供更低定价,适用于:
- 夜间数据处理
- 批量分类
- 文档分析流水线
- 评估与测试
4. 按工作负载分层路由
并非每个请求都需要 Gemini 3.5 Flash。将简单任务路由到更便宜的模型:
| 工作负载复杂度 | 推荐模型 | 理由 |
|---|---|---|
| 简单分类 | Gemini 3.1 Flash Lite Preview ($0.25/$1.50) | 输入输出均便宜 6 倍 |
| 标准提取 | Gemini 3 Flash Preview ($0.50/$3.00) | 便宜 3 倍,简单任务够用 |
| Agent 子步骤 | Gemini 3.5 Flash ($1.50/$9.00) | GA 级稳定性,更强推理 |
| 复杂推理 | Gemini 3.1 Pro ($2.00/$12.00) | 困难任务质量更高 |
5. 关注每成功任务的成本,而非单纯的 Token 费用
一个便宜但需要重试 3 次的模型,实际成本可能超过一次就成功的贵模型。建议追踪:
- 每次请求的 Token 成本
- 重试率
- 回退率
- 每成功任务的成本(含重试和回退)
容易忽视的成本因素
重试
如果 10% 的请求未通过验证需要重试,就要在 Token 预算上增加 10%。对于多步骤 Agent 工作流,重试成本会跨步骤叠加。
回退到更强模型
如果 Gemini 3.5 Flash 无法处理 5% 的请求、需要回退到 Gemini 3.1 Pro,记得将这部分按 Pro 级定价计入预算。
Agent 循环中的上下文增长
Agent 工作流在多步骤执行中往往会不断累积上下文。一个 5 步 Agent 循环可能消耗初始提示 2-3 倍的输入 Token。预算时要考虑上下文增长,而不仅仅是首次请求。
速率限制带来的额外开销
触发速率限制后的排队或重试,带来的延迟不仅是 Token 开支的问题,还会转化为工程时间成本和用户体验损失。
常见问题
使用 Gemini 3.5 Flash 最省钱的方式是什么?
启用 Context Caching 缓存重复提示、使用结构化 Schema 约束输出长度、非紧急任务使用 Batch API、将简单任务路由到更便宜的 Flash 模型。
Gemini 3.5 Flash 比 Claude Haiku 4.5 更便宜吗?
不是。Claude Haiku 4.5 在输入($1.00 vs $1.50)和输出($5.00 vs $9.00)每百万 Token 上都更便宜。但 Gemini 3.5 Flash 提供 1M 上下文(vs 200K),并原生支持 Haiku 不具备的多模态输入。
Context Caching 能省多少?
缓存命中价格为 $0.15 / 百万 Token,标准输入为 $1.50——降低了 90%。对于包含共享系统提示或重复上下文的工作负载,缓存可将总成本降低 30-50%。
Gemini 3.5 Flash 比 Gemini 3.1 Pro 更便宜吗?
是的。Gemini 3.5 Flash 输入便宜 25%($1.50 vs $2.00),输出也便宜 25%($9.00 vs $12.00)。
如何估算月度费用?
(每日输入 Token × $1.50/1M) + (每日输出 Token × $9.00/1M) × 30。然后减去 Context Caching 节省的部分,加上重试和回退带来的额外开销。在 EvoLink 上规划 Gemini 3.5 Flash 工作负载预算
EvoLink 提供统一 API,支持跨所有 Gemini 模型的用量监控和成本追踪。一个集成即可完成成本对比、预算告警设置以及 Flash 层级间的路由切换。
相关阅读:
- Gemini 3.5 Flash API — 产品页,含定价、模型 ID 和 Playground
- Gemini 3.5 Flash vs Gemini 3 Flash Preview — 代际对比与成本分析
- Gemini 3.5 Flash vs Claude Haiku 4.5 — 跨系列成本对比
- Gemini 3.5 Flash for Coding Agents — Agent 成本分析
在 EvoLink 上探索:
- Gemini 3.5 Flash API — $1.50/$9.00 / 百万 Token
- Gemini 3 Flash Preview API — $0.50/$3.00 / 百万 Token
- Gemini API 全系列 — 按价格对比所有 Gemini 路由


