Gemini 2.5 Flash API
定价
| 方案 | 上下文窗口 | 最大输出 | 输入 | 输出 | 缓存读取 |
|---|---|---|---|---|---|
| Gemini 2.5 Flash | 1.05M | 65.5K | $0.240-20% $0.300官方价格 | $2.00-20% $2.50官方价格 | $0.024-21% $0.030官方价格 |
| Gemini 2.5 Flash (Beta) | 1.05M | 65.5K | $0.078-74% $0.300官方价格 | $0.650-74% $2.50官方价格 | $0.008-74% $0.030官方价格 |
定价说明: 价格单位:USD / 1M tokens
缓存命中: 适用于缓存的提示词 Tokens 价格。
在 EvoLink 上运行 Gemini 2.5 Flash 有两种方式,您可以选择适合您需求的层级。
- · Gemini 2.5 Flash: 默认层级,适合生产环境的可靠性和可预测的可用性。
- · Gemini 2.5 Flash (Beta): 低成本层级,尽力而为的可用性;推荐用于可接受重试的工作负载。
面向快速、可扩展多模态应用的 Gemini 2.5 Flash API
在单次请求中处理海量上下文和混合媒体。Gemini 2.5 Flash 接受文本、图像、视频和音频输入,返回文本输出,并支持长上下文,助力团队大规模交付实时支持、内容理解和内部自动化。

Gemini 2.5 Flash API 的能力
高吞吐量响应
Gemini 2.5 Flash 专为大规模、低延迟负载而生。将其用于客户聊天、产品发现或用户期望快速回答的实时仪表盘。EvoLink 在您扩展并发量时保持集成简单,使同一模型能同时驱动原型和生产流量。

多模态理解
借助 Gemini 2.5 Flash,单次请求可以包含文本、图像、视频剪辑或音频。这使得总结会议、审查产品照片或从培训视频中提取关键时刻变得简单。您将获得易于存储、搜索并路由到下游工具的文本输出。

智能体工作流就绪
Gemini 2.5 Flash 支持函数调用、结构化输出和上下文缓存,使智能体能够调用工具、可靠地返回 JSON 并复用大型指令。这对于工单分类、政策检查、目录清理以及其他注重一致性和速度的可重复任务非常理想。

为什么开发者选择 Gemini 2.5 Flash
专为大规模、低延迟、高业务量负载打造,具备多模态输入和长上下文能力。
面向用户体验的极速响应
针对大规模处理和低延迟、高业务量任务进行了优化,是实时智能体和助手的自然选择。
无复杂性的规模化扩展
使用 EvoLink 的 OpenAI SDK 格式,通过单一的 /v1/chat/completions 端点,配合可选的流式传输提升感知速度。
设计之初即考虑成本
支持缓存、函数调用和结构化输出,减少重复工作并保持自动化工作流的可预测性。
如何集成 Gemini 2.5 Flash
EvoLink 支持 Gemini 2.5 Flash 的 Google 原生 API 格式,提供流式传输和异步选项。
第 1 步 — 获取密钥
创建 EvoLink API 密钥,并在每次 Gemini 2.5 Flash 请求中将其作为 Bearer 令牌发送。
第 2 步 — 选择方法
使用 generateContent 获取完整响应,或使用 streamGenerateContent 获取实时分块,并发送包含文本或多模态输入的 contents 数组。
第 3 步 — 通过异步实现规模化
将 X-Async-Mode 设置为 true 以接收任务 ID,然后查询任务端点并读取 usageMetadata 中的 Token 计数以进行跟踪。
Gemini 2.5 Flash 模型亮点
快速、长上下文,专为多模态理解而建
1M Token 窗口
Gemini 2.5 Flash 支持高达 1,048,576 个输入 Token 和高达 65,536 个输出 Token,支持在单次请求中处理长文档、大型代码库或数小时的转录文本。
多模态输入
在单次 Gemini 2.5 Flash 调用中发送文本、图像、视频或音频并接收文本输出,非常适合跨团队的总结、问答和内容审核。
函数调用 + 结构化输出
模型支持函数调用和结构化输出,使工作流能够触发工具并返回一致的 JSON,用于下游自动化和分析。非常适合需要可预测 Schema 的集成。
上下文缓存
支持缓存功能,当您在多次 Gemini 2.5 Flash 请求中复用长指令或共享文档时,可减少重复的提示词 Token,从而降低延迟和成本。
流式传输与异步模式
选择 streamGenerateContent 获取实时 Token,或启用 X-Async-Mode 进行后台处理并返回任务 ID。这让团队能够在用户体验速度与重型批处理任务之间取得平衡。
用量元数据可见性
响应包含 usageMetadata,列出提示词和候选 Token 计数,使工程和财务团队能够轻松跟踪和优化 Gemini 2.5 Flash 的成本。
Gemini 2.5 Flash API 常见问题
Everything you need to know about the product and billing.