HappyHorse 1.0 即将上线了解更多

Gemini 2.5 Flash Lite API

你可以通过 EvoLink 用 OpenAI 兼容请求或 Gemini 原生请求接入 Gemini 2.5 Flash Lite。这条路由更适合低成本、大批量文本任务,而不是默认承担更强的 Gemini 推理工作。
价格: 

$0.081(~ 5.8 credits) per 1M input tokens; $0.321(~ 23.1 credits) per 1M output tokens

$0.0083(~ 0.6 credits) per 1M cache read tokens; $0.240(~ 17.3 credits) per 1M audio tokens

Google Search grounding charged separately per query.

稳定性最高,保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点,仅 model 参数不同。

Gemini 2.5 Flash Lite API

Gemini 2.5 Flash Lite 是 EvoLink 上成本最低的 Gemini 文本路由。适合翻译、分类、抽取、打标和摘要这类大批量任务;当低 Token 成本比升级到 Gemini 2.5 Flash 或 Pro 更重要时,就优先用它。

页面主词

Gemini 2.5 Flash Lite API

请求模型 ID

gemini-2.5-flash-lite

Gemini 2.5 Flash Lite API 展示

最适合的工作负载

翻译与本地化流水线

适合处理大批量商品文案、帮助中心文章、客服内容和多语言积压数据。这类任务更看重单位成本,而不是一开始就升级到更强的推理模型。

翻译与本地化流水线

分类、打标与抽取队列

很适合处理工单、表单、商品目录、CRM 记录或内部文本数据这类大规模队列,做标签归类、结构化字段抽取和路由判断。

分类打标与抽取队列

摘要与批量文本处理

可以把它放在低成本处理层,用来做长文本摘要、重复内容压缩或数据预处理,再把更难的边缘任务升级到 Gemini 2.5 Flash 或 Gemini 2.5 Pro。

摘要与批量文本处理

什么时候该选这条路由

当你把 Flash Lite 放在 Gemini 路由策略里的低成本层时,它的价值最清楚:一个网关、一套鉴权方式,以及把便宜的大批量处理和更强的 Gemini 路由拆开管理。

当成本和吞吐量是第一优先级时选 Flash Lite

如果工作负载主要是翻译、打标、抽取、摘要或批量文本清洗,Flash Lite 往往是更实际的起点,因为它能先把单位成本压下来,同时不用单独维护另一套接入路径。

不要让 Flash Lite 默认承担更难的推理任务

如果任务对质量门槛更高、推理链更复杂,或者边缘案例很多,Flash Lite 不应该成为整条链路的默认核心模型。

当质量比价格更重要时升级到 Gemini 2.5 Flash 或 Pro

需要更强的通用能力时升级到 Gemini 2.5 Flash;当任务本身值得更高的推理质量时,再升级到 Gemini 2.5 Pro。通过 EvoLink,把这层路由拆分出来会更容易运维。

如何开始

把这页当成快速路由指南:先确定请求格式,再使用正确模型 ID,具体请求语法继续放到文档里。

1

第 1 步 - 选择请求格式

根据你现有的技术栈,选择 OpenAI 兼容请求或 Gemini 原生请求来调用 Gemini 2.5 Flash Lite。

2

第 2 步 - 使用正确的模型 ID

这条路由的请求模型 ID 是 `gemini-2.5-flash-lite`。

3

第 3 步 - 把合适的任务放到这条路由上

优先把翻译、分类、抽取、打标、摘要和批量文本处理放到 Flash Lite;只有在任务需要更强 Gemini 路由时再升级。

核心能力与限制

判断这条路由是否适合你的工作负载时,最值得先看的生产信息

上下文

1,048,576 输入 Token

支持最多 1,048,576 个输入 Token,适合长 Prompt、大文档和批量文本处理。

输出

65,536 最大输出 Token

更适合标签、摘要、抽取结果和一般文本响应这类相对紧凑的输出。

输入

文本 + 音频输入,文本输出

支持文本和音频输入,返回文本输出,适合转写相关和文本处理工作流。

缓存

隐式缓存

当请求之间存在重叠上下文时,隐式缓存有助于降低重复 Token 成本。

规模

批处理 API

支持 Batch API,适合排队、离线或其他高吞吐处理模式。

定价

Gemini 文本路由里的最低成本选项

它在能力和价格上都位于 Gemini 2.5 Flash 之下,适合作为大批量文本任务的预算层。

Gemini 2.5 Flash Lite API 常见问题

Everything you need to know about the product and billing.

是的。Flash Lite 在价格和能力上都位于 Gemini 2.5 Flash 之下,更适合低成本的大批量文本任务。
支持。EvoLink 对这条路由同时提供 OpenAI 兼容请求和 Gemini 原生请求。
这条路由的请求模型 ID 是 `gemini-2.5-flash-lite`。
Gemini 2.5 Flash Lite 支持最多 1,048,576 个输入 Token,最多 65,536 个输出 Token。
支持。它支持文本和音频输入,返回文本输出。
当请求之间存在重叠上下文时,隐式缓存有机会降低重复 Token 成本。这对重复 Prompt 或批量处理工作负载尤其有用。
当任务主要是翻译、打标、抽取、摘要和其他大批量文本处理,并且最低可行成本比更强的通用能力更重要时,优先选 Flash Lite。
最适合翻译、分类、抽取、打标、摘要,以及其他把成本和吞吐量放在前面的批量文本处理工作负载。
支持。Gemini 2.5 Flash Lite 支持函数调用,但更适合被放在低成本文本路由上,而不是承担最复杂、最依赖工具推理的任务。

Gemini 路由的下一步

Flash Lite 在 Gemini 家族里的位置

把 Flash Lite 用在大批量文本处理上;需要更强的通用路线时升级到 Gemini 2.5 Flash;当任务本身值得更高推理质量时,再升级到 Gemini 2.5 Pro。

当你已经明确 Flash Lite 在模型栈里的角色后,可以从这里继续跳到更合适的 Gemini 路由或接入资料。