Gemini 3.1 Flash Lite API

Gemini 3.1 Flash Lite 是一个低成本、高吞吐的 Gemini 模型,适合翻译、抽取、分类和文档处理等任务。你可以通过 EvoLink 用 OpenAI 兼容接口或 Gemini 原生接口接入它,当前请求模型 ID 为 gemini-3.1-flash-lite-preview。
价格: 

$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens

$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens

Google Search grounding charged separately per query.

稳定性最高,保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点,仅 model 参数不同。

适合翻译、抽取和文档处理的低成本 Gemini 模型

Gemini 3.1 Flash Lite 更适合高吞吐、可重试、对成本敏感的任务,在这类场景里价格、延迟和稳定批量处理通常比更高阶模型的结果质量更重要。它支持 1M 上下文、多模态输入和工具能力,适合作为更大 Gemini 架构里的低成本处理层。

页面主词

Gemini 3.1 Flash Lite API

请求模型 ID

gemini-3.1-flash-lite-preview

Gemini 3.1 Flash Lite API 展示

Gemini 3.1 Flash Lite API 最适合的场景

低成本大批量处理

Flash Lite 很适合作为更大 AI 架构里的低成本处理层。可以先跑翻译回填、打标队列、抽取任务和第一轮分类,再把边缘案例升级到更强模型。

低成本处理展示

多模态输入与 1M 上下文

单次请求可发送文本、图像、视频、音频或 PDF,支持高达 1,050,000 个输入 Token。处理长文档、批量内容或多轮对话,无需分割上下文。

长上下文展示

智能体任务和工具使用

支持函数调用、结构化输出、思考、代码执行、搜索接地和缓存。它更适合放在多模型流水线里承担低成本 Agent 子步骤、检索清洗和结构化预处理。

智能体任务展示

为什么通过 EvoLink 使用 Gemini 3.1 Flash Lite API

对于已经基于 OpenAI 风格基础设施交付产品的团队,EvoLink 能让 Gemini 3.1 Flash Lite 更容易落到生产:统一网关、迁移成本更低,也更适合把便宜模型和高阶模型放到同一套路由策略里。

继续沿用 OpenAI 风格工作流接入 Gemini

如果团队现在已经围绕 OpenAI SDK、统一鉴权和现有请求层开发,就可以在不重写核心调用结构的前提下接入 Gemini 3.1 Flash Lite。

把 Flash Lite 当成多模型栈里的低成本执行层

先把便宜的翻译、抽取和分类流量路由给 Flash Lite,再把更难或更高价值的请求切到更强模型,可以在同一个网关里完成。

比厂商专属接入更低的迁移成本

一个 API Key、OpenAI 兼容与原生 Gemini 两种请求格式,再加上缓存和 Batch 支持,让 Gemini 更容易和你现有模型目录一起运维。

如何使用 Gemini 3.1 Flash Lite API

这里保留接入概览:先确定请求格式,再使用正确的模型 ID,具体请求示例和参数细节继续放到文档页。

1

第 1 步 - 选择请求格式

Gemini 3.1 Flash Lite 可以通过 OpenAI 兼容请求或 Gemini 原生 API 调用,这样更容易接入已有工作流,而不用把整个调用链重写一遍。

2

第 2 步 - 使用当前请求模型 ID

生产请求中应使用精确的模型 ID `gemini-3.1-flash-lite-preview`。这样页面主词仍然围绕 Gemini 3.1 Flash Lite API,而实际调用也能对应到当前可用路由。

3

第 3 步 - 把合适的任务放到这条路由上

把翻译队列、抽取任务、打标和其他高吞吐任务优先放到 Flash Lite,再把边缘案例或更难的请求升级到更强模型。具体的请求体、参数和端点示例继续看文档。

Gemini 3.1 Flash Lite API 功能与限制

规划生产集成时最重要的核心能力与限制

上下文

1,050,000 输入 Token

高达 1,050,000 个输入 Token 和 65,536 个输出 Token。

多模态

多模态输入

支持文本、图像、视频、音频和 PDF 输入,并返回文本输出。

推理

思考 + 结构化输出

支持思考和结构化输出,以获得可靠的、机器可读的结果。

工具

函数调用 + 工具

支持函数调用、代码执行和搜索接地。

规模

缓存 + 批处理

支持上下文缓存和批处理 API,适用于重复性或大规模负载。

定价

超低成本

当前 EvoLink 的按量付费价格请以上方实时价格表为准。

Gemini 3.1 Flash Lite API 常见问题

Everything you need to know about the product and billing.

是的。Gemini 3.1 Flash Lite 更适合作为 Flash 家族里的低成本路线,用来承接高吞吐任务。在这类工作负载里,价格和吞吐量通常比更高一档 Gemini Flash 模型的通用能力更重要。
支持。EvoLink 同时支持 OpenAI 兼容请求 `POST /v1/chat/completions`,也支持 Google 原生 API 请求 `POST /v1beta/models/gemini-3.1-flash-lite-preview:{method}`。
Gemini 3.1 Flash Lite 支持最多 1,050,000 个输入 Token 和 65,536 个输出 Token,适合长文档处理、大批量任务和多步骤处理流水线。
可以。Gemini 3.1 Flash Lite 支持文本、图像、视频、音频和 PDF 输入,输出为文本,适合抽取、总结和多模态文档处理工作流。
API 请求中应使用精确的预览模型标识符 `gemini-3.1-flash-lite-preview`。这条页面路由面向 Gemini 3.1 Flash Lite API,但请求模型 ID 仍然是 preview 标识符。
如果你的任务是翻译、抽取、分类、打标这类更偏高并发、可重试、对成本敏感的工作负载,优先继续用 Flash Lite;如果你更看重结果质量或任务难度更高,再升级到更强的 Gemini Flash 路线。
它最适合对成本敏感、吞吐量高的任务,例如翻译、分类、抽取、打标、文档处理和轻量 Agent 工作流。在这些场景里,低延迟和低成本通常比前沿级深度推理更重要。
该模型不支持图像生成、音频生成和 Live API,也不支持 Google Maps grounding。它更适合低成本文本输出工作流,而不是实时或生成式媒体任务。

继续查看 Gemini 家族与接入内容

Gemini 3.1 Flash Lite 在 Gemini 家族里的位置

把这条路由理解成 Gemini 家族里的低成本执行层,而不是更强通用模型的替代品。它更适合高吞吐、可重试、批量化任务;当任务更难或更看重结果质量时,再升级到站内更高一档的 Flash 路线。

把家族模型入口和接入文章集中到一个区块里,减少重复跳转,也让页面角色更清楚。