Gemini 3.1 Flash Lite API
- One API for Code Agents & CLIs. (View Docs)
$0.200(~ 14.4 credits) per 1M input tokens; $1.200(~ 86.4 credits) per 1M output tokens
$0.019(~ 1.4 credits) per 1M cache read tokens; $0.400(~ 28.8 credits) per 1M audio tokens
Google Search grounding charged separately per query.
稳定性最高,保证 99.9% 可用性。推荐用于生产环境。
所有版本使用同一个 API 端点,仅 model 参数不同。
适合翻译、抽取和文档处理的低成本 Gemini 模型
Gemini 3.1 Flash Lite 更适合高吞吐、可重试、对成本敏感的任务,在这类场景里价格、延迟和稳定批量处理通常比更高阶模型的结果质量更重要。它支持 1M 上下文、多模态输入和工具能力,适合作为更大 Gemini 架构里的低成本处理层。
页面主词
Gemini 3.1 Flash Lite API
请求模型 ID
gemini-3.1-flash-lite-preview

Gemini 3.1 Flash Lite API 最适合的场景
为什么通过 EvoLink 使用 Gemini 3.1 Flash Lite API
对于已经基于 OpenAI 风格基础设施交付产品的团队,EvoLink 能让 Gemini 3.1 Flash Lite 更容易落到生产:统一网关、迁移成本更低,也更适合把便宜模型和高阶模型放到同一套路由策略里。
继续沿用 OpenAI 风格工作流接入 Gemini
如果团队现在已经围绕 OpenAI SDK、统一鉴权和现有请求层开发,就可以在不重写核心调用结构的前提下接入 Gemini 3.1 Flash Lite。
把 Flash Lite 当成多模型栈里的低成本执行层
先把便宜的翻译、抽取和分类流量路由给 Flash Lite,再把更难或更高价值的请求切到更强模型,可以在同一个网关里完成。
比厂商专属接入更低的迁移成本
一个 API Key、OpenAI 兼容与原生 Gemini 两种请求格式,再加上缓存和 Batch 支持,让 Gemini 更容易和你现有模型目录一起运维。
如何使用 Gemini 3.1 Flash Lite API
这里保留接入概览:先确定请求格式,再使用正确的模型 ID,具体请求示例和参数细节继续放到文档页。
第 1 步 - 选择请求格式
Gemini 3.1 Flash Lite 可以通过 OpenAI 兼容请求或 Gemini 原生 API 调用,这样更容易接入已有工作流,而不用把整个调用链重写一遍。
第 2 步 - 使用当前请求模型 ID
生产请求中应使用精确的模型 ID `gemini-3.1-flash-lite-preview`。这样页面主词仍然围绕 Gemini 3.1 Flash Lite API,而实际调用也能对应到当前可用路由。
第 3 步 - 把合适的任务放到这条路由上
把翻译队列、抽取任务、打标和其他高吞吐任务优先放到 Flash Lite,再把边缘案例或更难的请求升级到更强模型。具体的请求体、参数和端点示例继续看文档。
Gemini 3.1 Flash Lite API 功能与限制
规划生产集成时最重要的核心能力与限制
1,050,000 输入 Token
高达 1,050,000 个输入 Token 和 65,536 个输出 Token。
多模态输入
支持文本、图像、视频、音频和 PDF 输入,并返回文本输出。
思考 + 结构化输出
支持思考和结构化输出,以获得可靠的、机器可读的结果。
函数调用 + 工具
支持函数调用、代码执行和搜索接地。
缓存 + 批处理
支持上下文缓存和批处理 API,适用于重复性或大规模负载。
超低成本
当前 EvoLink 的按量付费价格请以上方实时价格表为准。
Gemini 3.1 Flash Lite API 常见问题
Everything you need to know about the product and billing.
继续查看 Gemini 家族与接入内容
Gemini 3.1 Flash Lite 在 Gemini 家族里的位置
把这条路由理解成 Gemini 家族里的低成本执行层,而不是更强通用模型的替代品。它更适合高吞吐、可重试、批量化任务;当任务更难或更看重结果质量时,再升级到站内更高一档的 Flash 路线。
把家族模型入口和接入文章集中到一个区块里,减少重复跳转,也让页面角色更清楚。


