Gemini 3 Flash Preview API

通过 EvoLink 访问 Google 的 Gemini 3 Flash Preview (gemini-3-flash-preview)，兼容 OpenAI SDK 并支持原生 Gemini API。发送文本、图像、视频、音频和 PDF 输入，具备 1,048,576 Token 的上下文窗口，并为生产负载提供缓存和批处理选项。

在用命令行编程工具？通过 EvoCode 运行 Gemini 3 Flash Preview —— 一个 API 接入所有代码 Agent 与 CLI。(查看文档)

模型类型:

✓Gemini 3 Flash Preview

价格:

$0.466(~ 31.7 credits) 每 100 万输入 tokens; $2.796(~ 190.1 credits) 每 100 万输出 tokens

$0.047(~ 3.2 credits) 每 100 万缓存读取 tokens; $0.932(~ 63.4 credits) 每 100 万音频 tokens

Google 搜索接地按查询单独计费。

面向生产工作负载的稳定托管接入。适合需要账单管理、API Key 控制和可预测集成体验的场景。

所有版本使用同一个 API 端点，仅 model 参数不同。

定价

方案	上下文窗口	最大输出	输入	输出	缓存读取	音频输入
Gemini 3 Flash	1,050,000	65,536	$0.467-7% （31.7 Credits）	$2.796-7% （190.1 Credits）	$0.048-6% （3.2 Credits）	$0.933-7% （63.4 Credits）
Web Search Tool 服务端联网搜索能力						$0.014/search （0.89 Credits）

定价说明：价格同时显示 USD 和 Credits；默认单位按 / 1M tokens 计算，特殊项目会单独标注。

缓存命中：适用于缓存的提示词 Tokens 价格。

音频输入：音频 token 按独立费率计费。

EvoLink 上的 Gemini 3 Flash Preview API

Gemini 3 Flash Preview 为速度和规模而生，能够理解文本、图像、视频、音频和 PDF，并处理海量上下文（高达 1M Token）。它为实时助手、文档理解和媒体分析提供清晰、可靠的回答。

利用 Gemini 3 Flash Preview 可以构建什么？

多模态输入，可靠的文本输出

单次请求可以包含文本、图像、视频、音频或 PDF，并返回文本输出。这使得总结会议、审查媒体内容以及提取结构化洞察变得简单，无需独立的处理流水线。

支持长会话的 1M Token 上下文

单次请求可处理高达 1,048,576 个输入 Token 和 65,536 个输出 Token。这让您能够在单一连贯的上下文中保留长文档、代码库或多轮对话。

工具、接地（Grounding）与推理

通过函数调用、代码执行、文件搜索、搜索接地和 URL 上下文使用思考和结构化输出。支持批处理 API 和缓存，以实现规模化和成本控制。

为什么为 Gemini 3 Flash Preview 选择 EvoLink

通过 OpenAI SDK 格式或 Google 原生 API 格式运行 gemini-3-flash-preview，享受官方 Gemini 能力和定价。

一次集成，两种格式

以 OpenAI SDK 或原生 Gemini 格式调用 Gemini 3 Flash Preview，无需更改应用逻辑。

批处理 + 缓存节省成本

使用批处理和上下文缓存降低重复成本，同时安全地扩展高业务量负载。

生产环境就绪

多模态输入、长上下文和工具支持覆盖了真实的生产级助手、分析和自动化工作流。

如何调用 Gemini 3 Flash Preview

选择 OpenAI SDK 或 Google 原生 API 格式，然后发送您的请求。

第 1 步 - 选择 API 格式

OpenAI SDK 格式：POST /v1/chat/completions，模型设为 "gemini-3-flash-preview"。原生 API 格式：POST /v1beta/models/gemini-3-flash-preview:{method}，方法使用 generateContent 或 streamGenerateContent。

第 2 步 - 添加鉴权与输入

包含 Authorization: Bearer <token>。发送包含文本或多模态部分（图像、视频、音频、PDF）的消息/内容。

第 3 步 - 流式传输或规模化

启用流式传输以获得实时用户体验，或使用 X-Async-Mode 返回任务 ID。结合批处理和缓存，实现高性价比的大规模运行。

技术规格

gemini-3-flash-preview 的官方模型能力

上下文

1,048,576 输入 Token

高达 1,048,576 个输入 Token 和 65,536 个输出 Token。

多模态

多模态输入

支持文本、图像、视频、音频和 PDF 输入，并返回文本输出。

推理

思考 + 结构化输出

支持思考和结构化输出，以获得可靠的、机器可读的结果。

工具

函数调用 + 工具

支持函数调用、代码执行和文件搜索。

规模

缓存 + 批处理

支持上下文缓存和批处理 API，适用于重复性或大规模负载。

接地

搜索接地 + URL 上下文

支持搜索接地和 URL 上下文（不支持 Google Maps 接地）。

Gemini 3 Flash Preview API 常见问题

Everything you need to know about the product and billing.

Gemini 3 Flash 是一款兼顾速度、规模和强大推理能力的均衡模型。它专为日常任务、智能体编程以及多模态、长上下文理解而设计，是生产负载的理想默认选择。

官方预览版模型名称为 "gemini-3-flash-preview"。请在请求中使用此确切标识符。

Gemini 3 Flash Preview 支持文本、图像、视频、音频和 PDF 输入，并返回文本输出。这使得在单一工作流中进行混合媒体总结、提取和问答成为可能。

它支持高达 1,048,576 个输入 Token 和 65,536 个输出 Token，为长文档、代码库或多轮会话提供了巨大的上下文窗口。

它支持函数调用、结构化输出、代码执行、文件搜索、思考、上下文缓存和批处理 API。支持搜索接地和 URL 上下文，以及多模态函数响应和带图像的代码执行。

不支持图像生成、音频生成和 Live API。该模型也不支持 Google Maps 接地。

最新更新列为 2025 年 12 月，知识截止日期为 2025 年 1 月。

EvoLink 支持 OpenAI SDK 格式 (POST /v1/chat/completions) 和 Google 原生 API 格式 (POST /v1beta/models/gemini-3-flash-preview:{method})，使用 generateContent 或 streamGenerateContent。请在请求标头中添加 Authorization: Bearer <token>。

Gemini 3 Flash Preview 价格为 $0.50 输入 / $3.00 输出每百万 Token，而 Gemini 3.1 Pro 为 $2.00 / $12.00。Flash 大约便宜 4-6 倍，取决于输出占比。Flash 针对速度和吞吐量优化，Pro 适合需要更深推理的任务。

支持。Gemini 3 Flash Preview 接受音频输入，价格为 $1.00 每百万 Token，同时也支持文本、图像、视频和 PDF。不支持音频输出和 Live API。

Gemini 3 Flash 在 Gemini 系列中的定位

Gemini 3 Flash Preview 是速度优先的 Gemini 3 模型。它以比 Gemini 3 Pro 低 6 倍的价格处理文本、图像、视频、音频和 PDF。需要更深层推理的任务请升级到 Gemini 3.1 Pro。需要更强推理能力请升级到 Pro，追求更低成本请选择 Flash Lite。

Gemini API Family Gemini 3.1 Pro Preview Gemini 3.1 Flash Lite Gemini 2.5 Flash