DeepSeek V4 Flash API

DeepSeek V4 Flash 是 V4 系列的快速通用档。1M 上下文、思考模式可选,成本比 Claude Sonnet 低一个数量级——EvoLink 上支持 OpenAI 和 Anthropic 两种端点调用。

模型类型:

价格:

$0.147(~ 10 credits) 每 100 万输入 tokens; $0.294(~ 20 credits) 每 100 万输出 tokens

$0.0029(~ 0.2 credits) 每 100 万缓存读取 tokens

稳定性最高，保证 99.9% 可用性。推荐用于生产环境。

所有版本使用同一个 API 端点，仅 model 参数不同。

DeepSeek V4 Flash —— 1M 上下文的快速编码模型

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Flash 是 DeepSeek V4 的默认快速档:面向编码优化的质量,成本只有 Claude Sonnet 或 GPT-5.4 的几分之一。1M 上下文、可选思考模式,同时提供 OpenAI 与 Anthropic 两种端点——用你原有的 SDK 就能接入。

定价

方案	上下文窗口	最大输出	输入	输出	缓存读取
DeepSeek V4 Flash	1,000,000	384,000	$0.147 （10 Credits）	$0.294 （20 Credits）	$0.003 （0.20 Credits）

定价说明：价格同时显示 USD 和 Credits；默认单位按 / 1M tokens 计算，特殊项目会单独标注。

缓存命中：适用于缓存的提示词 Tokens 价格。

DeepSeek V4 Flash API 是什么?

DeepSeek V4 系列的快速档,生产可用,兼容 OpenAI 和 Anthropic 协议。

档位

V4 系列的快速档

Flash 是 DeepSeek V4 的快速通用档,围绕编码和长上下文任务调优。想以更低延迟、更低成本拿到接近 Pro 的质量,就用它。

上下文

1M Token 上下文

Flash 开放 1M 上下文窗口——足以在一次调用里吃下完整仓库、长文档或多轮 Agent 轨迹。

缓存

缓存感知定价

DeepSeek V4 自动缓存提示词前缀,命中缓存时输入按基础价的 20% 计费——Agent 循环里重复的 system prompt 和工具 schema 省大钱。

用 DeepSeek V4 Flash 能做什么?

高吞吐代码补全

Flash 低延迟 + 低定价,非常适合 IDE 内自动补全、行内建议、CI 阶段代码审查。即使扩展到百万级请求,预算也不会爆。

长上下文代码分析

1M 上下文一次性塞下中小型整个仓库,适合架构 review、依赖审计、迁移规划——那些不需要 Pro 级推理深度的场景。

高性价比批处理

Flash 本身低价,叠加自动前缀缓存(命中部分 8 折),批量测试生成、摘要、文档任务成本比同等 Claude/GPT 负载低 10-15 倍。

为什么通过 EvoLink 调用 DeepSeek V4 Flash

双端点(OpenAI + Anthropic)、首日上线、自动回退、统一计费——一把 API Key 覆盖 Flash、Pro、Claude、GPT。

OpenAI 与 Anthropic 双端点

Flash 同时挂在 /v1/chat/completions(OpenAI)和 /v1/messages(Anthropic)两个路径下。想用哪种 SDK 都行,不需要迁移就能试新模型。

自动回退

Flash 遇到限流时,EvoLink 可按配置回退到 Pro、Claude 或 GPT,pipeline 不停摆,无需人工切换。

跨厂商 A/B 测

一把 API Key 覆盖 Flash、Pro、Claude、GPT。在你自己的代码库上跑相同任务,直接比质量、延迟和成本。

如何接入 DeepSeek V4 Flash

只换一个 model ID——不换 SDK、不换端点、不换账单。

第 1 步 —— 获取 API Key

到 evolink.ai/signup 注册。EvoLink Key 同时适用于 Flash、Pro、Claude、GPT 以及 200+ 其他模型。已经有账号?直接跳到第 2 步。

第 2 步 —— 调用 API

将 base URL 设为 https://evolink.ai/v1,请求里 model 字段填 "deepseek-v4-flash"。完全兼容 OpenAI SDK——用过 openai.chat.completions.create(...) 的代码,只改 base URL 就能跑。偏好 Anthropic 风格?改调用 /v1/messages,模型 ID 不变,header 换成 x-api-key 即可——同一个模型。

第 3 步 —— 按需开启思考模式

Flash 默认关闭思考以追求速度。需要更强推理时,在请求里加 thinking: {"type": "enabled"} 即可——同一个模型,不需要切换。

查看 API 文档

DeepSeek V4 Flash & Pro vs Claude Opus 4.7 vs GPT-5.4

给团队做 API 选型时的实用对比：低成本默认路由、进阶升级路由，以及闭源旗舰基线怎么选。

角色	DeepSeek V4 Flash	DeepSeek V4 Pro	Claude Opus 4.7 / GPT-5.4
定位	低成本默认路由	高质量升级路由	闭源旗舰基线
输入价格	$0.14 / 1M	$0.44 / 1M	$5.00 / $2.50 per 1M
输出价格	$0.28 / 1M	$0.88 / 1M	$25.00 / $15.00 per 1M
上下文	1M	1M	200K / 1,050K
最大输出	384K	384K	32K / 128K
适合场景	高吞吐编码与路由	更复杂的编码与推理任务	最高质量与企业级兜底

查看完整对比：DeepSeek V4 vs Claude vs GPT →

常见问题

Everything you need to know about the product and billing.

Flash 是 DeepSeek V4 系列的默认快速档,面向高吞吐编码、摘要、Agent 负载,支持可选思考模式和 1M 上下文。

延迟敏感或高吞吐场景(自动补全、批量分析、聊天机器人)用 Flash;需要深度推理、复杂调试、架构规划时用 Pro。两者共用同一把 EvoLink API Key,可以按请求混搭。

支持。默认关闭以追求速度,请求里加 thinking: {"type": "enabled"} 就能开启。Pro 是默认开启的。

可以。EvoLink 同时把 Flash 挂在 /v1/chat/completions(OpenAI)和 /v1/messages(Anthropic)两个路径。模型 ID 一样,API Key 一样,你用哪种 SDK 都行。

DeepSeek 会自动缓存提示词前缀。请求命中缓存时,命中部分按基础输入价的 20% 计费。无需配置——只要在多次调用里复用相同的 system prompt 或工具 schema 就会自动省钱。

1M tokens(约 1,048,576)。最大输出 384K tokens。

Flash 目标是接近 Sonnet 4.7 的编码质量,但每 token 成本只有其大约十分之一。对基准敏感的场景,建议用同一把 EvoLink Key 把两者都跑一遍,在你自己的 eval 上对比。

有。EvoLink 通过多条 DeepSeek 通道自动扩容,上游被限流时会回退到其他模型。具体每分钟 / 每日配额看用户组,在后台 dashboard 查看。

可以。同一把 Key,同一笔账单,请求里改个 model ID 就行。

DeepSeek 已开源历代主要模型。想自托管请去 DeepSeek 官方仓库看 V4 权重;不想折腾硬件就用 EvoLink 的托管访问。