
Claude Fable 5 API 开发者指南:接入、路由、成本与评估

- 能不能调用
claude-fable-5? - 最小请求应该怎么写?
- 哪些信息已经由官方确认?
- 哪些能力必须在 EvoLink 上重新验证?
- Fable 5 什么时候值得替代或升级 Opus 4.8?
- 如何控制上下文、缓存、输出长度、安全限制和 fallback 成本?
- 把真实用户流量路由到 Fable 5 之前,应该记录哪些指标?
快速结论
当请求一旦失败就会产生高昂成本时,Fable 5 才最值得使用:大型代码库架构判断、困难重构、长链路 Agent、关键长上下文分析、上线前最终决策综合等。大多数高价值 Claude 工作负载仍应先以 Opus 4.8 作为强默认,更简单或高频的请求则应该继续留给 Sonnet 或 Haiku。
| 决策点 | 建议 |
|---|---|
| 最先用于测试前沿难度 Claude 任务的模型 | Claude Fable 5 |
| 大多数高难 Claude 任务的默认高级路由 | Claude Opus 4.8 |
| 高频简单任务 | Sonnet 或 Haiku |
| Fable 5 模型 ID | claude-fable-5 |
| 官方标价 | 输入 $10 / MTok,输出 $50 / MTok |
| 上下文窗口 | 1M tokens |
| 最大输出 | 128K tokens |
| 最大上线风险 | 成本漂移,以及敏感工作流中的 safeguard 行为 |
目录
- Claude Fable 5 是什么?
- 已确认事实与仍需验证的内容
- 通过 EvoLink 快速调用 Claude Fable 5 API
- 请求结构拆解
- 代码示例:curl、Node.js 和 Python
- 价格与生产成本模型
- 长上下文、输出与缓存策略
- 什么时候用 Fable 5,而不是 Opus 4.8?
- 安全限制、拒答与 fallback 规划
- 上线前评估框架
- EvoLink 上的分阶段发布计划
- 监控与日志清单
- 常见错误
- 资料来源与 FAQ
Claude Fable 5 是什么?
claude-fable-5。Anthropic 将它放在 Opus 之上,面向最高难度推理、长链路 Agent 和复杂代码任务。从 EvoLink 的角度,更关键的是这句话:
Fable 5 是多模型系统中的高级路由,而不是把所有 Claude 调用都升级到最贵模型的理由。
这点很重要。早期搜索需求并不只是“发布了什么模型”。开发者真正关心的是:
- 模型 ID 是什么;
- 是否可以通过 API 调用;
- 价格是多少;
- safeguard 是否会影响正常技术工作;
- 是否应该替代 Opus 4.8;
- 如何在不失控烧钱的前提下测试它。
本文围绕这些生产问题展开。
已确认事实与仍需验证的内容
先区分两类信息:一类是 Anthropic 官方已经确认的模型事实,另一类是你在 EvoLink 账户、路由和日志中仍需验证的生产事实。
| 维度 | 状态 | 已确认内容 | EvoLink 用户需要验证什么 |
|---|---|---|---|
| 模型名称 | 官方确认 | Claude Fable 5 | 当前账户是否已开通该路由 |
| 模型 ID | 官方确认 | claude-fable-5 | 该 ID 是否能在你的 endpoint 上成功调用 |
| 可用性 | 官方确认 | 2026 年 6 月 9 日起在列出的 Claude 渠道 generally available | EvoLink 账户、地区、计费权限是否可用 |
| 上下文窗口 | 官方确认 | 1M token context window | 实际请求体大小、超时和成本表现 |
| 最大输出 | 官方确认 | 128K output tokens | 当前 EvoLink 路由的输出上限与响应限制 |
| 官方价格 | 官方确认 | 输入 $10 / MTok,输出 $50 / MTok | EvoLink 当前 credits、折扣和 SKU 计费 |
| Prompt caching | 官方价格存在 | Anthropic 文档列出 cache write / cache hit 价格 | EvoLink 当前是否支持、如何计费 |
| Adaptive thinking | 官方确认 | Anthropic 文档描述了 Fable 5 的 adaptive thinking 行为 | EvoLink 暴露了哪些高级控制参数 |
| Safeguards | 官方确认 | 高风险请求可能触发额外处理 | 敏感工作流是否受影响 |
| Mythos 5 | 官方确认 | 通过 Project Glasswing 等渠道 limited availability | 不要假设 EvoLink 自助可用 |
上线前还需要确认的能力
Claude Fable 5 的官方模型事实已经明确,但生产接入还取决于你的 EvoLink 账户、路由配置和日志能力。下面这些能力不要只靠推测,建议在灰度前逐项验证:
| 需要确认的能力 | 为什么要确认 |
|---|---|
| Anthropic 原生参数是否都会透传 | 避免把未支持参数写进生产调用 |
| 当前 Fable 5 路由是否支持 streaming | 影响前端体验、超时处理和响应解析 |
| 当前 Fable 5 路由是否支持 vision input | 影响截图、文档图像和多模态工作流 |
| 当前 Fable 5 路由是否支持 tool use | 影响 Agent、函数调用和工具编排 |
| Prompt caching 是否启用,以及如何计费 | 影响长上下文成本模型 |
| Safeguard 或 fallback 是否能在日志中看到 | 影响排障、合规和用户提示 |
| Claude Mythos 5 是否可用 | 不要把 limited availability 模型当作自助可用路由 |
通过 EvoLink 快速调用 Claude Fable 5 API
第一步不应该直接构建完整 Agent,而是先做最小路由测试。
第 1 步:创建 EvoLink API Key
在 EvoLink 控制台创建 API key,并把它保存在服务端环境变量里:
export EVOLINK_API_KEY="your_api_key_here"不要把 API key 放进浏览器代码、公开仓库、前端可见环境变量或 analytics 日志。
第 2 步:发送最小请求
model 和 max_tokens。Claude 路由应使用 EvoLink 的 Claude Messages API endpoint:https://direct.evolink.ai/v1/messages。curl https://direct.evolink.ai/v1/messages \
-H "Authorization: Bearer $EVOLINK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-fable-5",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": "请审查这个迁移计划,并指出三个最高风险假设。"
}
]
}'如果请求成功,只能说明路由可用;这还不能证明它适合生产。
第 3 步:使用真正困难的测试 prompt
Fable 5 应该用在 premium model 真正有意义的任务上。不要用普通的 hello world 判断它是否值得上线。
| 测试类型 | 比 hello world 更好的测试 |
|---|---|
| 代码库架构 | “基于这些服务和约束,给出迁移顺序和风险优先级。” |
| Agent 恢复 | “审查这段失败的工具调用轨迹,并推荐下一步最安全动作。” |
| 长上下文分析 | “综合这份规格、事故时间线和日志片段,给出根因分析计划。” |
| 成本敏感决策 | “比较三个实现方案,并指出每个方案最可能失败的地方。” |
第 4 步:记录结果
至少记录:
- model;
- route;
- latency;
- input tokens;
- output tokens;
- 如果可用,记录 cache 使用情况;
- error 或 refusal reason;
- retry count;
- 输出是否被人工或系统接受。
请求结构拆解
对大多数团队来说,第一个有用抽象是普通 chat request。
| 字段 | 作用 | 建议 |
|---|---|---|
model | 选择模型路由 | Fable 5 使用 claude-fable-5 |
max_tokens | Claude Messages API 的输出上限 | 生产环境应设置明确上限 |
messages | 用户与 assistant 消息 | 指令要清晰、紧凑 |
system | 顶层系统指令 | 需要系统提示时放在顶层字段,不要混入 messages |
| 高级推理控制 | 可能影响深度、成本和延迟 | 依赖前先验证路由支持 |
| tools | 在支持时启用工具调用 | 工具行为要单独测试 |
| stream | 在支持时启用流式输出 | 先验证客户端和路由行为 |
| metadata | 便于日志和归因 | 不要放密钥或个人敏感信息 |
不要一开始就打开所有高级选项。先用最小请求跑通,再一次只增加一个生产能力。
代码示例:curl、Node.js 和 Python
下面示例使用 EvoLink 的 Claude Messages API。如果你的账户使用不同的 Claude 路由,请以 EvoLink 当前文档为准。
curl
curl https://direct.evolink.ai/v1/messages \
-H "Authorization: Bearer $EVOLINK_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "claude-fable-5",
"max_tokens": 1024,
"system": "你正在审查生产架构。请保持简洁,并明确标记风险。",
"messages": [
{
"role": "user",
"content": "评估这个 billing migration 应该大爆炸发布,还是分阶段发布。"
}
]
}'Node.js fetch
const response = await fetch("https://direct.evolink.ai/v1/messages", {
method: "POST",
headers: {
Authorization: `Bearer ${process.env.EVOLINK_API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
model: "claude-fable-5",
max_tokens: 1024,
messages: [
{
role: "user",
content:
"请审查这个长链路 coding agent 计划,指出最危险的步骤,并给出更安全的 fallback。",
},
],
}),
})
if (!response.ok) {
const errorText = await response.text()
throw new Error(`EvoLink request failed: ${response.status} ${errorText}`)
}
const data = await response.json()
console.log(data)Python requests
import os
import requests
response = requests.post(
"https://direct.evolink.ai/v1/messages",
headers={
"Authorization": f"Bearer {os.environ['EVOLINK_API_KEY']}",
"Content-Type": "application/json",
},
json={
"model": "claude-fable-5",
"max_tokens": 1024,
"messages": [
{
"role": "user",
"content": "比较两个架构方案,并解释哪个方案 rollback 风险更低。",
}
],
},
timeout=120,
)
response.raise_for_status()
print(response.json())价格与生产成本模型
Anthropic 官方价格是成本模型的起点:

| 模型 | 输入 | 5m cache write | 1h cache write | Cache hit | 输出 |
|---|---|---|---|---|---|
| Claude Fable 5 | $10 / MTok | $12.50 / MTok | $20 / MTok | $1 / MTok | $50 / MTok |
| Claude Opus 4.8 | $5 / MTok | $6.25 / MTok | $10 / MTok | $0.50 / MTok | $25 / MTok |
| Claude Sonnet 4.6 | $3 / MTok | $3.75 / MTok | $6 / MTok | $0.30 / MTok | $15 / MTok |
| Claude Haiku 4.5 | $1 / MTok | $1.25 / MTok | $2 / MTok | $0.10 / MTok | $5 / MTok |
EvoLink 用户仍然需要查看产品页和账单日志,因为账户 credits、折扣或路由级计费可能不同于厂商公开标价。
估算任务成本,而不是只看 token 单价
生产环境中,更合理的单位是“一个完成的工作流”:
completed_task_cost =
input_cost
+ output_cost
+ cache_write_cost
+ tool_costs
+ retry_cost
+ fallback_cost
+ human_review_cost使用 Fable 5 的理由不是“它更新”,而是它可能在最困难任务上减少重试、错误计划、人工审查时间或返工成本。
| 场景 | 比标价更重要的指标 |
|---|---|
| Coding agent | 每个被接受代码改动的成本 |
| 架构审查 | 每个通过审批迁移方案的成本 |
| 长文档综合 | 每个被验证摘要或决策 memo 的成本 |
| 面向客户的 assistant | 每个已解决会话的成本 |
| 安全或研究工作流 | 每个合规完成分析的成本 |
长上下文、输出与缓存策略
Claude Fable 5 支持 1M token 上下文和 128K 最大输出。这很强,但如果把上下文窗口当成垃圾桶,也会迅速制造浪费。
上下文策略
| 模式 | 适用情况 | 风险 |
|---|---|---|
| Full-context request | 整个 repo、spec 或证据包都重要 | 输入成本高 |
| Retrieval-first request | 只有部分内容相关 | 检索可能漏掉关键上下文 |
| Summarize then escalate | 想先用更便宜模型预处理 | 摘要可能丢失细节 |
| Cache stable context | 重复指令或参考文档会复用 | 必须验证 cache 支持和计费 |
| Route by uncertainty | 只有困难 turn 升级到 Fable | 需要置信度信号 |
输出策略
输出侧很贵。要明确告诉模型你需要什么形态:
- “给出 10 步迁移计划”;
- “返回包含 risk、evidence、mitigation 的表格”;
- “先列出 blocking issues”;
- “除非我要求,不要重写文件”;
- “最后给出 go / no-go 建议”。
长输出只有在替代真实工程工作时才有价值。如果只是重复上下文、输出泛泛解释,或生成你不会使用的推测方案,那就是浪费。
什么时候用 Fable 5,而不是 Opus 4.8?
Fable 5 应该用于既困难又高价值的请求。
| 工作负载 | 先用 Opus 4.8 | 升级到 Fable 5 |
|---|---|---|
| Coding agent | 大多数高价值代码任务 | 跨 repo 架构、高风险迁移、Opus 多次失败 |
| 长上下文 | 范围明确的大文档或代码库 | 结论高风险、依赖多源材料的决策 |
| 规划 | 多步骤实现计划 | 失败会造成高昂清理或回滚成本 |
| 审查 | 高价值代码或策略审查 | 高风险发布前最终审查 |
| 客服或运营 assistant | 复杂但常规的问题 | 高价值账户或合规风险升级 |
安全限制、拒答与 fallback 规划
Fable 5 属于 Anthropic 的 Mythos-class rollout。Anthropic 官方文档确认,Claude Fable 5 包含 safety classifiers,某些请求可能被拒绝;被拒绝的请求需要按 refusal 和 fallback 流程处理。媒体和社区围绕安全、科研、合规、模型训练等敏感场景有大量讨论,但生产文案里不要把这些讨论当成 API 行为事实。
这并不意味着正常开发工作一定有问题。它的意思是:如果你的产品涉及敏感类别,你需要专门测试。
| 工作流领域 | 上线前要测试什么 |
|---|---|
| 安全或合规相关工作 | 正常、合法的分析是否能稳定完成 |
| 合规审查 | 拒答是否能被用户理解 |
| 研究工作流 | 合法研究任务是否没有静默降级 |
| Coding agent | 工具密集型 prompt 是否可见地失败,而不是无声失败 |
| 企业支持 | 日志是否能看到 route、error、refusal 和 fallback |
Fallback 策略
不要把 fallback 做成隐藏的质量补丁。它必须可观测。
| 事件 | 可能动作 |
|---|---|
| Fable 路由不可用 | 重试一次,然后 fallback 到 Opus 4.8 |
| 成本 guardrail 超限 | 后续类似请求降级到 Opus 或 Sonnet |
| 敏感 prompt 被拒 | 展示清晰产品提示,并记录类别 |
| 长输出超预算 | 要求更短、更结构化回答 |
| 工具工作流失败 | 用更小任务重放,或切到已验证模型 |
上线前评估框架
在把 Fable 5 推到生产前,用真实任务构建一个小型评估集。

| 评估维度 | 要测什么 | 通过条件 |
|---|---|---|
| 质量 | 人工接受率、正确性、完整性 | 在目标困难任务上超过 Opus 4.8 |
| 成本 | tokens、retry、cache hit、输出长度 | 更高 token 成本能被更好结果抵消 |
| 延迟 | 首个有用答案时间和总完成时间 | 对用户工作流可接受 |
| 安全行为 | 拒答、fallback、敏感类别处理 | 可预测且可记录 |
| 可靠性 | error rate 和 retry rate | 足够稳定,可进入有限生产 |
| 路由 | escalation 规则是否选对请求 | 只有有价值任务才使用 Fable |
建议评估集
先准备 20 到 50 个任务:
- 10 个困难代码或 repo 任务;
- 10 个长上下文分析任务;
- 如果相关,5 个敏感但合法的 prompt;
- 5 个高价值决策 prompt;
- 5 个 Opus 4.8 已知失败案例;
- 5 个应该留在便宜模型上的普通任务。
最后一组很重要。好的路由策略不仅知道什么时候用 Fable 5,也要知道什么时候不要用。
EvoLink 上的分阶段发布计划
不要一步迁移全部流量,建议分阶段上线。
| 阶段 | 流量 | 目标 |
|---|---|---|
| Lab test | 仅内部 prompt | 验证路由访问和基本质量 |
| Replay test | 历史困难 prompt | 与 Opus 4.8 做对比 |
| Shadow test | 同一用户请求,但不展示 Fable 结果 | 安全测质量和成本 |
| Limited production | 内部或可信用户 | 验证真实行为 |
| Policy rollout | 只路由符合升级规则的请求 | 控制成本 |
| Review cycle | 第一个月每周复盘 | 调整 prompt、路由和 guardrails |
监控与日志清单
如果不能观察 Fable 5 的行为,就不应该安全地路由它。
建议记录:
| 字段 | 为什么重要 |
|---|---|
model | 确认选中了哪个模型 |
| route family | 对比 Fable、Opus、Sonnet、Haiku |
| prompt category | 识别敏感或高成本负载 |
| input tokens | 跟踪上下文膨胀 |
| output tokens | 跟踪最贵的一侧 |
| cache usage | 判断重复上下文是否被优化 |
| latency | 衡量用户影响 |
| retry count | 揭示隐藏成本 |
| fallback model | 看到路由变化 |
| refusal or error reason | 用于调试和产品提示 |
| accepted output | 把模型成本和业务价值关联起来 |
常见错误
| 错误 | 更好的做法 |
|---|---|
| 把所有 Claude 流量都路由到 Fable 5 | 只把困难、高价值请求升级到 Fable |
| 只比较一个聪明 prompt | 重放真实生产 traces |
| 忽略输出长度 | 明确输出形态和预算 |
| 把 1M context 当免费空间 | 检索、压缩、缓存并计量 |
| 假设所有高级参数都可用 | 先验证 EvoLink 路由支持 |
| 隐藏 fallback 行为 | 记录并让它可调试 |
| 只用厂商标价估算成本 | 在 EvoLink 上按完成任务成本估算 |
| 混用 Fable 5 和 Mythos 5 文案 | Fable 是 GA 路由,Mythos 是 limited availability |
内链集群
这些页面应该配合使用:
| 页面 | 用途 |
|---|---|
| Claude Fable 5 API on EvoLink | 产品页、模型 ID、实时价格、API 接入 |
| Claude API models on EvoLink | Claude 家族模型选择 |
| How to use Claude Fable 5 API | 第一次成功调用和接入步骤 |
| Claude Fable 5 vs Claude Opus 4.8 | 升级和路由决策 |
| Claude Opus 4.8 review | 默认高级 Claude 路由评估 |
资料来源
- EvoLink Claude Messages API documentation
- Anthropic models overview
- Anthropic pricing
- Anthropic Fable 5 and Mythos 5 launch docs
- The Verge coverage of Claude Fable 5 and Mythos 5
- Wired coverage of the launch
FAQ
Claude Fable 5 API 的模型 ID 是什么?
claude-fable-5。Claude Fable 5 是否已经 generally available?
Anthropic 文档显示,Claude Fable 5 自 2026 年 6 月 9 日起在列出的 Claude 渠道 generally available。EvoLink 用户仍应验证自己账户中的路由可用性。
Claude Fable 5 多少钱?
$10 / MTok、输出 $50 / MTok。Prompt caching 有单独官方价格。EvoLink 用户应以模型页和账单日志确认当前账户价格。Claude Fable 5 支持 1M 上下文吗?
支持。Anthropic 文档为 Claude Fable 5 标注 1M token context window。
Claude Fable 5 最大输出是多少?
Anthropic 文档标注最大输出为 128K output tokens。
应该用 Claude Fable 5 替代 Claude Opus 4.8 吗?
不建议直接替代全部流量。Fable 5 应用于最困难、最高价值任务。大多数 premium Claude 工作仍应先以 Opus 4.8 作为强默认,直到你自己的 eval 证明 Fable 值得承接更多流量。
Claude Fable 5 适合 coding agents 吗?
适合,但要有意路由。它更适合 repo-scale planning、困难重构、长工具循环和高风险决策。简单 coding 任务通常应留给 Opus、Sonnet 或更低成本路由。
需要注意哪些 safeguards?
Anthropic 文档确认 Claude Fable 5 包含 safety classifiers,某些请求可能返回 refusal,并可按 fallback 流程处理。如果你的产品涉及安全、科研、合规或模型训练相关场景,必须在上线前测试预期 prompt,并记录 refusal 或 fallback 行为。
Claude Mythos 5 可以通过 EvoLink 调用吗?
不要假设 Claude Mythos 5 可通过 EvoLink 自助调用。Anthropic 将 Mythos 5 描述为通过 Project Glasswing 和批准客户渠道 limited availability。本文聚焦 Claude Fable 5。
上线后应该监控什么?
监控 model、tokens、cache usage、latency、retries、fallback route、refusal reason、error rate,以及输出是否被用户或 reviewer 接受。


