Seed Audio 1.0 API

EvoLink の統合 API ゲートウェイを通じて Doubao Seed Audio 1.0 で AI 音声生成機能を構築できます。モデル ID は doubao-seed-audio-1-0、秒単位課金、最大 120s の出力に対応します。

モデルタイプ:

価格: $0.0012(~ 0.08 credits) per second

99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。

すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。

Prompt*

83 （推奨：2,000）

Reference Mode

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

履歴

最大20件

0 実行中 · 0 完了

ここに生成履歴が表示されます

AI 音声生成のための Seed Audio 1.0 API

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink の統合 API ゲートウェイを通じて Doubao Seed Audio 1.0 を使い、クリエイター向けツール、音声エージェント、オーディオドラマのワークフロー、ショート動画制作機能を構築できます。

Pricing

Model	Mode	Price
Doubao Seed Audio 1.0	Audio Generation (per second)	$0.0012/ second(0.08 Credits)

Doubao Seed Audio 1.0

Audio Generation (per second)

Price:

$0.0012/ second

(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Seed Audio 1.0 で何が作れますか？

クリエイター向けツールと音声ワークフロー

Seed Audio 1.0 は単なるテキスト読み上げではなく、プロンプトベースの AI 音声生成です。1 つのプロンプトからナレーション、ボイスオーバー、サウンドデザインを生成し、参照音声を使って制作全体で一貫した声を保てます。スピーチ、音楽、環境音をまとめて制作する必要があるポッドキャストツール、オーディオブックのパイプライン、ショート動画コンテンツのワークフローに最適です。

構築を開始

音声エージェントと AI コンパニオン

音声エージェント、アシスタント、AI コンパニオンに、表現力があり制御可能な声を与えます。各インタラクションに合わせて速度、ピッチ、音量を調整し、参照音声を渡して繰り返し登場するキャラクターボイスを固定できます。出力は他のモデルでも既に使用している同じ EvoLink ゲートウェイを通じて返されるため、利用状況とコストを 1 か所で管理できます。

オーディオドラマ、ゲーム、インタラクティブストーリー

複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述し、オーディオドラマ、ゲームシーン、インタラクティブな物語を駆動できます。長尺での一貫性により、同じキャラクターが多数の生成にわたって一貫した声であり続ける必要があるオーディオブック、オーディオドラマ、エピソード形式のコンテンツに適しています。

なぜ EvoLink 経由で Seed Audio 1.0 を使うのか？

Seed Audio 1.0 はすでに EvoLink で利用可能なため、1 つの統合ゲートウェイを通じて新しい音声モデルをいち早く組み込めます。

迅速なモデル導入

Seed Audio 1.0 は本日より EvoLink で利用可能です。既存の EvoLink API キーでモデル ID doubao-seed-audio-1-0 を使えば、新しい AI 音声生成モデルをいち早く統合し始められます。単一プロバイダーのために別途アカウント、契約、オンボーディングを行う必要はありません。

出力時間ごとのコストの可視性

Seed Audio 1.0 は生成された音声の長さに基づき、出力の秒単位で課金されます。これにより、実行前にバッチワークロードを簡単に見積もれます。最新の単価は EvoLink コンソールで確認でき、実際の使用状況は他のモデルと同じダッシュボードから監視できます。

音声モデル向けの統合ゲートウェイ

1 つの EvoLink API を通じて、他の音声モデルと並んで Seed Audio 1.0 にアクセスできます。選択肢を比較し、キーと使用状況を 1 か所で管理し、プロバイダーごとに統合を組み直すことなくモデル間でルーティングやフォールバックを行えます。

Seed Audio 1.0 の統合方法

EvoLink を通じて Doubao Seed Audio 1.0 を呼び出す 3 つのステップ。

EvoLink API キーを作成

EvoLink に登録し、コンソールから API キーを生成します。同じキーで Seed Audio 1.0 とゲートウェイ上の他のモデルにアクセスでき、1 つのダッシュボードから使用上限の設定と消費の監視を行えます。

モデル ID doubao-seed-audio-1-0 を使用

リクエストの宛先をモデル ID doubao-seed-audio-1-0 に設定します。テキストプロンプト（最大 1.5k 文字）と任意の参照音声を指定し、形式、サンプルレート、速度、ピッチ、音量などの出力オプションを設定します。

非同期タスクを送信して音声を取得

Seed Audio 1.0 は非同期タスクモデルを採用しています。生成リクエストを送信してタスク ID を受け取り、タスクステータスのエンドポイントをポーリングして完成した音声（最大 120s）を取得します。結果はストリーミング、ダウンロード、または製品への直接埋め込みが可能です。

機能と制限

Seed Audio 1.0 を統合する前に知っておくべき具体的な事実。

生成

プロンプトベースの音声生成

Seed Audio 1.0 はプロンプトから音声を生成し、任意で参照音声によってガイドできます。通常の TTS を超えており、複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述できます。

入力

参照音声のサポート

1 リクエストにつき最大 3 clips の参照音声を、それぞれ 30 seconds 以内で、base64 または URL を介して指定し、音色と表現をガイドできます。参照画像と参照音声を同じリクエストで指定することはできません。

制限

最大 120s の出力制限

各リクエストで最大 120 秒の音声を合成します。テキスト入力は 1.5k 文字までに制限されており、長尺コンテンツをセグメントにまとめてバッチ処理するのに便利です。

形式

柔軟な出力形式

音声を wav（デフォルト）、mp3、pcm、ogg_opus として書き出せるため、追加のトランスコードなしで下流のパイプラインに合わせられます。明示的および暗黙的なウォーターマークに対応します。

品質

選択可能なサンプルレート

48K、24K（デフォルト）、16K、8K のサンプルレートから選択し、Web 配信、本番制作、リアルタイム処理に合わせて音質とファイルサイズのバランスを取れます。

制御

言語と表現の制御

中国語と英語に対応し、主流の国内アクセント表現が可能です（純粋な方言には非対応）。リクエストごとに速度、ピッチ、音量を調整できます。SSML には対応していません。

Seed Audio 1.0 に関するよくある質問

Everything you need to know about the product and billing.

Seed Audio 1.0（Doubao-Seed-Audio 1.0）は、ByteDance のプロンプトベースの AI 音声生成モデルです。テキストプロンプトから（任意で参照音声によるガイドを加えて）、スピーチ、複数キャラクターの対話、感情や非言語的表現を伴う音声を生成できます。従来のテキスト読み上げよりも広範で、AI 音声生成のユースケースに向けて設計されています。

はい。Seed Audio 1.0 は EvoLink で利用可能であり、既存の API キーを使って EvoLink の統合 API ゲートウェイを通じて、プラットフォーム上の他のモデルと並んでアクセスできます。

EvoLink を通じて Seed Audio 1.0 を呼び出す際は、リクエストでモデル ID doubao-seed-audio-1-0 を使用してください。

Seed Audio 1.0 は生成された音声の長さに基づき、出力の秒単位で課金されるため、バッチワークロードを簡単に見積もれます。料金は変更される可能性があるため、スケールする前に EvoLink コンソールと料金ページで最新の単価を確認してください。

テキスト入力は最大 1.5k 文字です。base64 または URL を介して、それぞれ 30 seconds 以内の参照音声を最大 3 clips 指定できます。1 回のリクエストで最大 120 秒の音声を合成します。出力形式は wav（デフォルト）、mp3、pcm、ogg_opus で、サンプルレートは 48K、24K（デフォルト）、16K、8K です。参照画像と参照音声を同時に指定することはできません。その他の制限は変わる場合があるため、最新の EvoLink コンソールと公式ドキュメントを確認してください。

いいえ。テキストからスピーチを合成することもできますが、Seed Audio 1.0 はプロンプトベースの AI 音声生成です。複数キャラクターの対話、感情、非言語的表現をプロンプトに組み込み、参照音声で出力をガイドできるため、単一の声によるテキスト読み上げエンジンをはるかに超えています。

いいえ。SSML には対応していません。表現はプロンプトの指示と、速度、ピッチ、音量などのリクエストパラメータを通じて制御します。

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.

Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.

Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

Value	Description
doubao-seed-audio-1-0	Doubao Seed Audio 1.0 multimodal audio generation

Exampledoubao-seed-audio-1-0

promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes

Limited to 1.5k characters

Example@音频1 Hi there! @音频2 How's your day going?

audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes

Up to 3 items; mutually exclusive with image_urls
Voice IDs look like 'zh_female_xxx'
Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus

Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes

Currently at most 1 image; mutually exclusive with audio_references
≤ 10MB, jpeg/png/webp

Example["https://your-bucket.com/scene.jpg"]

speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
Accepts two decimals

Example1.2

loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal)
Accepts two decimals

Example1.0

pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes

Range: -12 to 12 (0 = no change)

Example0

formatstringOptionalDefault: wav

Output audio format.

Value	Description
wav	WAV
mp3	MP3
pcm	PCM
ogg_opus	OGG Opus

Examplemp3

sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

Value	Description
8000	8 kHz
16000	16 kHz
24000	24 kHz
48000	48 kHz

Example24000

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion, failure, or cancellation
Sent after billing confirmation
HTTPS only, no internal IPs
Max length: 2048 chars

Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务，今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}