Seed Audio 1.0 API
価格: $0.0012(~ 0.08 credits) per second
99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。
すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。
Reference type. Reference Audio and Reference Image are mutually exclusive.
Click Generate to see preview
履歴
最大20件0 実行中 · 0 完了
AI 音声生成のための Seed Audio 1.0 API
EvoLink の統合 API ゲートウェイを通じて Doubao Seed Audio 1.0 を使い、クリエイター向けツール、音声エージェント、オーディオドラマのワークフロー、ショート動画制作機能を構築できます。

Pricing
| Model | Mode | Price |
|---|---|---|
| Doubao Seed Audio 1.0 | Audio Generation (per second) | $0.0012/ second(0.08 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
Seed Audio 1.0 で何が作れますか?
クリエイター向けツールと音声ワークフロー
Seed Audio 1.0 は単なるテキスト読み上げではなく、プロンプトベースの AI 音声生成です。1 つのプロンプトからナレーション、ボイスオーバー、サウンドデザインを生成し、参照音声を使って制作全体で一貫した声を保てます。スピーチ、音楽、環境音をまとめて制作する必要があるポッドキャストツール、オーディオブックのパイプライン、ショート動画コンテンツのワークフローに最適です。

音声エージェントと AI コンパニオン
音声エージェント、アシスタント、AI コンパニオンに、表現力があり制御可能な声を与えます。各インタラクションに合わせて速度、ピッチ、音量を調整し、参照音声を渡して繰り返し登場するキャラクターボイスを固定できます。出力は他のモデルでも既に使用している同じ EvoLink ゲートウェイを通じて返されるため、利用状況とコストを 1 か所で管理できます。

オーディオドラマ、ゲーム、インタラクティブストーリー
複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述し、オーディオドラマ、ゲームシーン、インタラクティブな物語を駆動できます。長尺での一貫性により、同じキャラクターが多数の生成にわたって一貫した声であり続ける必要があるオーディオブック、オーディオドラマ、エピソード形式のコンテンツに適しています。

なぜ EvoLink 経由で Seed Audio 1.0 を使うのか?
Seed Audio 1.0 はすでに EvoLink で利用可能なため、1 つの統合ゲートウェイを通じて新しい音声モデルをいち早く組み込めます。
迅速なモデル導入
Seed Audio 1.0 は本日より EvoLink で利用可能です。既存の EvoLink API キーでモデル ID doubao-seed-audio-1-0 を使えば、新しい AI 音声生成モデルをいち早く統合し始められます。単一プロバイダーのために別途アカウント、契約、オンボーディングを行う必要はありません。
出力時間ごとのコストの可視性
Seed Audio 1.0 は生成された音声の長さに基づき、出力の秒単位で課金されます。これにより、実行前にバッチワークロードを簡単に見積もれます。最新の単価は EvoLink コンソールで確認でき、実際の使用状況は他のモデルと同じダッシュボードから監視できます。
音声モデル向けの統合ゲートウェイ
1 つの EvoLink API を通じて、他の音声モデルと並んで Seed Audio 1.0 にアクセスできます。選択肢を比較し、キーと使用状況を 1 か所で管理し、プロバイダーごとに統合を組み直すことなくモデル間でルーティングやフォールバックを行えます。
Seed Audio 1.0 の統合方法
EvoLink を通じて Doubao Seed Audio 1.0 を呼び出す 3 つのステップ。

EvoLink API キーを作成
EvoLink に登録し、コンソールから API キーを生成します。同じキーで Seed Audio 1.0 とゲートウェイ上の他のモデルにアクセスでき、1 つのダッシュボードから使用上限の設定と消費の監視を行えます。
モデル ID doubao-seed-audio-1-0 を使用
リクエストの宛先をモデル ID doubao-seed-audio-1-0 に設定します。テキストプロンプト(最大 1.5k 文字)と任意の参照音声を指定し、形式、サンプルレート、速度、ピッチ、音量などの出力オプションを設定します。
非同期タスクを送信して音声を取得
Seed Audio 1.0 は非同期タスクモデルを採用しています。生成リクエストを送信してタスク ID を受け取り、タスクステータスのエンドポイントをポーリングして完成した音声(最大 120s)を取得します。結果はストリーミング、ダウンロード、または製品への直接埋め込みが可能です。
機能と制限
Seed Audio 1.0 を統合する前に知っておくべき具体的な事実。
プロンプトベースの音声生成
Seed Audio 1.0 はプロンプトから音声を生成し、任意で参照音声によってガイドできます。通常の TTS を超えており、複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述できます。
参照音声のサポート
1 リクエストにつき最大 3 clips の参照音声を、それぞれ 30 seconds 以内で、base64 または URL を介して指定し、音色と表現をガイドできます。参照画像と参照音声を同じリクエストで指定することはできません。
最大 120s の出力制限
各リクエストで最大 120 秒の音声を合成します。テキスト入力は 1.5k 文字までに制限されており、長尺コンテンツをセグメントにまとめてバッチ処理するのに便利です。
柔軟な出力形式
音声を wav(デフォルト)、mp3、pcm、ogg_opus として書き出せるため、追加のトランスコードなしで下流のパイプラインに合わせられます。明示的および暗黙的なウォーターマークに対応します。
選択可能なサンプルレート
48K、24K(デフォルト)、16K、8K のサンプルレートから選択し、Web 配信、本番制作、リアルタイム処理に合わせて音質とファイルサイズのバランスを取れます。
言語と表現の制御
中国語と英語に対応し、主流の国内アクセント表現が可能です(純粋な方言には非対応)。リクエストごとに速度、ピッチ、音量を調整できます。SSML には対応していません。
Seed Audio 1.0 に関するよくある質問
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/audios/generationsGenerate Audio
Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.
Asynchronous processing mode, use the returned task ID to .
Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).
Three Generation Modes
prompt — generate audio directly from the prompt.prompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.prompt + image_urls — generate audio guided by a reference image.⚠️ audio_references and image_urls are mutually exclusive — use one or the other.
Request Parameters
modelstringRequiredDefault: doubao-seed-audio-1-0Audio generation model name.
| Value | Description |
|---|---|
| doubao-seed-audio-1-0 | Doubao Seed Audio 1.0 multimodal audio generation |
doubao-seed-audio-1-0promptstringRequiredThe text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.
Notes
- Limited to 1.5k characters
@音频1 Hi there! @音频2 How's your day going?audio_referencesarrayOptionalReference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.
Notes
- Up to 3 items; mutually exclusive with image_urls
- Voice IDs look like 'zh_female_xxx'
- Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.
image_urlsarrayOptionalReference image URL to drive audio generation.
Notes
- Currently at most 1 image; mutually exclusive with audio_references
- ≤ 10MB, jpeg/png/webp
["https://your-bucket.com/scene.jpg"]speech_ratenumberOptionalDefault: 1.0Speech speed multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
- Accepts two decimals
1.2loudness_ratenumberOptionalDefault: 1.0Loudness multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal)
- Accepts two decimals
1.0pitch_rateintegerOptionalDefault: 0Pitch adjustment in semitones.
Notes
- Range: -12 to 12 (0 = no change)
0formatstringOptionalDefault: wavOutput audio format.
| Value | Description |
|---|---|
| wav | WAV |
| mp3 | MP3 |
| pcm | PCM |
| ogg_opus | OGG Opus |
mp3sample_rateintegerOptionalDefault: 24000Output sample rate in Hz.
| Value | Description |
|---|---|
| 8000 | 8 kHz |
| 16000 | 16 kHz |
| 24000 | 24 kHz |
| 48000 | 48 kHz |
24000callback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
https://your-domain.com/webhooks/audio-task-completedRequest Example — Text-to-Speech
Request Example — Voice Cloning (multi-voice)
Response Example
Submit (task created):
Query (completed):