Seedance 2.0 Mini が登場しました今すぐ試す

Seed Audio 1.0 API

EvoLink の統合 API ゲートウェイを通じて Doubao Seed Audio 1.0 で AI 音声生成機能を構築できます。モデル ID は doubao-seed-audio-1-0、秒単位課金、最大 120s の出力に対応します。
モデルタイプ:

価格: $0.0012(~ 0.08 credits) per second

99.9% の稼働率を保証する最も安定した構成で、本番環境に推奨されます。

すべてのバージョンで同じ API エンドポイントを使用し、異なるのは model パラメータのみです。

83 (推奨:2,000)

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

履歴

最大20件

0 実行中 · 0 完了

ここに生成履歴が表示されます

AI 音声生成のための Seed Audio 1.0 API

EvoLink の統合 API ゲートウェイを通じて Doubao Seed Audio 1.0 を使い、クリエイター向けツール、音声エージェント、オーディオドラマのワークフロー、ショート動画制作機能を構築できます。

EvoLink 上の Seed Audio 1.0 AI 音声生成

Pricing

Doubao Seed Audio 1.0
Audio Generation (per second)
Price:
$0.0012/ second
(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Seed Audio 1.0 で何が作れますか?

クリエイター向けツールと音声ワークフロー

Seed Audio 1.0 は単なるテキスト読み上げではなく、プロンプトベースの AI 音声生成です。1 つのプロンプトからナレーション、ボイスオーバー、サウンドデザインを生成し、参照音声を使って制作全体で一貫した声を保てます。スピーチ、音楽、環境音をまとめて制作する必要があるポッドキャストツール、オーディオブックのパイプライン、ショート動画コンテンツのワークフローに最適です。

クリエイター向けツールと音声ワークフロー

音声エージェントと AI コンパニオン

音声エージェント、アシスタント、AI コンパニオンに、表現力があり制御可能な声を与えます。各インタラクションに合わせて速度、ピッチ、音量を調整し、参照音声を渡して繰り返し登場するキャラクターボイスを固定できます。出力は他のモデルでも既に使用している同じ EvoLink ゲートウェイを通じて返されるため、利用状況とコストを 1 か所で管理できます。

音声エージェントと AI コンパニオン

オーディオドラマ、ゲーム、インタラクティブストーリー

複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述し、オーディオドラマ、ゲームシーン、インタラクティブな物語を駆動できます。長尺での一貫性により、同じキャラクターが多数の生成にわたって一貫した声であり続ける必要があるオーディオブック、オーディオドラマ、エピソード形式のコンテンツに適しています。

オーディオドラマ、ゲーム、インタラクティブストーリー

なぜ EvoLink 経由で Seed Audio 1.0 を使うのか?

Seed Audio 1.0 はすでに EvoLink で利用可能なため、1 つの統合ゲートウェイを通じて新しい音声モデルをいち早く組み込めます。

迅速なモデル導入

Seed Audio 1.0 は本日より EvoLink で利用可能です。既存の EvoLink API キーでモデル ID doubao-seed-audio-1-0 を使えば、新しい AI 音声生成モデルをいち早く統合し始められます。単一プロバイダーのために別途アカウント、契約、オンボーディングを行う必要はありません。

出力時間ごとのコストの可視性

Seed Audio 1.0 は生成された音声の長さに基づき、出力の秒単位で課金されます。これにより、実行前にバッチワークロードを簡単に見積もれます。最新の単価は EvoLink コンソールで確認でき、実際の使用状況は他のモデルと同じダッシュボードから監視できます。

音声モデル向けの統合ゲートウェイ

1 つの EvoLink API を通じて、他の音声モデルと並んで Seed Audio 1.0 にアクセスできます。選択肢を比較し、キーと使用状況を 1 か所で管理し、プロバイダーごとに統合を組み直すことなくモデル間でルーティングやフォールバックを行えます。

Seed Audio 1.0 の統合方法

EvoLink を通じて Doubao Seed Audio 1.0 を呼び出す 3 つのステップ。

Seed Audio 1.0 の統合方法
1

EvoLink API キーを作成

EvoLink に登録し、コンソールから API キーを生成します。同じキーで Seed Audio 1.0 とゲートウェイ上の他のモデルにアクセスでき、1 つのダッシュボードから使用上限の設定と消費の監視を行えます。

2

モデル ID doubao-seed-audio-1-0 を使用

リクエストの宛先をモデル ID doubao-seed-audio-1-0 に設定します。テキストプロンプト(最大 1.5k 文字)と任意の参照音声を指定し、形式、サンプルレート、速度、ピッチ、音量などの出力オプションを設定します。

3

非同期タスクを送信して音声を取得

Seed Audio 1.0 は非同期タスクモデルを採用しています。生成リクエストを送信してタスク ID を受け取り、タスクステータスのエンドポイントをポーリングして完成した音声(最大 120s)を取得します。結果はストリーミング、ダウンロード、または製品への直接埋め込みが可能です。

機能と制限

Seed Audio 1.0 を統合する前に知っておくべき具体的な事実。

生成

プロンプトベースの音声生成

Seed Audio 1.0 はプロンプトから音声を生成し、任意で参照音声によってガイドできます。通常の TTS を超えており、複数キャラクターの対話、感情、非言語的表現をプロンプトに直接記述できます。

入力

参照音声のサポート

1 リクエストにつき最大 3 clips の参照音声を、それぞれ 30 seconds 以内で、base64 または URL を介して指定し、音色と表現をガイドできます。参照画像と参照音声を同じリクエストで指定することはできません。

制限

最大 120s の出力制限

各リクエストで最大 120 秒の音声を合成します。テキスト入力は 1.5k 文字までに制限されており、長尺コンテンツをセグメントにまとめてバッチ処理するのに便利です。

形式

柔軟な出力形式

音声を wav(デフォルト)、mp3、pcm、ogg_opus として書き出せるため、追加のトランスコードなしで下流のパイプラインに合わせられます。明示的および暗黙的なウォーターマークに対応します。

品質

選択可能なサンプルレート

48K、24K(デフォルト)、16K、8K のサンプルレートから選択し、Web 配信、本番制作、リアルタイム処理に合わせて音質とファイルサイズのバランスを取れます。

制御

言語と表現の制御

中国語と英語に対応し、主流の国内アクセント表現が可能です(純粋な方言には非対応)。リクエストごとに速度、ピッチ、音量を調整できます。SSML には対応していません。

Seed Audio 1.0 に関するよくある質問

Everything you need to know about the product and billing.

Seed Audio 1.0(Doubao-Seed-Audio 1.0)は、ByteDance のプロンプトベースの AI 音声生成モデルです。テキストプロンプトから(任意で参照音声によるガイドを加えて)、スピーチ、複数キャラクターの対話、感情や非言語的表現を伴う音声を生成できます。従来のテキスト読み上げよりも広範で、AI 音声生成のユースケースに向けて設計されています。
はい。Seed Audio 1.0 は EvoLink で利用可能であり、既存の API キーを使って EvoLink の統合 API ゲートウェイを通じて、プラットフォーム上の他のモデルと並んでアクセスできます。
EvoLink を通じて Seed Audio 1.0 を呼び出す際は、リクエストでモデル ID doubao-seed-audio-1-0 を使用してください。
Seed Audio 1.0 は生成された音声の長さに基づき、出力の秒単位で課金されるため、バッチワークロードを簡単に見積もれます。料金は変更される可能性があるため、スケールする前に EvoLink コンソールと料金ページで最新の単価を確認してください。
テキスト入力は最大 1.5k 文字です。base64 または URL を介して、それぞれ 30 seconds 以内の参照音声を最大 3 clips 指定できます。1 回のリクエストで最大 120 秒の音声を合成します。出力形式は wav(デフォルト)、mp3、pcm、ogg_opus で、サンプルレートは 48K、24K(デフォルト)、16K、8K です。参照画像と参照音声を同時に指定することはできません。その他の制限は変わる場合があるため、最新の EvoLink コンソールと公式ドキュメントを確認してください。
いいえ。テキストからスピーチを合成することもできますが、Seed Audio 1.0 はプロンプトベースの AI 音声生成です。複数キャラクターの対話、感情、非言語的表現をプロンプトに組み込み、参照音声で出力をガイドできるため、単一の声によるテキスト読み上げエンジンをはるかに超えています。
いいえ。SSML には対応していません。表現はプロンプトの指示と、速度、ピッチ、音量などのリクエストパラメータを通じて制御します。
POST
/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.
Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.
Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

ValueDescription
doubao-seed-audio-1-0Doubao Seed Audio 1.0 multimodal audio generation
Exampledoubao-seed-audio-1-0
promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes
  • Limited to 1.5k characters
Example@音频1 Hi there! @音频2 How's your day going?
audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes
  • Up to 3 items; mutually exclusive with image_urls
  • Voice IDs look like 'zh_female_xxx'
  • Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes
  • Currently at most 1 image; mutually exclusive with audio_references
  • ≤ 10MB, jpeg/png/webp
Example["https://your-bucket.com/scene.jpg"]
speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes
  • Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
  • Accepts two decimals
Example1.2
loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes
  • Range: 0.5 to 2.0 (1.0 = normal)
  • Accepts two decimals
Example1.0
pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes
  • Range: -12 to 12 (0 = no change)
Example0
formatstringOptionalDefault: wav

Output audio format.

ValueDescription
wavWAV
mp3MP3
pcmPCM
ogg_opusOGG Opus
Examplemp3
sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

ValueDescription
80008 kHz
1600016 kHz
2400024 kHz
4800048 kHz
Example24000
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion, failure, or cancellation
  • Sent after billing confirmation
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务,今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}