Seed Audio 1.0 API

EvoLink의 통합 API 게이트웨이를 통해 Doubao Seed Audio 1.0으로 AI 오디오 생성 기능을 구축하세요. 모델 ID는 doubao-seed-audio-1-0이며, 초 단위 과금과 최대 120s 출력을 제공합니다.

모델 유형:

가격: $0.0012(~ 0.08 credits) per second

99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.

모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.

Prompt*

83 (권장: 2,000)

Reference Mode

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

기록

최대 20개 항목

0 실행 중 · 0 완료됨

여기에 생성 기록이 표시됩니다

AI 오디오 생성을 위한 Seed Audio 1.0 API

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

EvoLink의 통합 API 게이트웨이를 통해 Doubao Seed Audio 1.0으로 크리에이터 도구, 음성 에이전트, 오디오 드라마 워크플로, 숏폼 영상 제작 기능을 구축하세요.

Pricing

Model	Mode	Price
Doubao Seed Audio 1.0	Audio Generation (per second)	$0.0012/ second(0.08 Credits)

Doubao Seed Audio 1.0

Audio Generation (per second)

Price:

$0.0012/ second

(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Seed Audio 1.0으로 무엇을 만들 수 있나요?

크리에이터 도구와 오디오 워크플로

Seed Audio 1.0은 단순한 TTS가 아니라 프롬프트 기반 AI 오디오 생성입니다. 하나의 프롬프트로 내레이션, 보이스오버, 사운드 디자인을 생성하고, 참조 오디오를 사용해 전체 제작물에 걸쳐 일관된 음성을 유지할 수 있습니다. 음성, 음악, 분위기를 함께 제작해야 하는 팟캐스트 도구, 오디오북 파이프라인, 숏폼 영상 콘텐츠 워크플로에 이상적입니다.

구축 시작하기

음성 에이전트와 AI 컴패니언

음성 에이전트, 어시스턴트, AI 컴패니언에 표현력 있고 제어 가능한 음성을 부여하세요. 속도, 피치, 음량을 조정해 각 상호작용에 맞추고, 참조 오디오를 전달해 반복 등장하는 캐릭터 음성을 고정할 수 있습니다. 출력은 다른 모델에 이미 사용 중인 동일한 EvoLink 게이트웨이를 통해 스트리밍되므로, 사용량과 비용을 한곳에서 관리할 수 있습니다.

오디오 드라마, 게임, 인터랙티브 스토리

다중 캐릭터 대화, 감정, 비언어적 표현을 프롬프트에 직접 작성해 오디오 드라마, 게임 장면, 인터랙티브 내러티브를 구동하세요. 장편에 걸친 일관성 덕분에 동일한 캐릭터가 여러 생성에 걸쳐 일관된 목소리를 유지해야 하는 오디오북, 오디오 드라마, 에피소드형 콘텐츠에 적합합니다.

왜 EvoLink로 Seed Audio 1.0을 사용해야 하나요?

Seed Audio 1.0은 이미 EvoLink에서 사용 가능하므로, 하나의 통합 게이트웨이를 통해 새로운 오디오 모델을 일찍 통합할 수 있습니다.

빠른 모델 도입

Seed Audio 1.0은 오늘 EvoLink에서 사용 가능합니다. 기존 EvoLink API 키와 함께 모델 ID doubao-seed-audio-1-0을 사용해 새로운 AI 오디오 생성 모델을 일찍 통합하기 시작하세요. 단일 공급자를 위한 별도의 계정, 계약, 온보딩이 필요하지 않습니다.

출력 길이별 비용 가시성

Seed Audio 1.0은 생성된 오디오 길이를 기준으로 출력 초당 과금됩니다. 덕분에 배치 워크로드를 실행 전에 쉽게 추정할 수 있습니다. 최신 단가는 EvoLink 콘솔에서 확인하고, 다른 모델과 동일한 대시보드에서 실제 사용량을 모니터링하세요.

오디오 모델을 위한 통합 게이트웨이

하나의 EvoLink API를 통해 다른 오디오 모델과 함께 Seed Audio 1.0에 액세스하세요. 옵션을 비교하고, 키와 사용량을 한곳에서 관리하며, 공급자마다 통합을 다시 구성하지 않고도 모델 간 라우팅이나 폴백을 수행할 수 있습니다.

Seed Audio 1.0 통합 방법

EvoLink를 통해 Doubao Seed Audio 1.0을 호출하는 세 단계.

EvoLink API 키 생성

EvoLink에 가입하고 콘솔에서 API 키를 생성하세요. 동일한 키로 Seed Audio 1.0과 게이트웨이의 다른 모델에 액세스할 수 있으며, 하나의 대시보드에서 사용 한도를 설정하고 소비를 모니터링할 수 있습니다.

모델 ID doubao-seed-audio-1-0 사용

요청을 모델 ID doubao-seed-audio-1-0으로 지정하세요. 텍스트 프롬프트(최대 1.5k 자)와 선택적 참조 오디오를 제공한 다음, 형식, 샘플레이트, 속도, 피치, 음량 등의 출력 옵션을 설정하세요.

비동기 작업 제출 및 오디오 가져오기

Seed Audio 1.0은 비동기 작업 모델을 사용합니다. 생성 요청을 제출해 작업 ID를 받은 다음, 작업 상태 엔드포인트를 폴링하여 완성된 오디오(최대 120s)를 가져오세요. 결과를 제품에 직접 스트리밍, 다운로드, 임베드할 수 있습니다.

기능과 제한 사항

Seed Audio 1.0을 통합하기 전에 알아야 할 구체적인 사실들.

생성

프롬프트 기반 오디오 생성

Seed Audio 1.0은 프롬프트로부터 오디오를 생성하며, 선택적으로 참조 오디오의 가이드를 받을 수 있습니다. 단순한 TTS를 넘어, 다중 캐릭터 대화, 감정, 비언어적 표현을 프롬프트에 직접 작성할 수 있습니다.

입력

참조 오디오 지원

요청당 최대 3 clips의 참조 오디오를 base64 또는 URL로 제공할 수 있으며, 각 클립은 30 seconds를 넘지 않아야 음색과 전달 방식을 안내할 수 있습니다. 참조 이미지와 참조 오디오는 같은 요청에 함께 제공할 수 없습니다.

제한

최대 120s 출력 제한

각 요청은 최대 120 seconds의 오디오를 합성합니다. 텍스트 입력은 1.5k 자로 제한되며, 이는 장편 콘텐츠를 세그먼트로 나누어 배치 처리하기에 편리합니다.

형식

유연한 출력 형식

오디오를 wav(기본값), mp3, pcm, ogg_opus로 내보낼 수 있어 추가 트랜스코딩 없이 다운스트림 파이프라인에 맞출 수 있습니다. 명시적 및 암시적 워터마킹을 지원합니다.

품질

선택 가능한 샘플레이트

48K, 24K(기본값), 16K, 8K 샘플레이트 중에서 선택해 웹 전송, 프로덕션, 실시간 처리에 맞게 음질과 파일 크기의 균형을 맞추세요.

제어

언어 및 전달 제어

중국어와 영어를 지원하며, 주류 국내 억양 전달을 제공합니다(순수 방언은 지원하지 않음). 요청별로 속도, 피치, 음량을 조정할 수 있습니다. SSML은 지원하지 않습니다.

Seed Audio 1.0 자주 묻는 질문

Everything you need to know about the product and billing.

Seed Audio 1.0(Doubao-Seed-Audio 1.0)은 ByteDance의 프롬프트 기반 AI 오디오 생성 모델입니다. 텍스트 프롬프트로부터, 선택적으로 참조 오디오의 가이드를 받아 음성, 다중 캐릭터 대화, 그리고 감정과 비언어적 표현이 담긴 오디오를 생성할 수 있습니다. 전통적인 TTS보다 범위가 넓으며 AI 오디오 생성 사용 사례를 위해 설계되었습니다.

네. Seed Audio 1.0은 EvoLink에서 사용 가능하며, 플랫폼의 다른 모델과 함께 기존 API 키로 EvoLink의 통합 API 게이트웨이를 통해 액세스할 수 있습니다.

EvoLink를 통해 Seed Audio 1.0을 호출할 때 요청에 모델 ID doubao-seed-audio-1-0을 사용하세요.

Seed Audio 1.0은 생성된 오디오 길이를 기준으로 출력 초당 과금되므로 배치 워크로드를 간단하게 추정할 수 있습니다. 요금은 변경될 수 있으니, 규모를 확장하기 전에 EvoLink 콘솔과 요금 페이지에서 최신 단가를 확인하세요.

텍스트 입력은 최대 1.5k 자입니다. base64 또는 URL로 최대 3 clips의 참조 오디오를 제공할 수 있으며, 각 클립은 30 seconds를 넘지 않아야 합니다. 단일 요청은 최대 120 seconds의 오디오를 합성합니다. 출력 형식은 wav(기본값), mp3, pcm, ogg_opus이며, 샘플레이트는 48K, 24K(기본값), 16K, 8K입니다. 참조 이미지와 참조 오디오는 동시에 제공할 수 없으며, 기타 제한은 달라질 수 있으니 최신 EvoLink 콘솔과 공식 문서를 확인하세요.

아니요. 텍스트로부터 음성을 합성할 수 있지만, Seed Audio 1.0은 프롬프트 기반 AI 오디오 생성입니다. 프롬프트에 다중 캐릭터 대화, 감정, 비언어적 표현을 구성하고 참조 오디오로 출력을 안내할 수 있어, 단일 음성 TTS 엔진을 훨씬 뛰어넘습니다.

아니요. SSML은 지원하지 않습니다. 전달은 프롬프트 지시와 속도, 피치, 음량 같은 요청 파라미터를 통해 제어합니다.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.

Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.

Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

Value	Description
doubao-seed-audio-1-0	Doubao Seed Audio 1.0 multimodal audio generation

Exampledoubao-seed-audio-1-0

promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes

Limited to 1.5k characters

Example@音频1 Hi there! @音频2 How's your day going?

audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes

Up to 3 items; mutually exclusive with image_urls
Voice IDs look like 'zh_female_xxx'
Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus

Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes

Currently at most 1 image; mutually exclusive with audio_references
≤ 10MB, jpeg/png/webp

Example["https://your-bucket.com/scene.jpg"]

speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
Accepts two decimals

Example1.2

loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal)
Accepts two decimals

Example1.0

pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes

Range: -12 to 12 (0 = no change)

Example0

formatstringOptionalDefault: wav

Output audio format.

Value	Description
wav	WAV
mp3	MP3
pcm	PCM
ogg_opus	OGG Opus

Examplemp3

sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

Value	Description
8000	8 kHz
16000	16 kHz
24000	24 kHz
48000	48 kHz

Example24000

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion, failure, or cancellation
Sent after billing confirmation
HTTPS only, no internal IPs
Max length: 2048 chars

Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务，今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}