Seed Audio 1.0 API
가격: $0.0012(~ 0.08 credits) per second
99.9% 가용성이 보장되는 가장 안정적인 버전으로, 프로덕션 환경에 권장됩니다.
모든 버전은 동일한 API 엔드포인트를 사용하며 model 파라미터만 다릅니다.
Reference type. Reference Audio and Reference Image are mutually exclusive.
Click Generate to see preview
기록
최대 20개 항목0 실행 중 · 0 완료됨
AI 오디오 생성을 위한 Seed Audio 1.0 API
EvoLink의 통합 API 게이트웨이를 통해 Doubao Seed Audio 1.0으로 크리에이터 도구, 음성 에이전트, 오디오 드라마 워크플로, 숏폼 영상 제작 기능을 구축하세요.

Pricing
| Model | Mode | Price |
|---|---|---|
| Doubao Seed Audio 1.0 | Audio Generation (per second) | $0.0012/ second(0.08 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
Seed Audio 1.0으로 무엇을 만들 수 있나요?
크리에이터 도구와 오디오 워크플로
Seed Audio 1.0은 단순한 TTS가 아니라 프롬프트 기반 AI 오디오 생성입니다. 하나의 프롬프트로 내레이션, 보이스오버, 사운드 디자인을 생성하고, 참조 오디오를 사용해 전체 제작물에 걸쳐 일관된 음성을 유지할 수 있습니다. 음성, 음악, 분위기를 함께 제작해야 하는 팟캐스트 도구, 오디오북 파이프라인, 숏폼 영상 콘텐츠 워크플로에 이상적입니다.

음성 에이전트와 AI 컴패니언
음성 에이전트, 어시스턴트, AI 컴패니언에 표현력 있고 제어 가능한 음성을 부여하세요. 속도, 피치, 음량을 조정해 각 상호작용에 맞추고, 참조 오디오를 전달해 반복 등장하는 캐릭터 음성을 고정할 수 있습니다. 출력은 다른 모델에 이미 사용 중인 동일한 EvoLink 게이트웨이를 통해 스트리밍되므로, 사용량과 비용을 한곳에서 관리할 수 있습니다.

오디오 드라마, 게임, 인터랙티브 스토리
다중 캐릭터 대화, 감정, 비언어적 표현을 프롬프트에 직접 작성해 오디오 드라마, 게임 장면, 인터랙티브 내러티브를 구동하세요. 장편에 걸친 일관성 덕분에 동일한 캐릭터가 여러 생성에 걸쳐 일관된 목소리를 유지해야 하는 오디오북, 오디오 드라마, 에피소드형 콘텐츠에 적합합니다.

왜 EvoLink로 Seed Audio 1.0을 사용해야 하나요?
Seed Audio 1.0은 이미 EvoLink에서 사용 가능하므로, 하나의 통합 게이트웨이를 통해 새로운 오디오 모델을 일찍 통합할 수 있습니다.
빠른 모델 도입
Seed Audio 1.0은 오늘 EvoLink에서 사용 가능합니다. 기존 EvoLink API 키와 함께 모델 ID doubao-seed-audio-1-0을 사용해 새로운 AI 오디오 생성 모델을 일찍 통합하기 시작하세요. 단일 공급자를 위한 별도의 계정, 계약, 온보딩이 필요하지 않습니다.
출력 길이별 비용 가시성
Seed Audio 1.0은 생성된 오디오 길이를 기준으로 출력 초당 과금됩니다. 덕분에 배치 워크로드를 실행 전에 쉽게 추정할 수 있습니다. 최신 단가는 EvoLink 콘솔에서 확인하고, 다른 모델과 동일한 대시보드에서 실제 사용량을 모니터링하세요.
오디오 모델을 위한 통합 게이트웨이
하나의 EvoLink API를 통해 다른 오디오 모델과 함께 Seed Audio 1.0에 액세스하세요. 옵션을 비교하고, 키와 사용량을 한곳에서 관리하며, 공급자마다 통합을 다시 구성하지 않고도 모델 간 라우팅이나 폴백을 수행할 수 있습니다.
Seed Audio 1.0 통합 방법
EvoLink를 통해 Doubao Seed Audio 1.0을 호출하는 세 단계.

EvoLink API 키 생성
EvoLink에 가입하고 콘솔에서 API 키를 생성하세요. 동일한 키로 Seed Audio 1.0과 게이트웨이의 다른 모델에 액세스할 수 있으며, 하나의 대시보드에서 사용 한도를 설정하고 소비를 모니터링할 수 있습니다.
모델 ID doubao-seed-audio-1-0 사용
요청을 모델 ID doubao-seed-audio-1-0으로 지정하세요. 텍스트 프롬프트(최대 1.5k 자)와 선택적 참조 오디오를 제공한 다음, 형식, 샘플레이트, 속도, 피치, 음량 등의 출력 옵션을 설정하세요.
비동기 작업 제출 및 오디오 가져오기
Seed Audio 1.0은 비동기 작업 모델을 사용합니다. 생성 요청을 제출해 작업 ID를 받은 다음, 작업 상태 엔드포인트를 폴링하여 완성된 오디오(최대 120s)를 가져오세요. 결과를 제품에 직접 스트리밍, 다운로드, 임베드할 수 있습니다.
기능과 제한 사항
Seed Audio 1.0을 통합하기 전에 알아야 할 구체적인 사실들.
프롬프트 기반 오디오 생성
Seed Audio 1.0은 프롬프트로부터 오디오를 생성하며, 선택적으로 참조 오디오의 가이드를 받을 수 있습니다. 단순한 TTS를 넘어, 다중 캐릭터 대화, 감정, 비언어적 표현을 프롬프트에 직접 작성할 수 있습니다.
참조 오디오 지원
요청당 최대 3 clips의 참조 오디오를 base64 또는 URL로 제공할 수 있으며, 각 클립은 30 seconds를 넘지 않아야 음색과 전달 방식을 안내할 수 있습니다. 참조 이미지와 참조 오디오는 같은 요청에 함께 제공할 수 없습니다.
최대 120s 출력 제한
각 요청은 최대 120 seconds의 오디오를 합성합니다. 텍스트 입력은 1.5k 자로 제한되며, 이는 장편 콘텐츠를 세그먼트로 나누어 배치 처리하기에 편리합니다.
유연한 출력 형식
오디오를 wav(기본값), mp3, pcm, ogg_opus로 내보낼 수 있어 추가 트랜스코딩 없이 다운스트림 파이프라인에 맞출 수 있습니다. 명시적 및 암시적 워터마킹을 지원합니다.
선택 가능한 샘플레이트
48K, 24K(기본값), 16K, 8K 샘플레이트 중에서 선택해 웹 전송, 프로덕션, 실시간 처리에 맞게 음질과 파일 크기의 균형을 맞추세요.
언어 및 전달 제어
중국어와 영어를 지원하며, 주류 국내 억양 전달을 제공합니다(순수 방언은 지원하지 않음). 요청별로 속도, 피치, 음량을 조정할 수 있습니다. SSML은 지원하지 않습니다.
Seed Audio 1.0 자주 묻는 질문
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/audios/generationsGenerate Audio
Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.
Asynchronous processing mode, use the returned task ID to .
Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).
Three Generation Modes
prompt — generate audio directly from the prompt.prompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.prompt + image_urls — generate audio guided by a reference image.⚠️ audio_references and image_urls are mutually exclusive — use one or the other.
Request Parameters
modelstringRequiredDefault: doubao-seed-audio-1-0Audio generation model name.
| Value | Description |
|---|---|
| doubao-seed-audio-1-0 | Doubao Seed Audio 1.0 multimodal audio generation |
doubao-seed-audio-1-0promptstringRequiredThe text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.
Notes
- Limited to 1.5k characters
@音频1 Hi there! @音频2 How's your day going?audio_referencesarrayOptionalReference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.
Notes
- Up to 3 items; mutually exclusive with image_urls
- Voice IDs look like 'zh_female_xxx'
- Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.
image_urlsarrayOptionalReference image URL to drive audio generation.
Notes
- Currently at most 1 image; mutually exclusive with audio_references
- ≤ 10MB, jpeg/png/webp
["https://your-bucket.com/scene.jpg"]speech_ratenumberOptionalDefault: 1.0Speech speed multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
- Accepts two decimals
1.2loudness_ratenumberOptionalDefault: 1.0Loudness multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal)
- Accepts two decimals
1.0pitch_rateintegerOptionalDefault: 0Pitch adjustment in semitones.
Notes
- Range: -12 to 12 (0 = no change)
0formatstringOptionalDefault: wavOutput audio format.
| Value | Description |
|---|---|
| wav | WAV |
| mp3 | MP3 |
| pcm | PCM |
| ogg_opus | OGG Opus |
mp3sample_rateintegerOptionalDefault: 24000Output sample rate in Hz.
| Value | Description |
|---|---|
| 8000 | 8 kHz |
| 16000 | 16 kHz |
| 24000 | 24 kHz |
| 48000 | 48 kHz |
24000callback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
https://your-domain.com/webhooks/audio-task-completedRequest Example — Text-to-Speech
Request Example — Voice Cloning (multi-voice)
Response Example
Submit (task created):
Query (completed):