API de Seed Audio 1.0
Precio: $0.0012(~ 0.08 credits) per second
Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.
Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.
Reference type. Reference Audio and Reference Image are mutually exclusive.
Click Generate to see preview
Historial
Máx. 20 elementos0 ejecutando · 0 completado
API de Seed Audio 1.0 para generación de audio con IA
Crea herramientas para creadores, agentes de voz, flujos de trabajo de audiodramas y funciones de producción de vídeos cortos con Doubao Seed Audio 1.0 a través de la pasarela de API unificada de EvoLink.

Pricing
| Model | Mode | Price |
|---|---|---|
| Doubao Seed Audio 1.0 | Audio Generation (per second) | $0.0012/ second(0.08 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
¿Qué puedes construir con Seed Audio 1.0?
Herramientas para creadores y flujos de trabajo de audio
Seed Audio 1.0 es generación de audio con IA basada en prompts, no solo texto a voz. Genera narración, locución y diseño de sonido a partir de un único prompt, y usa audio de referencia para mantener una voz coherente en toda una producción. Ideal para herramientas de pódcast, pipelines de audiolibros y flujos de trabajo de contenido de vídeos cortos donde la voz, la música y el ambiente deben producirse juntos.

Agentes de voz y acompañantes de IA
Dale a tus agentes de voz, asistentes y acompañantes de IA una voz expresiva y controlable. Ajusta la velocidad, el tono y el volumen para adaptarse a cada interacción, y pasa audio de referencia para anclar una voz de personaje recurrente. La salida se transmite de vuelta a través de la misma pasarela de EvoLink que ya usas para otros modelos, así que gestionas el uso y el coste desde un solo lugar.

Audiodramas, videojuegos e historias interactivas
Compón diálogos multipersonaje, emoción y expresión no verbal directamente en el prompt para impulsar audiodramas, escenas de videojuegos y narrativas interactivas. La coherencia en formatos largos lo hace adecuado para audiolibros, audiodramas y contenido episódico donde los mismos personajes deben sonar coherentes a lo largo de muchas generaciones.

¿Por qué usar Seed Audio 1.0 a través de EvoLink?
Seed Audio 1.0 ya está disponible en EvoLink, así que puedes integrar un nuevo modelo de audio de forma temprana a través de una única pasarela unificada.
Adopción rápida del modelo
Seed Audio 1.0 está disponible en EvoLink hoy. Usa el ID de modelo doubao-seed-audio-1-0 con tu clave de API de EvoLink existente para empezar a integrar de forma temprana un nuevo modelo de generación de audio con IA, sin cuenta, contrato ni proceso de incorporación separados para un único proveedor.
Visibilidad de costes por duración de salida
Seed Audio 1.0 se factura según la duración del audio generado, cobrando por segundo de salida. Eso facilita estimar las cargas de trabajo por lotes antes de ejecutarlas. Consulta la consola de EvoLink para ver el precio unitario más reciente y supervisa el uso real desde el mismo panel que tus otros modelos.
Pasarela unificada para modelos de audio
Accede a Seed Audio 1.0 junto a otros modelos de audio a través de una sola API de EvoLink. Compara opciones, gestiona claves y uso en un solo lugar, y enruta o conmuta por error entre modelos sin reconfigurar tu integración para cada proveedor.
Cómo integrar Seed Audio 1.0
Tres pasos para llamar a Doubao Seed Audio 1.0 a través de EvoLink.

Crea una clave de API de EvoLink
Regístrate en EvoLink y genera una clave de API desde la consola. La misma clave te da acceso a Seed Audio 1.0 y a los demás modelos de la pasarela, y te permite establecer límites de uso y supervisar el consumo desde un solo panel.
Usa el ID de modelo doubao-seed-audio-1-0
Dirige tu solicitud al ID de modelo doubao-seed-audio-1-0. Proporciona tu prompt de texto (hasta 1.5k caracteres) y audio de referencia opcional, luego configura opciones de salida como formato, frecuencia de muestreo, velocidad, tono y volumen.
Envía una tarea asíncrona y recupera el audio
Seed Audio 1.0 usa un modelo de tarea asíncrona: envía la solicitud de generación, recibe un ID de tarea y luego consulta el endpoint de estado de la tarea para recuperar el audio terminado (hasta 120s). Transmite, descarga o integra el resultado directamente en tu producto.
Capacidades y límites
Los datos concretos que necesitas antes de integrar Seed Audio 1.0.
Generación de audio basada en prompts
Seed Audio 1.0 genera audio a partir de un prompt, opcionalmente guiado por audio de referencia. Va más allá del TTS sin más: el diálogo multipersonaje, la emoción y la expresión no verbal pueden escribirse directamente en el prompt.
Compatibilidad con audio de referencia
Proporciona hasta 3 clips de audio de referencia por solicitud, cada uno de no más de 30 segundos, mediante base64 o URL, para guiar el timbre y la interpretación. La imagen de referencia y el audio de referencia no pueden suministrarse en la misma solicitud.
Límite de salida de hasta 120s
Cada solicitud sintetiza hasta 120 segundos de audio. La entrada de texto está limitada a 1.5k caracteres, lo cual es conveniente para dividir contenido de formato largo en segmentos.
Formatos de salida flexibles
Exporta audio como wav (predeterminado), mp3, pcm u ogg_opus, para que puedas adaptarte a tu pipeline posterior sin transcodificación adicional. Se admite marca de agua explícita e implícita.
Frecuencias de muestreo seleccionables
Elige frecuencias de muestreo de 48K, 24K (predeterminada), 16K u 8K para equilibrar fidelidad y tamaño de archivo para entrega web, producción o procesamiento en tiempo real.
Idiomas y controles de interpretación
Admite chino e inglés, con interpretación de acentos nacionales convencionales (no se admiten dialectos puros). Ajusta velocidad, tono y volumen por solicitud. No se admite SSML.
Preguntas frecuentes sobre Seed Audio 1.0
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/audios/generationsGenerate Audio
Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.
Asynchronous processing mode, use the returned task ID to .
Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).
Three Generation Modes
prompt — generate audio directly from the prompt.prompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.prompt + image_urls — generate audio guided by a reference image.⚠️ audio_references and image_urls are mutually exclusive — use one or the other.
Request Parameters
modelstringRequiredDefault: doubao-seed-audio-1-0Audio generation model name.
| Value | Description |
|---|---|
| doubao-seed-audio-1-0 | Doubao Seed Audio 1.0 multimodal audio generation |
doubao-seed-audio-1-0promptstringRequiredThe text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.
Notes
- Limited to 1.5k characters
@音频1 Hi there! @音频2 How's your day going?audio_referencesarrayOptionalReference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.
Notes
- Up to 3 items; mutually exclusive with image_urls
- Voice IDs look like 'zh_female_xxx'
- Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.
image_urlsarrayOptionalReference image URL to drive audio generation.
Notes
- Currently at most 1 image; mutually exclusive with audio_references
- ≤ 10MB, jpeg/png/webp
["https://your-bucket.com/scene.jpg"]speech_ratenumberOptionalDefault: 1.0Speech speed multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
- Accepts two decimals
1.2loudness_ratenumberOptionalDefault: 1.0Loudness multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal)
- Accepts two decimals
1.0pitch_rateintegerOptionalDefault: 0Pitch adjustment in semitones.
Notes
- Range: -12 to 12 (0 = no change)
0formatstringOptionalDefault: wavOutput audio format.
| Value | Description |
|---|---|
| wav | WAV |
| mp3 | MP3 |
| pcm | PCM |
| ogg_opus | OGG Opus |
mp3sample_rateintegerOptionalDefault: 24000Output sample rate in Hz.
| Value | Description |
|---|---|
| 8000 | 8 kHz |
| 16000 | 16 kHz |
| 24000 | 24 kHz |
| 48000 | 48 kHz |
24000callback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
https://your-domain.com/webhooks/audio-task-completedRequest Example — Text-to-Speech
Request Example — Voice Cloning (multi-voice)
Response Example
Submit (task created):
Query (completed):