API de Seed Audio 1.0

Crea funciones de generación de audio con IA usando Doubao Seed Audio 1.0 a través de la pasarela de API unificada de EvoLink. ID de modelo doubao-seed-audio-1-0, facturación por segundo, hasta 120s de salida.

Tipo de modelo:

Precio: $0.0012(~ 0.08 credits) per second

Máxima estabilidad con 99.9% de disponibilidad garantizada. Recomendado para producción.

Todas las versiones usan el mismo endpoint API. Solo cambia el parámetro model.

Prompt*

83 (sugerido: 2,000)

Reference Mode

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

Historial

Máx. 20 elementos

0 ejecutando · 0 completado

Tu historial de generación aparecerá aquí

API de Seed Audio 1.0 para generación de audio con IA

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Crea herramientas para creadores, agentes de voz, flujos de trabajo de audiodramas y funciones de producción de vídeos cortos con Doubao Seed Audio 1.0 a través de la pasarela de API unificada de EvoLink.

Generación de audio con IA de Seed Audio 1.0 en EvoLink

Pricing

Model	Mode	Price
Doubao Seed Audio 1.0	Audio Generation (per second)	$0.0012/ second(0.08 Credits)

Doubao Seed Audio 1.0

Audio Generation (per second)

Price:

$0.0012/ second

(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

¿Qué puedes construir con Seed Audio 1.0?

Herramientas para creadores y flujos de trabajo de audio

Seed Audio 1.0 es generación de audio con IA basada en prompts, no solo texto a voz. Genera narración, locución y diseño de sonido a partir de un único prompt, y usa audio de referencia para mantener una voz coherente en toda una producción. Ideal para herramientas de pódcast, pipelines de audiolibros y flujos de trabajo de contenido de vídeos cortos donde la voz, la música y el ambiente deben producirse juntos.

Empezar a construir

herramientas para creadores y flujos de trabajo de audio

Agentes de voz y acompañantes de IA

Dale a tus agentes de voz, asistentes y acompañantes de IA una voz expresiva y controlable. Ajusta la velocidad, el tono y el volumen para adaptarse a cada interacción, y pasa audio de referencia para anclar una voz de personaje recurrente. La salida se transmite de vuelta a través de la misma pasarela de EvoLink que ya usas para otros modelos, así que gestionas el uso y el coste desde un solo lugar.

Audiodramas, videojuegos e historias interactivas

Compón diálogos multipersonaje, emoción y expresión no verbal directamente en el prompt para impulsar audiodramas, escenas de videojuegos y narrativas interactivas. La coherencia en formatos largos lo hace adecuado para audiolibros, audiodramas y contenido episódico donde los mismos personajes deben sonar coherentes a lo largo de muchas generaciones.

¿Por qué usar Seed Audio 1.0 a través de EvoLink?

Seed Audio 1.0 ya está disponible en EvoLink, así que puedes integrar un nuevo modelo de audio de forma temprana a través de una única pasarela unificada.

Adopción rápida del modelo

Seed Audio 1.0 está disponible en EvoLink hoy. Usa el ID de modelo doubao-seed-audio-1-0 con tu clave de API de EvoLink existente para empezar a integrar de forma temprana un nuevo modelo de generación de audio con IA, sin cuenta, contrato ni proceso de incorporación separados para un único proveedor.

Visibilidad de costes por duración de salida

Seed Audio 1.0 se factura según la duración del audio generado, cobrando por segundo de salida. Eso facilita estimar las cargas de trabajo por lotes antes de ejecutarlas. Consulta la consola de EvoLink para ver el precio unitario más reciente y supervisa el uso real desde el mismo panel que tus otros modelos.

Pasarela unificada para modelos de audio

Accede a Seed Audio 1.0 junto a otros modelos de audio a través de una sola API de EvoLink. Compara opciones, gestiona claves y uso en un solo lugar, y enruta o conmuta por error entre modelos sin reconfigurar tu integración para cada proveedor.

Cómo integrar Seed Audio 1.0

Tres pasos para llamar a Doubao Seed Audio 1.0 a través de EvoLink.

Crea una clave de API de EvoLink

Regístrate en EvoLink y genera una clave de API desde la consola. La misma clave te da acceso a Seed Audio 1.0 y a los demás modelos de la pasarela, y te permite establecer límites de uso y supervisar el consumo desde un solo panel.

Usa el ID de modelo doubao-seed-audio-1-0

Dirige tu solicitud al ID de modelo doubao-seed-audio-1-0. Proporciona tu prompt de texto (hasta 1.5k caracteres) y audio de referencia opcional, luego configura opciones de salida como formato, frecuencia de muestreo, velocidad, tono y volumen.

Envía una tarea asíncrona y recupera el audio

Seed Audio 1.0 usa un modelo de tarea asíncrona: envía la solicitud de generación, recibe un ID de tarea y luego consulta el endpoint de estado de la tarea para recuperar el audio terminado (hasta 120s). Transmite, descarga o integra el resultado directamente en tu producto.

Capacidades y límites

Los datos concretos que necesitas antes de integrar Seed Audio 1.0.

Generación

Generación de audio basada en prompts

Seed Audio 1.0 genera audio a partir de un prompt, opcionalmente guiado por audio de referencia. Va más allá del TTS sin más: el diálogo multipersonaje, la emoción y la expresión no verbal pueden escribirse directamente en el prompt.

Entrada

Compatibilidad con audio de referencia

Proporciona hasta 3 clips de audio de referencia por solicitud, cada uno de no más de 30 segundos, mediante base64 o URL, para guiar el timbre y la interpretación. La imagen de referencia y el audio de referencia no pueden suministrarse en la misma solicitud.

Límites

Límite de salida de hasta 120s

Cada solicitud sintetiza hasta 120 segundos de audio. La entrada de texto está limitada a 1.5k caracteres, lo cual es conveniente para dividir contenido de formato largo en segmentos.

Formatos

Formatos de salida flexibles

Exporta audio como wav (predeterminado), mp3, pcm u ogg_opus, para que puedas adaptarte a tu pipeline posterior sin transcodificación adicional. Se admite marca de agua explícita e implícita.

Calidad

Frecuencias de muestreo seleccionables

Elige frecuencias de muestreo de 48K, 24K (predeterminada), 16K u 8K para equilibrar fidelidad y tamaño de archivo para entrega web, producción o procesamiento en tiempo real.

Control

Idiomas y controles de interpretación

Admite chino e inglés, con interpretación de acentos nacionales convencionales (no se admiten dialectos puros). Ajusta velocidad, tono y volumen por solicitud. No se admite SSML.

Preguntas frecuentes sobre Seed Audio 1.0

Everything you need to know about the product and billing.

Seed Audio 1.0 (Doubao-Seed-Audio 1.0) es el modelo de generación de audio con IA basado en prompts de ByteDance. A partir de un prompt de texto —opcionalmente guiado por audio de referencia— puede generar voz, diálogo multipersonaje y audio con emoción y expresión no verbal. Es más amplio que el texto a voz tradicional y está diseñado para casos de uso de generación de audio con IA.

Sí. Seed Audio 1.0 está disponible en EvoLink y se puede acceder a él a través de la pasarela de API unificada de EvoLink con tu clave de API existente, junto a los demás modelos de la plataforma.

Usa el ID de modelo doubao-seed-audio-1-0 en tu solicitud al llamar a Seed Audio 1.0 a través de EvoLink.

Seed Audio 1.0 se factura según la duración del audio generado, cobrando por segundo de salida, lo que facilita estimar las cargas de trabajo por lotes. Los precios pueden cambiar, así que consulta el precio unitario más reciente en la consola y la página de precios de EvoLink antes de escalar.

La entrada de texto admite hasta 1.5k caracteres. Puedes proporcionar hasta 3 clips de audio de referencia, cada uno de no más de 30 segundos, mediante base64 o URL. Una sola solicitud sintetiza hasta 120 segundos de audio. Los formatos de salida son wav (predeterminado), mp3, pcm y ogg_opus, con frecuencias de muestreo de 48K, 24K (predeterminada), 16K y 8K. La imagen de referencia y el audio de referencia no pueden suministrarse al mismo tiempo; otros límites pueden variar, así que consulta la consola de EvoLink más reciente y la documentación oficial.

No. Aunque puede sintetizar voz a partir de texto, Seed Audio 1.0 es generación de audio con IA basada en prompts. Puedes componer diálogo multipersonaje, emoción y expresión no verbal en el prompt y guiar la salida con audio de referencia, lo cual va mucho más allá de un motor de texto a voz de una sola voz.

No. No se admite SSML. La interpretación se controla mediante instrucciones en el prompt y parámetros de solicitud como velocidad, tono y volumen.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.

Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.

Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

Value	Description
doubao-seed-audio-1-0	Doubao Seed Audio 1.0 multimodal audio generation

Exampledoubao-seed-audio-1-0

promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes

Limited to 1.5k characters

Example@音频1 Hi there! @音频2 How's your day going?

audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes

Up to 3 items; mutually exclusive with image_urls
Voice IDs look like 'zh_female_xxx'
Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus

Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes

Currently at most 1 image; mutually exclusive with audio_references
≤ 10MB, jpeg/png/webp

Example["https://your-bucket.com/scene.jpg"]

speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
Accepts two decimals

Example1.2

loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal)
Accepts two decimals

Example1.0

pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes

Range: -12 to 12 (0 = no change)

Example0

formatstringOptionalDefault: wav

Output audio format.

Value	Description
wav	WAV
mp3	MP3
pcm	PCM
ogg_opus	OGG Opus

Examplemp3

sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

Value	Description
8000	8 kHz
16000	16 kHz
24000	24 kHz
48000	48 kHz

Example24000

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion, failure, or cancellation
Sent after billing confirmation
HTTPS only, no internal IPs
Max length: 2048 chars

Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务，今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}