API Seed Audio 1.0

Développez des fonctionnalités de génération audio par IA avec Doubao Seed Audio 1.0 via la passerelle API unifiée d'EvoLink. ID de modèle doubao-seed-audio-1-0, facturation à la seconde, sortie jusqu'à 120s.

Type de modèle:

Prix: $0.0012(~ 0.08 credits) per second

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

Prompt*

83 (suggéré : 2,000)

Reference Mode

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

Historique

Max 20 éléments

0 en cours · 0 terminé

Votre historique de génération apparaîtra ici

API Seed Audio 1.0 pour la génération audio par IA

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Créez des outils pour créateurs, des agents vocaux, des workflows de fiction audio et des fonctionnalités de production de vidéos courtes avec Doubao Seed Audio 1.0 via la passerelle API unifiée d'EvoLink.

Génération audio par IA Seed Audio 1.0 sur EvoLink

Pricing

Model	Mode	Price
Doubao Seed Audio 1.0	Audio Generation (per second)	$0.0012/ second(0.08 Credits)

Doubao Seed Audio 1.0

Audio Generation (per second)

Price:

$0.0012/ second

(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Que pouvez-vous créer avec Seed Audio 1.0 ?

Outils pour créateurs et workflows audio

Seed Audio 1.0 est une génération audio par IA basée sur des prompts, et pas seulement de la synthèse vocale. Générez narration, voix off et sound design à partir d'un seul prompt, et utilisez un audio de référence pour conserver une voix cohérente sur toute une production. Idéal pour les outils de podcast, les pipelines de livres audio et les workflows de contenu vidéo court où parole, musique et ambiance doivent être produites ensemble.

Commencer à développer

outils pour créateurs et workflows audio

Agents vocaux et compagnons IA

Donnez aux agents vocaux, aux assistants et aux compagnons IA une voix expressive et contrôlable. Ajustez le débit, la hauteur et le volume pour s'adapter à chaque interaction, et transmettez un audio de référence pour ancrer la voix d'un personnage récurrent. La sortie est renvoyée via la même passerelle EvoLink que vous utilisez déjà pour d'autres modèles, ce qui vous permet de gérer l'usage et les coûts depuis un seul endroit.

Fiction audio, jeux et récits interactifs

Composez dialogues multi-personnages, émotions et expression non verbale directement dans le prompt pour animer fictions audio, scènes de jeu et récits interactifs. La cohérence sur du contenu long le rend adapté aux livres audio, aux fictions sonores et au contenu épisodique où les mêmes personnages doivent sonner de façon cohérente sur de nombreuses générations.

Pourquoi utiliser Seed Audio 1.0 via EvoLink ?

Seed Audio 1.0 est déjà en ligne sur EvoLink, vous pouvez donc intégrer un nouveau modèle audio dès maintenant via une seule passerelle unifiée.

Adoption rapide du modèle

Seed Audio 1.0 est en ligne sur EvoLink dès aujourd'hui. Utilisez l'ID de modèle doubao-seed-audio-1-0 avec votre clé API EvoLink existante pour commencer à intégrer tôt un nouveau modèle de génération audio par IA — sans compte séparé, contrat ni onboarding pour un fournisseur unique.

Visibilité des coûts selon la durée de sortie

Seed Audio 1.0 est facturé selon la durée de l'audio généré, à la seconde de sortie. Cela rend les charges de travail par lots faciles à estimer avant de les exécuter. Consultez la console EvoLink pour le dernier prix unitaire, et suivez l'usage réel depuis le même tableau de bord que vos autres modèles.

Passerelle unifiée pour les modèles audio

Accédez à Seed Audio 1.0 aux côtés d'autres modèles audio via une seule API EvoLink. Comparez les options, gérez clés et usage au même endroit, et routez ou basculez entre modèles sans recâbler votre intégration pour chaque fournisseur.

Comment intégrer Seed Audio 1.0

Trois étapes pour appeler Doubao Seed Audio 1.0 via EvoLink.

Créer une clé API EvoLink

Inscrivez-vous sur EvoLink et générez une clé API depuis la console. La même clé vous donne accès à Seed Audio 1.0 et aux autres modèles de la passerelle, et vous permet de définir des limites d'usage et de surveiller la consommation depuis un seul tableau de bord.

Utiliser l'ID de modèle doubao-seed-audio-1-0

Pointez votre requête vers l'ID de modèle doubao-seed-audio-1-0. Fournissez votre prompt texte (jusqu'à 1.5k caractères) et un audio de référence optionnel, puis définissez les options de sortie telles que le format, la fréquence d'échantillonnage, le débit, la hauteur et le volume.

Soumettre une tâche asynchrone et récupérer l'audio

Seed Audio 1.0 utilise un modèle de tâche asynchrone : soumettez la requête de génération, recevez un identifiant de tâche, puis interrogez l'endpoint de statut de la tâche pour récupérer l'audio finalisé (jusqu'à 120s). Diffusez, téléchargez ou intégrez le résultat directement dans votre produit.

Capacités et limites

Les faits concrets dont vous avez besoin avant d'intégrer Seed Audio 1.0.

Génération

Génération audio basée sur des prompts

Seed Audio 1.0 génère de l'audio à partir d'un prompt, éventuellement guidé par un audio de référence. Il va au-delà de la simple synthèse vocale : dialogues multi-personnages, émotion et expression non verbale peuvent être écrits directement dans le prompt.

Entrée

Prise en charge de l'audio de référence

Fournissez jusqu'à 3 clips d'audio de référence par requête, chacun d'une durée maximale de 30 secondes, via base64 ou URL, pour guider le timbre et le rendu. L'image de référence et l'audio de référence ne peuvent pas être fournis dans la même requête.

Limites

Limite de sortie jusqu'à 120s

Chaque requête synthétise jusqu'à 120 secondes d'audio. L'entrée texte est plafonnée à 1.5k caractères, ce qui est pratique pour traiter du contenu long par segments.

Formats

Formats de sortie flexibles

Exportez l'audio en wav (par défaut), mp3, pcm ou ogg_opus, afin de vous adapter à votre pipeline en aval sans transcodage supplémentaire. Le filigrane explicite et implicite est pris en charge.

Qualité

Fréquences d'échantillonnage sélectionnables

Choisissez des fréquences d'échantillonnage de 48K, 24K (par défaut), 16K ou 8K pour équilibrer fidélité et taille de fichier pour la diffusion web, la production ou le traitement en temps réel.

Contrôle

Langues et contrôles de rendu

Prend en charge le chinois et l'anglais, avec un rendu d'accent national grand public (les dialectes purs ne sont pas pris en charge). Ajustez le débit, la hauteur et le volume par requête. SSML n'est pas pris en charge.

Questions fréquentes sur Seed Audio 1.0

Everything you need to know about the product and billing.

Seed Audio 1.0 (Doubao-Seed-Audio 1.0) est le modèle de génération audio par IA basé sur des prompts de ByteDance. À partir d'un prompt texte — éventuellement guidé par un audio de référence — il peut générer de la parole, des dialogues multi-personnages et de l'audio avec émotion et expression non verbale. Il est plus large que la synthèse vocale traditionnelle et est conçu pour les cas d'usage de génération audio par IA.

Oui. Seed Audio 1.0 est en ligne sur EvoLink et accessible via la passerelle API unifiée d'EvoLink avec votre clé API existante, aux côtés des autres modèles de la plateforme.

Utilisez l'ID de modèle doubao-seed-audio-1-0 dans votre requête lorsque vous appelez Seed Audio 1.0 via EvoLink.

Seed Audio 1.0 est facturé selon la durée de l'audio généré, à la seconde de sortie, ce qui rend les charges de travail par lots simples à estimer. La tarification peut évoluer, alors vérifiez le dernier prix unitaire dans la console EvoLink et sur la page de tarification avant de passer à l'échelle.

L'entrée texte est limitée à 1.5k caractères. Vous pouvez fournir jusqu'à 3 clips d'audio de référence, chacun d'une durée maximale de 30 secondes, via base64 ou URL. Une seule requête synthétise jusqu'à 120 secondes d'audio. Les formats de sortie sont wav (par défaut), mp3, pcm et ogg_opus, avec des fréquences d'échantillonnage de 48K, 24K (par défaut), 16K et 8K. L'image de référence et l'audio de référence ne peuvent pas être fournis en même temps ; d'autres limites peuvent varier, alors vérifiez la dernière console EvoLink et la documentation officielle.

Non. Bien qu'il puisse synthétiser de la parole à partir de texte, Seed Audio 1.0 est une génération audio par IA basée sur des prompts. Vous pouvez composer dialogues multi-personnages, émotion et expression non verbale dans le prompt et guider la sortie avec un audio de référence, ce qui va bien au-delà d'un moteur de synthèse vocale à voix unique.

Non. SSML n'est pas pris en charge. Le rendu est contrôlé via les instructions du prompt et les paramètres de requête tels que le débit, la hauteur et le volume.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.

Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.

Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

Value	Description
doubao-seed-audio-1-0	Doubao Seed Audio 1.0 multimodal audio generation

Exampledoubao-seed-audio-1-0

promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes

Limited to 1.5k characters

Example@音频1 Hi there! @音频2 How's your day going?

audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes

Up to 3 items; mutually exclusive with image_urls
Voice IDs look like 'zh_female_xxx'
Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus

Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes

Currently at most 1 image; mutually exclusive with audio_references
≤ 10MB, jpeg/png/webp

Example["https://your-bucket.com/scene.jpg"]

speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
Accepts two decimals

Example1.2

loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal)
Accepts two decimals

Example1.0

pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes

Range: -12 to 12 (0 = no change)

Example0

formatstringOptionalDefault: wav

Output audio format.

Value	Description
wav	WAV
mp3	MP3
pcm	PCM
ogg_opus	OGG Opus

Examplemp3

sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

Value	Description
8000	8 kHz
16000	16 kHz
24000	24 kHz
48000	48 kHz

Example24000

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion, failure, or cancellation
Sent after billing confirmation
HTTPS only, no internal IPs
Max length: 2048 chars

Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务，今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}