API Seed Audio 1.0
Prix: $0.0012(~ 0.08 credits) per second
Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.
Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.
Reference type. Reference Audio and Reference Image are mutually exclusive.
Click Generate to see preview
Historique
Max 20 éléments0 en cours · 0 terminé
API Seed Audio 1.0 pour la génération audio par IA
Créez des outils pour créateurs, des agents vocaux, des workflows de fiction audio et des fonctionnalités de production de vidéos courtes avec Doubao Seed Audio 1.0 via la passerelle API unifiée d'EvoLink.

Pricing
| Model | Mode | Price |
|---|---|---|
| Doubao Seed Audio 1.0 | Audio Generation (per second) | $0.0012/ second(0.08 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
Que pouvez-vous créer avec Seed Audio 1.0 ?
Outils pour créateurs et workflows audio
Seed Audio 1.0 est une génération audio par IA basée sur des prompts, et pas seulement de la synthèse vocale. Générez narration, voix off et sound design à partir d'un seul prompt, et utilisez un audio de référence pour conserver une voix cohérente sur toute une production. Idéal pour les outils de podcast, les pipelines de livres audio et les workflows de contenu vidéo court où parole, musique et ambiance doivent être produites ensemble.

Agents vocaux et compagnons IA
Donnez aux agents vocaux, aux assistants et aux compagnons IA une voix expressive et contrôlable. Ajustez le débit, la hauteur et le volume pour s'adapter à chaque interaction, et transmettez un audio de référence pour ancrer la voix d'un personnage récurrent. La sortie est renvoyée via la même passerelle EvoLink que vous utilisez déjà pour d'autres modèles, ce qui vous permet de gérer l'usage et les coûts depuis un seul endroit.

Fiction audio, jeux et récits interactifs
Composez dialogues multi-personnages, émotions et expression non verbale directement dans le prompt pour animer fictions audio, scènes de jeu et récits interactifs. La cohérence sur du contenu long le rend adapté aux livres audio, aux fictions sonores et au contenu épisodique où les mêmes personnages doivent sonner de façon cohérente sur de nombreuses générations.

Pourquoi utiliser Seed Audio 1.0 via EvoLink ?
Seed Audio 1.0 est déjà en ligne sur EvoLink, vous pouvez donc intégrer un nouveau modèle audio dès maintenant via une seule passerelle unifiée.
Adoption rapide du modèle
Seed Audio 1.0 est en ligne sur EvoLink dès aujourd'hui. Utilisez l'ID de modèle doubao-seed-audio-1-0 avec votre clé API EvoLink existante pour commencer à intégrer tôt un nouveau modèle de génération audio par IA — sans compte séparé, contrat ni onboarding pour un fournisseur unique.
Visibilité des coûts selon la durée de sortie
Seed Audio 1.0 est facturé selon la durée de l'audio généré, à la seconde de sortie. Cela rend les charges de travail par lots faciles à estimer avant de les exécuter. Consultez la console EvoLink pour le dernier prix unitaire, et suivez l'usage réel depuis le même tableau de bord que vos autres modèles.
Passerelle unifiée pour les modèles audio
Accédez à Seed Audio 1.0 aux côtés d'autres modèles audio via une seule API EvoLink. Comparez les options, gérez clés et usage au même endroit, et routez ou basculez entre modèles sans recâbler votre intégration pour chaque fournisseur.
Comment intégrer Seed Audio 1.0
Trois étapes pour appeler Doubao Seed Audio 1.0 via EvoLink.

Créer une clé API EvoLink
Inscrivez-vous sur EvoLink et générez une clé API depuis la console. La même clé vous donne accès à Seed Audio 1.0 et aux autres modèles de la passerelle, et vous permet de définir des limites d'usage et de surveiller la consommation depuis un seul tableau de bord.
Utiliser l'ID de modèle doubao-seed-audio-1-0
Pointez votre requête vers l'ID de modèle doubao-seed-audio-1-0. Fournissez votre prompt texte (jusqu'à 1.5k caractères) et un audio de référence optionnel, puis définissez les options de sortie telles que le format, la fréquence d'échantillonnage, le débit, la hauteur et le volume.
Soumettre une tâche asynchrone et récupérer l'audio
Seed Audio 1.0 utilise un modèle de tâche asynchrone : soumettez la requête de génération, recevez un identifiant de tâche, puis interrogez l'endpoint de statut de la tâche pour récupérer l'audio finalisé (jusqu'à 120s). Diffusez, téléchargez ou intégrez le résultat directement dans votre produit.
Capacités et limites
Les faits concrets dont vous avez besoin avant d'intégrer Seed Audio 1.0.
Génération audio basée sur des prompts
Seed Audio 1.0 génère de l'audio à partir d'un prompt, éventuellement guidé par un audio de référence. Il va au-delà de la simple synthèse vocale : dialogues multi-personnages, émotion et expression non verbale peuvent être écrits directement dans le prompt.
Prise en charge de l'audio de référence
Fournissez jusqu'à 3 clips d'audio de référence par requête, chacun d'une durée maximale de 30 secondes, via base64 ou URL, pour guider le timbre et le rendu. L'image de référence et l'audio de référence ne peuvent pas être fournis dans la même requête.
Limite de sortie jusqu'à 120s
Chaque requête synthétise jusqu'à 120 secondes d'audio. L'entrée texte est plafonnée à 1.5k caractères, ce qui est pratique pour traiter du contenu long par segments.
Formats de sortie flexibles
Exportez l'audio en wav (par défaut), mp3, pcm ou ogg_opus, afin de vous adapter à votre pipeline en aval sans transcodage supplémentaire. Le filigrane explicite et implicite est pris en charge.
Fréquences d'échantillonnage sélectionnables
Choisissez des fréquences d'échantillonnage de 48K, 24K (par défaut), 16K ou 8K pour équilibrer fidélité et taille de fichier pour la diffusion web, la production ou le traitement en temps réel.
Langues et contrôles de rendu
Prend en charge le chinois et l'anglais, avec un rendu d'accent national grand public (les dialectes purs ne sont pas pris en charge). Ajustez le débit, la hauteur et le volume par requête. SSML n'est pas pris en charge.
Questions fréquentes sur Seed Audio 1.0
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/audios/generationsGenerate Audio
Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.
Asynchronous processing mode, use the returned task ID to .
Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).
Three Generation Modes
prompt — generate audio directly from the prompt.prompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.prompt + image_urls — generate audio guided by a reference image.⚠️ audio_references and image_urls are mutually exclusive — use one or the other.
Request Parameters
modelstringRequiredDefault: doubao-seed-audio-1-0Audio generation model name.
| Value | Description |
|---|---|
| doubao-seed-audio-1-0 | Doubao Seed Audio 1.0 multimodal audio generation |
doubao-seed-audio-1-0promptstringRequiredThe text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.
Notes
- Limited to 1.5k characters
@音频1 Hi there! @音频2 How's your day going?audio_referencesarrayOptionalReference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.
Notes
- Up to 3 items; mutually exclusive with image_urls
- Voice IDs look like 'zh_female_xxx'
- Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.
image_urlsarrayOptionalReference image URL to drive audio generation.
Notes
- Currently at most 1 image; mutually exclusive with audio_references
- ≤ 10MB, jpeg/png/webp
["https://your-bucket.com/scene.jpg"]speech_ratenumberOptionalDefault: 1.0Speech speed multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
- Accepts two decimals
1.2loudness_ratenumberOptionalDefault: 1.0Loudness multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal)
- Accepts two decimals
1.0pitch_rateintegerOptionalDefault: 0Pitch adjustment in semitones.
Notes
- Range: -12 to 12 (0 = no change)
0formatstringOptionalDefault: wavOutput audio format.
| Value | Description |
|---|---|
| wav | WAV |
| mp3 | MP3 |
| pcm | PCM |
| ogg_opus | OGG Opus |
mp3sample_rateintegerOptionalDefault: 24000Output sample rate in Hz.
| Value | Description |
|---|---|
| 8000 | 8 kHz |
| 16000 | 16 kHz |
| 24000 | 24 kHz |
| 48000 | 48 kHz |
24000callback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
https://your-domain.com/webhooks/audio-task-completedRequest Example — Text-to-Speech
Request Example — Voice Cloning (multi-voice)
Response Example
Submit (task created):
Query (completed):