Seed Audio 1.0 API
Preis: $0.0012(~ 0.08 credits) per second
Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.
Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.
Reference type. Reference Audio and Reference Image are mutually exclusive.
Click Generate to see preview
Verlauf
Max. 20 Einträge0 läuft · 0 abgeschlossen
Seed Audio 1.0 API für KI-Audiogenerierung
Entwickeln Sie Creator-Tools, Voice-Agents, Hörspiel-Workflows und Funktionen für die Kurzvideoproduktion mit Doubao Seed Audio 1.0 über das einheitliche API-Gateway von EvoLink.

Pricing
| Model | Mode | Price |
|---|---|---|
| Doubao Seed Audio 1.0 | Audio Generation (per second) | $0.0012/ second(0.08 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
Was können Sie mit Seed Audio 1.0 entwickeln?
Creator-Tools und Audio-Workflows
Seed Audio 1.0 ist Prompt-basierte KI-Audiogenerierung, nicht nur Text-to-Speech. Erzeugen Sie Erzählungen, Voiceover und Sounddesign aus einem einzigen Prompt und nutzen Sie Referenzaudio, um eine konsistente Stimme über eine gesamte Produktion hinweg beizubehalten. Ideal für Podcast-Tools, Hörbuch-Pipelines und Kurzvideo-Content-Workflows, bei denen Sprache, Musik und Atmosphäre gemeinsam erzeugt werden müssen.

Voice-Agents und KI-Begleiter
Geben Sie Voice-Agents, Assistenten und KI-Begleitern eine ausdrucksstarke, steuerbare Stimme. Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke an jede Interaktion an und übergeben Sie Referenzaudio, um eine wiederkehrende Charakterstimme zu verankern. Die Ausgabe läuft über dasselbe EvoLink-Gateway, das Sie bereits für andere Modelle nutzen, sodass Sie Nutzung und Kosten an einem Ort verwalten.

Hörspiele, Spiele und interaktive Geschichten
Komponieren Sie Mehrpersonen-Dialoge, Emotionen und nonverbalen Ausdruck direkt im Prompt, um Hörspiele, Spielszenen und interaktive Erzählungen zu steuern. Die Langform-Konsistenz macht es für Hörbücher, Hörspiele und episodische Inhalte geeignet, bei denen dieselben Charaktere über viele Generierungen hinweg konsistent klingen müssen.

Warum Seed Audio 1.0 über EvoLink nutzen?
Seed Audio 1.0 ist bereits live auf EvoLink, sodass Sie ein neues Audiomodell früh über ein einziges einheitliches Gateway integrieren können.
Schnelle Modell-Einführung
Seed Audio 1.0 ist heute live auf EvoLink. Verwenden Sie die Modell-ID doubao-seed-audio-1-0 mit Ihrem vorhandenen EvoLink-API-Key, um ein neues KI-Audiogenerierungsmodell frühzeitig zu integrieren – ohne separates Konto, Vertrag oder Onboarding für einen einzelnen Anbieter.
Kostentransparenz nach Ausgabedauer
Seed Audio 1.0 wird nach der erzeugten Audiodauer abgerechnet, pro Sekunde der Ausgabe. Das macht Batch-Workloads vor der Ausführung leicht abschätzbar. Den aktuellen Stückpreis finden Sie in der EvoLink-Konsole, und die reale Nutzung überwachen Sie im selben Dashboard wie Ihre anderen Modelle.
Einheitliches Gateway für Audiomodelle
Greifen Sie über eine einzige EvoLink-API auf Seed Audio 1.0 neben anderen Audiomodellen zu. Vergleichen Sie Optionen, verwalten Sie Keys und Nutzung an einem Ort und routen oder fallen Sie zwischen Modellen zurück, ohne Ihre Integration für jeden Anbieter neu zu verkabeln.
So integrieren Sie Seed Audio 1.0
Drei Schritte, um Doubao Seed Audio 1.0 über EvoLink aufzurufen.

EvoLink-API-Key erstellen
Registrieren Sie sich bei EvoLink und erstellen Sie in der Konsole einen API-Key. Derselbe Key gibt Ihnen Zugriff auf Seed Audio 1.0 und die übrigen Modelle des Gateways und erlaubt es, Nutzungslimits festzulegen und den Verbrauch über ein Dashboard zu überwachen.
Modell-ID doubao-seed-audio-1-0 verwenden
Richten Sie Ihre Anfrage an die Modell-ID doubao-seed-audio-1-0. Geben Sie Ihren Text-Prompt (bis zu 1,5k Zeichen) und optional Referenzaudio an und legen Sie dann Ausgabeoptionen wie Format, Abtastrate, Geschwindigkeit, Tonhöhe und Lautstärke fest.
Asynchrone Aufgabe senden und Audio abrufen
Seed Audio 1.0 verwendet ein asynchrones Aufgabenmodell: Senden Sie die Generierungsanfrage, erhalten Sie eine Task-ID und fragen Sie dann den Task-Status-Endpunkt ab, um das fertige Audio abzurufen (bis zu 120 s). Streamen Sie das Ergebnis, laden Sie es herunter oder betten Sie es direkt in Ihr Produkt ein.
Funktionen und Grenzen
Die konkreten Fakten, die Sie vor der Integration von Seed Audio 1.0 benötigen.
Prompt-basierte Audiogenerierung
Seed Audio 1.0 erzeugt Audio aus einem Prompt, optional gesteuert durch Referenzaudio. Es geht über reines TTS hinaus: Mehrpersonen-Dialoge, Emotionen und nonverbaler Ausdruck können direkt in den Prompt geschrieben werden.
Unterstützung von Referenzaudio
Stellen Sie bis zu 3 Referenzaudio-Clips pro Anfrage bereit, jeweils maximal 30 Sekunden, per base64 oder URL, um Klangfarbe und Wiedergabe zu steuern. Referenzbild und Referenzaudio können nicht in derselben Anfrage übergeben werden.
Ausgabelimit bis zu 120 s
Jede Anfrage synthetisiert bis zu 120 Sekunden Audio. Die Texteingabe ist auf 1,5k Zeichen begrenzt, was das Aufteilen von Langform-Inhalten in Segmente erleichtert.
Flexible Ausgabeformate
Exportieren Sie Audio als wav (Standard), mp3, pcm oder ogg_opus, sodass Sie Ihre nachgelagerte Pipeline ohne zusätzliche Transkodierung abdecken. Explizite und implizite Wasserzeichen werden unterstützt.
Wählbare Abtastraten
Wählen Sie 48K, 24K (Standard), 16K oder 8K Abtastraten, um Klangqualität und Dateigröße für Web-Auslieferung, Produktion oder Echtzeitverarbeitung auszubalancieren.
Sprachen und Wiedergabesteuerung
Unterstützt Chinesisch und Englisch, mit Wiedergabe in gängigen heimischen Akzenten (reine Dialekte werden nicht unterstützt). Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke pro Anfrage an. SSML wird nicht unterstützt.
Häufig gestellte Fragen zu Seed Audio 1.0
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/audios/generationsGenerate Audio
Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.
Asynchronous processing mode, use the returned task ID to .
Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).
Three Generation Modes
prompt — generate audio directly from the prompt.prompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.prompt + image_urls — generate audio guided by a reference image.⚠️ audio_references and image_urls are mutually exclusive — use one or the other.
Request Parameters
modelstringRequiredDefault: doubao-seed-audio-1-0Audio generation model name.
| Value | Description |
|---|---|
| doubao-seed-audio-1-0 | Doubao Seed Audio 1.0 multimodal audio generation |
doubao-seed-audio-1-0promptstringRequiredThe text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.
Notes
- Limited to 1.5k characters
@音频1 Hi there! @音频2 How's your day going?audio_referencesarrayOptionalReference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.
Notes
- Up to 3 items; mutually exclusive with image_urls
- Voice IDs look like 'zh_female_xxx'
- Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.
image_urlsarrayOptionalReference image URL to drive audio generation.
Notes
- Currently at most 1 image; mutually exclusive with audio_references
- ≤ 10MB, jpeg/png/webp
["https://your-bucket.com/scene.jpg"]speech_ratenumberOptionalDefault: 1.0Speech speed multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
- Accepts two decimals
1.2loudness_ratenumberOptionalDefault: 1.0Loudness multiplier.
Notes
- Range: 0.5 to 2.0 (1.0 = normal)
- Accepts two decimals
1.0pitch_rateintegerOptionalDefault: 0Pitch adjustment in semitones.
Notes
- Range: -12 to 12 (0 = no change)
0formatstringOptionalDefault: wavOutput audio format.
| Value | Description |
|---|---|
| wav | WAV |
| mp3 | MP3 |
| pcm | PCM |
| ogg_opus | OGG Opus |
mp3sample_rateintegerOptionalDefault: 24000Output sample rate in Hz.
| Value | Description |
|---|---|
| 8000 | 8 kHz |
| 16000 | 16 kHz |
| 24000 | 24 kHz |
| 48000 | 48 kHz |
24000callback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
https://your-domain.com/webhooks/audio-task-completedRequest Example — Text-to-Speech
Request Example — Voice Cloning (multi-voice)
Response Example
Submit (task created):
Query (completed):