Seedance 2.0 Mini ist jetzt verfügbarJetzt testen

Seed Audio 1.0 API

Entwickeln Sie KI-Audiogenerierungs-Funktionen mit Doubao Seed Audio 1.0 über das einheitliche API-Gateway von EvoLink. Modell-ID doubao-seed-audio-1-0, Abrechnung pro Sekunde, bis zu 120 s Ausgabe.

Preis: $0.0012(~ 0.08 credits) per second

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

83 (empfohlen: 2,000)

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

Verlauf

Max. 20 Einträge

0 läuft · 0 abgeschlossen

Ihre Generierungshistorie erscheint hier

Seed Audio 1.0 API für KI-Audiogenerierung

Entwickeln Sie Creator-Tools, Voice-Agents, Hörspiel-Workflows und Funktionen für die Kurzvideoproduktion mit Doubao Seed Audio 1.0 über das einheitliche API-Gateway von EvoLink.

Seed Audio 1.0 KI-Audiogenerierung auf EvoLink

Pricing

Doubao Seed Audio 1.0
Audio Generation (per second)
Price:
$0.0012/ second
(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Was können Sie mit Seed Audio 1.0 entwickeln?

Creator-Tools und Audio-Workflows

Seed Audio 1.0 ist Prompt-basierte KI-Audiogenerierung, nicht nur Text-to-Speech. Erzeugen Sie Erzählungen, Voiceover und Sounddesign aus einem einzigen Prompt und nutzen Sie Referenzaudio, um eine konsistente Stimme über eine gesamte Produktion hinweg beizubehalten. Ideal für Podcast-Tools, Hörbuch-Pipelines und Kurzvideo-Content-Workflows, bei denen Sprache, Musik und Atmosphäre gemeinsam erzeugt werden müssen.

Creator-Tools und Audio-Workflows

Voice-Agents und KI-Begleiter

Geben Sie Voice-Agents, Assistenten und KI-Begleitern eine ausdrucksstarke, steuerbare Stimme. Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke an jede Interaktion an und übergeben Sie Referenzaudio, um eine wiederkehrende Charakterstimme zu verankern. Die Ausgabe läuft über dasselbe EvoLink-Gateway, das Sie bereits für andere Modelle nutzen, sodass Sie Nutzung und Kosten an einem Ort verwalten.

Voice-Agents und KI-Begleiter

Hörspiele, Spiele und interaktive Geschichten

Komponieren Sie Mehrpersonen-Dialoge, Emotionen und nonverbalen Ausdruck direkt im Prompt, um Hörspiele, Spielszenen und interaktive Erzählungen zu steuern. Die Langform-Konsistenz macht es für Hörbücher, Hörspiele und episodische Inhalte geeignet, bei denen dieselben Charaktere über viele Generierungen hinweg konsistent klingen müssen.

Hörspiele, Spiele und interaktive Geschichten

Warum Seed Audio 1.0 über EvoLink nutzen?

Seed Audio 1.0 ist bereits live auf EvoLink, sodass Sie ein neues Audiomodell früh über ein einziges einheitliches Gateway integrieren können.

Schnelle Modell-Einführung

Seed Audio 1.0 ist heute live auf EvoLink. Verwenden Sie die Modell-ID doubao-seed-audio-1-0 mit Ihrem vorhandenen EvoLink-API-Key, um ein neues KI-Audiogenerierungsmodell frühzeitig zu integrieren – ohne separates Konto, Vertrag oder Onboarding für einen einzelnen Anbieter.

Kostentransparenz nach Ausgabedauer

Seed Audio 1.0 wird nach der erzeugten Audiodauer abgerechnet, pro Sekunde der Ausgabe. Das macht Batch-Workloads vor der Ausführung leicht abschätzbar. Den aktuellen Stückpreis finden Sie in der EvoLink-Konsole, und die reale Nutzung überwachen Sie im selben Dashboard wie Ihre anderen Modelle.

Einheitliches Gateway für Audiomodelle

Greifen Sie über eine einzige EvoLink-API auf Seed Audio 1.0 neben anderen Audiomodellen zu. Vergleichen Sie Optionen, verwalten Sie Keys und Nutzung an einem Ort und routen oder fallen Sie zwischen Modellen zurück, ohne Ihre Integration für jeden Anbieter neu zu verkabeln.

So integrieren Sie Seed Audio 1.0

Drei Schritte, um Doubao Seed Audio 1.0 über EvoLink aufzurufen.

So integrieren Sie Seed Audio 1.0
1

EvoLink-API-Key erstellen

Registrieren Sie sich bei EvoLink und erstellen Sie in der Konsole einen API-Key. Derselbe Key gibt Ihnen Zugriff auf Seed Audio 1.0 und die übrigen Modelle des Gateways und erlaubt es, Nutzungslimits festzulegen und den Verbrauch über ein Dashboard zu überwachen.

2

Modell-ID doubao-seed-audio-1-0 verwenden

Richten Sie Ihre Anfrage an die Modell-ID doubao-seed-audio-1-0. Geben Sie Ihren Text-Prompt (bis zu 1,5k Zeichen) und optional Referenzaudio an und legen Sie dann Ausgabeoptionen wie Format, Abtastrate, Geschwindigkeit, Tonhöhe und Lautstärke fest.

3

Asynchrone Aufgabe senden und Audio abrufen

Seed Audio 1.0 verwendet ein asynchrones Aufgabenmodell: Senden Sie die Generierungsanfrage, erhalten Sie eine Task-ID und fragen Sie dann den Task-Status-Endpunkt ab, um das fertige Audio abzurufen (bis zu 120 s). Streamen Sie das Ergebnis, laden Sie es herunter oder betten Sie es direkt in Ihr Produkt ein.

Funktionen und Grenzen

Die konkreten Fakten, die Sie vor der Integration von Seed Audio 1.0 benötigen.

Generierung

Prompt-basierte Audiogenerierung

Seed Audio 1.0 erzeugt Audio aus einem Prompt, optional gesteuert durch Referenzaudio. Es geht über reines TTS hinaus: Mehrpersonen-Dialoge, Emotionen und nonverbaler Ausdruck können direkt in den Prompt geschrieben werden.

Eingabe

Unterstützung von Referenzaudio

Stellen Sie bis zu 3 Referenzaudio-Clips pro Anfrage bereit, jeweils maximal 30 Sekunden, per base64 oder URL, um Klangfarbe und Wiedergabe zu steuern. Referenzbild und Referenzaudio können nicht in derselben Anfrage übergeben werden.

Grenzen

Ausgabelimit bis zu 120 s

Jede Anfrage synthetisiert bis zu 120 Sekunden Audio. Die Texteingabe ist auf 1,5k Zeichen begrenzt, was das Aufteilen von Langform-Inhalten in Segmente erleichtert.

Formate

Flexible Ausgabeformate

Exportieren Sie Audio als wav (Standard), mp3, pcm oder ogg_opus, sodass Sie Ihre nachgelagerte Pipeline ohne zusätzliche Transkodierung abdecken. Explizite und implizite Wasserzeichen werden unterstützt.

Qualität

Wählbare Abtastraten

Wählen Sie 48K, 24K (Standard), 16K oder 8K Abtastraten, um Klangqualität und Dateigröße für Web-Auslieferung, Produktion oder Echtzeitverarbeitung auszubalancieren.

Steuerung

Sprachen und Wiedergabesteuerung

Unterstützt Chinesisch und Englisch, mit Wiedergabe in gängigen heimischen Akzenten (reine Dialekte werden nicht unterstützt). Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke pro Anfrage an. SSML wird nicht unterstützt.

Häufig gestellte Fragen zu Seed Audio 1.0

Everything you need to know about the product and billing.

Seed Audio 1.0 (Doubao-Seed-Audio 1.0) ist das Prompt-basierte KI-Audiogenerierungsmodell von ByteDance. Aus einem Text-Prompt – optional gesteuert durch Referenzaudio – kann es Sprache, Mehrpersonen-Dialoge und Audio mit Emotion und nonverbalem Ausdruck erzeugen. Es ist breiter angelegt als herkömmliches Text-to-Speech und für KI-Audiogenerierungs-Anwendungsfälle konzipiert.
Ja. Seed Audio 1.0 ist live auf EvoLink und kann über das einheitliche API-Gateway von EvoLink mit Ihrem vorhandenen API-Key genutzt werden – neben den anderen Modellen der Plattform.
Verwenden Sie die Modell-ID doubao-seed-audio-1-0 in Ihrer Anfrage, wenn Sie Seed Audio 1.0 über EvoLink aufrufen.
Seed Audio 1.0 wird nach der erzeugten Audiodauer abgerechnet, pro Sekunde der Ausgabe, wodurch sich Batch-Workloads unkompliziert abschätzen lassen. Die Preise können sich ändern; prüfen Sie daher den aktuellen Stückpreis in der EvoLink-Konsole und auf der Preisseite, bevor Sie skalieren.
Die Texteingabe beträgt bis zu 1,5k Zeichen. Sie können bis zu 3 Referenzaudio-Clips bereitstellen, jeweils maximal 30 Sekunden, per base64 oder URL. Eine einzelne Anfrage synthetisiert bis zu 120 Sekunden Audio. Die Ausgabeformate sind wav (Standard), mp3, pcm und ogg_opus, mit Abtastraten von 48K, 24K (Standard), 16K und 8K. Referenzbild und Referenzaudio können nicht gleichzeitig übergeben werden; weitere Grenzen können variieren, prüfen Sie daher die aktuelle EvoLink-Konsole und die offizielle Dokumentation.
Nein. Es kann zwar Sprache aus Text synthetisieren, doch Seed Audio 1.0 ist Prompt-basierte KI-Audiogenerierung. Sie können Mehrpersonen-Dialoge, Emotionen und nonverbalen Ausdruck im Prompt komponieren und die Ausgabe mit Referenzaudio steuern, was weit über eine Einzelstimmen-Text-to-Speech-Engine hinausgeht.
Nein. SSML wird nicht unterstützt. Die Wiedergabe wird über Prompt-Anweisungen und Anfrageparameter wie Geschwindigkeit, Tonhöhe und Lautstärke gesteuert.
POST
/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.
Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.
Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

ValueDescription
doubao-seed-audio-1-0Doubao Seed Audio 1.0 multimodal audio generation
Exampledoubao-seed-audio-1-0
promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes
  • Limited to 1.5k characters
Example@音频1 Hi there! @音频2 How's your day going?
audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes
  • Up to 3 items; mutually exclusive with image_urls
  • Voice IDs look like 'zh_female_xxx'
  • Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus
Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes
  • Currently at most 1 image; mutually exclusive with audio_references
  • ≤ 10MB, jpeg/png/webp
Example["https://your-bucket.com/scene.jpg"]
speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes
  • Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
  • Accepts two decimals
Example1.2
loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes
  • Range: 0.5 to 2.0 (1.0 = normal)
  • Accepts two decimals
Example1.0
pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes
  • Range: -12 to 12 (0 = no change)
Example0
formatstringOptionalDefault: wav

Output audio format.

ValueDescription
wavWAV
mp3MP3
pcmPCM
ogg_opusOGG Opus
Examplemp3
sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

ValueDescription
80008 kHz
1600016 kHz
2400024 kHz
4800048 kHz
Example24000
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion, failure, or cancellation
  • Sent after billing confirmation
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务,今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}