Seed Audio 1.0 API

Entwickeln Sie KI-Audiogenerierungs-Funktionen mit Doubao Seed Audio 1.0 über das einheitliche API-Gateway von EvoLink. Modell-ID doubao-seed-audio-1-0, Abrechnung pro Sekunde, bis zu 120 s Ausgabe.

Modelltyp:

Preis: $0.0012(~ 0.08 credits) per second

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

Prompt*

83 (empfohlen: 2,000)

Reference Mode

Reference type. Reference Audio and Reference Image are mutually exclusive.

Click Generate to see preview

Verlauf

Max. 20 Einträge

0 läuft · 0 abgeschlossen

Ihre Generierungshistorie erscheint hier

Seed Audio 1.0 API für KI-Audiogenerierung

Name: EvoLink AI Model API Platform
Brand: EvoLink
Availability: InStock

Entwickeln Sie Creator-Tools, Voice-Agents, Hörspiel-Workflows und Funktionen für die Kurzvideoproduktion mit Doubao Seed Audio 1.0 über das einheitliche API-Gateway von EvoLink.

Seed Audio 1.0 KI-Audiogenerierung auf EvoLink

Pricing

Model	Mode	Price
Doubao Seed Audio 1.0	Audio Generation (per second)	$0.0012/ second(0.08 Credits)

Doubao Seed Audio 1.0

Audio Generation (per second)

Price:

$0.0012/ second

(0.08 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Was können Sie mit Seed Audio 1.0 entwickeln?

Creator-Tools und Audio-Workflows

Seed Audio 1.0 ist Prompt-basierte KI-Audiogenerierung, nicht nur Text-to-Speech. Erzeugen Sie Erzählungen, Voiceover und Sounddesign aus einem einzigen Prompt und nutzen Sie Referenzaudio, um eine konsistente Stimme über eine gesamte Produktion hinweg beizubehalten. Ideal für Podcast-Tools, Hörbuch-Pipelines und Kurzvideo-Content-Workflows, bei denen Sprache, Musik und Atmosphäre gemeinsam erzeugt werden müssen.

Jetzt entwickeln

Voice-Agents und KI-Begleiter

Geben Sie Voice-Agents, Assistenten und KI-Begleitern eine ausdrucksstarke, steuerbare Stimme. Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke an jede Interaktion an und übergeben Sie Referenzaudio, um eine wiederkehrende Charakterstimme zu verankern. Die Ausgabe läuft über dasselbe EvoLink-Gateway, das Sie bereits für andere Modelle nutzen, sodass Sie Nutzung und Kosten an einem Ort verwalten.

Hörspiele, Spiele und interaktive Geschichten

Komponieren Sie Mehrpersonen-Dialoge, Emotionen und nonverbalen Ausdruck direkt im Prompt, um Hörspiele, Spielszenen und interaktive Erzählungen zu steuern. Die Langform-Konsistenz macht es für Hörbücher, Hörspiele und episodische Inhalte geeignet, bei denen dieselben Charaktere über viele Generierungen hinweg konsistent klingen müssen.

Warum Seed Audio 1.0 über EvoLink nutzen?

Seed Audio 1.0 ist bereits live auf EvoLink, sodass Sie ein neues Audiomodell früh über ein einziges einheitliches Gateway integrieren können.

Schnelle Modell-Einführung

Seed Audio 1.0 ist heute live auf EvoLink. Verwenden Sie die Modell-ID doubao-seed-audio-1-0 mit Ihrem vorhandenen EvoLink-API-Key, um ein neues KI-Audiogenerierungsmodell frühzeitig zu integrieren – ohne separates Konto, Vertrag oder Onboarding für einen einzelnen Anbieter.

Kostentransparenz nach Ausgabedauer

Seed Audio 1.0 wird nach der erzeugten Audiodauer abgerechnet, pro Sekunde der Ausgabe. Das macht Batch-Workloads vor der Ausführung leicht abschätzbar. Den aktuellen Stückpreis finden Sie in der EvoLink-Konsole, und die reale Nutzung überwachen Sie im selben Dashboard wie Ihre anderen Modelle.

Einheitliches Gateway für Audiomodelle

Greifen Sie über eine einzige EvoLink-API auf Seed Audio 1.0 neben anderen Audiomodellen zu. Vergleichen Sie Optionen, verwalten Sie Keys und Nutzung an einem Ort und routen oder fallen Sie zwischen Modellen zurück, ohne Ihre Integration für jeden Anbieter neu zu verkabeln.

So integrieren Sie Seed Audio 1.0

Drei Schritte, um Doubao Seed Audio 1.0 über EvoLink aufzurufen.

EvoLink-API-Key erstellen

Registrieren Sie sich bei EvoLink und erstellen Sie in der Konsole einen API-Key. Derselbe Key gibt Ihnen Zugriff auf Seed Audio 1.0 und die übrigen Modelle des Gateways und erlaubt es, Nutzungslimits festzulegen und den Verbrauch über ein Dashboard zu überwachen.

Modell-ID doubao-seed-audio-1-0 verwenden

Richten Sie Ihre Anfrage an die Modell-ID doubao-seed-audio-1-0. Geben Sie Ihren Text-Prompt (bis zu 1,5k Zeichen) und optional Referenzaudio an und legen Sie dann Ausgabeoptionen wie Format, Abtastrate, Geschwindigkeit, Tonhöhe und Lautstärke fest.

Asynchrone Aufgabe senden und Audio abrufen

Seed Audio 1.0 verwendet ein asynchrones Aufgabenmodell: Senden Sie die Generierungsanfrage, erhalten Sie eine Task-ID und fragen Sie dann den Task-Status-Endpunkt ab, um das fertige Audio abzurufen (bis zu 120 s). Streamen Sie das Ergebnis, laden Sie es herunter oder betten Sie es direkt in Ihr Produkt ein.

Funktionen und Grenzen

Die konkreten Fakten, die Sie vor der Integration von Seed Audio 1.0 benötigen.

Generierung

Prompt-basierte Audiogenerierung

Seed Audio 1.0 erzeugt Audio aus einem Prompt, optional gesteuert durch Referenzaudio. Es geht über reines TTS hinaus: Mehrpersonen-Dialoge, Emotionen und nonverbaler Ausdruck können direkt in den Prompt geschrieben werden.

Eingabe

Unterstützung von Referenzaudio

Stellen Sie bis zu 3 Referenzaudio-Clips pro Anfrage bereit, jeweils maximal 30 Sekunden, per base64 oder URL, um Klangfarbe und Wiedergabe zu steuern. Referenzbild und Referenzaudio können nicht in derselben Anfrage übergeben werden.

Grenzen

Ausgabelimit bis zu 120 s

Jede Anfrage synthetisiert bis zu 120 Sekunden Audio. Die Texteingabe ist auf 1,5k Zeichen begrenzt, was das Aufteilen von Langform-Inhalten in Segmente erleichtert.

Formate

Flexible Ausgabeformate

Exportieren Sie Audio als wav (Standard), mp3, pcm oder ogg_opus, sodass Sie Ihre nachgelagerte Pipeline ohne zusätzliche Transkodierung abdecken. Explizite und implizite Wasserzeichen werden unterstützt.

Qualität

Wählbare Abtastraten

Wählen Sie 48K, 24K (Standard), 16K oder 8K Abtastraten, um Klangqualität und Dateigröße für Web-Auslieferung, Produktion oder Echtzeitverarbeitung auszubalancieren.

Steuerung

Sprachen und Wiedergabesteuerung

Unterstützt Chinesisch und Englisch, mit Wiedergabe in gängigen heimischen Akzenten (reine Dialekte werden nicht unterstützt). Passen Sie Geschwindigkeit, Tonhöhe und Lautstärke pro Anfrage an. SSML wird nicht unterstützt.

Häufig gestellte Fragen zu Seed Audio 1.0

Everything you need to know about the product and billing.

Seed Audio 1.0 (Doubao-Seed-Audio 1.0) ist das Prompt-basierte KI-Audiogenerierungsmodell von ByteDance. Aus einem Text-Prompt – optional gesteuert durch Referenzaudio – kann es Sprache, Mehrpersonen-Dialoge und Audio mit Emotion und nonverbalem Ausdruck erzeugen. Es ist breiter angelegt als herkömmliches Text-to-Speech und für KI-Audiogenerierungs-Anwendungsfälle konzipiert.

Ja. Seed Audio 1.0 ist live auf EvoLink und kann über das einheitliche API-Gateway von EvoLink mit Ihrem vorhandenen API-Key genutzt werden – neben den anderen Modellen der Plattform.

Verwenden Sie die Modell-ID doubao-seed-audio-1-0 in Ihrer Anfrage, wenn Sie Seed Audio 1.0 über EvoLink aufrufen.

Seed Audio 1.0 wird nach der erzeugten Audiodauer abgerechnet, pro Sekunde der Ausgabe, wodurch sich Batch-Workloads unkompliziert abschätzen lassen. Die Preise können sich ändern; prüfen Sie daher den aktuellen Stückpreis in der EvoLink-Konsole und auf der Preisseite, bevor Sie skalieren.

Die Texteingabe beträgt bis zu 1,5k Zeichen. Sie können bis zu 3 Referenzaudio-Clips bereitstellen, jeweils maximal 30 Sekunden, per base64 oder URL. Eine einzelne Anfrage synthetisiert bis zu 120 Sekunden Audio. Die Ausgabeformate sind wav (Standard), mp3, pcm und ogg_opus, mit Abtastraten von 48K, 24K (Standard), 16K und 8K. Referenzbild und Referenzaudio können nicht gleichzeitig übergeben werden; weitere Grenzen können variieren, prüfen Sie daher die aktuelle EvoLink-Konsole und die offizielle Dokumentation.

Nein. Es kann zwar Sprache aus Text synthetisieren, doch Seed Audio 1.0 ist Prompt-basierte KI-Audiogenerierung. Sie können Mehrpersonen-Dialoge, Emotionen und nonverbalen Ausdruck im Prompt komponieren und die Ausgabe mit Referenzaudio steuern, was weit über eine Einzelstimmen-Text-to-Speech-Engine hinausgeht.

Nein. SSML wird nicht unterstützt. Die Wiedergabe wird über Prompt-Anweisungen und Anfrageparameter wie Geschwindigkeit, Tonhöhe und Lautstärke gesteuert.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/audios/generations

Generate Audio

Create an audio generation task from a text prompt, optionally guided by reference voices or a reference image.

Asynchronous processing mode, use the returned task ID to .

Result audio URLs are CDN-hosted and long-lived. Billed per output second (up to 120s).

Three Generation Modes

Text-to-speechPass only prompt — generate audio directly from the prompt.

Voice cloningprompt + audio_references — reference a voice ID or reference audio. Use @音频N in the prompt to reference the N-th item.

Image-guidedprompt + image_urls — generate audio guided by a reference image.

⚠️ audio_references and image_urls are mutually exclusive — use one or the other.

Request Parameters

modelstringRequiredDefault: doubao-seed-audio-1-0

Audio generation model name.

Value	Description
doubao-seed-audio-1-0	Doubao Seed Audio 1.0 multimodal audio generation

Exampledoubao-seed-audio-1-0

promptstringRequired

The text content to synthesize, or a prompt describing the audio. Use @音频N to reference the N-th item of audio_references.

Notes

Limited to 1.5k characters

Example@音频1 Hi there! @音频2 How's your day going?

audio_referencesarrayOptional

Reference voices. Each item is a voice ID or a reference audio URL (items starting with 'http' are treated as URLs, otherwise as voice IDs). Order maps to @音频1 / @音频2 in the prompt.

Notes

Up to 3 items; mutually exclusive with image_urls
Voice IDs look like 'zh_female_xxx'
Reference audio: each ≤ 30s / ≤ 10MB, wav/mp3/pcm/ogg_opus

Example["zh_female_example_id", "https://your-bucket.com/ref-voice.mp3"]

See Preset Voice IDs in the left sidebar for curated voices and the full catalog link.

image_urlsarrayOptional

Reference image URL to drive audio generation.

Notes

Currently at most 1 image; mutually exclusive with audio_references
≤ 10MB, jpeg/png/webp

Example["https://your-bucket.com/scene.jpg"]

speech_ratenumberOptionalDefault: 1.0

Speech speed multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal, 2.0 = double speed, 0.5 = half speed)
Accepts two decimals

Example1.2

loudness_ratenumberOptionalDefault: 1.0

Loudness multiplier.

Notes

Range: 0.5 to 2.0 (1.0 = normal)
Accepts two decimals

Example1.0

pitch_rateintegerOptionalDefault: 0

Pitch adjustment in semitones.

Notes

Range: -12 to 12 (0 = no change)

Example0

formatstringOptionalDefault: wav

Output audio format.

Value	Description
wav	WAV
mp3	MP3
pcm	PCM
ogg_opus	OGG Opus

Examplemp3

sample_rateintegerOptionalDefault: 24000

Output sample rate in Hz.

Value	Description
8000	8 kHz
16000	16 kHz
24000	24 kHz
48000	48 kHz

Example24000

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion, failure, or cancellation
Sent after billing confirmation
HTTPS only, no internal IPs
Max length: 2048 chars

Examplehttps://your-domain.com/webhooks/audio-task-completed

Request Example — Text-to-Speech

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "欢迎使用语音合成服务，今天天气真不错。",
  "format": "mp3",
  "speech_rate": 1.2
}

Request Example — Voice Cloning (multi-voice)

{
  "model": "doubao-seed-audio-1-0",
  "prompt": "@音频1 Hi there! @音频2 How's your day going?",
  "audio_references": [
    "zh_female_example_id",
    "https://your-bucket.com/ref-voice.mp3"
  ]
}

Response Example

Submit (task created):

{
  "id": "task-unified-xxxxxxxx",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "processing",
  "progress": 0,
  "task_info": { "can_cancel": false, "estimated_time": 15 }
}

Query (completed):

{
  "id": "task-unified-1782491238-7b6bmmv2",
  "object": "audio.generation.task",
  "model": "doubao-seed-audio-1-0",
  "type": "audio",
  "status": "completed",
  "progress": 100,
  "created": 1782491238,
  "duration": 41,
  "results": ["https://files.evolink.ai/.../seed-audio-xxx.wav"],
  "result_data": [
    {
      "audio_url": "https://files.evolink.ai/.../seed-audio-xxx.wav",
      "duration": 10.18,
      "format": "wav"
    }
  ],
  "task_info": { "can_cancel": false },
  "usage": { "credits_used": 0.88, "original_duration": 10.18 }
}