Seedance 2.0 API — Coming SoonGet early access

OmniHuman 1.5 API

Verwandle jedes Gesicht und jede Stimme in Minuten in einen filmreifen Talking-Avatar – bereit für TikTok, Reels, Shorts und In-App-Erlebnisse.

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

Verlauf

Max. 20 Einträge

0 läuft · 0 abgeschlossen

Ihre Generierungshistorie erscheint hier

OmniHuman 1.5 API für realistische digitale Menschen

Erzeuge expressive, echte Lippensynchron-Avatar-Videos aus einem einzigen Foto und einer Audiospur – direkt einsetzbar für Social Content oder SaaS-Produkte.

Beispiel 1

Pricing

OmniHuman 1.5
Video Generation
Price:
$0.1667/ second
(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Was ist die OmniHuman 1.5 API

Filmreifer Talking-Avatar aus einem Foto

Mit der OmniHuman 1.5 API laden Sie ein einziges Porträt und eine Audiospur hoch und erhalten automatisch ein filmreifes Talking-Avatar-Video mit natürlichen Mimik, Gestik und Kamerabewegung – passend zu Skript und Markenton. Das ersetzt Schauspieler, Studio und wiederholte Drehs, sodass Sie konsistente Digital-Human-Inhalte für Social Media, Landingpages und In-Product-Education erstellen, ohne Ihre visuelle Identität zu gefährden.

Beispiel 2

Emotional ausdrucksstarke digitale Menschen für Social Feeds

OmniHuman 1.5 API fokussiert auf Performance, nicht nur auf Lippenbewegung. So fühlt sich jedes Video wie eine echte Person an, die auf Botschaft und Stimmung reagiert. Körperhaltung, Mimik und Timing werden mit Rhythmus und Bedeutung der Sprache abgestimmt – für stärkere TikTok-Hooks, spannendere YouTube-Intros und binge‑würdigere Instagram Reels, ohne dass Sie täglich selbst vor die Kamera müssen.

Beispiel 3

Entwicklerfreundliche API für Apps und SaaS

Die OmniHuman 1.5 API ist für Entwickler:innen gedacht, die hochwertige digitale Menschen in Produkte integrieren wollen, ohne ein Videomodell von Grund auf zu bauen. Senden Sie Bilder und Audio per einfachem API-Call, erhalten Sie Videodateien oder Links und betten Sie sie in Onboarding-Flows, Tutorial-Hubs, Lernplattformen oder Creator-Tools ein – und verwandeln Sie statische Interfaces in lebendige, sprechende Erlebnisse.

Beispiel 4

Warum OmniHuman 1.5 API wählen

Wählen Sie die OmniHuman 1.5 API, wenn Sie Wert auf Sprech-Performance, Emotion und On-Camera-Vertrauen legen.

Für menschenähnliche Talking-Inhalte gebaut

Wan2.2-Animate ist stark für breite Charakteranimation und bewegungsreiche Szenen, aber der Großteil von Social- und Produktcontent beginnt mit einer Person, die in die Kamera spricht. OmniHuman 1.5 API ist genau darauf optimiert – mit besserer Lippensynchronität, glaubwürdigem Blickkontakt und Emotionen, die zum Skript passen. Das ist entscheidend für Sales-Videos, Tutorials und Brand-Announcements.

Schneller vom Skript zum Post

Bei Wan2.2-Animate müssen Sie oft über Referenzvideos, Template-Motion und kreative Kamerafahrten nachdenken – perfekt für komplexe Szenen, aber schwer für täglichen Content. OmniHuman 1.5 API hält die Pipeline schlank: Skript schreiben, Audio aufnehmen, ein Foto und eine Datei senden, dann den Talking-Avatar-Clip posten – ideal für TikTok, Reels und Shorts.

Mehr Vertrauen für Marke und Education

Wenn das Ziel Vertrauen ist – Features erklären, Nutzer onboarden oder eine wiederkehrende Show hosten – performt ein stabiler digitaler Host meist besser als ständig wechselnde Charaktere. OmniHuman 1.5 API hilft, einen Avatar zu etablieren, den das Publikum wiedererkennt, und macht ihn zum langfristigen Marken-Asset.

So funktioniert die OmniHuman 1.5 API in Ihrem Workflow

Von der Idee zum postfertigen Digital-Human-Video in wenigen Schritten.

1

Avatar und Skript vorbereiten

Wählen Sie ein klares Porträt für Ihren digitalen Menschen und nehmen Sie eine saubere Audiospur oder Voice-over auf, die Ihre Botschaft transportiert.

2

Anfrage an die OmniHuman 1.5 API senden

Senden Sie Bild und Audio aus Ihrer App, Automation oder Ihrem Content-Tool per einfachem API-Call mit Ihren gewünschten Einstellungen.

3

Video erhalten, prüfen und veröffentlichen

Laden Sie das generierte Talking-Avatar-Video herunter, prüfen Sie die Performance und veröffentlichen oder planen Sie es direkt für TikTok, Reels, Shorts oder Ihr Produkt.

OmniHuman 1.5 API Features

Fokussiert auf realistische Talking-Avatare, die sich einfach skalieren lassen.

Wiederverwendbar

Ein Foto, Studio-Host

Verwandeln Sie ein Porträt in einen wiederverwendbaren digitalen Host, der Skripte immer wieder liefert – konsistent ohne wiederholte Foto- oder Videodrehs.

Realistische Performance

Echte Lippensynchronität und Emotion

Mundformen, Mimik und Timing folgen dem Audio eng – so wirkt es, als spräche eine echte Person direkt zum Publikum.

Developer-ready

API-first für Apps und SaaS

OmniHuman 1.5 API aus Produkt, Automation oder internen Tools aufrufen und Talking-Avatar-Clips on-demand für Onboarding, Updates und Support erzeugen.

Social-first

Optimiert für Social Video

Erstellen Sie kurze vertikale Videos für TikTok, Reels und Shorts, damit Ihr digitaler Host natürlich in Feeds wirkt und die Watchtime hoch bleibt.

Branding

Konsistente Markenpräsenz

Nutzen Sie denselben Avatar für Ads, Tutorials und Hilfecenter, um eine wiedererkennbare Markenfigur aufzubauen.

Hoher Durchsatz

Skaliert mit Ihrem Content-Kalender

Sobald Avatar und Audio-Workflow stehen, können Sie Dutzende Talking-Videos batchen und Ihr Team auf Hooks, Offers und Distribution fokussieren.

OmniHuman 1.5 API FAQs

Everything you need to know about the product and billing.

Die OmniHuman 1.5 API ist eine entwicklerfreundliche Schnittstelle, die ein einzelnes Foto und eine Audiospur in ein realistisches Talking-Avatar-Video verwandelt. Sie richtet sich an Social-Creator, Marketer, SaaS-Teams und Produktteams, die filmreife digitale Menschen ohne komplexe Produktion benötigen. Wenn Sie TikTok-Tutorials, Produkt-Explainer, Kursinhalte oder Onboarding-Flows erstellen, liefert die OmniHuman 1.5 API eine konsistente menschliche Präsenz per einfachem API-Call – statt Kamera und Studio.
Sie benötigen in der Regel ein klares Porträt der Person bzw. Figur und eine saubere Audiodatei der Sprache. Nach dem Upload per API erzeugt das System ein Talking-Avatar-Video, das Lippenbewegungen, Mimik und Gestik an das Audio anpasst. Viele Nutzer nehmen kurze Skripte auf, die auf TikTok, Reels, Shorts oder In-App-Flows zugeschnitten sind, damit die Outputs direkt einsatzbereit sind.
Viele einfache Tools bewegen nur den Mund und vielleicht den Kopf, was schnell unnatürlich wirkt. OmniHuman 1.5 API fokussiert auf die gesamte Performance und synchronisiert Lip-Sync, Mimik und Körpersprache mit Emotion und Timing. So wirken Witze besser, ernste Momente glaubwürdiger und Calls-to-Action überzeugender – ein klarer Vorteil für Marken und Creator, die Qualität brauchen.
Ja. Videos lassen sich für alle großen Plattformen adaptieren. Viele Nutzer produzieren vertikale Videos für TikTok, Instagram Reels und YouTube Shorts und exportieren zusätzlich horizontale Versionen für YouTube, Landingpages oder internes Training. Da Avatar und Performance konsistent sind, können Sie dieselbe Botschaft mehrfach ausspielen und eine wiedererkennbare digitale Figur aufbauen.
Ja, besonders. Eine menschliche Anleitung macht Inhalte leichter verständlich. Course-Creator können Skripte in kurze Avatar-Videos pro Modul umwandeln, während SaaS-Teams Bibliotheken mit Talking-Walkthroughs für Features erstellen. Support-Teams können wiederverwendbare Antworten erstellen und Nutzer entlasten – mit einem konsistenten digitalen Host, an den sich Lernende schnell gewöhnen.
Die OmniHuman 1.5 API ergänzt Ihre bestehenden Tools. Sie schreiben Skripte wie gewohnt, nehmen Audio mit Ihren Tools auf und erzeugen Videos per API in Serie. Danach können Sie Outputs in Scheduler, Editoren oder Automationen schieben. Langfristig lassen sich weitere Schritte automatisieren – etwa tägliche Talking-Videos aus Newsletter- oder Changelog-Texten.
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}