OmniHuman 1.5 API

Verwandle jedes Gesicht und jede Stimme in Minuten in einen filmreifen Talking-Avatar – bereit für TikTok, Reels, Shorts und In-App-Erlebnisse.

Modelltyp:

Preis: $0.176(~ 12 credits) per second

Höchste Stabilität mit garantierter 99,9% Verfügbarkeit. Empfohlen für Produktionsumgebungen.

Für alle Versionen wird derselbe API-Endpunkt verwendet. Nur der model-Parameter unterscheidet sich.

Input Images *

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

Audio File *

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Click Generate to see preview

Verlauf

Max. 20 Einträge

0 läuft · 0 abgeschlossen

Ihre Generierungshistorie erscheint hier

OmniHuman 1.5 API für realistische digitale Menschen

Erzeuge expressive, echte Lippensynchron-Avatar-Videos aus einem einzigen Foto und einer Audiospur – direkt einsetzbar für Social Content oder SaaS-Produkte.

Pricing

Model	Mode	Price
OmniHuman 1.5	Video Generation	$0.176/ second(12 Credits)

OmniHuman 1.5

Video Generation

Price:

$0.176/ second

(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Was ist die OmniHuman 1.5 API

Filmreifer Talking-Avatar aus einem Foto

Mit der OmniHuman 1.5 API laden Sie ein einziges Porträt und eine Audiospur hoch und erhalten automatisch ein filmreifes Talking-Avatar-Video mit natürlichen Mimik, Gestik und Kamerabewegung – passend zu Skript und Markenton. Das ersetzt Schauspieler, Studio und wiederholte Drehs, sodass Sie konsistente Digital-Human-Inhalte für Social Media, Landingpages und In-Product-Education erstellen, ohne Ihre visuelle Identität zu gefährden.

Ersten Talking-Avatar erstellen

Emotional ausdrucksstarke digitale Menschen für Social Feeds

OmniHuman 1.5 API fokussiert auf Performance, nicht nur auf Lippenbewegung. So fühlt sich jedes Video wie eine echte Person an, die auf Botschaft und Stimmung reagiert. Körperhaltung, Mimik und Timing werden mit Rhythmus und Bedeutung der Sprache abgestimmt – für stärkere TikTok-Hooks, spannendere YouTube-Intros und binge‑würdigere Instagram Reels, ohne dass Sie täglich selbst vor die Kamera müssen.

Engagement mit ausdrucksstarken Avataren steigern

Entwicklerfreundliche API für Apps und SaaS

Die OmniHuman 1.5 API ist für Entwickler:innen gedacht, die hochwertige digitale Menschen in Produkte integrieren wollen, ohne ein Videomodell von Grund auf zu bauen. Senden Sie Bilder und Audio per einfachem API-Call, erhalten Sie Videodateien oder Links und betten Sie sie in Onboarding-Flows, Tutorial-Hubs, Lernplattformen oder Creator-Tools ein – und verwandeln Sie statische Interfaces in lebendige, sprechende Erlebnisse.

OmniHuman 1.5 API in Ihr Produkt integrieren

Warum OmniHuman 1.5 API wählen

Wählen Sie die OmniHuman 1.5 API, wenn Sie Wert auf Sprech-Performance, Emotion und On-Camera-Vertrauen legen.

Für menschenähnliche Talking-Inhalte gebaut

Wan2.2-Animate ist stark für breite Charakteranimation und bewegungsreiche Szenen, aber der Großteil von Social- und Produktcontent beginnt mit einer Person, die in die Kamera spricht. OmniHuman 1.5 API ist genau darauf optimiert – mit besserer Lippensynchronität, glaubwürdigem Blickkontakt und Emotionen, die zum Skript passen. Das ist entscheidend für Sales-Videos, Tutorials und Brand-Announcements.

Schneller vom Skript zum Post

Bei Wan2.2-Animate müssen Sie oft über Referenzvideos, Template-Motion und kreative Kamerafahrten nachdenken – perfekt für komplexe Szenen, aber schwer für täglichen Content. OmniHuman 1.5 API hält die Pipeline schlank: Skript schreiben, Audio aufnehmen, ein Foto und eine Datei senden, dann den Talking-Avatar-Clip posten – ideal für TikTok, Reels und Shorts.

Mehr Vertrauen für Marke und Education

Wenn das Ziel Vertrauen ist – Features erklären, Nutzer onboarden oder eine wiederkehrende Show hosten – performt ein stabiler digitaler Host meist besser als ständig wechselnde Charaktere. OmniHuman 1.5 API hilft, einen Avatar zu etablieren, den das Publikum wiedererkennt, und macht ihn zum langfristigen Marken-Asset.

So funktioniert die OmniHuman 1.5 API in Ihrem Workflow

Von der Idee zum postfertigen Digital-Human-Video in wenigen Schritten.

Avatar und Skript vorbereiten

Wählen Sie ein klares Porträt für Ihren digitalen Menschen und nehmen Sie eine saubere Audiospur oder Voice-over auf, die Ihre Botschaft transportiert.

Anfrage an die OmniHuman 1.5 API senden

Senden Sie Bild und Audio aus Ihrer App, Automation oder Ihrem Content-Tool per einfachem API-Call mit Ihren gewünschten Einstellungen.

Video erhalten, prüfen und veröffentlichen

Laden Sie das generierte Talking-Avatar-Video herunter, prüfen Sie die Performance und veröffentlichen oder planen Sie es direkt für TikTok, Reels, Shorts oder Ihr Produkt.

Ihre OmniHuman 1.5 API-Pipeline bauen

OmniHuman 1.5 API Features

Fokussiert auf realistische Talking-Avatare, die sich einfach skalieren lassen.

Wiederverwendbar

Ein Foto, Studio-Host

Verwandeln Sie ein Porträt in einen wiederverwendbaren digitalen Host, der Skripte immer wieder liefert – konsistent ohne wiederholte Foto- oder Videodrehs.

Realistische Performance

Echte Lippensynchronität und Emotion

Mundformen, Mimik und Timing folgen dem Audio eng – so wirkt es, als spräche eine echte Person direkt zum Publikum.

Developer-ready

API-first für Apps und SaaS

OmniHuman 1.5 API aus Produkt, Automation oder internen Tools aufrufen und Talking-Avatar-Clips on-demand für Onboarding, Updates und Support erzeugen.

Social-first

Optimiert für Social Video

Erstellen Sie kurze vertikale Videos für TikTok, Reels und Shorts, damit Ihr digitaler Host natürlich in Feeds wirkt und die Watchtime hoch bleibt.

Branding

Konsistente Markenpräsenz

Nutzen Sie denselben Avatar für Ads, Tutorials und Hilfecenter, um eine wiedererkennbare Markenfigur aufzubauen.

Hoher Durchsatz

Skaliert mit Ihrem Content-Kalender

Sobald Avatar und Audio-Workflow stehen, können Sie Dutzende Talking-Videos batchen und Ihr Team auf Hooks, Offers und Distribution fokussieren.

OmniHuman 1.5 API FAQs

Everything you need to know about the product and billing.

Die OmniHuman 1.5 API ist eine entwicklerfreundliche Schnittstelle, die ein einzelnes Foto und eine Audiospur in ein realistisches Talking-Avatar-Video verwandelt. Sie richtet sich an Social-Creator, Marketer, SaaS-Teams und Produktteams, die filmreife digitale Menschen ohne komplexe Produktion benötigen. Wenn Sie TikTok-Tutorials, Produkt-Explainer, Kursinhalte oder Onboarding-Flows erstellen, liefert die OmniHuman 1.5 API eine konsistente menschliche Präsenz per einfachem API-Call – statt Kamera und Studio.

Sie benötigen in der Regel ein klares Porträt der Person bzw. Figur und eine saubere Audiodatei der Sprache. Nach dem Upload per API erzeugt das System ein Talking-Avatar-Video, das Lippenbewegungen, Mimik und Gestik an das Audio anpasst. Viele Nutzer nehmen kurze Skripte auf, die auf TikTok, Reels, Shorts oder In-App-Flows zugeschnitten sind, damit die Outputs direkt einsatzbereit sind.

Viele einfache Tools bewegen nur den Mund und vielleicht den Kopf, was schnell unnatürlich wirkt. OmniHuman 1.5 API fokussiert auf die gesamte Performance und synchronisiert Lip-Sync, Mimik und Körpersprache mit Emotion und Timing. So wirken Witze besser, ernste Momente glaubwürdiger und Calls-to-Action überzeugender – ein klarer Vorteil für Marken und Creator, die Qualität brauchen.

Ja. Videos lassen sich für alle großen Plattformen adaptieren. Viele Nutzer produzieren vertikale Videos für TikTok, Instagram Reels und YouTube Shorts und exportieren zusätzlich horizontale Versionen für YouTube, Landingpages oder internes Training. Da Avatar und Performance konsistent sind, können Sie dieselbe Botschaft mehrfach ausspielen und eine wiedererkennbare digitale Figur aufbauen.

Ja, besonders. Eine menschliche Anleitung macht Inhalte leichter verständlich. Course-Creator können Skripte in kurze Avatar-Videos pro Modul umwandeln, während SaaS-Teams Bibliotheken mit Talking-Walkthroughs für Features erstellen. Support-Teams können wiederverwendbare Antworten erstellen und Nutzer entlasten – mit einem konsistenten digitalen Host, an den sich Lernende schnell gewöhnen.

Die OmniHuman 1.5 API ergänzt Ihre bestehenden Tools. Sie schreiben Skripte wie gewohnt, nehmen Audio mit Ihren Tools auf und erzeugen Videos per API in Serie. Danach können Sie Outputs in Scheduler, Editoren oder Automationen schieben. Langfristig lassen sich weitere Schritte automatisieren – etwa tägliche Talking-Videos aus Newsletter- oder Changelog-Texten.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

Maximum audio duration is 35 seconds.
Billing is based on audio duration (rounded up to the nearest second).
Tasks cannot be cancelled once started.
Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5

audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes

Maximum duration: 35 seconds
Supported formats: MP3, WAV
URL must be directly accessible by the server

Examplehttps://example.com/audio.mp3

image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes

Should contain a clear human figure
Max size: 10MB
Formats: .jpg, .jpeg, .png, .webp
URL must be directly accessible by the server

Examplehttps://example.com/person.jpg

mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes

Optional - use with auto_mask=false for custom control
Same dimensions as input image recommended

Examplehttps://example.com/mask.png

subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

Value	Description
true	Verify human subject exists
false	Skip subject verification

Exampletrue

auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

Value	Description
true	Auto-generate mask for animation
false	Use provided mask_url or full image

Exampletrue

pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

Value	Description
true	Faster generation (may reduce quality)
false	Standard quality generation

Examplefalse

seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes

Range: -1 to 2147483647
Same seed produces consistent results

Example-1

promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion or failure
HTTPS only, no internal IPs
Max length: 2048 chars
Timeout: 10s, Max 3 retries

Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}