API OmniHuman 1.5

Transformez n’importe quel visage et voix en avatar parlant de qualité cinéma en quelques minutes, prêt pour TikTok, Reels, Shorts et expériences in‑app.

Type de modèle:

Prix: $0.176(~ 12 credits) per second

Stabilité maximale avec une disponibilité garantie de 99,9 %. Recommandé pour la production.

Le même endpoint API est utilisé pour toutes les versions. Seul le paramètre model change.

Input Images *

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

Audio File *

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Click Generate to see preview

Historique

Max 20 éléments

0 en cours · 0 terminé

Votre historique de génération apparaîtra ici

API OmniHuman 1.5 pour des humains numériques réalistes

Générez des vidéos d’avatars expressifs et synchronisés à partir d’une seule photo et d’un audio, puis intégrez-les directement à vos contenus sociaux ou produits SaaS.

Pricing

Model	Mode	Price
OmniHuman 1.5	Video Generation	$0.176/ second(12 Credits)

OmniHuman 1.5

Video Generation

Price:

$0.176/ second

(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Qu’est-ce que l’API OmniHuman 1.5

Avatar parlant de qualité cinéma à partir d’une photo

L’API OmniHuman 1.5 vous permet d’envoyer une seule photo humaine et une piste audio, puis génère automatiquement une vidéo d’avatar parlant de qualité cinéma avec expressions naturelles, gestes et mouvements de caméra alignés sur votre script et votre ton de marque. Plus besoin d’acteurs, de studio ou de reshoots : vous pouvez produire des contenus humains cohérents pour les réseaux sociaux, les landing pages et l’éducation in‑product, tout en gardant une identité visuelle homogène.

Créer votre premier avatar parlant

Humains numériques expressifs pour les feeds sociaux

L’API OmniHuman 1.5 se concentre sur la performance, pas seulement le mouvement des lèvres. Chaque vidéo ressemble à une vraie personne qui réagit au message et à l’émotion de l’audio. Le langage corporel, les expressions faciales et le rythme s’alignent sur le sens et la cadence, rendant vos hooks TikTok plus percutants, vos intros YouTube plus engageantes et vos Reels plus addictifs — sans devoir apparaître à la caméra chaque jour.

Booster l’engagement avec des avatars expressifs

API pensée pour les développeurs, apps et SaaS

L’API OmniHuman 1.5 est conçue pour les développeurs qui veulent intégrer des humains numériques de haute qualité sans créer un modèle vidéo de zéro. Envoyez une image et un audio via un simple appel API, recevez des fichiers ou liens vidéo, puis intégrez-les à l’onboarding, aux tutoriels, à l’apprentissage ou aux outils créateurs — pour transformer des interfaces statiques en expériences vivantes et personnalisées.

Intégrer l’API OmniHuman 1.5 à votre produit

Pourquoi choisir l’API OmniHuman 1.5

Choisissez l’API OmniHuman 1.5 si la performance orale, l’émotion et la confiance à l’écran comptent le plus.

Conçue pour le contenu parlant de type humain

Wan2.2‑Animate est excellente pour l’animation de personnages et les scènes riches en mouvement, mais la plupart des contenus sociaux et produits commencent par une personne qui parle face caméra. OmniHuman 1.5 est optimisée pour cet usage : meilleure synchronisation labiale, contact visuel crédible et émotions alignées au script — essentiel pour les vidéos de vente, tutoriels et annonces de marque.

Du script au post plus rapidement

Avec Wan2.2‑Animate, il faut souvent gérer des vidéos de référence, des mouvements templates et des plans créatifs — parfait pour des scènes complexes, mais lourd pour du contenu quotidien. OmniHuman 1.5 simplifie : écrivez un script, enregistrez l’audio, envoyez une photo et un fichier, puis publiez le clip d’avatar parlant — idéal pour TikTok, Reels et Shorts.

Plus de confiance pour marque et éducation

Lorsque l’objectif est de créer de la confiance — expliquer une fonctionnalité, onboarder des utilisateurs ou animer une série — un humain numérique stable performe mieux que des personnages qui changent sans cesse. OmniHuman 1.5 vous aide à fixer un avatar que l’audience reconnaît, en véritable actif de marque long terme.

Comment l’API OmniHuman 1.5 s’intègre à votre workflow

De l’idée à une vidéo d’humain numérique prête à publier en quelques étapes.

Préparer l’avatar et le script

Choisissez un portrait clair pour votre humain numérique et enregistrez une piste audio propre qui correspond au message à délivrer.

Envoyer une requête à l’API OmniHuman 1.5

Depuis votre app, automatisation ou outil de contenu, envoyez l’image et l’audio via un appel API simple avec vos réglages.

Recevoir, valider et publier la vidéo

Téléchargez la vidéo générée, vérifiez la performance, puis exportez ou planifiez directement pour TikTok, Reels, Shorts ou votre produit.

Construire votre pipeline OmniHuman 1.5 API

Fonctionnalités de l’API OmniHuman 1.5

Centrée sur des avatars parlants réalistes et faciles à scaler.

Avatar réutilisable

Une photo, un hôte de studio

Transformez un portrait en humain numérique réutilisable capable de délivrer des scripts encore et encore, pour une cohérence sans nouveaux shootings.

Prestation réaliste

Lip‑sync précis et émotion

Formes de bouche, expressions et rythme suivent l’audio de près — vos audiences ont l’impression qu’une vraie personne s’adresse à elles.

Developer‑ready

API‑first pour apps et SaaS

Appelez l’API OmniHuman 1.5 depuis votre produit ou vos automatisations pour générer des clips à la demande pour onboarding, mises à jour et support.

Social‑first

Optimisée pour la vidéo sociale

Créez des vidéos courtes verticales pour TikTok, Reels et Shorts afin d’augmenter le temps de visionnage.

Branding

Présence de marque cohérente

Utilisez le même avatar dans vos ads, tutoriels et contenus d’aide pour créer un visage de marque reconnaissable.

Haut débit

S’adapte à votre calendrier de contenu

Une fois l’avatar et le workflow audio en place, générez des dizaines de vidéos d’avatar en lot et concentrez l’équipe sur les offres, hooks et la distribution.

FAQ OmniHuman 1.5 API

Everything you need to know about the product and billing.

L’API OmniHuman 1.5 est une interface orientée développeurs qui transforme une photo humaine et un audio en vidéo d’avatar parlant réaliste. Elle s’adresse aux créateurs, marketeurs, fondateurs SaaS et équipes produit qui veulent des humains numériques de qualité cinéma sans production complexe. Si vous créez des tutoriels TikTok, des explainers produit, des cours ou des flows d’onboarding et cherchez une présence humaine cohérente, OmniHuman 1.5 vous l’apporte via de simples appels API.

Vous avez besoin d’un portrait clair de la personne ou du personnage à animer et d’un fichier audio propre. Une fois fournis via l’API, le système génère une vidéo alignant lip‑sync, expressions et gestes sur l’audio. Beaucoup d’utilisateurs enregistrent des scripts courts adaptés à TikTok, Reels, Shorts ou aux flows in‑app pour publier rapidement.

De nombreux outils basiques ne bougent que la bouche (et parfois la tête), ce qui paraît vite robotique. OmniHuman 1.5 se concentre sur la performance complète en synchronisant lip‑sync, expressions et langage corporel avec l’émotion et le timing de la voix. Les blagues passent mieux, les moments sérieux sont plus crédibles et les CTA plus persuasifs.

Oui. Les vidéos peuvent être adaptées à toutes les grandes plateformes sociales. Beaucoup d’utilisateurs créent des formats verticaux pour TikTok, Reels et YouTube Shorts, puis exportent des versions horizontales pour YouTube long‑form, landing pages et formation interne. La cohérence de l’avatar permet de réutiliser le même message sur plusieurs canaux.

Oui, tout à fait. Un guide humain facilite l’apprentissage. Les créateurs de cours peuvent transformer leurs scripts en micro‑vidéos par module, tandis que les équipes SaaS peuvent créer des bibliothèques de walkthroughs parlants. Les équipes support peuvent produire des réponses réutilisables, en offrant une présence cohérente et rassurante.

L’API OmniHuman 1.5 s’insère dans vos outils actuels. Vous écrivez vos scripts comme d’habitude, enregistrez l’audio, puis générez les vidéos via l’API. Ensuite, vous diffusez les assets dans vos planificateurs, éditeurs ou automatisations. À terme, vous pouvez automatiser davantage, par exemple en transformant des newsletters ou notes de changelog en vidéos quotidiennes.

API Reference

Select endpoint

Authentication

All APIs require Bearer Token authentication.

Header

Authorization: 
Bearer YOUR_API_KEY

Get API Key

POST

/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

Maximum audio duration is 35 seconds.
Billing is based on audio duration (rounded up to the nearest second).
Tasks cannot be cancelled once started.
Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5

audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes

Maximum duration: 35 seconds
Supported formats: MP3, WAV
URL must be directly accessible by the server

Examplehttps://example.com/audio.mp3

image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes

Should contain a clear human figure
Max size: 10MB
Formats: .jpg, .jpeg, .png, .webp
URL must be directly accessible by the server

Examplehttps://example.com/person.jpg

mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes

Optional - use with auto_mask=false for custom control
Same dimensions as input image recommended

Examplehttps://example.com/mask.png

subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

Value	Description
true	Verify human subject exists
false	Skip subject verification

Exampletrue

auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

Value	Description
true	Auto-generate mask for animation
false	Use provided mask_url or full image

Exampletrue

pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

Value	Description
true	Faster generation (may reduce quality)
false	Standard quality generation

Examplefalse

seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes

Range: -1 to 2147483647
Same seed produces consistent results

Example-1

promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions

callback_urlstringOptional

HTTPS callback address after task completion.

Notes

Triggered on completion or failure
HTTPS only, no internal IPs
Max length: 2048 chars
Timeout: 10s, Max 3 retries

Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}