Seedance 2.0 API — Coming SoonGet early access

API OmniHuman 1.5

Transformez n’importe quel visage et voix en avatar parlant de qualité cinéma en quelques minutes, prêt pour TikTok, Reels, Shorts et expériences in‑app.

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

Historique

Max 20 éléments

0 en cours · 0 terminé

Votre historique de génération apparaîtra ici

API OmniHuman 1.5 pour des humains numériques réalistes

Générez des vidéos d’avatars expressifs et synchronisés à partir d’une seule photo et d’un audio, puis intégrez-les directement à vos contenus sociaux ou produits SaaS.

exemple 1

Pricing

OmniHuman 1.5
Video Generation
Price:
$0.1667/ second
(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

Qu’est-ce que l’API OmniHuman 1.5

Avatar parlant de qualité cinéma à partir d’une photo

L’API OmniHuman 1.5 vous permet d’envoyer une seule photo humaine et une piste audio, puis génère automatiquement une vidéo d’avatar parlant de qualité cinéma avec expressions naturelles, gestes et mouvements de caméra alignés sur votre script et votre ton de marque. Plus besoin d’acteurs, de studio ou de reshoots : vous pouvez produire des contenus humains cohérents pour les réseaux sociaux, les landing pages et l’éducation in‑product, tout en gardant une identité visuelle homogène.

exemple 2

Humains numériques expressifs pour les feeds sociaux

L’API OmniHuman 1.5 se concentre sur la performance, pas seulement le mouvement des lèvres. Chaque vidéo ressemble à une vraie personne qui réagit au message et à l’émotion de l’audio. Le langage corporel, les expressions faciales et le rythme s’alignent sur le sens et la cadence, rendant vos hooks TikTok plus percutants, vos intros YouTube plus engageantes et vos Reels plus addictifs — sans devoir apparaître à la caméra chaque jour.

exemple 3

API pensée pour les développeurs, apps et SaaS

L’API OmniHuman 1.5 est conçue pour les développeurs qui veulent intégrer des humains numériques de haute qualité sans créer un modèle vidéo de zéro. Envoyez une image et un audio via un simple appel API, recevez des fichiers ou liens vidéo, puis intégrez-les à l’onboarding, aux tutoriels, à l’apprentissage ou aux outils créateurs — pour transformer des interfaces statiques en expériences vivantes et personnalisées.

exemple 4

Pourquoi choisir l’API OmniHuman 1.5

Choisissez l’API OmniHuman 1.5 si la performance orale, l’émotion et la confiance à l’écran comptent le plus.

Conçue pour le contenu parlant de type humain

Wan2.2‑Animate est excellente pour l’animation de personnages et les scènes riches en mouvement, mais la plupart des contenus sociaux et produits commencent par une personne qui parle face caméra. OmniHuman 1.5 est optimisée pour cet usage : meilleure synchronisation labiale, contact visuel crédible et émotions alignées au script — essentiel pour les vidéos de vente, tutoriels et annonces de marque.

Du script au post plus rapidement

Avec Wan2.2‑Animate, il faut souvent gérer des vidéos de référence, des mouvements templates et des plans créatifs — parfait pour des scènes complexes, mais lourd pour du contenu quotidien. OmniHuman 1.5 simplifie : écrivez un script, enregistrez l’audio, envoyez une photo et un fichier, puis publiez le clip d’avatar parlant — idéal pour TikTok, Reels et Shorts.

Plus de confiance pour marque et éducation

Lorsque l’objectif est de créer de la confiance — expliquer une fonctionnalité, onboarder des utilisateurs ou animer une série — un humain numérique stable performe mieux que des personnages qui changent sans cesse. OmniHuman 1.5 vous aide à fixer un avatar que l’audience reconnaît, en véritable actif de marque long terme.

Comment l’API OmniHuman 1.5 s’intègre à votre workflow

De l’idée à une vidéo d’humain numérique prête à publier en quelques étapes.

1

Préparer l’avatar et le script

Choisissez un portrait clair pour votre humain numérique et enregistrez une piste audio propre qui correspond au message à délivrer.

2

Envoyer une requête à l’API OmniHuman 1.5

Depuis votre app, automatisation ou outil de contenu, envoyez l’image et l’audio via un appel API simple avec vos réglages.

3

Recevoir, valider et publier la vidéo

Téléchargez la vidéo générée, vérifiez la performance, puis exportez ou planifiez directement pour TikTok, Reels, Shorts ou votre produit.

Fonctionnalités de l’API OmniHuman 1.5

Centrée sur des avatars parlants réalistes et faciles à scaler.

Avatar réutilisable

Une photo, un hôte de studio

Transformez un portrait en humain numérique réutilisable capable de délivrer des scripts encore et encore, pour une cohérence sans nouveaux shootings.

Prestation réaliste

Lip‑sync précis et émotion

Formes de bouche, expressions et rythme suivent l’audio de près — vos audiences ont l’impression qu’une vraie personne s’adresse à elles.

Developer‑ready

API‑first pour apps et SaaS

Appelez l’API OmniHuman 1.5 depuis votre produit ou vos automatisations pour générer des clips à la demande pour onboarding, mises à jour et support.

Social‑first

Optimisée pour la vidéo sociale

Créez des vidéos courtes verticales pour TikTok, Reels et Shorts afin d’augmenter le temps de visionnage.

Branding

Présence de marque cohérente

Utilisez le même avatar dans vos ads, tutoriels et contenus d’aide pour créer un visage de marque reconnaissable.

Haut débit

S’adapte à votre calendrier de contenu

Une fois l’avatar et le workflow audio en place, générez des dizaines de vidéos d’avatar en lot et concentrez l’équipe sur les offres, hooks et la distribution.

FAQ OmniHuman 1.5 API

Everything you need to know about the product and billing.

L’API OmniHuman 1.5 est une interface orientée développeurs qui transforme une photo humaine et un audio en vidéo d’avatar parlant réaliste. Elle s’adresse aux créateurs, marketeurs, fondateurs SaaS et équipes produit qui veulent des humains numériques de qualité cinéma sans production complexe. Si vous créez des tutoriels TikTok, des explainers produit, des cours ou des flows d’onboarding et cherchez une présence humaine cohérente, OmniHuman 1.5 vous l’apporte via de simples appels API.
Vous avez besoin d’un portrait clair de la personne ou du personnage à animer et d’un fichier audio propre. Une fois fournis via l’API, le système génère une vidéo alignant lip‑sync, expressions et gestes sur l’audio. Beaucoup d’utilisateurs enregistrent des scripts courts adaptés à TikTok, Reels, Shorts ou aux flows in‑app pour publier rapidement.
De nombreux outils basiques ne bougent que la bouche (et parfois la tête), ce qui paraît vite robotique. OmniHuman 1.5 se concentre sur la performance complète en synchronisant lip‑sync, expressions et langage corporel avec l’émotion et le timing de la voix. Les blagues passent mieux, les moments sérieux sont plus crédibles et les CTA plus persuasifs.
Oui. Les vidéos peuvent être adaptées à toutes les grandes plateformes sociales. Beaucoup d’utilisateurs créent des formats verticaux pour TikTok, Reels et YouTube Shorts, puis exportent des versions horizontales pour YouTube long‑form, landing pages et formation interne. La cohérence de l’avatar permet de réutiliser le même message sur plusieurs canaux.
Oui, tout à fait. Un guide humain facilite l’apprentissage. Les créateurs de cours peuvent transformer leurs scripts en micro‑vidéos par module, tandis que les équipes SaaS peuvent créer des bibliothèques de walkthroughs parlants. Les équipes support peuvent produire des réponses réutilisables, en offrant une présence cohérente et rassurante.
L’API OmniHuman 1.5 s’insère dans vos outils actuels. Vous écrivez vos scripts comme d’habitude, enregistrez l’audio, puis générez les vidéos via l’API. Ensuite, vous diffusez les assets dans vos planificateurs, éditeurs ou automatisations. À terme, vous pouvez automatiser davantage, par exemple en transformant des newsletters ou notes de changelog en vidéos quotidiennes.
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}