OmniHuman 1.5 API
Convierte cualquier rostro y voz en un avatar parlante de calidad cinematográfica en minutos, listo para TikTok, Reels, Shorts y experiencias dentro de la aplicación.
Upload audio for lip-sync (max 35 seconds, MP3/WAV)
Upload a portrait image containing a human face
Upload audio file (MP3/WAV)
Click to upload or drag and drop
Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s
Upload reference images
Click to upload or drag and drop
Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10
Historial
Máx. 20 elementos0 ejecutando · 0 completado
OmniHuman 1.5 API para humanos digitales realistas
Genere videos de avatar expresivos y con verdadera sincronización de labios a partir de una sola foto y pista de audio, y conéctelos directamente a su contenido social o producto SaaS.

Pricing
| Model | Mode | Price |
|---|---|---|
| OmniHuman 1.5 | Video Generation | $0.1667/ second(12 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
¿Qué es OmniHuman 1.5 API?
Avatar parlante de calidad cinematográfica a partir de una foto
OmniHuman 1.5 API le permite cargar una sola foto humana y una pista de audio, luego produce automáticamente un video de avatar parlante con calidad cinematográfica con expresiones, gestos y movimientos de cámara naturales que coinciden con su guión y tono de marca. Elimina la necesidad de actores, estudios o nuevas tomas repetidas, por lo que puedes generar contenido humano digital consistente para redes sociales, páginas de destino y educación en el producto, mientras mantienes tu identidad visual completamente alineada en cada publicación y canal.

Humanos digitales emocionalmente expresivos para feeds sociales
OmniHuman 1.5 API se centra en el rendimiento, no solo en el movimiento de los labios, por lo que cada vídeo se siente como una persona real reaccionando al mensaje y al estado de ánimo de su audio. El modelo alinea el lenguaje corporal, las expresiones faciales y la sincronización con el ritmo y el significado del discurso, lo que hace que tus ganchos de TikTok sean más nítidos, tus introducciones de YouTube más atractivas y tus carretes de Instagram más atractivos sin obligarte a aparecer ante la cámara todos los días.

API amigable para desarrolladores para aplicaciones y SaaS
OmniHuman 1.5 API está diseñado para desarrolladores que desean agregar humanos digitales con IA de alta calidad a sus productos sin crear un modelo de video desde cero. Puede enviar imágenes y audio a través de una simple llamada API, recibir archivos de video o enlaces generados y luego incrustarlos en flujos de incorporación, centros de tutoriales, plataformas de aprendizaje o herramientas de creación, convirtiendo interfaces estáticas en experiencias vivas y de conversación que se sienten premium y personalizadas para cada usuario final.

Por qué elegir OmniHuman 1.5 API
Elija OmniHuman 1.5 API cuando más le importe el rendimiento al hablar, la emoción y la confianza ante la cámara.
Creado para contenido hablado al estilo humano
Wan2.2-La animación es buena para la animación general de personajes y escenas con mucho movimiento, pero la mayor parte del contenido social y de productos aún comienza con una persona hablando a la cámara. OmniHuman 1.5 API está adaptado a este caso de uso, por lo que obtiene una sincronización de labios más fuerte, un contacto visual más creíble y emociones que coinciden con el guión, lo cual es muy importante para videos de ventas, tutoriales y anuncios de marca.
Ruta más rápida desde el script hasta la publicación
Con Wan2.2-Animate, a menudo necesitas pensar en videos de referencia, movimientos de plantillas y movimientos creativos de cámara, lo cual es perfecto para escenas complejas pero más pesado para el contenido diario. OmniHuman 1.5 API mantiene el proceso simple: escriba un guión, grabe audio, envíe una foto y un archivo, luego publique el clip de avatar parlante terminado, lo que facilita la publicación consistente en TikTok, carretes y cortos.
Más confianza para el uso educativo y de marca
Cuando el objetivo es generar confianza (explicar una función, incorporar nuevos usuarios o presentar un programa recurrente), un ser humano digital estable que se sienta como un anfitrión real generalmente funciona mejor que personajes animados que cambian constantemente. OmniHuman 1.5 API le ayuda a fijar un avatar que el público recuerde, convirtiéndolo en un activo de marca a largo plazo en lugar de un experimento visual único.
Cómo funciona OmniHuman 1.5 API en su flujo de trabajo
Pase de una idea a un vídeo humano digital listo para publicar en unos sencillos pasos.
Prepara tu avatar y guión.
Elija una imagen de retrato clara para su humano digital y grabe una pista de audio limpia o una voz en off que coincida con el mensaje que desea transmitir.
Enviar una solicitud a OmniHuman 1.5 API
Desde su aplicación, automatización o herramienta de contenido, envíe la imagen y el audio a OmniHuman 1.5 API mediante una simple llamada API con su configuración preferida.
Recibe, revisa y publica tu vídeo
Descargue el video del avatar parlante generado, revise el rendimiento y luego expórtelo o prográmelo directamente a TikTok, Reels, Shorts o su producto.
Características de OmniHuman 1.5 API
Centrado en avatares parlantes realistas y fáciles de escalar.
Anfitrión de foto única, estilo estudio
Convierta un retrato en un ser humano digital reutilizable que pueda entregar guiones una y otra vez, para que su contenido se sienta consistente sin repetidas sesiones de fotos o videos.
Verdadera sincronización de labios y emoción.
Obtenga formas de boca, expresiones y ritmos que sigan de cerca su audio, para que los espectadores sientan que una persona real les habla directamente, no una máscara animada rígida.
API-primero para aplicaciones y SaaS
Llame a OmniHuman 1.5 API desde su producto, automatización o herramientas internas para generar clips de avatar parlantes a pedido para incorporación, actualizaciones y flujos de soporte.
Optimizado para vídeo social
Cree videos verticales cortos adaptados a TikTok, Reels y Shorts para que su humano digital encaje perfectamente en los feeds nativos y mantenga alto el tiempo de visualización.
Presencia constante de marca
Utilice el mismo avatar en anuncios, tutoriales y contenido de ayuda para crear una cara reconocible para su marca, incluso cuando diferentes personas escriban los guiones.
Escala con su calendario de contenido
Una vez que su avatar y su flujo de trabajo de audio estén configurados, puede generar por lotes docenas de videos hablados, liberando a su equipo para concentrarse en las ofertas, los ganchos y la distribución.
Preguntas frecuentes sobre OmniHuman 1.5 API
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/videos/generationsCreate Digital Human Video
OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.
Asynchronous processing mode, use the returned task ID to .
Generated video links are valid for 24 hours, please save them promptly.
Important Notes
- Maximum audio duration is 35 seconds.
- Billing is based on audio duration (rounded up to the nearest second).
- Tasks cannot be cancelled once started.
- Supported audio formats: MP3, WAV.
Request Parameters
modelstringRequiredDefault: omnihuman-1.5Model name for digital human video generation.
omnihuman-1.5audio_urlstringRequiredAudio URL for driving lip-sync and body movements.
Notes
- Maximum duration: 35 seconds
- Supported formats: MP3, WAV
- URL must be directly accessible by the server
https://example.com/audio.mp3image_urlsstring[]RequiredReference image URL array containing the person to animate. OmniHuman uses only the first image.
Notes
- Should contain a clear human figure
- Max size: 10MB
- Formats: .jpg, .jpeg, .png, .webp
- URL must be directly accessible by the server
https://example.com/person.jpgmask_urlstringOptionalMask image URL for specifying animation regions. White areas indicate regions to animate.
Notes
- Optional - use with auto_mask=false for custom control
- Same dimensions as input image recommended
https://example.com/mask.pngsubject_checkbooleanOptionalDefault: falseEnable subject detection to verify human presence in the image.
| Value | Description |
|---|---|
| true | Verify human subject exists |
| false | Skip subject verification |
trueauto_maskbooleanOptionalDefault: falseEnable automatic mask generation for the human subject.
| Value | Description |
|---|---|
| true | Auto-generate mask for animation |
| false | Use provided mask_url or full image |
truepe_fast_modebooleanOptionalDefault: falseEnable fast processing mode for quicker generation.
| Value | Description |
|---|---|
| true | Faster generation (may reduce quality) |
| false | Standard quality generation |
falseseedintegerOptionalDefault: -1Random seed for reproducible generation. Use -1 for random seed.
Notes
- Range: -1 to 2147483647
- Same seed produces consistent results
-1promptstringOptionalOptional text prompt to guide the generation style.
A person speaking naturally with subtle expressionscallback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion or failure
- HTTPS only, no internal IPs
- Max length: 2048 chars
- Timeout: 10s, Max 3 retries
https://your-domain.com/webhooks/video-task-completed