Seedance 2.0 API — Coming SoonGet early access

OmniHuman 1.5 API

Convierte cualquier rostro y voz en un avatar parlante de calidad cinematográfica en minutos, listo para TikTok, Reels, Shorts y experiencias dentro de la aplicación.

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

Historial

Máx. 20 elementos

0 ejecutando · 0 completado

Tu historial de generación aparecerá aquí

OmniHuman 1.5 API para humanos digitales realistas

Genere videos de avatar expresivos y con verdadera sincronización de labios a partir de una sola foto y pista de audio, y conéctelos directamente a su contenido social o producto SaaS.

ejemplo 1

Pricing

OmniHuman 1.5
Video Generation
Price:
$0.1667/ second
(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

¿Qué es OmniHuman 1.5 API?

Avatar parlante de calidad cinematográfica a partir de una foto

OmniHuman 1.5 API le permite cargar una sola foto humana y una pista de audio, luego produce automáticamente un video de avatar parlante con calidad cinematográfica con expresiones, gestos y movimientos de cámara naturales que coinciden con su guión y tono de marca. Elimina la necesidad de actores, estudios o nuevas tomas repetidas, por lo que puedes generar contenido humano digital consistente para redes sociales, páginas de destino y educación en el producto, mientras mantienes tu identidad visual completamente alineada en cada publicación y canal.

ejemplo 2

Humanos digitales emocionalmente expresivos para feeds sociales

OmniHuman 1.5 API se centra en el rendimiento, no solo en el movimiento de los labios, por lo que cada vídeo se siente como una persona real reaccionando al mensaje y al estado de ánimo de su audio. El modelo alinea el lenguaje corporal, las expresiones faciales y la sincronización con el ritmo y el significado del discurso, lo que hace que tus ganchos de TikTok sean más nítidos, tus introducciones de YouTube más atractivas y tus carretes de Instagram más atractivos sin obligarte a aparecer ante la cámara todos los días.

ejemplo 3

API amigable para desarrolladores para aplicaciones y SaaS

OmniHuman 1.5 API está diseñado para desarrolladores que desean agregar humanos digitales con IA de alta calidad a sus productos sin crear un modelo de video desde cero. Puede enviar imágenes y audio a través de una simple llamada API, recibir archivos de video o enlaces generados y luego incrustarlos en flujos de incorporación, centros de tutoriales, plataformas de aprendizaje o herramientas de creación, convirtiendo interfaces estáticas en experiencias vivas y de conversación que se sienten premium y personalizadas para cada usuario final.

ejemplo 4

Por qué elegir OmniHuman 1.5 API

Elija OmniHuman 1.5 API cuando más le importe el rendimiento al hablar, la emoción y la confianza ante la cámara.

Creado para contenido hablado al estilo humano

Wan2.2-La animación es buena para la animación general de personajes y escenas con mucho movimiento, pero la mayor parte del contenido social y de productos aún comienza con una persona hablando a la cámara. OmniHuman 1.5 API está adaptado a este caso de uso, por lo que obtiene una sincronización de labios más fuerte, un contacto visual más creíble y emociones que coinciden con el guión, lo cual es muy importante para videos de ventas, tutoriales y anuncios de marca.

Ruta más rápida desde el script hasta la publicación

Con Wan2.2-Animate, a menudo necesitas pensar en videos de referencia, movimientos de plantillas y movimientos creativos de cámara, lo cual es perfecto para escenas complejas pero más pesado para el contenido diario. OmniHuman 1.5 API mantiene el proceso simple: escriba un guión, grabe audio, envíe una foto y un archivo, luego publique el clip de avatar parlante terminado, lo que facilita la publicación consistente en TikTok, carretes y cortos.

Más confianza para el uso educativo y de marca

Cuando el objetivo es generar confianza (explicar una función, incorporar nuevos usuarios o presentar un programa recurrente), un ser humano digital estable que se sienta como un anfitrión real generalmente funciona mejor que personajes animados que cambian constantemente. OmniHuman 1.5 API le ayuda a fijar un avatar que el público recuerde, convirtiéndolo en un activo de marca a largo plazo en lugar de un experimento visual único.

Cómo funciona OmniHuman 1.5 API en su flujo de trabajo

Pase de una idea a un vídeo humano digital listo para publicar en unos sencillos pasos.

1

Prepara tu avatar y guión.

Elija una imagen de retrato clara para su humano digital y grabe una pista de audio limpia o una voz en off que coincida con el mensaje que desea transmitir.

2

Enviar una solicitud a OmniHuman 1.5 API

Desde su aplicación, automatización o herramienta de contenido, envíe la imagen y el audio a OmniHuman 1.5 API mediante una simple llamada API con su configuración preferida.

3

Recibe, revisa y publica tu vídeo

Descargue el video del avatar parlante generado, revise el rendimiento y luego expórtelo o prográmelo directamente a TikTok, Reels, Shorts o su producto.

Características de OmniHuman 1.5 API

Centrado en avatares parlantes realistas y fáciles de escalar.

avatar reutilizable

Anfitrión de foto única, estilo estudio

Convierta un retrato en un ser humano digital reutilizable que pueda entregar guiones una y otra vez, para que su contenido se sienta consistente sin repetidas sesiones de fotos o videos.

Entrega realista

Verdadera sincronización de labios y emoción.

Obtenga formas de boca, expresiones y ritmos que sigan de cerca su audio, para que los espectadores sientan que una persona real les habla directamente, no una máscara animada rígida.

Listo para desarrolladores

API-primero para aplicaciones y SaaS

Llame a OmniHuman 1.5 API desde su producto, automatización o herramientas internas para generar clips de avatar parlantes a pedido para incorporación, actualizaciones y flujos de soporte.

Lo social primero

Optimizado para vídeo social

Cree videos verticales cortos adaptados a TikTok, Reels y Shorts para que su humano digital encaje perfectamente en los feeds nativos y mantenga alto el tiempo de visualización.

Herrada

Presencia constante de marca

Utilice el mismo avatar en anuncios, tutoriales y contenido de ayuda para crear una cara reconocible para su marca, incluso cuando diferentes personas escriban los guiones.

Alto rendimiento

Escala con su calendario de contenido

Una vez que su avatar y su flujo de trabajo de audio estén configurados, puede generar por lotes docenas de videos hablados, liberando a su equipo para concentrarse en las ofertas, los ganchos y la distribución.

Preguntas frecuentes sobre OmniHuman 1.5 API

Everything you need to know about the product and billing.

OmniHuman 1.5 API es una interfaz centrada en desarrolladores que convierte una única foto humana y una pista de audio en un vídeo de avatar realista y parlante. Está diseñado para creadores de redes sociales, especialistas en marketing, fundadores de SaaS y equipos de productos que desean seres humanos digitales con calidad cinematográfica sin configuraciones de producción complejas. Si crea TikTok tutoriales, explicaciones de productos, contenido de cursos o flujos de incorporación y necesita una presencia consistente de estilo humano, OmniHuman 1.5 API se lo brinda a través de simples llamadas API en lugar de cámaras y estudios.
Para generar un vídeo con OmniHuman 1.5 API, normalmente necesita un retrato claro de la persona o personaje que desea animar y un archivo de audio limpio del discurso o mensaje. Una vez que los proporciona a través de una solicitud API, el sistema genera un video de avatar parlante que alinea los movimientos de los labios, las expresiones y los gestos con su audio. Muchos usuarios graban guiones cortos diseñados específicamente para TikTok, Reels, Shorts o flujos dentro de la aplicación para que cada salida esté lista para publicarse o incrustarse con una edición mínima.
Muchas herramientas básicas de cabezas parlantes solo mueven la boca y tal vez inclinan la cabeza, lo que puede parecer robótico y romper la confianza de los espectadores. OmniHuman 1.5 API se centra en el rendimiento completo, coordinando la sincronización de labios, las expresiones faciales y el lenguaje corporal con el tono emocional y el ritmo de su voz. Esto hace que los chistes funcionen mejor, los momentos serios parezcan más creíbles y las llamadas a la acción más persuasivas. Para las marcas y los creadores que se preocupan por la calidad y el contenido digno de maratón, ese realismo emocional es una gran ventaja.
Sí, los vídeos generados con OmniHuman 1.5 API se pueden adaptar a las principales plataformas de redes sociales. Muchos usuarios crean videos verticales para TikTok, Instagram Reels y YouTube Shorts, al mismo tiempo que exportan versiones horizontales para YouTube de formato largo, páginas de destino y capacitación interna. Debido a que el avatar y el rendimiento son consistentes en todos los formatos, puedes reutilizar el mismo mensaje en varios lugares y crear un ser humano digital reconocible que los seguidores asocien inmediatamente con tu marca o canal.
OmniHuman 1.5 API es una excelente opción para casos de uso de educación y soporte en los que una guía humana facilita la absorción de la información. Los creadores de cursos pueden convertir guiones de lecciones en videos cortos de avatar para cada módulo, mientras que los equipos de SaaS pueden crear bibliotecas de tutoriales parlantes que explican las funciones principales. Los equipos de soporte también pueden crear respuestas reutilizables a partir de preguntas de primera línea, lo que hace que los usuarios se sientan más apoyados sin abrumar a los agentes. Debido a que el avatar se mantiene constante, los alumnos se sienten cómodos rápidamente con el instructor o asistente digital.
OmniHuman 1.5 API está diseñado para integrarse en sus herramientas actuales en lugar de reemplazarlas. Escribe guiones en sus documentos habituales, graba audio con sus herramientas preferidas y luego usa API para generar videos a escala. Desde allí, puede enviar resultados a programadores, editores o pilas de automatización, como cualquier otro activo. Con el tiempo, puede automatizar aún más pasos, como generar videos de avatares parlantes diarios a partir del contenido del boletín o notas del registro de cambios del producto, convirtiendo las actualizaciones escritas en historias visuales atractivas.
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}