OmniHuman 1.5 API
Upload audio for lip-sync (max 35 seconds, MP3/WAV)
Upload a portrait image containing a human face
Upload audio file (MP3/WAV)
Click to upload or drag and drop
Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s
Upload reference images
Click to upload or drag and drop
Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10
History
最多保留20条0 运行中 · 0 已完成
面向逼真数字人的 OmniHuman 1.5 API
从单张照片和音轨生成富有表现力、真实口型同步的数字人视频,并直接插入您的社交内容或 SaaS 产品中。

Pricing
| Model | Mode | Price |
|---|---|---|
| OmniHuman 1.5 | Video Generation | $0.1667/ second(12 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
什么是 OmniHuman 1.5 API
单张照片生成电影级口播数字人
OmniHuman 1.5 API 让您可以上传单张人物照片和一段音轨,然后自动生成一段电影级的口播数字人视频,其自然的表情、手势和镜头运动与您的脚本和品牌基调相匹配。它消除了对演员、影棚或重复重拍的需求,因此您可以为社交媒体、落地页和产品内教育生成一致的数字人内容,同时在每个帖子和渠道中保持视觉身份的完全统一。

为社交信息流打造富有表现力的数字人
OmniHuman 1.5 API 专注于表现力,而不只是嘴部动作,因此每段视频都感觉像是一个真实的人在对您的音频信息和情绪做出反应。该模型将肢体语言、面部表情和时机与语音的节奏和含义对齐,让您的 TikTok 钩子更犀利,YouTube 开场更吸引人,Instagram Reels 更具沉浸感,而无需您每天亲自出镜。

面向应用和 SaaS 的开发者友好型 API
OmniHuman 1.5 API 专为希望在产品中添加高质量 AI 数字人而无需从头构建视频模型的开发者设计。您可以通过简单的 API 调用发送图像和音频,接收生成的视频文件或链接,然后将其嵌入到入职流程、教程中心、学习平台或创作者工具中,将静态界面转变为鲜活的、会说话的体验,为每位终端用户提供高端且个性化的感受。

为什么选择 OmniHuman 1.5 API
当您最看重说话表现力、情绪和镜头前的信任感时,请选择 OmniHuman 1.5 API。
专为真人风格口播内容打造
Wan2.2-Animate 擅长广泛的角色动画和动作密集型场景,但大多数社交和产品内容仍以对着镜头说话的人开始。OmniHuman 1.5 API 针对此用例进行了调优,因此您可以获得更强的口型同步、更可信的眼神交流以及与脚本匹配的情绪,这对于销售视频、教程和品牌公告至关重要。
从脚本到发布的最快路径
使用 Wan2.2-Animate 时,您通常需要考虑参考视频、模板动作和创意运镜,这对于复杂场景很完美,但对于日常内容则显得过重。OmniHuman 1.5 API 保持了流水线的简洁:编写脚本、录制音频、发送一张照片和一个文件,然后发布完成的口播数字人片段,让您更容易在 TikTok、Reels 和 Shorts 上保持一致的发布频率。
为品牌和教育用途建立更多信任
当目标是建立信任时——解释功能、引导新用户或主持定期节目——一个感觉像真实主持人的稳定数字人通常比不断变化的动画角色表现更好。OmniHuman 1.5 API 帮助您锁定一个让观众记住的数字人,将其转化为长期的品牌资产,而非一次性的视觉实验。
OmniHuman 1.5 API 在您的工作流中如何运作
只需几个简单步骤,即可从想法变为准备发布的数字人视频。
准备您的数字人和脚本
为您的数字人选择一张清晰的肖像图,并录制一段与您想要传达的信息相匹配的干净音轨或配音。
向 OmniHuman 1.5 API 发送请求
从您的应用、自动化或内容工具中,通过简单的 API 调用将图像和音频发送到 OmniHuman 1.5 API,并附上您偏好的设置。
接收、审核并发布您的视频
下载生成的口播数字人视频,审核表现,然后直接导出或排期到 TikTok、Reels、Shorts 或您的产品中。
OmniHuman 1.5 API 特性
专注于易于规模化扩展的逼真口播数字人。
单张照片,影棚级主持人
将一张肖像转化为可重复使用的数字人,他可以一次又一次地交付脚本,让您的内容在没有重复拍照或视频拍摄的情况下保持一致感。
真实的口型同步与情绪
获得紧跟音频的嘴型、表情和节奏,让观众感觉像是一个真实的人在直接对他们说话,而不是僵硬的动画蒙版。
面向应用和 SaaS 的 API 优先
从您的产品、自动化或内部工具调用 OmniHuman 1.5 API,按需为入职、更新和支持流程生成口播数字人片段。
针对社交视频优化
创建为 TikTok、Reels 和 Shorts 量身定制的短篇竖屏视频,让您的数字人自然融入原生信息流并保持高完播率。
一致的品牌存在感
在广告、教程和帮助内容中使用相同的数字人,为您的品牌建立一个可识别的面孔,即使脚本是由不同的人编写的。
随您的内容日历扩展
一旦您的数字人和音频工作流设置完成,您可以批量生成数十个口播视频,让您的团队专注于优惠、钩子和分发。
OmniHuman 1.5 API 常见问题
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/videos/generationsCreate Digital Human Video
OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.
Asynchronous processing mode, use the returned task ID to .
Generated video links are valid for 24 hours, please save them promptly.
Important Notes
- Maximum audio duration is 35 seconds.
- Billing is based on audio duration (rounded up to the nearest second).
- Tasks cannot be cancelled once started.
- Supported audio formats: MP3, WAV.
Request Parameters
modelstringRequiredDefault: omnihuman-1.5Model name for digital human video generation.
omnihuman-1.5audio_urlstringRequiredAudio URL for driving lip-sync and body movements.
Notes
- Maximum duration: 35 seconds
- Supported formats: MP3, WAV
- URL must be directly accessible by the server
https://example.com/audio.mp3image_urlsstring[]RequiredReference image URL array containing the person to animate. OmniHuman uses only the first image.
Notes
- Should contain a clear human figure
- Max size: 10MB
- Formats: .jpg, .jpeg, .png, .webp
- URL must be directly accessible by the server
https://example.com/person.jpgmask_urlstringOptionalMask image URL for specifying animation regions. White areas indicate regions to animate.
Notes
- Optional - use with auto_mask=false for custom control
- Same dimensions as input image recommended
https://example.com/mask.pngsubject_checkbooleanOptionalDefault: falseEnable subject detection to verify human presence in the image.
| Value | Description |
|---|---|
| true | Verify human subject exists |
| false | Skip subject verification |
trueauto_maskbooleanOptionalDefault: falseEnable automatic mask generation for the human subject.
| Value | Description |
|---|---|
| true | Auto-generate mask for animation |
| false | Use provided mask_url or full image |
truepe_fast_modebooleanOptionalDefault: falseEnable fast processing mode for quicker generation.
| Value | Description |
|---|---|
| true | Faster generation (may reduce quality) |
| false | Standard quality generation |
falseseedintegerOptionalDefault: -1Random seed for reproducible generation. Use -1 for random seed.
Notes
- Range: -1 to 2147483647
- Same seed produces consistent results
-1promptstringOptionalOptional text prompt to guide the generation style.
A person speaking naturally with subtle expressionscallback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion or failure
- HTTPS only, no internal IPs
- Max length: 2048 chars
- Timeout: 10s, Max 3 retries
https://your-domain.com/webhooks/video-task-completed