为创作者和产品团队打造的 OmniHuman 1.5 API
把任意人脸和声音,在几分钟内变成可直接发到短视频平台的电影级数字人口播视频。
Upload audio for lip-sync (max 35 seconds, MP3/WAV)
Upload a portrait image containing a human face
Upload audio file (MP3/WAV)
Click to upload or drag and drop
Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s
Upload reference images
Click to upload or drag and drop
Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10
History
最多保留20条0 运行中 · 0 已完成
Pricing
OmniHuman 1.5 API:真实感数字人口播引擎
用一张照片和一段音频生成富有表情、口型精准的数字人口播视频,直接接入你的社交内容和 SaaS 产品。

OmniHuman 1.5 API 是什么
一张照片生成电影级口播数字人
OmniHuman 1.5 API 支持你上传一张人物照片和一段音频,就能自动生成一支电影级数字人口播视频,包含自然的表情、肢体和镜头运动,整体节奏跟脚本高度贴合。你不再需要请演员、租影棚、反复重拍,就能批量产出风格统一的数字人内容,用于社交媒体短视频、落地页讲解和产品内引导,让品牌视觉在每一条内容中保持一致。

为社交媒体而生的情绪化数字人
OmniHuman 1.5 API 不只是“嘴在动”,而是围绕整段声音去做完整的表演设计,让视频看起来像一个真实的人在认真地说话。它会根据语气和内容自动匹配表情、眼神、点头和停顿节奏,让你的 TikTok 开头更抓人、YouTube 开场更专业、Reels 更有沉浸感,同时把你从“每天都要上镜”的压力里解放出来。

面向开发者的数字人口播 API
OmniHuman 1.5 API 为开发者设计,让你不用自建复杂视频模型,就能把高质量数字人能力塞进自己的产品。你只需在后端通过简单的 API 请求发送图片和音频,就能拿到成品视频或视频地址,再嵌入到新手引导、教程中心、学习平台或创作工具中,把原本静态的界面变成有真人“主持人”的动态体验,让用户更有安全感和信任感。

为什么优先选择 OmniHuman 1.5 API
当你最在意“说话表现力、情绪真实和镜头信任感”时,OmniHuman 1.5 API 比 Wan2.2-Animate 更合适。
围绕“真人口播内容”深度优化
Wan2.2-Animate 在角色动画、动作戏和复杂镜头上非常强,适合偏剧情、特效类内容;但大部分社交和产品内容,核心依然是“一个人对着镜头清楚地把话说完”。OmniHuman 1.5 API 就是为这种场景做的,对口型、眼神和情绪细节的把握更细腻,更适合做销售视频、功能讲解和品牌公告等需要信任感的内容。
从脚本到成片路径更短
使用 Wan2.2-Animate 时,你往往要准备参考视频、预想动作模板和镜头分镜,这对复杂创意很友好,但对日更型内容来说流程偏重。OmniHuman 1.5 API 把链路压缩成:写脚本、录音频、上传一张照片和一段声音,几分钟后就有可发的口播视频,大大降低你在 TikTok、Reels、Shorts 等平台保持更新频率的门槛。
品牌和教育场景更容易建立信任
如果目标是建立长期信任——例如讲解产品、做系列教程、持续做直播回放精华——一个稳定、可复用的数字主持人往往比风格不断变化的动画角色更有记忆点。OmniHuman 1.5 API 帮你锁定一个“数字代言人”,长期出现在广告、教学、FAQ 视频中,让用户逐渐把这个人脸和你的品牌绑定在一起。
OmniHuman 1.5 API 在你的流程中怎么用
从一个想法到一条可直接发布的数字人口播视频,只需要几个简单步骤。
准备人设照片和脚本音频
先选一张清晰的人物正面照,确定这是你要长期使用的数字人形象,然后录制一段干净的语音或旁白,把你想表达的信息一次讲清楚。
向 OmniHuman 1.5 API 发起请求
在你的应用、自动化或内容制作工具中,通过简单的 API 请求把图片和音频发送给 OmniHuman 1.5 API,并附上需要的基础参数设置。
查看效果并一键分发到各平台
下载生成好的口播视频,快速检查口型和情绪表现,然后直接导出或排期到 TikTok、Reels、Shorts,或嵌入到产品和官网中。
OmniHuman 1.5 API 主要特性
围绕“高质口播数字人”这一核心能力做深度打磨,同时保持易用和可扩展。
一张照片打造固定数字主持人
只需要一张人像,你就能拥有一个可长期复用的数字主持人,让同一个人不断为不同脚本“出镜”,保持账号和品牌在视觉上的连续性,而不必频繁补拍素材。
口型精准、情绪自然
生成的视频会紧跟你的声音变化,嘴型和发音同步,表情会随着语气起伏变化,观众更容易把它当成一个真人而不是机械动画,更愿意把视频看完或点开详情。
为应用与 SaaS 而生的 API
你可以在自己的产品、自动化流程或内部后台中直接调用 OmniHuman 1.5 API,根据用户或运营脚本实时生成口播视频,用于引导、更新公告和在线客服等场景。
短视频平台优先优化
支持快速产出适合竖屏短视频平台的内容,让数字人自然地融入 TikTok、Reels、Shorts 的推荐流,提升停留时长和互动率。
统一品牌人设与形象
同一个数字人可以同时承担广告主角、课程讲师和客服讲解的角色,让你的品牌在不同触点都用同一张“脸”和用户沟通,强化记忆点。
跟内容日历一起扩容
当头像和音频流程跑顺之后,你可以一次性批量生成多条口播视频,围绕活动节奏去排期发布,把团队精力集中在创意、脚本和投放上。
OmniHuman 1.5 API 与 Wan2.2-Animate 对比
根据你的内容类型和工作流,选择更合适的生成引擎。
| Model | Duration | Resolution | Price | Strength |
|---|---|---|---|---|
| OmniHuman 1.5 API | 单条约 30–90 秒,适合讲解、评测和 UGC 风格口播 | 面向人脸和上半身优化的高质量成片,社交平台友好 | 当主要需求是数字人口播视频时,综合性价比较高 | 在真实口型、细腻表情和人类说话节奏上表现突出,非常适合脚本讲解、销售话术和产品教程。 |
| Wan2.2-Animate Move | 常见为 5–10 秒图生视频或视频转视频角色动作片段 | 面向动态动作和镜头运动优化的高清短片 | 通常按生成量或调用次数计费,适合偏创意玩法的项目 | 擅长把静态角色变成会动的角色,通过参考视频迁移动作和镜头,适合广告片段、故事分镜和角色展示。 |
| Wan2.2-Animate Replace | 常见为 5–10 秒角色替换短视频 | 在保留原场景光影的前提下输出高清画面 | 适合需要大量创意版本的活动或营销项目 | 可以在不改背景和镜头的前提下替换视频中的主角,适合做创意换脸、角色联名或剧情多版本尝试。 |
OmniHuman 1.5 API 常见问题
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/videos/generationsCreate Digital Human Video
OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.
Asynchronous processing mode, use the returned task ID to .
Generated video links are valid for 24 hours, please save them promptly.
Important Notes
- Maximum audio duration is 35 seconds.
- Billing is based on audio duration (rounded up to the nearest second).
- Tasks cannot be cancelled once started.
- Supported audio formats: MP3, WAV.
Request Parameters
modelstringRequiredDefault: omnihuman-1.5Model name for digital human video generation.
omnihuman-1.5audio_urlstringRequiredAudio URL for driving lip-sync and body movements.
Notes
- Maximum duration: 35 seconds
- Supported formats: MP3, WAV
- URL must be directly accessible by the server
https://example.com/audio.mp3image_urlsstring[]RequiredReference image URL array containing the person to animate. OmniHuman uses only the first image.
Notes
- Should contain a clear human figure
- Max size: 10MB
- Formats: .jpg, .jpeg, .png, .webp
- URL must be directly accessible by the server
https://example.com/person.jpgmask_urlstringOptionalMask image URL for specifying animation regions. White areas indicate regions to animate.
Notes
- Optional - use with auto_mask=false for custom control
- Same dimensions as input image recommended
https://example.com/mask.pngsubject_checkbooleanOptionalDefault: falseEnable subject detection to verify human presence in the image.
| Value | Description |
|---|---|
| true | Verify human subject exists |
| false | Skip subject verification |
trueauto_maskbooleanOptionalDefault: falseEnable automatic mask generation for the human subject.
| Value | Description |
|---|---|
| true | Auto-generate mask for animation |
| false | Use provided mask_url or full image |
truepe_fast_modebooleanOptionalDefault: falseEnable fast processing mode for quicker generation.
| Value | Description |
|---|---|
| true | Faster generation (may reduce quality) |
| false | Standard quality generation |
falseseedintegerOptionalDefault: -1Random seed for reproducible generation. Use -1 for random seed.
Notes
- Range: -1 to 2147483647
- Same seed produces consistent results
-1promptstringOptionalOptional text prompt to guide the generation style.
A person speaking naturally with subtle expressionscallback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion or failure
- HTTPS only, no internal IPs
- Max length: 2048 chars
- Timeout: 10s, Max 3 retries
https://your-domain.com/webhooks/video-task-completed