为创作者和产品团队打造的 OmniHuman 1.5 API

把任意人脸和声音,在几分钟内变成可直接发到短视频平台的电影级数字人口播视频。

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

History

最多保留20条

0 运行中 · 0 已完成

您的生成历史将显示在这里
$

Pricing

Starting from
$0.167
12 Credits
per 1 second
Guaranteed
99.9% Uptime
Powered by 16 redundant providers

OmniHuman 1.5 API:真实感数字人口播引擎

用一张照片和一段音频生成富有表情、口型精准的数字人口播视频,直接接入你的社交内容和 SaaS 产品。

示例 1

OmniHuman 1.5 API 是什么

一张照片生成电影级口播数字人

OmniHuman 1.5 API 支持你上传一张人物照片和一段音频,就能自动生成一支电影级数字人口播视频,包含自然的表情、肢体和镜头运动,整体节奏跟脚本高度贴合。你不再需要请演员、租影棚、反复重拍,就能批量产出风格统一的数字人内容,用于社交媒体短视频、落地页讲解和产品内引导,让品牌视觉在每一条内容中保持一致。

示例 2

为社交媒体而生的情绪化数字人

OmniHuman 1.5 API 不只是“嘴在动”,而是围绕整段声音去做完整的表演设计,让视频看起来像一个真实的人在认真地说话。它会根据语气和内容自动匹配表情、眼神、点头和停顿节奏,让你的 TikTok 开头更抓人、YouTube 开场更专业、Reels 更有沉浸感,同时把你从“每天都要上镜”的压力里解放出来。

示例 3

面向开发者的数字人口播 API

OmniHuman 1.5 API 为开发者设计,让你不用自建复杂视频模型,就能把高质量数字人能力塞进自己的产品。你只需在后端通过简单的 API 请求发送图片和音频,就能拿到成品视频或视频地址,再嵌入到新手引导、教程中心、学习平台或创作工具中,把原本静态的界面变成有真人“主持人”的动态体验,让用户更有安全感和信任感。

示例 4

为什么优先选择 OmniHuman 1.5 API

当你最在意“说话表现力、情绪真实和镜头信任感”时,OmniHuman 1.5 API 比 Wan2.2-Animate 更合适。

围绕“真人口播内容”深度优化

Wan2.2-Animate 在角色动画、动作戏和复杂镜头上非常强,适合偏剧情、特效类内容;但大部分社交和产品内容,核心依然是“一个人对着镜头清楚地把话说完”。OmniHuman 1.5 API 就是为这种场景做的,对口型、眼神和情绪细节的把握更细腻,更适合做销售视频、功能讲解和品牌公告等需要信任感的内容。

从脚本到成片路径更短

使用 Wan2.2-Animate 时,你往往要准备参考视频、预想动作模板和镜头分镜,这对复杂创意很友好,但对日更型内容来说流程偏重。OmniHuman 1.5 API 把链路压缩成:写脚本、录音频、上传一张照片和一段声音,几分钟后就有可发的口播视频,大大降低你在 TikTok、Reels、Shorts 等平台保持更新频率的门槛。

品牌和教育场景更容易建立信任

如果目标是建立长期信任——例如讲解产品、做系列教程、持续做直播回放精华——一个稳定、可复用的数字主持人往往比风格不断变化的动画角色更有记忆点。OmniHuman 1.5 API 帮你锁定一个“数字代言人”,长期出现在广告、教学、FAQ 视频中,让用户逐渐把这个人脸和你的品牌绑定在一起。

OmniHuman 1.5 API 在你的流程中怎么用

从一个想法到一条可直接发布的数字人口播视频,只需要几个简单步骤。

1

准备人设照片和脚本音频

先选一张清晰的人物正面照,确定这是你要长期使用的数字人形象,然后录制一段干净的语音或旁白,把你想表达的信息一次讲清楚。

2

向 OmniHuman 1.5 API 发起请求

在你的应用、自动化或内容制作工具中,通过简单的 API 请求把图片和音频发送给 OmniHuman 1.5 API,并附上需要的基础参数设置。

3

查看效果并一键分发到各平台

下载生成好的口播视频,快速检查口型和情绪表现,然后直接导出或排期到 TikTok、Reels、Shorts,或嵌入到产品和官网中。

OmniHuman 1.5 API 主要特性

围绕“高质口播数字人”这一核心能力做深度打磨,同时保持易用和可扩展。

可复用人设

一张照片打造固定数字主持人

只需要一张人像,你就能拥有一个可长期复用的数字主持人,让同一个人不断为不同脚本“出镜”,保持账号和品牌在视觉上的连续性,而不必频繁补拍素材。

真实表达

口型精准、情绪自然

生成的视频会紧跟你的声音变化,嘴型和发音同步,表情会随着语气起伏变化,观众更容易把它当成一个真人而不是机械动画,更愿意把视频看完或点开详情。

开发者友好

为应用与 SaaS 而生的 API

你可以在自己的产品、自动化流程或内部后台中直接调用 OmniHuman 1.5 API,根据用户或运营脚本实时生成口播视频,用于引导、更新公告和在线客服等场景。

社媒优先

短视频平台优先优化

支持快速产出适合竖屏短视频平台的内容,让数字人自然地融入 TikTok、Reels、Shorts 的推荐流,提升停留时长和互动率。

品牌统一

统一品牌人设与形象

同一个数字人可以同时承担广告主角、课程讲师和客服讲解的角色,让你的品牌在不同触点都用同一张“脸”和用户沟通,强化记忆点。

可扩展生产

跟内容日历一起扩容

当头像和音频流程跑顺之后,你可以一次性批量生成多条口播视频,围绕活动节奏去排期发布,把团队精力集中在创意、脚本和投放上。

OmniHuman 1.5 API 与 Wan2.2-Animate 对比

根据你的内容类型和工作流,选择更合适的生成引擎。

ModelDurationResolutionPriceStrength
OmniHuman 1.5 API单条约 30–90 秒,适合讲解、评测和 UGC 风格口播面向人脸和上半身优化的高质量成片,社交平台友好当主要需求是数字人口播视频时,综合性价比较高在真实口型、细腻表情和人类说话节奏上表现突出,非常适合脚本讲解、销售话术和产品教程。
Wan2.2-Animate Move常见为 5–10 秒图生视频或视频转视频角色动作片段面向动态动作和镜头运动优化的高清短片通常按生成量或调用次数计费,适合偏创意玩法的项目擅长把静态角色变成会动的角色,通过参考视频迁移动作和镜头,适合广告片段、故事分镜和角色展示。
Wan2.2-Animate Replace常见为 5–10 秒角色替换短视频在保留原场景光影的前提下输出高清画面适合需要大量创意版本的活动或营销项目可以在不改背景和镜头的前提下替换视频中的主角,适合做创意换脸、角色联名或剧情多版本尝试。

OmniHuman 1.5 API 常见问题

Everything you need to know about the product and billing.

OmniHuman 1.5 API 是一个面向开发者的数字人口播生成接口,可以把一张人物照片和一段音频转换成真实感很强的口播视频。它非常适合社交媒体创作者、营销团队、SaaS 创始人和产品经理,用来替代真人出镜录制教学、产品介绍、更新公告等内容。如果你想做大量口播视频,又不想频繁上镜或搭建拍摄团队,这个 API 可以把大部分生产环节自动化。
通常你只需要两样东西:一张清晰的人物照片,以及一段干净的语音或配音文件。照片决定了数字人的外观,人声决定了内容和节奏。通过 API 请求把这两部分发送出去后,系统会自动生成一条数字人口播视频,口型、表情和动作都会跟随你的声音变化。很多用户会专门为 TikTok、Reels、Shorts 等平台录制短脚本,确保成片可以直接发布或轻度剪辑后使用。
很多基础的说话头像工具只做简单的嘴部动作和轻微点头,稍微看久一点就会感觉僵硬。OmniHuman 1.5 API 更在意整体的表演效果:口型、表情、眼神和上半身动作会跟随语气变化,笑点、强调和停顿都会有对应的身体反馈。对于那些在意内容质量和完播率的创作者和品牌来说,这种“像真人一样说话”的感觉会明显抬高信任感和转化率。
通过 OmniHuman 1.5 API 生成的视频可以适配几乎所有主流平台。你可以针对 TikTok、Instagram Reels、YouTube Shorts 输出竖屏短视频,也可以为长视频 YouTube、官网落地页和内部培训系统输出横屏版本。因为同一个数字人可以跨平台复用,你能够围绕同一人设同步运作多个渠道,用更少的制作成本覆盖更多触点。
非常适合。教育和培训内容往往需要一个稳定、可信赖的讲解者,长期陪伴同一批用户。你可以用 OmniHuman 1.5 API 把每一节课程脚本变成一支对应的数字人口播视频,让学员对这位“虚拟老师”越来越熟悉。对于 SaaS 或 B2B 产品,同样可以基于常见问题和核心流程生成一系列讲解视频,放在帮助中心或产品内,让用户在需要时随时“有人讲给他听”。
OmniHuman 1.5 API 的设计思路是融入你现有的工具,而不是强迫你改造所有流程。你可以继续在熟悉的文档工具里写脚本,用常用录音工具录制音频,然后通过后端、自动化平台或内部面板调用 API 批量生成视频。生成好的视频可以直接进入排期工具、剪辑软件或自动投放系统。随着工作流逐步成熟,你甚至可以把每周的 newsletter、更新日志自动转换为数字人口播视频,让文字内容自动拥有“说话的人”。
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}