Seedance 2.0 API — 即将上线Get early access

OmniHuman 1.5 API

在几分钟内将任何面孔和声音转化为电影级的口播数字人,随时可用于 TikTok、Reels、Shorts 和应用内体验。

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

History

最多保留20条

0 运行中 · 0 已完成

您的生成历史将显示在这里

面向逼真数字人的 OmniHuman 1.5 API

从单张照片和音轨生成富有表现力、真实口型同步的数字人视频,并直接插入您的社交内容或 SaaS 产品中。

示例 1

Pricing

OmniHuman 1.5
Video Generation
Price:
$0.1667/ second
(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

什么是 OmniHuman 1.5 API

单张照片生成电影级口播数字人

OmniHuman 1.5 API 让您可以上传单张人物照片和一段音轨,然后自动生成一段电影级的口播数字人视频,其自然的表情、手势和镜头运动与您的脚本和品牌基调相匹配。它消除了对演员、影棚或重复重拍的需求,因此您可以为社交媒体、落地页和产品内教育生成一致的数字人内容,同时在每个帖子和渠道中保持视觉身份的完全统一。

示例 2

为社交信息流打造富有表现力的数字人

OmniHuman 1.5 API 专注于表现力,而不只是嘴部动作,因此每段视频都感觉像是一个真实的人在对您的音频信息和情绪做出反应。该模型将肢体语言、面部表情和时机与语音的节奏和含义对齐,让您的 TikTok 钩子更犀利,YouTube 开场更吸引人,Instagram Reels 更具沉浸感,而无需您每天亲自出镜。

示例 3

面向应用和 SaaS 的开发者友好型 API

OmniHuman 1.5 API 专为希望在产品中添加高质量 AI 数字人而无需从头构建视频模型的开发者设计。您可以通过简单的 API 调用发送图像和音频,接收生成的视频文件或链接,然后将其嵌入到入职流程、教程中心、学习平台或创作者工具中,将静态界面转变为鲜活的、会说话的体验,为每位终端用户提供高端且个性化的感受。

示例 4

为什么选择 OmniHuman 1.5 API

当您最看重说话表现力、情绪和镜头前的信任感时,请选择 OmniHuman 1.5 API。

专为真人风格口播内容打造

Wan2.2-Animate 擅长广泛的角色动画和动作密集型场景,但大多数社交和产品内容仍以对着镜头说话的人开始。OmniHuman 1.5 API 针对此用例进行了调优,因此您可以获得更强的口型同步、更可信的眼神交流以及与脚本匹配的情绪,这对于销售视频、教程和品牌公告至关重要。

从脚本到发布的最快路径

使用 Wan2.2-Animate 时,您通常需要考虑参考视频、模板动作和创意运镜,这对于复杂场景很完美,但对于日常内容则显得过重。OmniHuman 1.5 API 保持了流水线的简洁:编写脚本、录制音频、发送一张照片和一个文件,然后发布完成的口播数字人片段,让您更容易在 TikTok、Reels 和 Shorts 上保持一致的发布频率。

为品牌和教育用途建立更多信任

当目标是建立信任时——解释功能、引导新用户或主持定期节目——一个感觉像真实主持人的稳定数字人通常比不断变化的动画角色表现更好。OmniHuman 1.5 API 帮助您锁定一个让观众记住的数字人,将其转化为长期的品牌资产,而非一次性的视觉实验。

OmniHuman 1.5 API 在您的工作流中如何运作

只需几个简单步骤,即可从想法变为准备发布的数字人视频。

1

准备您的数字人和脚本

为您的数字人选择一张清晰的肖像图,并录制一段与您想要传达的信息相匹配的干净音轨或配音。

2

向 OmniHuman 1.5 API 发送请求

从您的应用、自动化或内容工具中,通过简单的 API 调用将图像和音频发送到 OmniHuman 1.5 API,并附上您偏好的设置。

3

接收、审核并发布您的视频

下载生成的口播数字人视频,审核表现,然后直接导出或排期到 TikTok、Reels、Shorts 或您的产品中。

OmniHuman 1.5 API 特性

专注于易于规模化扩展的逼真口播数字人。

可复用数字人

单张照片,影棚级主持人

将一张肖像转化为可重复使用的数字人,他可以一次又一次地交付脚本,让您的内容在没有重复拍照或视频拍摄的情况下保持一致感。

逼真交付

真实的口型同步与情绪

获得紧跟音频的嘴型、表情和节奏,让观众感觉像是一个真实的人在直接对他们说话,而不是僵硬的动画蒙版。

开发者就绪

面向应用和 SaaS 的 API 优先

从您的产品、自动化或内部工具调用 OmniHuman 1.5 API,按需为入职、更新和支持流程生成口播数字人片段。

社交优先

针对社交视频优化

创建为 TikTok、Reels 和 Shorts 量身定制的短篇竖屏视频,让您的数字人自然融入原生信息流并保持高完播率。

品牌化

一致的品牌存在感

在广告、教程和帮助内容中使用相同的数字人,为您的品牌建立一个可识别的面孔,即使脚本是由不同的人编写的。

高吞吐量

随您的内容日历扩展

一旦您的数字人和音频工作流设置完成,您可以批量生成数十个口播视频,让您的团队专注于优惠、钩子和分发。

OmniHuman 1.5 API 常见问题

Everything you need to know about the product and billing.

OmniHuman 1.5 API 是一个以开发者为中心的接口,可将单个人物照片和音轨转化为逼真的口播数字人视频。它专为社交媒体创作者、营销人员、SaaS 创始人和产品团队打造,他们希望在没有复杂制作设置的情况下获得电影级的数字人。如果您创建 TikTok 教程、产品解说、课程内容或入职流程,并需要一致的真人风格存在感,OmniHuman 1.5 API 通过简单的 API 调用而非摄像机和影棚为您提供这种能力。
要使用 OmniHuman 1.5 API 生成视频,您通常需要一张您想要动画化的人物或角色的清晰肖像图,以及一段语音或信息的干净音频文件。一旦您通过 API 请求提供这些内容,系统就会生成一段口播数字人视频,将嘴部动作、表情和手势与您的音频对齐。许多用户会录制专门为 TikTok、Reels、Shorts 或应用内流程量身定制的短脚本,以便每个输出都能在极少编辑的情况下直接发布或嵌入。
许多基础的说话头像工具只移动嘴巴,或许还会倾斜头部,这看起来很机械,会破坏观众的信任。OmniHuman 1.5 API 专注于完整的表现力,将口型同步、面部表情和肢体语言与您声音的情绪基调和时机协调一致。这使得笑话更自然,严肃时刻更可信,行动号召更具说服力。对于看重质量和值得追剧的内容的品牌和创作者来说,这种情绪真实感是一项重大优势。
是的,使用 OmniHuman 1.5 API 生成的视频可以适配所有主要的社交媒体平台。许多用户为 TikTok、Instagram Reels 和 YouTube Shorts 创建竖屏视频,同时也为长篇 YouTube、落地页和内部培训导出横屏版本。由于数字人和表现力在不同格式间保持一致,您可以在多个地方复用相同的信息,并构建一个追随者会立即与您的品牌或频道联系起来的可识别数字人。
OmniHuman 1.5 API 非常适合教育和支持用例,在这些场景中,真人引导使信息更容易吸收。课程创作者可以为每个模块将教学脚本转化为短篇数字人视频,而 SaaS 团队可以构建解释核心功能的口播演示库。支持团队还可以根据一线问题创建可复用的回答,让用户感到更有支持感,而不会让客服人员应接不暇。由于数字人保持一致,学习者会很快适应这位数字讲师或助手。
OmniHuman 1.5 API 旨在嵌入您当前的工具而非取代它们。您在常用的文档中编写脚本,用您偏好的工具录制音频,然后使用 API 规模化生成视频。从那里,您可以像处理任何其他资产一样,将输出推送到调度器、编辑器或自动化栈中。随着时间的推移,您可以自动化更多步骤,例如根据时事通讯内容或产品变更日志自动生成每日口播数字人视频,将文字更新转化为引人入胜的视觉故事。
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}