オムニヒューマン 1.5 API
あらゆる顔と声を数分でフィルム グレードのトーキング アバターに変換し、TikTok、リール、ショート、アプリ内エクスペリエンスの準備が整います。
Upload audio for lip-sync (max 35 seconds, MP3/WAV)
Upload a portrait image containing a human face
Upload audio file (MP3/WAV)
Click to upload or drag and drop
Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s
Upload reference images
Click to upload or drag and drop
Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10
履歴
最大20件0 実行中 · 0 完了
OmniHuman 1.5 API リアルなデジタル ヒューマン用
1 つの写真とオーディオ トラックから表現力豊かな真のリップシンク アバター ビデオを生成し、ソーシャル コンテンツや SaaS 製品に直接接続します。

Pricing
| Model | Mode | Price |
|---|---|---|
| OmniHuman 1.5 | Video Generation | $0.1667/ second(12 Credits) |
If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.
OmniHuman 1.5 API とは
1 枚の写真から映画レベルの話すアバターを作成
OmniHuman 1.5 API を使用すると、1 枚の人間の写真とオーディオ トラックをアップロードし、脚本やブランド トーンに一致する自然な表情、ジェスチャー、カメラ モーションを備えた映画グレードのトーキング アバター ビデオを自動的に生成できます。俳優、スタジオ、または繰り返しの再撮影の必要がなくなるため、すべての投稿とチャネルにわたってビジュアル アイデンティティを完全に調整しながら、ソーシャル メディア、ランディング ページ、製品内教育用の一貫したデジタル ヒューマン コンテンツを生成できます。

ソーシャルフィード用の感情表現豊かなデジタルヒューマン
OmniHuman 1.5 API は、唇の動きだけでなくパフォーマンスに重点を置いているため、すべてのビデオが音声のメッセージや雰囲気に反応している本物の人間のように感じられます。このモデルはボディランゲージ、顔の表情、タイミングをスピーチのリズムと意味に合わせて調整するため、毎日カメラに映る必要がなく、TikTok のフックがより鋭くなり、YouTube のイントロがより魅力的になり、Instagram リールがより楽しくなります。

アプリと SaaS 向けの開発者向けの API
OmniHuman 1.5 API は、ビデオ モデルを最初から構築せずに、高品質の AI デジタル ヒューマンを製品に追加したい開発者向けに設計されています。単純な API 呼び出しを通じて画像と音声を送信し、生成されたビデオ ファイルまたはリンクを受信して、それらをオンボーディング フロー、チュートリアル ハブ、学習プラットフォーム、またはクリエイター ツールに埋め込むことで、静的なインターフェイスを、すべてのエンド ユーザーにとってプレミアムでパーソナライズされたと感じる生きた会話エクスペリエンスに変えることができます。

OmniHuman 1.5 API を選ぶ理由
スピーキングのパフォーマンス、感情、カメラの信頼性を最も重視する場合は、OmniHuman 1.5 API をお選びください。
人間らしい会話コンテンツ用に構築
Wan2.2-Animate は、広範なキャラクター アニメーションやモーションの多いシーンに強いですが、ほとんどのソーシャル コンテンツや製品コンテンツは依然としてカメラに向かって話す人物から始まります。 OmniHuman 1.5 API はこのユースケース向けに調整されているため、より強力なリップシンク、より真実味のあるアイコンタクト、そして台本に一致する感情が得られます。これは、販売ビデオ、チュートリアル、ブランドの発表にとって非常に重要です。
スクリプトからポストまでの高速パス
Wan2.2-Animate では、リファレンス ビデオ、テンプレート モーション、クリエイティブなカメラの動きについて考える必要があることがよくあります。これは複雑なシーンには最適ですが、日常的なコンテンツには負担がかかります。 OmniHuman 1.5 API はパイプラインをシンプルに保ちます。スクリプトを作成し、音声を録音し、1 枚の写真と 1 つのファイルを送信し、完成したトーキング アバター クリップを投稿することで、TikTok、リール、ショートで一貫して公開することが容易になります。
ブランドや教育用途での信頼性の向上
機能の説明、新しいユーザーのオンボーディング、定期的な番組の司会など、信頼を築くことが目的の場合、本物の司会者のように感じられる安定したデジタル ヒューマンのほうが、常に変化するアニメーション キャラクターよりも優れたパフォーマンスを発揮するのが通常です。 OmniHuman 1.5 API は、視聴者の記憶に残る 1 つのアバターを固定し、それを 1 回限りの視覚実験ではなく、長期的なブランド資産に変えるのに役立ちます。
OmniHuman 1.5 API がワークフローでどのように機能するか
いくつかの簡単な手順で、アイデアからすぐに投稿できるデジタル ヒューマン ビデオを作成できます。
アバターとスクリプトを準備する
デジタル ヒューマン用に鮮明なポートレート画像を選択し、伝えたいメッセージに一致するきれいなオーディオ トラックまたはナレーションを録音します。
OmniHuman 1.5 API にリクエストを送信する
アプリ、自動化、またはコンテンツ ツールから、好みの設定を使用した簡単な API 呼び出しを通じて、画像と音声を OmniHuman 1.5 API に送信します。
ビデオを受信、レビュー、公開する
生成されたトーキング アバター ビデオをダウンロードし、パフォーマンスを確認してから、TikTok、リール、ショート、または製品に直接エクスポートまたはスケジュール設定します。
OmniHuman 1.5 API の機能
簡単に拡大縮小できるリアルな会話アバターに重点を置いています。
一枚写真、スタジオスタイルのホスト
1 つのポートレートを、何度もスクリプトを配信できる再利用可能なデジタル ヒューマンに変えることで、写真やビデオを何度も撮影しなくても、コンテンツに一貫性を持たせることができます。
真のリップシンクと感情
音声に忠実に従う口の形、表情、ペースを取得できるため、視聴者は硬いアニメーションのマスクではなく、実際の人間が直接話しているように感じられます。
API - アプリと SaaS 向け
製品、自動化、または内部ツールから OmniHuman 1.5 API を呼び出して、オンボーディング、更新、サポート フロー用のトーキング アバター クリップをオンデマンドで生成します。
ソーシャルビデオ用に最適化
TikTok、リール、ショートに合わせた短い縦型動画を作成して、デジタル ヒューマンがネイティブ フィードにぴったりとフィットし、総再生時間を長く維持できるようにします。
一貫したブランドの存在感
広告、チュートリアル、ヘルプ コンテンツで同じアバターを使用すると、たとえ別の人がスクリプトを書いた場合でも、ブランドの認識可能な顔を構築できます。
コンテンツカレンダーに合わせて拡張可能
アバターとオーディオのワークフローを設定したら、数十のトーキングビデオをバッチ生成できるため、チームはオファー、フック、配信に集中できるようになります。
OmniHuman 1.5 API FAQ
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/videos/generationsCreate Digital Human Video
OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.
Asynchronous processing mode, use the returned task ID to .
Generated video links are valid for 24 hours, please save them promptly.
Important Notes
- Maximum audio duration is 35 seconds.
- Billing is based on audio duration (rounded up to the nearest second).
- Tasks cannot be cancelled once started.
- Supported audio formats: MP3, WAV.
Request Parameters
modelstringRequiredDefault: omnihuman-1.5Model name for digital human video generation.
omnihuman-1.5audio_urlstringRequiredAudio URL for driving lip-sync and body movements.
Notes
- Maximum duration: 35 seconds
- Supported formats: MP3, WAV
- URL must be directly accessible by the server
https://example.com/audio.mp3image_urlsstring[]RequiredReference image URL array containing the person to animate. OmniHuman uses only the first image.
Notes
- Should contain a clear human figure
- Max size: 10MB
- Formats: .jpg, .jpeg, .png, .webp
- URL must be directly accessible by the server
https://example.com/person.jpgmask_urlstringOptionalMask image URL for specifying animation regions. White areas indicate regions to animate.
Notes
- Optional - use with auto_mask=false for custom control
- Same dimensions as input image recommended
https://example.com/mask.pngsubject_checkbooleanOptionalDefault: falseEnable subject detection to verify human presence in the image.
| Value | Description |
|---|---|
| true | Verify human subject exists |
| false | Skip subject verification |
trueauto_maskbooleanOptionalDefault: falseEnable automatic mask generation for the human subject.
| Value | Description |
|---|---|
| true | Auto-generate mask for animation |
| false | Use provided mask_url or full image |
truepe_fast_modebooleanOptionalDefault: falseEnable fast processing mode for quicker generation.
| Value | Description |
|---|---|
| true | Faster generation (may reduce quality) |
| false | Standard quality generation |
falseseedintegerOptionalDefault: -1Random seed for reproducible generation. Use -1 for random seed.
Notes
- Range: -1 to 2147483647
- Same seed produces consistent results
-1promptstringOptionalOptional text prompt to guide the generation style.
A person speaking naturally with subtle expressionscallback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion or failure
- HTTPS only, no internal IPs
- Max length: 2048 chars
- Timeout: 10s, Max 3 retries
https://your-domain.com/webhooks/video-task-completed