Seedance 2.0 API — Coming SoonGet early access

옴니휴먼 1.5 API

모든 얼굴과 음성을 몇 분 만에 영화 수준의 말하는 아바타로 변환하여 TikTok, Reels, Shorts 및 인앱 환경에 사용할 수 있습니다.

Upload audio for lip-sync (max 35 seconds, MP3/WAV)

Upload a portrait image containing a human face

Price per second
12 Credits/s
Billed by audio duration (rounded up to seconds)
Sample Result

Upload audio file (MP3/WAV)

Click to upload or drag and drop

Supported formats: MP3, WAV
Maximum file size: 50MB; Duration: max 35s

Upload reference images

Click to upload or drag and drop

Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 10

0:00 / 0:00
Audio

기록

최대 20개 항목

0 실행 중 · 0 완료됨

여기에 생성 기록이 표시됩니다

현실적인 디지털 휴먼을 위한 OmniHuman 1.5 API

단일 사진 및 오디오 트랙에서 표현력이 풍부하고 진정한 립싱크 아바타 비디오를 생성하고 소셜 콘텐츠 또는 SaaS 제품에 직접 연결하세요.

예시 1

Pricing

OmniHuman 1.5
Video Generation
Price:
$0.1667/ second
(12 Credits)

If it's down, we automatically use the next cheapest available—ensuring 99.9% uptime at the best possible price.

OmniHuman 1.5 API이란 무엇입니까?

한 장의 사진으로 만든 영화급 말하는 아바타

OmniHuman 1.5 API을 사용하면 인물 사진 한 장과 오디오 트랙을 업로드한 다음 스크립트 및 브랜드 톤에 맞는 자연스러운 표정, 제스처, 카메라 동작을 사용하여 영화 수준의 말하는 아바타 비디오를 자동으로 생성할 수 있습니다. 배우, 스튜디오 또는 반복적인 재촬영이 필요하지 않으므로 소셜 미디어, 랜딩 페이지 및 제품 내 교육을 위한 일관된 디지털 휴먼 콘텐츠를 생성하는 동시에 모든 게시물과 채널에서 시각적 아이덴티티를 완전히 일치시킬 수 있습니다.

예시 2

소셜 피드를 위한 감정 표현이 풍부한 디지털 휴먼

OmniHuman 1.5 API은 입술의 움직임뿐만 아니라 성능에 중점을 두므로 모든 비디오가 오디오의 메시지와 분위기에 반응하는 실제 사람처럼 느껴집니다. 이 모델은 신체 언어, 얼굴 표정, 타이밍을 연설의 리듬과 의미에 맞춰 조정하여 매일 카메라에 등장하지 않고도 TikTok 후크를 더 날카롭게 만들고, YouTube 인트로를 더 매력적으로 만들고, Instagram 릴을 더 폭식하게 만듭니다.

예시 3

앱 및 SaaS를 위한 개발자 친화적인 API

OmniHuman 1.5 API은 비디오 모델을 처음부터 구축하지 않고도 고품질 AI 디지털 휴먼을 제품에 추가하려는 개발자를 위해 설계되었습니다. 간단한 API 호출을 통해 이미지와 오디오를 보내고 생성된 비디오 파일이나 링크를 수신한 다음 이를 온보딩 흐름, 튜토리얼 허브, 학습 플랫폼 또는 제작자 도구에 포함시켜 정적 인터페이스를 모든 최종 사용자에게 고급스럽고 개인화된 느낌을 주는 살아있는 말하기 경험으로 바꿀 수 있습니다.

예시 4

OmniHuman 1.5 API을 선택하는 이유

말하기 성능, 감정, 카메라 신뢰에 가장 관심이 있다면 OmniHuman 1.5 API을 선택하세요.

인간 스타일의 말하는 콘텐츠를 위해 제작됨

Wan2.2-Animate는 광범위한 캐릭터 애니메이션과 모션이 많은 장면에 강력하지만 대부분의 소셜 및 제품 콘텐츠는 여전히 사람이 카메라에 말하는 것으로 시작됩니다. OmniHuman 1.5 API은 이 사용 사례에 맞게 조정되었으므로 더 강력한 립싱크, 더 믿을 수 있는 눈맞춤, 스크립트와 일치하는 감정을 얻을 수 있으며 이는 판매 비디오, 튜토리얼 및 브랜드 발표에 매우 중요합니다.

스크립트에서 포스트까지 더 빠른 경로

Wan2.2-Animate를 사용하면 참조 비디오, 템플릿 모션 및 창의적인 카메라 움직임에 대해 자주 생각해야 합니다. 이는 복잡한 장면에 적합하지만 일상 콘텐츠에는 더 무겁습니다. OmniHuman 1.5 API는 파이프라인을 단순하게 유지합니다. 스크립트를 작성하고, 오디오를 녹음하고, 사진 한 장과 파일 한 장을 보낸 다음, 완성된 말하는 아바타 클립을 게시하여 TikTok, 릴, Shorts에 일관되게 게시하는 것이 더 쉬워졌습니다.

브랜드 및 교육 사용에 대한 신뢰도 향상

기능 설명, 새로운 사용자 온보딩, 반복 쇼 주최 등 신뢰 구축이 목표인 경우, 실제 진행자처럼 느껴지는 안정적인 디지털 휴먼은 일반적으로 끊임없이 변화하는 애니메이션 캐릭터보다 더 나은 성능을 발휘합니다. OmniHuman 1.5 API은 청중이 기억하는 하나의 아바타를 고정하여 일회성 시각적 실험이 아닌 장기적인 브랜드 자산으로 전환하는 데 도움이 됩니다.

OmniHuman 1.5 API이 작업 흐름에서 작동하는 방식

몇 가지 간단한 단계를 통해 아이디어를 즉시 게시 가능한 디지털 휴먼 비디오로 만들 수 있습니다.

1

아바타와 스크립트를 준비하세요

디지털 휴먼을 위한 선명한 인물 이미지를 선택하고 전달하려는 메시지와 일치하는 깨끗한 오디오 트랙이나 음성 해설을 녹음하세요.

2

OmniHuman 1.5 API에 요청 보내기

앱, 자동화 또는 콘텐츠 도구에서 원하는 설정을 사용하여 간단한 API 호출을 통해 이미지와 오디오를 OmniHuman 1.5 API로 보냅니다.

3

비디오 수신, 검토 및 게시

생성된 말하는 아바타 비디오를 다운로드하고 성능을 검토한 다음 TikTok, Reels, Shorts 또는 제품으로 직접 내보내거나 예약하세요.

OmniHuman 1.5 API 기능

확장이 용이하고 사실적인 말하는 아바타에 중점을 둡니다.

재사용 가능한 아바타

단일 사진, 스튜디오 스타일 호스트

하나의 인물 사진을 스크립트를 반복해서 전달할 수 있는 재사용 가능한 디지털 휴먼으로 전환하면 사진이나 비디오를 반복적으로 촬영하지 않고도 콘텐츠가 일관성을 느낄 수 있습니다.

현실적인 배송

진정한 립싱크와 감정

오디오를 밀접하게 따라가는 입 모양, 표정 및 속도를 확보하여 시청자가 딱딱한 애니메이션 마스크가 아닌 실제 사람이 직접 말하는 것처럼 느낄 수 있습니다.

개발자용

API-앱 및 SaaS의 경우 첫 번째

제품, 자동화 또는 내부 도구에서 OmniHuman 1.5 API을 호출하여 온보딩, 업데이트 및 지원 흐름에 대해 주문형 말하는 아바타 클립을 생성하세요.

사회 우선

소셜 비디오에 최적화됨

TikTok, 릴, Shorts에 맞춤화된 짧은 수직 동영상을 만들어 디지털 휴먼이 기본 피드에 딱 맞도록 하고 시청 시간을 높게 유지하세요.

브랜딩

일관된 브랜드 존재감

여러 사람이 스크립트를 작성하는 경우에도 광고, 튜토리얼 및 도움말 콘텐츠 전반에서 동일한 아바타를 사용하여 브랜드에 대한 인식 가능한 얼굴을 구축하세요.

높은 처리량

콘텐츠 달력에 맞춰 확장

아바타와 오디오 워크플로가 설정되면 수십 개의 말하는 비디오를 일괄 생성하여 팀이 제안, 관심, 배포에 집중할 수 있습니다.

OmniHuman 1.5 API FAQ

Everything you need to know about the product and billing.

OmniHuman 1.5 API은 인간의 사진과 오디오 트랙을 사실적인 말하는 아바타 비디오로 바꾸는 개발자 중심의 인터페이스입니다. 복잡한 제작 설정 없이 영화 수준의 디지털 휴먼을 원하는 소셜 미디어 제작자, 마케팅 담당자, SaaS 창립자 및 제품 팀을 위해 제작되었습니다. TikTok 튜토리얼, 제품 설명, 코스 콘텐츠 또는 온보딩 흐름을 만들고 일관된 인간 스타일의 존재가 필요한 경우 OmniHuman 1.5 API은 카메라와 스튜디오 대신 간단한 API 호출을 통해 이를 제공합니다.
OmniHuman 1.5 API을 사용하여 비디오를 생성하려면 일반적으로 애니메이션을 적용하려는 사람이나 캐릭터의 선명한 인물 이미지와 음성 또는 메시지가 포함된 깨끗한 오디오 파일이 필요합니다. API 요청을 통해 이를 제공하면 시스템은 입술 움직임, 표정 및 제스처를 오디오와 일치시키는 말하는 아바타 비디오를 생성합니다. 많은 사용자가 TikTok, 릴, 단편 또는 인앱 흐름에 맞게 특별히 맞춤화된 짧은 스크립트를 기록하므로 최소한의 편집만으로 각 출력을 게시하거나 삽입할 수 있습니다.
많은 기본 말하는 머리 도구는 입만 움직이고 머리를 기울일 수도 있습니다. 이는 로봇처럼 보이고 시청자의 신뢰를 깨뜨릴 수 있습니다. OmniHuman 1.5 API은 감정적인 어조와 목소리 타이밍에 맞춰 립싱크, 얼굴 표정, 신체 언어를 조정하여 완전한 성능을 발휘하는 데 중점을 둡니다. 그러면 농담이 더 잘 전달되고, 진지한 순간이 더 믿을 만하게 느껴지며, 행동 ​​촉구가 더 설득력 있게 됩니다. 품질과 폭식할만한 콘텐츠에 관심이 있는 브랜드와 제작자에게는 이러한 정서적 현실감이 큰 장점입니다.
예, OmniHuman 1.5 API로 생성된 비디오는 모든 주요 소셜 미디어 플랫폼에 적용할 수 있습니다. 많은 사용자가 TikTok, Instagram 릴 및 YouTube Shorts용 세로형 동영상을 만드는 동시에 긴 형식의 YouTube, 랜딩 페이지 및 내부 교육용 가로 버전도 내보냅니다. 아바타와 성과는 형식에 관계없이 일관되기 때문에 동일한 메시지를 여러 위치에서 재활용할 수 있으며 팔로어가 브랜드나 채널과 즉시 연관되는 인식 가능한 디지털 휴먼을 구축할 수 있습니다.
OmniHuman 1.5 API은 인간 가이드가 정보를 더 쉽게 흡수할 수 있도록 하는 교육 및 지원 사용 사례에 매우 적합합니다. 강좌 작성자는 강의 스크립트를 각 모듈에 대한 짧은 아바타 동영상으로 바꿀 수 있으며, SaaS 팀은 핵심 기능을 설명하는 대화 연습 라이브러리를 구축할 수 있습니다. 또한 지원 팀은 일선 질문에서 재사용 가능한 답변을 생성할 수 있으므로 사용자는 상담원에게 부담을 주지 않고도 더 많은 지원을 받을 수 있다는 느낌을 받을 수 있습니다. 아바타는 일관되게 유지되므로 학습자는 디지털 강사나 보조자와 빠르게 익숙해집니다.
OmniHuman 1.5 API은(는) 현재 도구를 교체하는 대신 현재 도구에 삽입하도록 설계되었습니다. 평소 사용하는 문서에 스크립트를 작성하고, 선호하는 도구로 오디오를 녹음한 다음 API을 사용하여 대규모 비디오를 생성합니다. 여기에서 다른 자산과 마찬가지로 출력을 스케줄러, 편집기 또는 자동화 스택에 푸시할 수 있습니다. 시간이 지남에 따라 뉴스레터 콘텐츠나 제품 변경 로그 노트에서 매일 말하는 아바타 비디오를 생성하고 서면 업데이트를 매력적인 시각적 스토리로 바꾸는 등 더 많은 단계를 자동화할 수 있습니다.
POST
/v1/videos/generations

Create Digital Human Video

OmniHuman 1.5 (omnihuman-1.5) generates realistic digital human videos with audio-driven lip-sync.

Asynchronous processing mode, use the returned task ID to .

Generated video links are valid for 24 hours, please save them promptly.

Important Notes

  • Maximum audio duration is 35 seconds.
  • Billing is based on audio duration (rounded up to the nearest second).
  • Tasks cannot be cancelled once started.
  • Supported audio formats: MP3, WAV.

Request Parameters

modelstringRequiredDefault: omnihuman-1.5

Model name for digital human video generation.

Exampleomnihuman-1.5
audio_urlstringRequired

Audio URL for driving lip-sync and body movements.

Notes
  • Maximum duration: 35 seconds
  • Supported formats: MP3, WAV
  • URL must be directly accessible by the server
Examplehttps://example.com/audio.mp3
image_urlsstring[]Required

Reference image URL array containing the person to animate. OmniHuman uses only the first image.

Notes
  • Should contain a clear human figure
  • Max size: 10MB
  • Formats: .jpg, .jpeg, .png, .webp
  • URL must be directly accessible by the server
Examplehttps://example.com/person.jpg
mask_urlstringOptional

Mask image URL for specifying animation regions. White areas indicate regions to animate.

Notes
  • Optional - use with auto_mask=false for custom control
  • Same dimensions as input image recommended
Examplehttps://example.com/mask.png
subject_checkbooleanOptionalDefault: false

Enable subject detection to verify human presence in the image.

ValueDescription
trueVerify human subject exists
falseSkip subject verification
Exampletrue
auto_maskbooleanOptionalDefault: false

Enable automatic mask generation for the human subject.

ValueDescription
trueAuto-generate mask for animation
falseUse provided mask_url or full image
Exampletrue
pe_fast_modebooleanOptionalDefault: false

Enable fast processing mode for quicker generation.

ValueDescription
trueFaster generation (may reduce quality)
falseStandard quality generation
Examplefalse
seedintegerOptionalDefault: -1

Random seed for reproducible generation. Use -1 for random seed.

Notes
  • Range: -1 to 2147483647
  • Same seed produces consistent results
Example-1
promptstringOptional

Optional text prompt to guide the generation style.

ExampleA person speaking naturally with subtle expressions
callback_urlstringOptional

HTTPS callback address after task completion.

Notes
  • Triggered on completion or failure
  • HTTPS only, no internal IPs
  • Max length: 2048 chars
  • Timeout: 10s, Max 3 retries
Examplehttps://your-domain.com/webhooks/video-task-completed

Request Example

{
  "model": "omnihuman-1.5",
  "audio_url": "https://example.com/audio.mp3",
  "image_urls": ["https://example.com/person.jpg"],
  "subject_check": true,
  "auto_mask": true,
  "pe_fast_mode": false,
  "seed": -1,
  "callback_url": "https://your-domain.com/webhooks/callback"
}

Response Example

{
  "created": 1757169743,
  "id": "task-unified-1757169743-7cvnl5zw",
  "model": "omnihuman-1.5",
  "object": "video.generation.task",
  "progress": 0,
  "status": "pending",
  "task_info": {
    "can_cancel": false,
    "estimated_time": 120,
    "video_duration": 10
  },
  "type": "video",
  "usage": {
    "billing_rule": "per_second",
    "credits_reserved": 120,
    "user_group": "default"
  }
}