Seedance 2.0 API — Coming SoonGet early access
Wan 2.6 API 가이드: 텍스트-비디오, 이미지-비디오 및 제작용 참조 비디오
지도 시간

Wan 2.6 API 가이드: 텍스트-비디오, 이미지-비디오 및 제작용 참조 비디오

Jessie
Jessie
COO
2025년 12월 18일
16분 소요
Wan 2.6은 단지 일회성 데모가 아닌 프로그래밍 가능하고 파이프라인 친화적인 세대를 목표로 하는 Alibaba Cloud의 "Tongyi Wanxiang" 비디오 생성 라인업입니다.이전 Wan 버전에 비해 API 스토리가 더 명확해졌습니다. 멀티샷 스토리텔링, 오디오 지원, 텍스트, 첫 번째 프레임 이미지 또는 참조 비디오에서 시작하는지에 따라 세 가지 고유한 진입점이 있습니다.

이 가이드는 생성 비디오를 비동기 오케스트레이션, 예산 가드레일, 안정성 패턴 및 통합 전략(마지막에 깔끔한 EvoLink.ai 경로 포함)과 같은 실제 시스템에 전달하는 CTO 및 엔지니어를 위해 작성되었습니다.


1. Wan 2.6 모델군: 올바른 엔드포인트 선택

기능T2V(wan2.6-t2v)I2V(wan2.6-i2v)R2V(wan2.6-r2v)
사용 사례아직 시각적 자산이 없습니다(아이디어레이션, 스토리보드 초안, 합성 B-롤)첫 번째 프레임을 고정해야 합니다(제품 사진, 캐릭터 키 아트, 브랜드 일관성)참조 클립과의 캐릭터 일관성 필요(외모 + 목소리 음색)
해상도720P / 1080P720P / 1080P720P / 1080P
기간5/10/15초5/10/15초5/10초
출력 형식30fps, MP4(H.264)30fps, MP4(H.264)30fps, MP4(H.264)
오디오자동 음성 해설 또는 맞춤 오디오 파일자동 음성 해설 또는 맞춤 오디오 파일프롬프트를 통해 음성을 생성합니다.입력 비디오의 음성 음색을 참조할 수 있습니다
다중 촬영지원지원지원
경험 법칙
  • 개념 탐색을 위해 T2V로 시작하세요.
  • 존중해야 하는 "진실의 근원" 프레임이 있는 경우 I2V로 전환하십시오.
  • 샷/장면 전반에 걸쳐 신원 연속성이 필요할 때 R2V를 사용하세요.

2. 프로덕션 워크플로: 비동기 작업(실시간 아님)

Wan 2.6 비디오 생성은 비동기입니다.표준 통합 모델로 "작업 만들기 → 작업 결과 폴링"이 예상되며, 대기열 로드에 따라 일반적인 완료 시간은 범위입니다.

주요 운영 세부정보:

  • 비동기 헤더 X-DashScope-Async: 활성화 (DashScope HTTP mode).
  • You receive a task_id를 전송하고 성공/실패할 때까지 상태를 폴링해야 합니다.
  • task_id24시간 동안 유효합니다(즉시 저장하세요. 복구하기 위해 "다시 제출"하지 마세요).
엔지니어링 패턴(권장)
  • API 작업자로부터 작업 제출
  • 지속 task_id + 요청 해시 + 사용자/작업 메타데이터
  • 지수 백오프(또는 스케줄러/큐)를 사용한 폴링
  • 성공하면 반환된 video_url를 유지하고 다운로드/복제합니다(URL은 공급자에 의해 시간이 제한되는 경우가 많습니다).

3. 멀티샷 스토리텔링: Wan 2.6에서 실제로 변경된 사항

Alibaba는 T2V와 I2V 모두에 대한 Wan 2.6 전용 기능으로 멀티샷 서술을 명시적으로 언급합니다.

활성화 방법(T2V 예시)

Wan 2.6 DashScope T2V에서는 shot_type: "multi"를 설정하면 멀티샷이 활성화됩니다.공식 예에서는 prompt_extend: true와 쌍을 이룹니다.

멀티샷에 대한 실용적이고 신속한 지침:

  • 짧은 "촬영 목록"처럼 메시지를 작성하세요.
  • 여러 장면에서 주요 피사체 설명을 일관되게 유지하세요.
  • 필요한 경우에만 샷 전환("컷 투", "와이드 샷", "클로즈업")을 지정합니다.그렇지 않으면 모델이 자동 분할되도록 하세요.

Wan 2.6 R2V에서 작동 방식(문자 참조)

Wan 2.6 R2V에는 더 엄격한 제어 메커니즘이 도입되었습니다. 즉, character1, character2 등과 같은 토큰을 사용하여 문자를 참조하고 이를 배열 순서에 따라 입력 참조 비디오에 매핑합니다.각 참조 비디오에는 단일 역할/객체 ID가 포함되어야 합니다.
Wan 2.6 R2V demo 1
Wan 2.6 R2V demo 2

4. 오디오: 안전하게 신뢰할 수 있는 것

Wan 2.6은 엔드포인트에 따라 다양한 방식으로 오디오를 지원합니다.

T2V / I2V

  • 오디오 지원에는 자동 음성 해설 또는 오디오-비디오 동기화를 위한 맞춤 오디오 파일 URL 전달이 포함됩니다.
  • 사용자 정의 오디오 파일을 제공할 때 플랫폼은 실제 제약 조건(형식/크기)을 문서화하고 해당 오디오가 요청된 기간과 일치하지 않으면 잘리거나 무음으로 남을 수 있습니다.

R2V

  • 오디오는 프롬프트를 통해 생성되며 입력 비디오의 음성 음색을 참조할 수 있습니다(음성 느낌의 연속성을 원하는 경우 유용함).
제품 문서에서 약속하지 말아야 할 사항

처음부터 끝까지 확인하지 않은 이상 '립싱크' 또는 '음소에 맞는 입맞춤'이라고 주장하지 마세요.공식 문서에서는 오디오 생성 및 시청각 동기화를 설명하지만 립레벨 정렬을 보장하지는 않습니다.


5. 비용 모델: 초당 가격을 미리 알아보세요

Wan 2.6은 주로 초 x 해상도 등급으로 청구되며 가격은 지역(중국 본토 vs. 싱가포르 "국제")에 따라 다릅니다.

T2V 가격 책정(Alibaba Cloud / Bailian)

  • wan2.6-t2v: 0.6RMB/초(720P), 1RMB/초(1080P)

I2V 가격 책정(첫 번째 프레임)

  • wan2.6-i2v: 0.6RMB/초(720P), 1RMB/초(1080P)

Wan 2.6 R2V 가격(참조 동영상)

Wan 2.6 R2V 청구서는 입력 및 출력 비디오 초이며 명시적으로 다음을 참고합니다.
  • 실패시 과금되지 않습니다.
  • 입력 영상 과금 기간이 제한됩니다. (과금 시 "5초 이내"로 기재)
가격: wan2.6-r2v: 0.6RMB/초 입력 + 0.6RMB/초 출력(720P);1RMB/초 입력 + 1RMB/초 출력(1080P)
비용 관리 기본값(강력히 권장)
  • 개발/테스트 기본값: 720P + UX가 허용하는 최단 기간
  • 서버 측 제한 추가: 최대 기간, 최대 해상도, 최대 작업/사용자/일
  • 낭비를 줄이기 위해 R2V 제출 전 참조 비디오 검증(형식/크기/기간)을 요구합니다.

Wan 2.6 pricing comparison

6. Wan 2.6 실제로 직면하게 될 신뢰성 마찰

지역 바인딩

베이징과 싱가포르에는 독립적인 API 키와 요청 엔드포인트가 있습니다.이를 혼합하면 인증 실패가 발생할 수 있습니다.

SDK 격차(I2V)

Alibaba의 자체 문서에는 'wan2.6-i2v'가 작성 당시 SDK를 통해 지원되지 않는다고 나와 있습니다(HTTP 전용 워크플로).

URL 및 자산

워크플로 전체에서 URL(HTTP/HTTPS)을 통해 미디어를 전달하게 되며, 로컬 파일에 대한 임시 URL을 생성하려면 업로드 단계가 필요할 수 있습니다.


7. EvoLink.ai를 통해 Wan 2.6 사용(통합 API + 정리 작업 모델)

애플리케이션 코드가 한 공급자의 요청/응답 문제와 긴밀하게 결합되는 것을 원하지 않는 경우 EvoLink는 Wan 2.6 비디오 생성을 위한 단일 엔드포인트를 제공합니다.
  • POST https://api.evolink.ai/v1/videos/ Generations
  • Wan 2.6 모델(예):

  • wan2.6-text-to-video
    • wan2.6-reference-video
  • 작업 ID를 사용한 비동기 처리 및 24시간 동안 유효한 생성된 비디오 링크(즉시 저장).

예: EvoLink을 통한 텍스트-비디오

curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-text-to-video",
    "prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
  }'

예: EvoLink을 통한 참조 비디오 (복사-붙여넣기)

curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-reference-video",
    "prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
    "video_urls": [
      "https://your-cdn.example.com/reference_character.mp4"
    ]
  }'

이 엔드포인트는 최대 3개의 참조 비디오를 허용하며 형식(mp4/mov), 파일 크기(≤100MB), 기간 범위(2–30초) 등의 요구 사항을 문서화합니다.


8. 배송 Wan 2.6 더 빨라짐

UGC 제작 도구, 마케팅 자동화, 제품 시각화, 스토리라인 생성 등 프로덕션 비디오 기능을 구축하는 경우 어려운 부분은 "모델이 비디오를 생성할 수 있는가?"가 아닙니다.어려운 부분은 이를 운영화하는 것입니다. 즉, 작업 조정, 지출 통제, 시간이 지남에 따라 진화하는 모델/공급업체 선택 등입니다.

EvoLink.ai는 이러한 현실을 위해 만들어졌습니다.
  • Wan 2.6(및 스택 확장에 따른 기타 비디오 모델)을 위한 단일 API 표면

  • 백엔드에서 표준화할 수 있는 깔끔한 비동기 작업 패턴

  • 공급자가 매개변수를 업데이트하거나 새 엔드포인트를 추가할 때 통합 이탈을 줄이기 위한 실용적인 경로


9. FAQ(제작 노트)

1) Wan 2.6은 각 모드에 대해 어느 정도의 지속 시간을 지원합니까?

  • 텍스트-비디오(wan2.6-t2v): 5/10/15초
  • 이미지-비디오(wan2.6-i2v): 5/10/15초
  • 참조 영상(wan2.6-r2v): 5/10초

2) 내 오디오를 가져올 수 있나요?제약 조건은 무엇입니까?

예—T2V 및 I2V는 audio_url를 허용합니다.문서는 다음을 지정합니다.
  • 형식: wav / mp3
  • 시간: 3~30초
  • 크기: 15MB 이하
  • 오디오가 요청한 비디오 길이보다 길면 잘립니다.더 짧으면 나머지 비디오는 무음입니다.

3) 무음 출력(자동 오디오 없음)을 강제로 적용하려면 어떻게 해야 하나요?

audio: false을 사용하세요.audio_url를 통과하지 못한 경우에만 적용되며, audio_urlaudio보다 우선순위가 높습니다.

4) 안전한 프롬프트 길이 제한이란 무엇입니까?

Alibaba Cloud의 T2V API는 wan2.6-t2v에 대한 프롬프트 제한 1,500자음수 프롬프트 제한 500자를 문서화합니다.EvoLink의 Wan 2.6 T2V 엔드포인트는 1500자로 제한된 프롬프트도 문서화합니다.

AI 비용을 89% 절감할 준비가 되셨나요?

오늘 EvoLink를 시작하고 지능형 API 라우팅의 힘을 경험해보세요.