
Wan 2.6 API 가이드: 텍스트-비디오, 이미지-비디오 및 제작용 참조 비디오

이 가이드는 생성 비디오를 비동기 오케스트레이션, 예산 가드레일, 안정성 패턴 및 통합 전략(마지막에 깔끔한 EvoLink.ai 경로 포함)과 같은 실제 시스템에 전달하는 CTO 및 엔지니어를 위해 작성되었습니다.
1. Wan 2.6 모델군: 올바른 엔드포인트 선택
| 기능 | T2V(wan2.6-t2v) | I2V(wan2.6-i2v) | R2V(wan2.6-r2v) |
|---|---|---|---|
| 사용 사례 | 아직 시각적 자산이 없습니다(아이디어레이션, 스토리보드 초안, 합성 B-롤) | 첫 번째 프레임을 고정해야 합니다(제품 사진, 캐릭터 키 아트, 브랜드 일관성) | 참조 클립과의 캐릭터 일관성 필요(외모 + 목소리 음색) |
| 해상도 | 720P / 1080P | 720P / 1080P | 720P / 1080P |
| 기간 | 5/10/15초 | 5/10/15초 | 5/10초 |
| 출력 형식 | 30fps, MP4(H.264) | 30fps, MP4(H.264) | 30fps, MP4(H.264) |
| 오디오 | 자동 음성 해설 또는 맞춤 오디오 파일 | 자동 음성 해설 또는 맞춤 오디오 파일 | 프롬프트를 통해 음성을 생성합니다.입력 비디오의 음성 음색을 참조할 수 있습니다 |
| 다중 촬영 | 지원 | 지원 | 지원 |
- 개념 탐색을 위해 T2V로 시작하세요.
- 존중해야 하는 "진실의 근원" 프레임이 있는 경우 I2V로 전환하십시오.
- 샷/장면 전반에 걸쳐 신원 연속성이 필요할 때 R2V를 사용하세요.
2. 프로덕션 워크플로: 비동기 작업(실시간 아님)
주요 운영 세부정보:
- 비동기 헤더
X-DashScope-Async: 활성화(DashScope HTTP mode). - You receive a
task_id를 전송하고 성공/실패할 때까지 상태를 폴링해야 합니다. task_id는 24시간 동안 유효합니다(즉시 저장하세요. 복구하기 위해 "다시 제출"하지 마세요).
- API 작업자로부터 작업 제출
- 지속
task_id+ 요청 해시 + 사용자/작업 메타데이터 - 지수 백오프(또는 스케줄러/큐)를 사용한 폴링
- 성공하면 반환된
video_url를 유지하고 다운로드/복제합니다(URL은 공급자에 의해 시간이 제한되는 경우가 많습니다).
3. 멀티샷 스토리텔링: Wan 2.6에서 실제로 변경된 사항
활성화 방법(T2V 예시)
shot_type: "multi"를 설정하면 멀티샷이 활성화됩니다.공식 예에서는 prompt_extend: true와 쌍을 이룹니다.멀티샷에 대한 실용적이고 신속한 지침:
- 짧은 "촬영 목록"처럼 메시지를 작성하세요.
- 여러 장면에서 주요 피사체 설명을 일관되게 유지하세요.
- 필요한 경우에만 샷 전환("컷 투", "와이드 샷", "클로즈업")을 지정합니다.그렇지 않으면 모델이 자동 분할되도록 하세요.
Wan 2.6 R2V에서 작동 방식(문자 참조)
character1, character2 등과 같은 토큰을 사용하여 문자를 참조하고 이를 배열 순서에 따라 입력 참조 비디오에 매핑합니다.각 참조 비디오에는 단일 역할/객체 ID가 포함되어야 합니다.

4. 오디오: 안전하게 신뢰할 수 있는 것
Wan 2.6은 엔드포인트에 따라 다양한 방식으로 오디오를 지원합니다.
T2V / I2V
- 오디오 지원에는 자동 음성 해설 또는 오디오-비디오 동기화를 위한 맞춤 오디오 파일 URL 전달이 포함됩니다.
- 사용자 정의 오디오 파일을 제공할 때 플랫폼은 실제 제약 조건(형식/크기)을 문서화하고 해당 오디오가 요청된 기간과 일치하지 않으면 잘리거나 무음으로 남을 수 있습니다.
R2V
- 오디오는 프롬프트를 통해 생성되며 입력 비디오의 음성 음색을 참조할 수 있습니다(음성 느낌의 연속성을 원하는 경우 유용함).
처음부터 끝까지 확인하지 않은 이상 '립싱크' 또는 '음소에 맞는 입맞춤'이라고 주장하지 마세요.공식 문서에서는 오디오 생성 및 시청각 동기화를 설명하지만 립레벨 정렬을 보장하지는 않습니다.
5. 비용 모델: 초당 가격을 미리 알아보세요
T2V 가격 책정(Alibaba Cloud / Bailian)
wan2.6-t2v: 0.6RMB/초(720P), 1RMB/초(1080P)
I2V 가격 책정(첫 번째 프레임)
wan2.6-i2v: 0.6RMB/초(720P), 1RMB/초(1080P)
Wan 2.6 R2V 가격(참조 동영상)
- 실패시 과금되지 않습니다.
- 입력 영상 과금 기간이 제한됩니다. (과금 시 "5초 이내"로 기재)
wan2.6-r2v: 0.6RMB/초 입력 + 0.6RMB/초 출력(720P);1RMB/초 입력 + 1RMB/초 출력(1080P)- 개발/테스트 기본값: 720P + UX가 허용하는 최단 기간
- 서버 측 제한 추가: 최대 기간, 최대 해상도, 최대 작업/사용자/일
- 낭비를 줄이기 위해 R2V 제출 전 참조 비디오 검증(형식/크기/기간)을 요구합니다.

6. Wan 2.6 실제로 직면하게 될 신뢰성 마찰
지역 바인딩
베이징과 싱가포르에는 독립적인 API 키와 요청 엔드포인트가 있습니다.이를 혼합하면 인증 실패가 발생할 수 있습니다.
SDK 격차(I2V)
Alibaba의 자체 문서에는 'wan2.6-i2v'가 작성 당시 SDK를 통해 지원되지 않는다고 나와 있습니다(HTTP 전용 워크플로).
URL 및 자산
워크플로 전체에서 URL(HTTP/HTTPS)을 통해 미디어를 전달하게 되며, 로컬 파일에 대한 임시 URL을 생성하려면 업로드 단계가 필요할 수 있습니다.
7. EvoLink.ai를 통해 Wan 2.6 사용(통합 API + 정리 작업 모델)
-
POST https://api.evolink.ai/v1/videos/ Generations -
Wan 2.6 모델(예):
-
wan2.6-text-to-videowan2.6-reference-video
-
작업 ID를 사용한 비동기 처리 및 24시간 동안 유효한 생성된 비디오 링크(즉시 저장).
예: EvoLink을 통한 텍스트-비디오
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-text-to-video",
"prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
}'예: EvoLink을 통한 참조 비디오 (복사-붙여넣기)
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-reference-video",
"prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
"video_urls": [
"https://your-cdn.example.com/reference_character.mp4"
]
}'이 엔드포인트는 최대 3개의 참조 비디오를 허용하며 형식(mp4/mov), 파일 크기(≤100MB), 기간 범위(2–30초) 등의 요구 사항을 문서화합니다.
8. 배송 Wan 2.6 더 빨라짐
UGC 제작 도구, 마케팅 자동화, 제품 시각화, 스토리라인 생성 등 프로덕션 비디오 기능을 구축하는 경우 어려운 부분은 "모델이 비디오를 생성할 수 있는가?"가 아닙니다.어려운 부분은 이를 운영화하는 것입니다. 즉, 작업 조정, 지출 통제, 시간이 지남에 따라 진화하는 모델/공급업체 선택 등입니다.
-
Wan 2.6(및 스택 확장에 따른 기타 비디오 모델)을 위한 단일 API 표면
-
백엔드에서 표준화할 수 있는 깔끔한 비동기 작업 패턴
-
공급자가 매개변수를 업데이트하거나 새 엔드포인트를 추가할 때 통합 이탈을 줄이기 위한 실용적인 경로
9. FAQ(제작 노트)
1) Wan 2.6은 각 모드에 대해 어느 정도의 지속 시간을 지원합니까?
-
텍스트-비디오(wan2.6-t2v): 5/10/15초
-
이미지-비디오(wan2.6-i2v): 5/10/15초
-
참조 영상(wan2.6-r2v): 5/10초
2) 내 오디오를 가져올 수 있나요?제약 조건은 무엇입니까?
audio_url를 허용합니다.문서는 다음을 지정합니다.-
형식: wav / mp3
-
시간: 3~30초
-
크기: 15MB 이하
-
오디오가 요청한 비디오 길이보다 길면 잘립니다.더 짧으면 나머지 비디오는 무음입니다.
3) 무음 출력(자동 오디오 없음)을 강제로 적용하려면 어떻게 해야 하나요?
audio: false을 사용하세요.audio_url를 통과하지 못한 경우에만 적용되며, audio_url는 audio보다 우선순위가 높습니다.4) 안전한 프롬프트 길이 제한이란 무엇입니까?
wan2.6-t2v에 대한 프롬프트 제한 1,500자와 음수 프롬프트 제한 500자를 문서화합니다.EvoLink의 Wan 2.6 T2V 엔드포인트는 1500자로 제한된 프롬프트도 문서화합니다.

