
Wan Guía API 2.6: texto a vídeo, imagen a vídeo y vídeo de referencia para producción

Esta guía está escrita para directores de tecnología e ingenieros que envían videos generativos a sistemas reales: orquestación asíncrona, barreras presupuestarias, patrones de confiabilidad y estrategia de integración (incluida una ruta limpia EvoLink.ai al final).
1. Wan 2.6 Familia de modelos: elija el punto final correcto
| Característica | T2V (wan2.6-t2v) | I2V (wan2.6-i2v) | R2V (wan2.6-r2v) |
|---|---|---|---|
| Caso de uso | Aún no hay recursos visuales (ideación, borradores del guión gráfico, B-roll sintético) | Debe anclar el primer fotograma (fotografías del producto, arte clave de los personajes, coherencia de la marca) | Necesita coherencia entre los personajes de un clip de referencia (apariencia + timbre de voz) |
| Resolución | 720P / 1080P | 720P / 1080P | 720P / 1080P |
| Duración | 5 / 10 / 15 segundos | 5 / 10 / 15 segundos | 5/10 segundos |
| Formato de salida | 30 fps, MP4 (H.264) | 30 fps, MP4 (H.264) | 30 fps, MP4 (H.264) |
| Audio | Voz en off automática o archivo de audio personalizado | Voz en off automática o archivo de audio personalizado | Generar voz mediante mensaje;puede hacer referencia al timbre de voz del vídeo de entrada |
| Multidisparo | Compatible | Compatible | Compatible |
- Comience con T2V para explorar conceptos.
- Cambie a I2V cuando tenga un marco de "fuente de verdad" que deba respetar.
- Utilice R2V cuando necesite continuidad de identidad en tomas/escenas.
2. El flujo de trabajo de producción: tareas asíncronas (no en tiempo real)
Detalles operativos clave:
- Debe enviar el encabezado asíncrono:
X-DashScope-Async: enable(DashScope HTTP mode). - Recibe un
task_idy sondee el estado hasta que tenga éxito o falle. task_ides válido por 24 horas (guárdelo inmediatamente; no lo "vuelva a enviar" para recuperarlo).
- Enviar tarea de un trabajador API
- Persistir
task_id+ hash de solicitud + metadatos de usuario/trabajo - Encuesta con retroceso exponencial (o un planificador/cola)
- Si tiene éxito, persista el
video_urldevuelto y descárguelo/duplicarlo (las URL a menudo tienen un límite de tiempo por parte de los proveedores)
3. Narración de múltiples planos: lo que realmente cambia en Wan 2.6
Cómo habilitarlo (ejemplo T2V)
shot_type: "multi". El ejemplo oficial lo combina con prompt_extend: true.Guía práctica rápida para disparos múltiples:
- Escriba su mensaje como una breve "lista de tomas"
- Mantenga la descripción del tema principal consistente en todas las tomas.
- Especificar transiciones de planos ("corte a", "plano amplio", "primer plano") solo si es necesario; de lo contrario, deje que el modelo se segmente automáticamente
Cómo funciona en Wan 2.6 R2V (referencias de personajes)
character1, character2, etc., y los asigna a los videos de referencia de entrada por orden de matriz. Cada vídeo de referencia debe contener una única identidad de rol/objeto.

4. Audio: en qué puede confiar con seguridad
Wan 2.6 admite audio de diferentes maneras según el punto final:
T2V / I2V
- La compatibilidad con audio incluye voz en off automática o pasar una URL de archivo de audio personalizada para lograr la sincronización audiovisual.
- Al proporcionar un archivo de audio personalizado, la plataforma documenta limitaciones prácticas (formato/tamaño) y ese audio puede truncarse o dejarse en silencio si no coincide con la duración solicitada.
R2V
- El audio se genera mediante un mensaje y puede hacer referencia al timbre de voz del vídeo de entrada (útil cuando desea continuidad en la sensación de voz).
A menos que lo haya validado de un extremo a otro, evite afirmar "sincronización de labios" o "coincidencia de boca con precisión de fonemas".Los documentos oficiales describen la generación de audio y la sincronización audiovisual, pero no garantizan la alineación al nivel de los labios.
5. Modelo de costos: conozca su precio por segundo desde el principio
Precios de T2V (Alibaba Cloud / Bailian)
wan2.6-t2v: 0,6 RMB/seg (720P), 1 RMB/seg (1080P)
Precios de I2V (primer fotograma)
wan2.6-i2v: 0,6 RMB/seg (720P), 1 RMB/seg (1080P)
Wan Precios del 2.6 R2V (vídeo de referencia)
- Las averías no se facturan
- La duración de la facturación del vídeo de entrada está limitada (documentada como "no superior a 5 segundos" para la facturación)
wan2.6-r2v: 0,6 RMB/s de entrada + 0,6 RMB/s de salida (720P);1 RMB/s de entrada + 1 RMB/s de salida (1080P)- Valor predeterminado de desarrollo/prueba: 720P + la duración más corta que permita su UX
- Agregar límites del lado del servidor: duración máxima, resolución máxima, trabajos máximos/usuario/día
- Requerir validación de video de referencia antes del envío de R2V (formato/tamaño/duración) para reducir el desperdicio

6. Wan 2.6 Fricción de confiabilidad que realmente alcanzarás
Enlace de región
Beijing y Singapur tienen claves API independientes y puntos finales de solicitud;mezclarlos puede causar fallas de autenticación.
Brechas en el SDK (I2V)
wan2.6-i2v no es compatible a través de SDK en el momento de escribir este artículo (flujo de trabajo solo HTTP).URL y activos
En todos los flujos de trabajo, pasará medios a través de URL (HTTP/HTTPS) y es posible que necesite un paso de carga para generar URL temporales para archivos locales.
7. Usando Wan 2.6 hasta EvoLink.ai (API unificada + modelo de tarea limpia)
-
POST https://api.evolink.ai/v1/videos/generaciones -
Modelos Wan 2.6 (ejemplos):
-
wan2.6-texto-a-videowan2.6-video-de-referencia
-
Procesamiento asincrónico con ID de tareas y enlaces de video generados válidos por 24 horas (guarde puntualmente).
Ejemplo: texto a vídeo mediante EvoLink
Documento completo: https://docs.evolink.ai/en/api-manual/video-series/wan2.6/wan2.6-text-to-video
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-text-to-video",
"prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
}'Ejemplo: Vídeo de Referencia via EvoLink (copiar-pegar)
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-reference-video",
"prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
"video_urls": [
"https://your-cdn.example.com/reference_character.mp4"
]
}'Este endpoint acepta hasta 3 videos de referencia y documenta requisitos como formato (mp4/mov), tamaño de archivo (≤100MB), y rango de duración (2–30s).
8. Envío Wan 2.6 más rápido
Si está creando funciones de producción de video (herramientas de creación de UGC, automatización de marketing, visualización de productos o generación de historias), la parte difícil no es "¿puede el modelo generar video?"La parte difícil es ponerlo en práctica: orquestación de tareas, control de gastos y elección de modelo/proveedor en evolución a lo largo del tiempo.
-
Una superficie API para Wan 2.6 (y otros modelos de vídeo a medida que amplía su pila)
-
Un patrón de tareas asíncrono limpio que puedes estandarizar en tu backend
-
Un camino práctico para reducir la rotación de integración cuando los proveedores actualizan parámetros o agregan nuevos puntos finales
9. Preguntas frecuentes (Notas de producción)
1) ¿Qué duraciones admite Wan 2.6 para cada modo?
-
Texto a vídeo (wan2.6-t2v): 5/10/15 segundos
-
Imagen a vídeo (wan2.6-i2v): 5/10/15 segundos
-
Video de referencia (wan2.6-r2v): 5/10 segundos
2) ¿Puedo traer mi propio audio? ¿Cuáles son las limitaciones?
audio_url. Los documentos especifican:-
Formatos: wav/mp3
-
Duración: 3–30 segundos
-
Tamaño: ≤ 15 MB
-
Si el audio es más largo que la duración del video solicitado, se trunca; si es más corto, el vídeo restante permanece en silencio.
3) ¿Cómo fuerzo la salida silenciosa (sin audio automático)?
audio: false. Solo se aplica cuando no pasa audio_url y audio_url tiene mayor prioridad que audio.4) ¿Cuáles son los límites de duración seguros de los avisos?
wan2.6-t2v y un límite de aviso_negativo de 500 caracteres. El terminal Wan 2.6 T2V de EvoLink también documenta mensajes limitados a 1500 caracteres.

