Seedance 2.0 API — Coming SoonGet early access
Wan Guía API 2.6: texto a vídeo, imagen a vídeo y vídeo de referencia para producción
Tutorial

Wan Guía API 2.6: texto a vídeo, imagen a vídeo y vídeo de referencia para producción

Jessie
Jessie
COO
18 de diciembre de 2025
10 min de lectura
Wan 2.6 es la línea de generación de video "Tongyi Wanxiang" de Alibaba Cloud destinada a una generación programable y compatible con canalizaciones, no solo demostraciones únicas.En comparación con versiones anteriores de Wan, la historia de la API es más clara: narración de múltiples tomas, soporte de audio y tres puntos de entrada distintos dependiendo de si comienzas a partir de un texto, una imagen del primer fotograma o un vídeo de referencia.

Esta guía está escrita para directores de tecnología e ingenieros que envían videos generativos a sistemas reales: orquestación asíncrona, barreras presupuestarias, patrones de confiabilidad y estrategia de integración (incluida una ruta limpia EvoLink.ai al final).


1. Wan 2.6 Familia de modelos: elija el punto final correcto

CaracterísticaT2V (wan2.6-t2v)I2V (wan2.6-i2v)R2V (wan2.6-r2v)
Caso de usoAún no hay recursos visuales (ideación, borradores del guión gráfico, B-roll sintético)Debe anclar el primer fotograma (fotografías del producto, arte clave de los personajes, coherencia de la marca)Necesita coherencia entre los personajes de un clip de referencia (apariencia + timbre de voz)
Resolución720P / 1080P720P / 1080P720P / 1080P
Duración5 / 10 / 15 segundos5 / 10 / 15 segundos5/10 segundos
Formato de salida30 fps, MP4 (H.264)30 fps, MP4 (H.264)30 fps, MP4 (H.264)
AudioVoz en off automática o archivo de audio personalizadoVoz en off automática o archivo de audio personalizadoGenerar voz mediante mensaje;puede hacer referencia al timbre de voz del vídeo de entrada
MultidisparoCompatibleCompatibleCompatible
Regla general
  • Comience con T2V para explorar conceptos.
  • Cambie a I2V cuando tenga un marco de "fuente de verdad" que deba respetar.
  • Utilice R2V cuando necesite continuidad de identidad en tomas/escenas.

2. El flujo de trabajo de producción: tareas asíncronas (no en tiempo real)

La generación de vídeo de Wan 2.6 es asíncrona. Espere "crear tarea → sondear resultado de la tarea" como modelo de integración estándar, con un tiempo de finalización típico en el rango de minutos dependiendo de la carga de la cola.

Detalles operativos clave:

  • Debe enviar el encabezado asíncrono: X-DashScope-Async: enable (DashScope HTTP mode).
  • Recibe un task_id y sondee el estado hasta que tenga éxito o falle.
  • task_id es válido por 24 horas (guárdelo inmediatamente; no lo "vuelva a enviar" para recuperarlo).
Patrón de ingeniería (recomendado)
  • Enviar tarea de un trabajador API
  • Persistir task_id + hash de solicitud + metadatos de usuario/trabajo
  • Encuesta con retroceso exponencial (o un planificador/cola)
  • Si tiene éxito, persista el video_url devuelto y descárguelo/duplicarlo (las URL a menudo tienen un límite de tiempo por parte de los proveedores)

3. Narración de múltiples planos: lo que realmente cambia en Wan 2.6

Alibaba menciona explícitamente la narrativa multidisparo como una capacidad Wan solo 2.6 tanto para T2V como para I2V.

Cómo habilitarlo (ejemplo T2V)

En Wan 2.6 DashScope T2V, el disparo múltiple se habilita configurando shot_type: "multi". El ejemplo oficial lo combina con prompt_extend: true.

Guía práctica rápida para disparos múltiples:

  • Escriba su mensaje como una breve "lista de tomas"
  • Mantenga la descripción del tema principal consistente en todas las tomas.
  • Especificar transiciones de planos ("corte a", "plano amplio", "primer plano") solo si es necesario; de lo contrario, deje que el modelo se segmente automáticamente

Cómo funciona en Wan 2.6 R2V (referencias de personajes)

Wan 2.6 R2V introduce un mecanismo de control más estricto: hace referencia a caracteres usando tokens como character1, character2, etc., y los asigna a los videos de referencia de entrada por orden de matriz. Cada vídeo de referencia debe contener una única identidad de rol/objeto.
Wan 2.6 R2V demo 1
Wan 2.6 R2V demo 2

4. Audio: en qué puede confiar con seguridad

Wan 2.6 admite audio de diferentes maneras según el punto final:

T2V / I2V

  • La compatibilidad con audio incluye voz en off automática o pasar una URL de archivo de audio personalizada para lograr la sincronización audiovisual.
  • Al proporcionar un archivo de audio personalizado, la plataforma documenta limitaciones prácticas (formato/tamaño) y ese audio puede truncarse o dejarse en silencio si no coincide con la duración solicitada.

R2V

  • El audio se genera mediante un mensaje y puede hacer referencia al timbre de voz del vídeo de entrada (útil cuando desea continuidad en la sensación de voz).
Qué no prometer en los documentos de su producto

A menos que lo haya validado de un extremo a otro, evite afirmar "sincronización de labios" o "coincidencia de boca con precisión de fonemas".Los documentos oficiales describen la generación de audio y la sincronización audiovisual, pero no garantizan la alineación al nivel de los labios.


5. Modelo de costos: conozca su precio por segundo desde el principio

Wan 2.6 se factura principalmente por segundos x nivel de resolución y los precios difieren según la región (China continental frente a Singapur "internacional").

Precios de T2V (Alibaba Cloud / Bailian)

  • wan2.6-t2v: 0,6 RMB/seg (720P), 1 RMB/seg (1080P)

Precios de I2V (primer fotograma)

  • wan2.6-i2v: 0,6 RMB/seg (720P), 1 RMB/seg (1080P)

Wan Precios del 2.6 R2V (vídeo de referencia)

Wan 2.6 R2V factura segundos de vídeo de entrada y salida y señala explícitamente:
  • Las averías no se facturan
  • La duración de la facturación del vídeo de entrada está limitada (documentada como "no superior a 5 segundos" para la facturación)
Precio: wan2.6-r2v: 0,6 RMB/s de entrada + 0,6 RMB/s de salida (720P);1 RMB/s de entrada + 1 RMB/s de salida (1080P)
Valores predeterminados de control de costos (muy recomendado)
  • Valor predeterminado de desarrollo/prueba: 720P + la duración más corta que permita su UX
  • Agregar límites del lado del servidor: duración máxima, resolución máxima, trabajos máximos/usuario/día
  • Requerir validación de video de referencia antes del envío de R2V (formato/tamaño/duración) para reducir el desperdicio

Wan 2.6 pricing comparison

6. Wan 2.6 Fricción de confiabilidad que realmente alcanzarás

Enlace de región

Beijing y Singapur tienen claves API independientes y puntos finales de solicitud;mezclarlos puede causar fallas de autenticación.

Brechas en el SDK (I2V)

Los propios documentos de Alibaba señalan que wan2.6-i2v no es compatible a través de SDK en el momento de escribir este artículo (flujo de trabajo solo HTTP).

URL y activos

En todos los flujos de trabajo, pasará medios a través de URL (HTTP/HTTPS) y es posible que necesite un paso de carga para generar URL temporales para archivos locales.


7. Usando Wan 2.6 hasta EvoLink.ai (API unificada + modelo de tarea limpia)

Si no desea que el código de su aplicación esté estrechamente vinculado a las peculiaridades de solicitud/respuesta de un proveedor, EvoLink le ofrece un punto final único para la generación de vídeo Wan 2.6:
  • POST https://api.evolink.ai/v1/videos/generaciones
  • Modelos Wan 2.6 (ejemplos):

  • wan2.6-texto-a-video
    • wan2.6-video-de-referencia
  • Procesamiento asincrónico con ID de tareas y enlaces de video generados válidos por 24 horas (guarde puntualmente).
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-text-to-video",
    "prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
  }'
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-reference-video",
    "prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
    "video_urls": [
      "https://your-cdn.example.com/reference_character.mp4"
    ]
  }'

Este endpoint acepta hasta 3 videos de referencia y documenta requisitos como formato (mp4/mov), tamaño de archivo (≤100MB), y rango de duración (2–30s).


8. Envío Wan 2.6 más rápido

Si está creando funciones de producción de video (herramientas de creación de UGC, automatización de marketing, visualización de productos o generación de historias), la parte difícil no es "¿puede el modelo generar video?"La parte difícil es ponerlo en práctica: orquestación de tareas, control de gastos y elección de modelo/proveedor en evolución a lo largo del tiempo.

EvoLink.ai está diseñado para esa realidad:
  • Una superficie API para Wan 2.6 (y otros modelos de vídeo a medida que amplía su pila)

  • Un patrón de tareas asíncrono limpio que puedes estandarizar en tu backend

  • Un camino práctico para reducir la rotación de integración cuando los proveedores actualizan parámetros o agregan nuevos puntos finales


9. Preguntas frecuentes (Notas de producción)

1) ¿Qué duraciones admite Wan 2.6 para cada modo?

  • Texto a vídeo (wan2.6-t2v): 5/10/15 segundos
  • Imagen a vídeo (wan2.6-i2v): 5/10/15 segundos
  • Video de referencia (wan2.6-r2v): 5/10 segundos

2) ¿Puedo traer mi propio audio? ¿Cuáles son las limitaciones?

Sí, T2V e I2V aceptan audio_url. Los documentos especifican:
  • Formatos: wav/mp3
  • Duración: 3–30 segundos
  • Tamaño: ≤ 15 MB
  • Si el audio es más largo que la duración del video solicitado, se trunca; si es más corto, el vídeo restante permanece en silencio.

3) ¿Cómo fuerzo la salida silenciosa (sin audio automático)?

Utilice audio: false. Solo se aplica cuando no pasa audio_url y audio_url tiene mayor prioridad que audio.

4) ¿Cuáles son los límites de duración seguros de los avisos?

La API T2V de Alibaba Cloud documenta un límite de aviso de 1500 caracteres para wan2.6-t2v y un límite de aviso_negativo de 500 caracteres. El terminal Wan 2.6 T2V de EvoLink también documenta mensajes limitados a 1500 caracteres.

¿Listo para reducir tus costos de IA en un 89%?

Comienza a usar EvoLink hoy y experimenta el poder del enrutamiento inteligente de API.