
Guía de la API Wan 2.7: Texto a Vídeo, Imagen a Vídeo, Vídeo de Referencia y Edición de Vídeo — Manual Completo de Integración

Resumen
- Wan 2.7 son cuatro modelos en un solo endpoint. Texto a vídeo, imagen a vídeo (con control de primer/último fotograma), vídeo de referencia multicarácter (con clonación de voz), y edición de vídeo basada en instrucciones — todo a través de
POST /v1/videos/generations. - Precios en EvoLink: $0.086/seg a 720p, $0.144/seg a 1080p. Un clip de 10 segundos a 720p cuesta $0.86. Sin suscripciones.
- IDs de modelo:
wan2.7-text-to-video,wan2.7-image-to-video,wan2.7-reference-video,wan2.7-video-edit. - Flujo asíncrono. Cada solicitud devuelve un ID de tarea inmediatamente. Consulta
GET /v1/tasks/\{task_id\}para el estado. Las URLs de vídeo expiran en 24 horas. - Lo que Wan 2.7 añade sobre Wan 2.6 en EvoLink: Edición de vídeo a través de la ruta Wan 2.7, control de primer y último fotograma en I2V, y vídeo de referencia multicarácter con clonación de voz.
- Las tareas fallidas no se facturan para los modos de vídeo de referencia y edición de vídeo.
Tabla de contenidos
- Inicio rápido: tu primer vídeo Wan 2.7 en 60 segundos
- Elige el ID de modelo correcto
- Modo 1: Texto a vídeo
- Modo 2: Imagen a vídeo con control de fotogramas
- Modo 3: Vídeo de referencia con clonación de voz
- Modo 4: Edición de vídeo
- Precios y cálculo de costes
- Flujo asíncrono y gestión de tareas
- Manejo de errores y códigos de estado comunes
- Patrones de producción y salvaguardas
- Migración de Wan 2.6 a Wan 2.7
- Hoja de referencia de parámetros
- Preguntas frecuentes
1. Inicio rápido: tu primer vídeo Wan 2.7 en 60 segundos
Paso 1: Genera un vídeo
curl -X POST https://api.evolink.ai/v1/videos/generations \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "wan2.7-text-to-video",
"prompt": "A drone shot over a misty mountain lake at sunrise, slow camera push forward, cinematic color grading",
"quality": "720p",
"aspect_ratio": "16:9",
"duration": 5
}'{
"id": "task-unified-1757169743-7cvnl5zw",
"status": "pending",
"created": 1757169743
}Paso 2: Consulta el resultado
curl https://api.evolink.ai/v1/tasks/task-unified-1757169743-7cvnl5zw \
-H "Authorization: Bearer YOUR_API_KEY"status sea "completed", la respuesta incluirá un array results con la URL del vídeo. Descárgalo en las próximas 24 horas — el enlace expira.Paso 3: Eso es todo
model para alternar entre los cuatro modos descritos a continuación.2. Elige el ID de modelo correcto
| ID de modelo | Modo | Ideal para | Duración |
|---|---|---|---|
wan2.7-text-to-video | Texto → Vídeo | Creatividades publicitarias, clips para redes sociales, generación a partir de guion | 2-15 seg |
wan2.7-image-to-video | Imagen → Vídeo | Animaciones de productos, storyboard a vídeo, control de primer/último fotograma | 2-15 seg |
wan2.7-reference-video | Referencia → Vídeo | Portavoz de marca, series multicarácter, clonación de voz | 2-15 seg (solo imágenes), 2-10 seg (con vídeos de referencia) |
wan2.7-video-edit | Vídeo → Vídeo editado | Transferencia de estilo, cambio de fondo, cambio de ropa, colorización | 2-10 seg |
POST /v1/videos/generations. El parámetro model es lo único que cambia.3. Modo 1: Texto a vídeo
Qué hace
Genera un vídeo a partir de un prompt de texto. Admite audio de conducción opcional para sincronización labial o salida sincronizada con música. Genera música de fondo automáticamente cuando no se proporciona audio.
Parámetros clave
| Parámetro | Obligatorio | Predeterminado | Descripción |
|---|---|---|---|
model | Sí | — | wan2.7-text-to-video |
prompt | Sí | — | Descripción de la escena, hasta 5000 caracteres |
negative_prompt | No | — | Qué excluir, hasta 500 caracteres |
audio_urls | No | — | Array con 1 URL de audio de conducción (wav/mp3, 2-30 seg, máx. 15MB) |
quality | No | 720p | 720p o 1080p |
aspect_ratio | No | 16:9 | 16:9, 9:16, 1:1, 4:3, 3:4 |
duration | No | 5 | 2-15 segundos (entero) |
seed | No | aleatorio | 1-2147483647 para salida reproducible |
prompt_extend | No | false | Reescritura de prompt con LLM (establecer true para prompts cortos) |
callback_url | No | — | URL HTTPS para webhook de finalización de tarea |
Narrativa multi-toma
Controla la estructura de tomas directamente en el prompt:
{
"model": "wan2.7-text-to-video",
"prompt": "A tense detective story. Shot 1 [0-3s] wide angle: rainy night street, neon lights. Shot 2 [3-6s] medium: detective enters old building. Shot 3 [6-9s] close-up: detective's determined eyes. Shot 4 [9-12s] medium: cautious advance through dim corridor. Shot 5 [12-15s] close-up: discovers key clue.",
"aspect_ratio": "16:9",
"duration": 15
}Con audio de conducción
{
"model": "wan2.7-text-to-video",
"prompt": "A cartoon general in golden armor on a horse, reciting a classical poem",
"audio_urls": ["https://your-cdn.com/recital.mp3"],
"duration": 10
}duration, solo se usan los primeros N segundos. Si es más corto, la porción restante del vídeo queda en silencio.4. Modo 2: Imagen a vídeo con control de fotogramas
Qué hace
Tres modos de generación
generation_mode | Entradas | Caso de uso |
|---|---|---|
first_frame | image_start (+ audio_urls opcional) | Animar una foto de producto o ilustración de personaje |
first_last_frame | image_start + image_end (+ audio_urls opcional) | Definir estados inicial y final, el modelo completa el movimiento |
video_continuation | video_urls[0] (+ image_end opcional) | Extender un clip existente, opcionalmente especificando el fotograma final |
generation_mode, el servidor lo infiere de los medios proporcionados.Combinaciones de entrada válidas
- Solo
image_start image_start+audio_urlsimage_start+image_endimage_start+image_end+audio_urlsvideo_urls(continuación)video_urls+image_end(continuación con fotograma final)
Cualquier otra combinación será rechazada.
Ejemplo: Primer y último fotograma
curl -X POST https://api.evolink.ai/v1/videos/generations \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "wan2.7-image-to-video",
"generation_mode": "first_last_frame",
"prompt": "A product bottle rotating 360 degrees with soft studio lighting",
"image_start": "https://your-cdn.com/bottle-front.jpg",
"image_end": "https://your-cdn.com/bottle-back.jpg",
"quality": "1080p",
"duration": 5
}'Ejemplo: Continuación de vídeo
{
"model": "wan2.7-image-to-video",
"generation_mode": "video_continuation",
"prompt": "The scene continues with the character walking toward the sunset",
"video_urls": ["https://your-cdn.com/previous-clip.mp4"],
"image_end": "https://your-cdn.com/sunset-ending.jpg",
"duration": 5
}5. Modo 3: Vídeo de referencia con clonación de voz
Qué hace
Genera nuevas escenas de vídeo preservando la apariencia de personajes a partir de imágenes o vídeos de referencia — y opcionalmente clonando su voz a partir de una muestra corta de audio. Así es como se construyen series de vídeo multicarácter donde cada persona se ve y suena consistente entre episodios.
Restricciones clave
image_urls+video_urlscombinados: máximo 5 elementos en totalimage_starty el audio de voz no cuentan para este límite de 5 elementos- Duración: 2-15 seg (solo referencias de imagen), 2-10 seg (cuando se incluyen vídeos de referencia)
- Facturación: duración del vídeo de entrada + duración del vídeo de salida. Las tareas fallidas son gratuitas.
Indexación de personajes en prompts
Referencia a los personajes por su posición en los arrays de entrada:
- Inglés:
Image 1,Image 2,Video 1,Video 2 - Chino:
图1,图2,视频1,视频2
Image 1 y Video 1 pueden coexistir.Clonación de voz: dos métodos
voice_bindings (recomendado)Mapeo preciso clave-valor entre referencias de personajes y audio de voz:
{
"model": "wan2.7-reference-video",
"prompt": "Image 1 holds Image 2 and says: 'What lovely sunshine today'",
"image_urls": [
"https://your-cdn.com/girl.jpg",
"https://your-cdn.com/toy.png"
],
"model_params": {
"voice_bindings": {
"image1": "https://your-cdn.com/girl-voice.mp3"
}
},
"duration": 10
}audio_urls (posicional heredado)image_urls / video_urls. Funciona pero es menos explícito. Usa voice_bindings para nuevas integraciones.Ejemplo: Vídeo de marca multicarácter
{
"model": "wan2.7-reference-video",
"prompt": "Image 1 and Image 2 are having a conversation in a modern office. Image 1 explains the product while Image 2 takes notes. The scene is professional and well-lit.",
"image_urls": [
"https://your-cdn.com/spokesperson-a.jpg",
"https://your-cdn.com/spokesperson-b.jpg"
],
"image_start": "https://your-cdn.com/office-wide-shot.jpg",
"model_params": {
"voice_bindings": {
"image1": "https://your-cdn.com/voice-a.mp3",
"image2": "https://your-cdn.com/voice-b.mp3"
}
},
"quality": "1080p",
"duration": 10
}Storyboard multi-panel
Para referencias de imagen única con múltiples paneles (por ejemplo, una cuadrícula 3×3 de poses de personaje):
{
"model": "wan2.7-reference-video",
"prompt": "Reference image. 3D cartoon style. 1. Wide shot of fantasy forest. 2. Boy parts the vines. 3. Robot scans ahead. 4. Close-up of map. 5. Boy's excited face. 6. They leap over roots.",
"image_urls": ["https://your-cdn.com/storyboard-grid.png"],
"duration": 15
}6. Modo 4: Edición de vídeo
Qué hace
Parámetros clave
| Parámetro | Obligatorio | Predeterminado | Descripción |
|---|---|---|---|
model | Sí | — | wan2.7-video-edit |
prompt | Sí | — | Instrucción de edición en lenguaje natural |
video_urls | Sí | — | Array con exactamente 1 vídeo fuente (mp4/mov, 2-10 seg) |
image_urls | No | — | Hasta 4 imágenes de referencia para guía de estilo/contenido |
keep_original_sound | No | false | true preserva el audio original; false deja que el modelo maneje el audio |
duration | No | 0 | 0 = mantener la longitud original; valores explícitos: 2-10 seg |
quality | No | 720p | 720p o 1080p |
Ejemplo: Cambio de estilo solo con instrucción
curl -X POST https://api.evolink.ai/v1/videos/generations \
-H "Authorization: Bearer YOUR_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "wan2.7-video-edit",
"prompt": "Convert the entire scene to a vintage film look with warm color grading and film grain",
"video_urls": ["https://your-cdn.com/source-clip.mp4"],
"keep_original_sound": true,
"duration": 0
}'Ejemplo: Reemplazo de ropa guiado por referencia
{
"model": "wan2.7-video-edit",
"prompt": "Replace the girl's outfit with the clothes from the reference image",
"video_urls": ["https://your-cdn.com/source.mp4"],
"image_urls": ["https://your-cdn.com/target-outfit.png"]
}Qué puedes editar
- Transferencia de estilo: "convertir a estilo anime", "aplicar efecto de pintura en acuarela"
- Cambio de fondo: "cambiar el fondo a una calle de Tokio bajo la lluvia de noche"
- Cambio de objeto/ropa: "cambiar la chaqueta a roja", "reemplazar el sombrero con una corona"
- Colorización: "convertir este metraje en blanco y negro a color"
- Iluminación: "cambiar la iluminación a hora dorada"
7. Precios y cálculo de costes
Precios de EvoLink para Wan 2.7
| Calidad | Coste por segundo | Clip de 10 segundos |
|---|---|---|
| 720p | $0.086 | $0.86 |
| 1080p | $0.144 (1.67× de 720p) | $1.44 |
Sin suscripciones, sin compromisos mínimos. Solo pagas por vídeo generado exitosamente.
Comparación de costes con otros proveedores (según aparece en las páginas de proveedores, mayo 2026)
| Proveedor | Tarifa por segundo | Coste de 10 seg a 720p |
|---|---|---|
| EvoLink | $0.086/seg | $0.86 |
| Together AI | $0.10/seg | $1.00 |
| Segmind (clip 720p) | ~$0.063/seg (basado en $0.625/10seg) | $0.625 |
| Segmind (clip 1080p) | ~$0.094/seg (basado en $0.9375/10seg) | $0.9375 |
Facturación especial para vídeo de referencia y edición de vídeo
Fórmula de estimación de presupuesto
Coste mensual = (duración_promedio × coste_por_segundo × volumen_diario × 30)
8. Flujo asíncrono y gestión de tareas
Cada solicitud de Wan 2.7 sigue el mismo patrón asíncrono:
POST /v1/videos/generations → devuelve task id + status "pending"
GET /v1/tasks/{task_id} → consultar hasta que status sea "completed" o "failed"
Descargar URL del vídeo del array results en las próximas 24 horas
Ciclo de vida de la tarea
| Estado | Significado |
|---|---|
pending | Tarea aceptada, esperando en cola |
processing | La tarea está generando activamente |
completed | El vídeo está listo, URL disponible en el array results |
failed | La generación falló (revisar mensaje de error) |
URL de callback (webhook)
callback_url en tu solicitud. EvoLink enviará un POST a esta URL cuando la tarea se complete, falle o sea cancelada. El callback se dispara después de la confirmación de facturación.Mejores prácticas de producción
- Persiste el ID de tarea inmediatamente después del envío. Si tu servicio falla, podrás recuperarte.
- Usa retroceso exponencial al consultar. Comienza en 5 segundos, máximo en 30 segundos.
- Descarga y archiva los resultados inmediatamente. Las URLs de vídeo expiran en 24 horas.
- Haz los envíos idempotentes. Hashea las cargas útiles de solicitud y deduplica para evitar doble facturación por tormentas de reintentos.
9. Manejo de errores y códigos de estado comunes
| Código HTTP | Código de error | Significado | Acción |
|---|---|---|---|
| 400 | invalid_request | Parámetros incorrectos | Verifica ID de modelo, longitud del prompt, rango de duración, URLs de medios |
| 401 | unauthorized | Token inválido o expirado | Renueva tu API key |
| 402 | insufficient_quota | Créditos insuficientes | Recarga tu cuenta |
| 403 | model_access_denied | El token no tiene acceso al modelo | Verifica los permisos de la API key |
| 429 | rate_limit_exceeded | Demasiadas solicitudes | Retrocede y reintenta con retardo exponencial |
| 500 | internal_error | Error del servidor | Reintenta después de 30 segundos; si persiste, contacta soporte |
Errores comunes
- Usar el ID de modelo con ortografía incorrecta. Es
wan2.7-text-to-video, nowan-2.7-text-to-videoniwan27-t2v. Un ID de modelo obsoleto devuelve un 404 limpio sin error útil. - Enviar combinaciones de medios inválidas en modo I2V. Consulta la tabla de combinaciones de entrada válidas.
- No descargar resultados a tiempo. Las URLs de vídeo expiran en 24 horas. Integra descarga automática en tu pipeline.
10. Patrones de producción y salvaguardas
Salvaguardas de presupuesto
1. Limitar duración máxima del lado del servidor (por ejemplo, 10 segundos para contenido social)
2. Usar 720p por defecto a menos que el caso de uso requiera específicamente 1080p
3. Rastrear gasto por usuario, funcionalidad e ID de modelo
4. Separar presupuesto de vídeo de referencia (facturación entrada+salida) de T2V/I2V
5. Establecer límites diarios por usuario antes de escalar tráfico
Patrones de fiabilidad
- Reintentar con clave de idempotencia. Hashea tu carga útil de solicitud y verifica tareas existentes antes de reenviar.
- Manejo de timeout. Si una tarea no se ha completado después de 5 minutos, márcala para revisión manual en lugar de reenviarla a ciegas.
- Estrategia de fallback. Considera recurrir a Wan 2.6 o Wan 2.5 si Wan 2.7 devuelve errores persistentes en un modo específico.
- Validación de activos. Valida dimensiones de imagen, duración de vídeo y formato de audio antes del envío. Los activos defectuosos causan fallos que parecen problemas de calidad del modelo.
Arquitectura de cola
Para sistemas de producción que generan más de 100 vídeos/día:
Solicitud del usuario → validación → cola de trabajos → API Wan 2.7 → manejador de resultados → archivo CDN → notificar usuario
Nunca llames a la API directamente desde los manejadores de solicitudes orientados al usuario. Siempre pasa por un sistema de trabajos en segundo plano.
11. Migración de Wan 2.6 a Wan 2.7
Qué permanece igual
- Endpoint de API:
POST /v1/videos/generations - Autenticación: misma API key y Bearer token
- Patrón asíncrono: mismo flujo de ID de tarea / consulta / callback
- Facturación de EvoLink: misma cuenta y sistema de créditos
Qué cambia
wan2.7-t2v-2026-04-25).| Aspecto | Wan 2.6 | Wan 2.7 |
|---|---|---|
| IDs de modelo | wan2.6-text-to-video, wan2.6-image-to-video, wan2.6-reference-video | wan2.7-text-to-video, wan2.7-image-to-video, wan2.7-reference-video, wan2.7-video-edit |
| Control de fotograma I2V | Solo primer fotograma (image_start) | Primer Y último fotograma (image_start + image_end) |
| Modos de generación I2V | Implícitos | Parámetro explícito generation_mode (first_frame, first_last_frame, video_continuation) |
| Vídeo de referencia | Referencia única, sin voz | Hasta 5 refs, clonación de voz vía voice_bindings |
| Edición de vídeo | No disponible | Nuevo: wan2.7-video-edit |
| T2V multi-toma | Soportado | Soportado (misma sintaxis de prompt) |
Migración paso a paso
- Cambia el parámetro model. Reemplaza
wan2.6-text-to-videoconwan2.7-text-to-video(igual para los otros modos). - Prueba con los prompts existentes. Wan 2.7 maneja el mismo formato de prompt. No se necesita reescritura.
- Adopta las nuevas funciones gradualmente. Añade
generation_mode,image_end,voice_bindingso edición de vídeo según lo requiera tu flujo de trabajo. - Mantén Wan 2.6 como fallback. Ambas versiones funcionan en paralelo en EvoLink. No tienes que migrar todo a la vez.
12. Hoja de referencia de parámetros
Parámetros compartidos (todos los modos)
| Parámetro | Tipo | Descripción |
|---|---|---|
model | string | Obligatorio. Uno de los cuatro IDs de modelo |
prompt | string | Obligatorio. Hasta 5000 caracteres |
quality | string | 720p (predeterminado) o 1080p |
callback_url | string | Webhook HTTPS para finalización de tarea |
Específicos de texto a vídeo
| Parámetro | Tipo | Descripción |
|---|---|---|
negative_prompt | string | Hasta 500 caracteres |
audio_urls | array | 1 audio de conducción (wav/mp3, 2-30 seg, máx. 15MB) |
aspect_ratio | string | 16:9, 9:16, 1:1, 4:3, 3:4 |
duration | number | 2-15 segundos |
seed | integer | 1-2147483647 |
prompt_extend | boolean | Reescritura de prompt con LLM (predeterminado false) |
Específicos de imagen a vídeo
| Parámetro | Tipo | Descripción |
|---|---|---|
generation_mode | string | first_frame, first_last_frame, video_continuation |
image_start | string | URL de imagen del primer fotograma |
image_end | string | URL de imagen del último fotograma |
video_urls | array | Vídeo fuente para continuación |
audio_urls | array | Audio de conducción (no para video_continuation) |
duration | number | 2-15 segundos |
Específicos de vídeo de referencia
| Parámetro | Tipo | Descripción |
|---|---|---|
image_urls | array | Imágenes de referencia (cuentan para el límite de 5 elementos) |
video_urls | array | Vídeos de referencia (cuentan para el límite de 5 elementos) |
image_start | string | Fotograma inicial (no cuenta para el límite) |
model_params.voice_bindings | object | Mapa de clave de referencia a URL de audio de voz |
audio_urls | array | Vinculación de voz heredada (posicional) |
duration | number | 2-15 seg (solo imagen) o 2-10 seg (con refs de vídeo) |
Específicos de edición de vídeo
| Parámetro | Tipo | Descripción |
|---|---|---|
video_urls | array | Exactamente 1 vídeo fuente |
image_urls | array | Hasta 4 imágenes de referencia |
keep_original_sound | boolean | true preserva el audio original |
duration | number | 0 = longitud original; explícito: 2-10 seg |
13. Preguntas frecuentes
¿Cuánto cuesta Wan 2.7 en EvoLink?
$0.086/seg a 720p, $0.144/seg a 1080p. Un clip de 10 segundos a 720p cuesta $0.86. Sin suscripciones ni compromisos mínimos.
¿Cuál es la diferencia entre Wan 2.7 y Wan 2.6?
En EvoLink, Wan 2.7 ofrece edición de vídeo, vídeo de referencia multicarácter con clonación de voz, y control de primer y último fotograma en el modo I2V. Wan 2.6 sigue siendo útil para narrativa cinematográfica y variantes Flash para iteración más rápida. Ambos funcionan en paralelo en EvoLink.
¿Wan 2.7 genera audio automáticamente?
audio_urls, el modelo genera automáticamente música de fondo o efectos de sonido que coincidan con el contenido visual.¿Se facturan las tareas fallidas?
Para los modos de vídeo de referencia y edición de vídeo, las tareas fallidas explícitamente no se facturan. Para texto a vídeo e imagen a vídeo, la facturación se basa en la duración real del vídeo generado.
¿Puedo usar Wan 2.7 para contenido NSFW?
invalid_content.¿Qué formatos de audio se admiten para la clonación de voz?
wav y mp3. La duración debe ser de 1-10 segundos para clonación de voz, 2-30 segundos para audio de conducción. El tamaño máximo de archivo es 15MB.¿Cómo manejo la expiración de URLs de vídeo?
Las URLs de vídeo expiran después de 24 horas. Integra un paso automático de descarga y archivo en tu pipeline inmediatamente después de la finalización de la tarea. Almacena el activo final en tu propio CDN o almacenamiento de objetos.
¿Puedo migrar de Wan 2.6 sin tiempo de inactividad?
model de wan2.6-* a wan2.7-*. El endpoint, la autenticación y el patrón asíncrono son idénticos. Ambas versiones funcionan en paralelo, por lo que puedes migrar ruta por ruta.Próximos pasos
- Prueba el playground: Página del modelo Wan 2.7
- Compara modelos Wan: Colección de la familia Wan API
- Desglose completo de precios: Guía de precios de Wan API
- Patrones de producción Wan 2.6: Guía de la API Wan 2.6
- Reseña de Wan 2.5: Reseña de la API Wan 2.5


