
Guide API Wan 2.6 : Text-to-Video, Image-to-Video et Vidéo de Référence pour la Production

Ce guide est écrit pour les CTO et les ingénieurs qui déploient la vidéo générative dans des systèmes réels : orchestration asynchrone, garde-fous budgétaires, modèles de fiabilité et stratégie d'intégration (y compris un chemin EvoLink.ai propre à la fin).
1. Famille de Modèles Wan 2.6 : Choisir le Bon Endpoint
| Fonctionnalité | T2V (wan2.6-t2v) | I2V (wan2.6-i2v) | R2V (wan2.6-r2v) |
|---|---|---|---|
| Cas d'Usage | Pas encore d'actif visuel (idéation, ébauches de storyboard, B-roll synthétique) | Doit ancrer la première image (photos produit, art clé personnage, cohérence marque) | Besoin de cohérence de personnage depuis un clip de référence (apparence + timbre voix) |
| Résolution | 720P / 1080P | 720P / 1080P | 720P / 1080P |
| Durée | 5 / 10 / 15 secondes | 5 / 10 / 15 secondes | 5 / 10 secondes |
| Format Sortie | 30fps, MP4 (H.264) | 30fps, MP4 (H.264) | 30fps, MP4 (H.264) |
| Audio | Voix off auto ou fichier audio personnalisé | Voix off auto ou fichier audio personnalisé | Générer voix via prompt ; peut référencer le timbre voix de la vidéo d'entrée |
| Multi-plans | Supporté | Supporté | Supporté |
- Commencez avec T2V pour l'exploration de concepts.
- Passez à I2V quand vous avez une image "source de vérité" que vous devez respecter.
- Utilisez R2V quand vous avez besoin d'une continuité d'identité à travers les plans/scènes.
2. Le Flux de Production : Tâches Asynchrones (Pas de Temps Réel)
Détails opérationnels clés :
- Vous devez envoyer l'en-tête async :
X-DashScope-Async: enable(mode HTTP DashScope). - Vous recevez un
task_idet sondez (poll) le statut jusqu'à succès/échec. - Le
task_idest valide pour 24 heures (stockez-le immédiatement ; ne "resoumettez" pas pour récupérer).
- Soumettre la tâche depuis un worker API
- Persister
task_id+ hash requête + métadonnées utilisateur/job - Sonder avec backoff exponentiel (ou un planificateur/file d'attente)
- En cas de succès, persister l'
video_urlretournée et la télécharger/répliquer (les URL sont souvent limitées dans le temps par les fournisseurs)
3. Storytelling Multi-Plans : Ce Qui Change Vraiment dans Wan 2.6
Comment l'activer (exemple T2V)
shot_type: "multi". L'exemple officiel le couple avec prompt_extend: true.Guide pratique des prompts pour le multi-plans :
- Écrivez votre prompt comme une courte "liste de plans"
- Gardez la description du sujet principal cohérente à travers les plans
- Spécifiez les transitions de plans ("cut to", "wide shot", "close-up") seulement si nécessaire ; sinon laissez le modèle segmenter automatiquement
Comment ça marche dans Wan 2.6 R2V (références personnages)
character1, character2, etc., et les mappez aux vidéos de référence d'entrée par ordre de tableau. Chaque vidéo de référence doit contenir un seul rôle/identité d'objet.

4. Audio : Sur Quoi Vous Pouvez Compter en Toute Sécurité
Wan 2.6 supporte l'audio de différentes manières selon l'endpoint :
T2V / I2V
- Le support audio inclut voix off auto ou passer une URL de fichier audio personnalisé pour obtenir une synchro audio-visuelle.
- Lors de la fourniture d'un fichier audio personnalisé, la plateforme documente les contraintes pratiques (format/taille) et le fait que l'audio peut être tronqué/laissé silencieux s'il ne correspond pas à la durée demandée.
R2V
- L'audio est généré via prompt, et peut référencer le timbre de voix de la vidéo d'entrée (utile quand vous voulez une continuité de sensation vocale).
À moins de l'avoir validé de bout en bout, évitez de revendiquer "sync labiale" ou "correspondance bouche phonème-précise". Les docs officiels décrivent la génération audio et la synchro audio-visuelle, mais ne garantissent pas un alignement au niveau des lèvres.
5. Modèle de Coût : Connaître Votre Tarification Par Seconde à l'Avance
Tarification T2V (Alibaba Cloud / Bailian)
wan2.6-t2v: 0.6 RMB/sec (720P), 1 RMB/sec (1080P)
Tarification I2V (première image)
wan2.6-i2v: 0.6 RMB/sec (720P), 1 RMB/sec (1080P)
Tarification Wan 2.6 R2V (vidéo de référence)
- Les échecs ne sont pas facturés
- La durée facturée de la vidéo d'entrée est plafonnée (documentée comme "ne dépassant pas 5 secondes" pour la facturation)
wan2.6-r2v: 0.6 RMB/sec entrée + 0.6 RMB/sec sortie (720P) ; 1 RMB/sec entrée + 1 RMB/sec sortie (1080P)- Défaut Dev/test : 720P + durée la plus courte permise par votre UX
- Ajouter des plafonds côté serveur : durée max, résolution max, max jobs/utilisateur/jour
- Exiger une validation de la vidéo de référence avant soumission R2V (format/taille/durée) pour réduire le gaspillage

6. Frictions de Fiabilité Wan 2.6 Que Vous Rencontrerez Vraiment
Liaison Régionale
Pékin et Singapour ont des clés API et des endpoints de requête indépendants ; les mélanger peut causer des échecs d'auth.
Lacunes SDK (I2V)
wan2.6-i2v n'est pas supporté via SDK au moment de l'écriture (flux HTTP uniquement).URL et actifs
À travers les workflows, vous passerez des médias via des URL (HTTP/HTTPS), et vous pourriez avoir besoin d'une étape de téléchargement pour produire des URL temporaires pour les fichiers locaux.
7. Utiliser Wan 2.6 Via EvoLink.ai (API Unifiée + Modèle de Tâche Propre)
POST https://api.evolink.ai/v1/videos/generations- Modèles Wan 2.6 (exemples) :
wan2.6-text-to-videowan2.6-reference-video
- Traitement asynchrone avec ID de tâche, et liens vidéo générés valides pour 24 heures (sauvegardez rapidement).
Exemple : Text-to-Video via EvoLink
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-text-to-video",
"prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
}'Exemple : Vidéo de Référence via EvoLink (copier-coller)
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-reference-video",
"prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
"video_urls": [
"https://your-cdn.example.com/reference_character.mp4"
]
}'Ce point de terminaison accepte jusqu'à 3 vidéos de référence et documente les exigences comme le format (mp4/mov), la taille de fichier (≤100MB), et la plage de durée (2–30s).
8. Expédiez Wan 2.6 Plus Vite
Si vous construisez des fonctionnalités vidéo de production — outils de création UGC, automatisation marketing, visualisation produit, ou génération d'intrigue — la partie difficile n'est pas "le modèle peut-il générer une vidéo ?" La partie difficile est de l'opérationnaliser : orchestration des tâches, contrôle des dépenses, et évolution des choix de modèle/fournisseur au fil du temps.
- Une surface API pour Wan 2.6 (et d'autres modèles vidéo à mesure que vous étendez votre stack)
- Un modèle de tâche asynchrone propre que vous pouvez standardiser dans votre backend
- Un chemin pratique pour réduire le churn d'intégration quand les fournisseurs mettent à jour les paramètres ou ajoutent de nouveaux endpoints
9. FAQ (Notes de Production)
1) Quelles durées Wan 2.6 supporte-t-il pour chaque mode ?
- Text-to-Video (wan2.6-t2v) : 5 / 10 / 15 secondes
- Image-to-Video (wan2.6-i2v) : 5 / 10 / 15 secondes
- Vidéo de Référence (wan2.6-r2v) : 5 / 10 secondes
2) Puis-je apporter mon propre audio ? Quelles sont les contraintes ?
audio_url. Les docs spécifient :- Formats : wav / mp3
- Durée : 3–30 secondes
- Taille : ≤ 15MB
- Si l'audio est plus long que la durée vidéo demandée, il est tronqué ; si plus court, la vidéo restante est silencieuse.
3) Comment forcer une sortie silencieuse (pas d'audio auto) ?
audio: false. Cela s'applique uniquement quand vous ne passez pas d'audio_url, et audio_url a une priorité plus élevée que audio.4) Quelles sont les limites de longueur de prompt sûres ?
wan2.6-t2v et une limite de negative_prompt de 500 caractères. L'endpoint Wan 2.6 T2V d'EvoLink documente également un prompt limité à 1500 caractères.

