Seedance 2.0 API — Coming SoonGet early access
Guide API Wan 2.6 : Text-to-Video, Image-to-Video et Vidéo de Référence pour la Production
Tutoriel

Guide API Wan 2.6 : Text-to-Video, Image-to-Video et Vidéo de Référence pour la Production

Jessie
Jessie
COO
18 décembre 2025
10 min de lecture
Wan 2.6 est la gamme de génération vidéo "Tongyi Wanxiang" d'Alibaba Cloud, destinée à une génération programmable et adaptée aux pipelines, et pas seulement à des démos ponctuelles. Par rapport aux versions précédentes de Wan, l'histoire de l'API est plus claire : storytelling multi-plans, support audio, et trois points d'entrée distincts selon que vous partez d'un texte, d'une première image ou d'une vidéo de référence.

Ce guide est écrit pour les CTO et les ingénieurs qui déploient la vidéo générative dans des systèmes réels : orchestration asynchrone, garde-fous budgétaires, modèles de fiabilité et stratégie d'intégration (y compris un chemin EvoLink.ai propre à la fin).


1. Famille de Modèles Wan 2.6 : Choisir le Bon Endpoint

FonctionnalitéT2V (wan2.6-t2v)I2V (wan2.6-i2v)R2V (wan2.6-r2v)
Cas d'UsagePas encore d'actif visuel (idéation, ébauches de storyboard, B-roll synthétique)Doit ancrer la première image (photos produit, art clé personnage, cohérence marque)Besoin de cohérence de personnage depuis un clip de référence (apparence + timbre voix)
Résolution720P / 1080P720P / 1080P720P / 1080P
Durée5 / 10 / 15 secondes5 / 10 / 15 secondes5 / 10 secondes
Format Sortie30fps, MP4 (H.264)30fps, MP4 (H.264)30fps, MP4 (H.264)
AudioVoix off auto ou fichier audio personnaliséVoix off auto ou fichier audio personnaliséGénérer voix via prompt ; peut référencer le timbre voix de la vidéo d'entrée
Multi-plansSupportéSupportéSupporté
Règle empirique
  • Commencez avec T2V pour l'exploration de concepts.
  • Passez à I2V quand vous avez une image "source de vérité" que vous devez respecter.
  • Utilisez R2V quand vous avez besoin d'une continuité d'identité à travers les plans/scènes.

2. Le Flux de Production : Tâches Asynchrones (Pas de Temps Réel)

La génération vidéo Wan 2.6 est asynchrone. Attendez-vous à "créer tâche → sonder résultat tâche" comme modèle d'intégration standard, avec un temps de réalisation typique de l'ordre de quelques minutes selon la charge de la file d'attente.

Détails opérationnels clés :

  • Vous devez envoyer l'en-tête async : X-DashScope-Async: enable (mode HTTP DashScope).
  • Vous recevez un task_id et sondez (poll) le statut jusqu'à succès/échec.
  • Le task_id est valide pour 24 heures (stockez-le immédiatement ; ne "resoumettez" pas pour récupérer).
Modèle d'ingénierie (recommandé)
  • Soumettre la tâche depuis un worker API
  • Persister task_id + hash requête + métadonnées utilisateur/job
  • Sonder avec backoff exponentiel (ou un planificateur/file d'attente)
  • En cas de succès, persister l'video_url retournée et la télécharger/répliquer (les URL sont souvent limitées dans le temps par les fournisseurs)

3. Storytelling Multi-Plans : Ce Qui Change Vraiment dans Wan 2.6

Alibaba met explicitement en avant la narrative multi-plans comme une capacité unique à Wan 2.6 pour le T2V et l'I2V.

Comment l'activer (exemple T2V)

Dans Wan 2.6 DashScope T2V, le multi-plans est activé en réglant shot_type: "multi". L'exemple officiel le couple avec prompt_extend: true.

Guide pratique des prompts pour le multi-plans :

  • Écrivez votre prompt comme une courte "liste de plans"
  • Gardez la description du sujet principal cohérente à travers les plans
  • Spécifiez les transitions de plans ("cut to", "wide shot", "close-up") seulement si nécessaire ; sinon laissez le modèle segmenter automatiquement

Comment ça marche dans Wan 2.6 R2V (références personnages)

Wan 2.6 R2V introduit un mécanisme de contrôle plus strict : vous référencez les personnages en utilisant des tokens comme character1, character2, etc., et les mappez aux vidéos de référence d'entrée par ordre de tableau. Chaque vidéo de référence doit contenir un seul rôle/identité d'objet.
Wan 2.6 R2V demo 1
Wan 2.6 R2V demo 2

4. Audio : Sur Quoi Vous Pouvez Compter en Toute Sécurité

Wan 2.6 supporte l'audio de différentes manières selon l'endpoint :

T2V / I2V

  • Le support audio inclut voix off auto ou passer une URL de fichier audio personnalisé pour obtenir une synchro audio-visuelle.
  • Lors de la fourniture d'un fichier audio personnalisé, la plateforme documente les contraintes pratiques (format/taille) et le fait que l'audio peut être tronqué/laissé silencieux s'il ne correspond pas à la durée demandée.

R2V

  • L'audio est généré via prompt, et peut référencer le timbre de voix de la vidéo d'entrée (utile quand vous voulez une continuité de sensation vocale).
Ce qu'il ne faut pas promettre dans vos docs produit

À moins de l'avoir validé de bout en bout, évitez de revendiquer "sync labiale" ou "correspondance bouche phonème-précise". Les docs officiels décrivent la génération audio et la synchro audio-visuelle, mais ne garantissent pas un alignement au niveau des lèvres.


5. Modèle de Coût : Connaître Votre Tarification Par Seconde à l'Avance

Wan 2.6 est facturé principalement par secondes x niveau de résolution, et la tarification diffère par région (Chine Continentale vs. Singapour "International").

Tarification T2V (Alibaba Cloud / Bailian)

  • wan2.6-t2v: 0.6 RMB/sec (720P), 1 RMB/sec (1080P)

Tarification I2V (première image)

  • wan2.6-i2v: 0.6 RMB/sec (720P), 1 RMB/sec (1080P)

Tarification Wan 2.6 R2V (vidéo de référence)

Wan 2.6 R2V facture à la fois les secondes de vidéo d'entrée et de sortie, et note explicitement :
  • Les échecs ne sont pas facturés
  • La durée facturée de la vidéo d'entrée est plafonnée (documentée comme "ne dépassant pas 5 secondes" pour la facturation)
Tarification : wan2.6-r2v: 0.6 RMB/sec entrée + 0.6 RMB/sec sortie (720P) ; 1 RMB/sec entrée + 1 RMB/sec sortie (1080P)
Valeurs par défaut de contrôle des coûts (fortement recommandé)
  • Défaut Dev/test : 720P + durée la plus courte permise par votre UX
  • Ajouter des plafonds côté serveur : durée max, résolution max, max jobs/utilisateur/jour
  • Exiger une validation de la vidéo de référence avant soumission R2V (format/taille/durée) pour réduire le gaspillage

Wan 2.6 pricing comparison

6. Frictions de Fiabilité Wan 2.6 Que Vous Rencontrerez Vraiment

Liaison Régionale

Pékin et Singapour ont des clés API et des endpoints de requête indépendants ; les mélanger peut causer des échecs d'auth.

Lacunes SDK (I2V)

Les propres docs d'Alibaba notent que wan2.6-i2v n'est pas supporté via SDK au moment de l'écriture (flux HTTP uniquement).

URL et actifs

À travers les workflows, vous passerez des médias via des URL (HTTP/HTTPS), et vous pourriez avoir besoin d'une étape de téléchargement pour produire des URL temporaires pour les fichiers locaux.


7. Utiliser Wan 2.6 Via EvoLink.ai (API Unifiée + Modèle de Tâche Propre)

Si vous ne voulez pas que votre code d'application soit étroitement couplé aux bizarreries requête/réponse d'un fournisseur, EvoLink vous donne un point de terminaison unique pour la génération vidéo Wan 2.6 :
  • POST https://api.evolink.ai/v1/videos/generations
  • Modèles Wan 2.6 (exemples) :
    • wan2.6-text-to-video
    • wan2.6-reference-video
  • Traitement asynchrone avec ID de tâche, et liens vidéo générés valides pour 24 heures (sauvegardez rapidement).
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-text-to-video",
    "prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
  }'
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-reference-video",
    "prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
    "video_urls": [
      "https://your-cdn.example.com/reference_character.mp4"
    ]
  }'

Ce point de terminaison accepte jusqu'à 3 vidéos de référence et documente les exigences comme le format (mp4/mov), la taille de fichier (≤100MB), et la plage de durée (2–30s).


8. Expédiez Wan 2.6 Plus Vite

Si vous construisez des fonctionnalités vidéo de production — outils de création UGC, automatisation marketing, visualisation produit, ou génération d'intrigue — la partie difficile n'est pas "le modèle peut-il générer une vidéo ?" La partie difficile est de l'opérationnaliser : orchestration des tâches, contrôle des dépenses, et évolution des choix de modèle/fournisseur au fil du temps.

EvoLink.ai est construit pour cette réalité :
  • Une surface API pour Wan 2.6 (et d'autres modèles vidéo à mesure que vous étendez votre stack)
  • Un modèle de tâche asynchrone propre que vous pouvez standardiser dans votre backend
  • Un chemin pratique pour réduire le churn d'intégration quand les fournisseurs mettent à jour les paramètres ou ajoutent de nouveaux endpoints

9. FAQ (Notes de Production)

1) Quelles durées Wan 2.6 supporte-t-il pour chaque mode ?

  • Text-to-Video (wan2.6-t2v) : 5 / 10 / 15 secondes
  • Image-to-Video (wan2.6-i2v) : 5 / 10 / 15 secondes
  • Vidéo de Référence (wan2.6-r2v) : 5 / 10 secondes

2) Puis-je apporter mon propre audio ? Quelles sont les contraintes ?

Oui — T2V et I2V acceptent audio_url. Les docs spécifient :
  • Formats : wav / mp3
  • Durée : 3–30 secondes
  • Taille : ≤ 15MB
  • Si l'audio est plus long que la durée vidéo demandée, il est tronqué ; si plus court, la vidéo restante est silencieuse.

3) Comment forcer une sortie silencieuse (pas d'audio auto) ?

Utilisez audio: false. Cela s'applique uniquement quand vous ne passez pas d'audio_url, et audio_url a une priorité plus élevée que audio.

4) Quelles sont les limites de longueur de prompt sûres ?

L'API T2V d'Alibaba Cloud documente une limite de prompt de 1500 caractères pour wan2.6-t2v et une limite de negative_prompt de 500 caractères. L'endpoint Wan 2.6 T2V d'EvoLink documente également un prompt limité à 1500 caractères.

Prêt à réduire vos coûts IA de 89 % ?

Commencez avec EvoLink dès aujourd'hui et découvrez la puissance du routage intelligent des API.