
Wan 2.6 API Guide: Text-to-Video, Image-to-Video und Referenzvideo für die Produktion

Dieser Leitfaden richtet sich an CTOs und Ingenieure, die generative Video-Features in echte Systeme integrieren: asynchrone Orchestrierung, Budget-Schutzmechanismen, Zuverlässigkeits-Patterns und Integrationsstrategie (einschließlich eines sauberen EvoLink.ai-Wegs am Ende).
1. Wan 2.6 Modellfamilie: Wählen Sie den richtigen Endpunkt
| Feature | T2V (wan2.6-t2v) | I2V (wan2.6-i2v) | R2V (wan2.6-r2v) |
|---|---|---|---|
| Anwendungsfall | Noch kein visuelles Asset (Ideenfindung, Storyboard-Entwürfe, synthetisches B-Roll) | Muss den ersten Frame verankern (Produktaufnahmen, Charakter-Key-Art, Markenkonsistenz) | Benötigt Charakterkonsistenz aus einem Referenzclip (Aussehen + Stimmfarbe) |
| Auflösung | 720P / 1080P | 720P / 1080P | 720P / 1080P |
| Dauer | 5 / 10 / 15 Sekunden | 5 / 10 / 15 Sekunden | 5 / 10 Sekunden |
| Ausgabeformat | 30fps, MP4 (H.264) | 30fps, MP4 (H.264) | 30fps, MP4 (H.264) |
| Audio | Auto-Voiceover oder eigene Audiodatei | Auto-Voiceover oder eigene Audiodatei | Stimme via Prompt generieren; kann Stimmfarbe des Eingabevideos referenzieren |
| Multi-Shot | Unterstützt | Unterstützt | Unterstützt |
- Beginnen Sie mit T2V für die Konzept-Exploration.
- Wechseln Sie zu I2V, wenn Sie einen „Source-of-Truth“-Frame haben, den Sie respektieren müssen.
- Verwenden Sie R2V, wenn Sie Identitätskontinuität über Shots/Szenen hinweg benötigen.
2. Der Produktions-Workflow: Asynchrone Aufgaben (Nicht Echtzeit)
Wichtige Betriebsdetails:
- Sie müssen den Async-Header senden:
X-DashScope-Async: enable(DashScope HTTP-Modus). - Sie erhalten eine
task_idund fragen den Status ab, bis sie erfolgreich ist/fehlschlägt. task_idist für 24 Stunden gültig (sofort speichern; nicht „neu einreichen“, um wiederherzustellen).
- Aufgabe von einem API-Worker einreichen
task_id+ Request-Hash + Benutzer-/Job-Metadaten persistieren- Polling mit exponentieller Verzögerung (Backoff) (oder Scheduler/Queue)
- Bei Erfolg die zurückgegebene
video_urlpersistieren und herunterladen/replizieren (URLs sind oft zeitlich begrenzt)
3. Multi-Shot-Storytelling: Was sich in Wan 2.6 wirklich ändert
So aktivieren Sie es (T2V-Beispiel)
shot_type: "multi" aktiviert. Das offizielle Beispiel kombiniert dies mit prompt_extend: true.Praktischer Prompt-Leitfaden für Multi-Shot:
- Schreiben Sie Ihren Prompt wie eine kurze „Shot-List“ (Aufnahmeliste)
- Halten Sie die Beschreibung des Hauptsubjekts konsistent über die Shots hinweg
- Geben Sie Shot-Übergänge („Schnitt auf“, „Weitwinkel“, „Nahaufnahme“) nur an, wenn nötig; lassen Sie das Modell andernfalls automatisch segmentieren
Wie es in Wan 2.6 R2V funktioniert (Charakter-Referenzen)
character1, character2 usw. und ordnen sie den Eingabe-Referenzvideos nach Array-Reihenfolge zu. Jedes Referenzvideo sollte eine einzelne Rolle/Objekt-Identität enthalten.

4. Audio: Worauf Sie sich sicher verlassen können
Wan 2.6 unterstützt Audio je nach Endpunkt auf unterschiedliche Weise:
T2V / I2V
- Audio-Support umfasst Auto-Voiceover oder die Übergabe einer benutzerdefinierten Audio-Datei-URL, um eine Audio-Visuelle Synchronisation zu erreichen.
- Wenn Sie eine benutzerdefinierte Audiodatei bereitstellen, dokumentiert die Plattform praktische Einschränkungen (Format/Größe) und dass Audio möglicherweise abgeschnitten/stumm gelassen wird, wenn es nicht zur angeforderten Dauer passt.
R2V
- Audio wird via Prompt generiert und kann die Stimmfarbe des Eingabevideos referenzieren (nützlich, wenn Sie Stimmkontinuität wünschen).
Wenn Sie es nicht End-to-End validiert haben, vermeiden Sie Behauptungen wie „Lippensynchronisation“ oder „phonemgenaue Mundanpassung“. Die offiziellen Dokumente beschreiben die Audiogenerierung und Audio-Visuelle Synchronisation, garantieren aber keine lippengenaue Ausrichtung.
5. Kostenmodell: Kennen Sie Ihre Pro-Sekunde-Preise im Voraus
T2V-Preise (Alibaba Cloud / Bailian)
wan2.6-t2v: 0.6 RMB/Sek (720P), 1 RMB/Sek (1080P)
I2V-Preise (Erster Frame)
wan2.6-i2v: 0.6 RMB/Sek (720P), 1 RMB/Sek (1080P)
Wan 2.6 R2V-Preise (Referenzvideo)
- Fehlschläge werden nicht berechnet
- Die Abrechnungsdauer des Eingabevideos ist gedeckelt (dokumentiert als „nicht mehr als 5 Sekunden“ für die Abrechnung)
wan2.6-r2v: 0.6 RMB/Sek Eingang + 0.6 RMB/Sek Ausgang (720P); 1 RMB/Sek Eingang + 1 RMB/Sek Ausgang (1080P)- Entwicklungs-/Test-Standard: 720P + kürzeste Dauer, die Ihre UX zulässt
- Serverseitige Obergrenzen hinzufügen: max. Dauer, max. Auflösung, max. Jobs/Benutzer/Tag
- Referenzvideo-Validierung vor der R2V-Einreichung verlangen (Format/Größe/Dauer), um Verschwendung zu reduzieren

6. Zuverlässigkeits-Reibungspunkte bei Wan 2.6, auf die Sie tatsächlich stoßen werden
Regionale Bindung
Peking und Singapur haben unabhängige API-Schlüssel und Anfrage-Endpunkte; das Mischen dieser kann zu Auth-Fehlern führen.
SDK-Lücken (I2V)
wan2.6-i2v zum Zeitpunkt des Schreibens nicht via SDK unterstützt wird (nur HTTP-Workflow).URLs und Assets
Über Workflows hinweg übergeben Sie Medien via URLs (HTTP/HTTPS), und Sie benötigen möglicherweise einen Upload-Schritt, um temporäre URLs für lokale Dateien zu erstellen.
7. Verwendung von Wan 2.6 über EvoLink.ai (Einheitliche API + Sauberes Task-Modell)
POST https://api.evolink.ai/v1/videos/generations- Wan 2.6 Modelle (Beispiele):
wan2.6-text-to-videowan2.6-reference-video
- Asynchrone Verarbeitung mit Task-IDs, und generierte Videolinks sind für 24 Stunden gültig (prompt speichern).
Beispiel: Text-to-Video via EvoLink
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-text-to-video",
"prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
}'Beispiel: Referenzvideo via EvoLink (Copy-Paste)
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-reference-video",
"prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
"video_urls": [
"https://your-cdn.example.com/reference_character.mp4"
]
}'Dieser Endpunkt akzeptiert bis zu 3 Referenzvideos und dokumentiert Anforderungen wie Format (mp4/mov), Dateigröße (≤100MB) und Dauerbereich (2–30s).
8. Liefern Sie Wan 2.6 schneller aus
Wenn Sie Produktions-Videofunktionen erstellen – UGC-Erstellungstools, Marketing-Automatisierung, Produktvisualisierung oder Storyline-Generierung – ist der schwierige Teil nicht „kann das Modell Video generieren?“ Der schwierige Teil ist die Operationalisierung: Aufgaben-Orchestrierung, Ausgabenkontrolle und die Entwicklung der Modell-/Anbieterwahl im Laufe der Zeit.
- Eine API-Oberfläche für Wan 2.6 (und andere Videomodelle, wenn Sie Ihren Stack erweitern)
- Ein sauberes asynchrones Aufgabenmuster, das Sie in Ihrem Backend standardisieren können
- Ein praktischer Pfad, um Integrationsaufwand zu reduzieren, wenn Anbieter Parameter aktualisieren oder neue Endpunkte hinzufügen
9. FAQ (Produktionsnotizen)
1) Welche Dauer unterstützt Wan 2.6 für jeden Modus?
- Text-to-Video (wan2.6-t2v): 5 / 10 / 15 Sekunden
- Image-to-Video (wan2.6-i2v): 5 / 10 / 15 Sekunden
- Referenzvideo (wan2.6-r2v): 5 / 10 Sekunden
2) Kann ich mein eigenes Audio mitbringen? Was sind die Einschränkungen?
audio_url. Die Dokumente spezifizieren:- Formate: wav / mp3
- Dauer: 3–30 Sekunden
- Größe: ≤ 15MB
- Wenn Audio länger als die angeforderte Videodauer ist, wird es abgeschnitten; wenn kürzer, bleibt das restliche Video stumm.
3) Wie erzwinge ich eine stumme Ausgabe (kein Auto-Audio)?
audio: false. Dies gilt nur, wenn Sie keine audio_url übergeben, und audio_url hat eine höhere Priorität als audio.4) Was sind sichere Grenzen für die Prompt-Länge?
wan2.6-t2v und ein Limit für negative_prompt von 500 Zeichen. EvoLinks Wan 2.6 T2V Endpunkt dokumentiert ebenfalls Prompt auf 1500 Zeichen begrenzt.

