Seedance 2.0 API — Coming SoonGet early access
Wan 2.6 API Guide: Text-to-Video, Image-to-Video und Referenzvideo für die Produktion
Tutorial

Wan 2.6 API Guide: Text-to-Video, Image-to-Video und Referenzvideo für die Produktion

Jessie
Jessie
COO
18. Dezember 2025
8 Min. Lesezeit
Wan 2.6 ist Alibaba Clouds „Tongyi Wanxiang“ Videogenerierungs-Reihe, die auf programmierbare, pipelinefreundliche Generierung abzielt – und nicht nur auf einmalige Demos. Im Vergleich zu früheren Wan-Versionen ist die API-Story klarer: Multi-Shot-Storytelling, Audio-Support und drei verschiedene Einstiegspunkte, je nachdem, ob Sie mit Text, einem ersten Bild oder einem Referenzvideo beginnen.

Dieser Leitfaden richtet sich an CTOs und Ingenieure, die generative Video-Features in echte Systeme integrieren: asynchrone Orchestrierung, Budget-Schutzmechanismen, Zuverlässigkeits-Patterns und Integrationsstrategie (einschließlich eines sauberen EvoLink.ai-Wegs am Ende).


1. Wan 2.6 Modellfamilie: Wählen Sie den richtigen Endpunkt

FeatureT2V (wan2.6-t2v)I2V (wan2.6-i2v)R2V (wan2.6-r2v)
AnwendungsfallNoch kein visuelles Asset (Ideenfindung, Storyboard-Entwürfe, synthetisches B-Roll)Muss den ersten Frame verankern (Produktaufnahmen, Charakter-Key-Art, Markenkonsistenz)Benötigt Charakterkonsistenz aus einem Referenzclip (Aussehen + Stimmfarbe)
Auflösung720P / 1080P720P / 1080P720P / 1080P
Dauer5 / 10 / 15 Sekunden5 / 10 / 15 Sekunden5 / 10 Sekunden
Ausgabeformat30fps, MP4 (H.264)30fps, MP4 (H.264)30fps, MP4 (H.264)
AudioAuto-Voiceover oder eigene AudiodateiAuto-Voiceover oder eigene AudiodateiStimme via Prompt generieren; kann Stimmfarbe des Eingabevideos referenzieren
Multi-ShotUnterstütztUnterstütztUnterstützt
Faustregel
  • Beginnen Sie mit T2V für die Konzept-Exploration.
  • Wechseln Sie zu I2V, wenn Sie einen „Source-of-Truth“-Frame haben, den Sie respektieren müssen.
  • Verwenden Sie R2V, wenn Sie Identitätskontinuität über Shots/Szenen hinweg benötigen.

2. Der Produktions-Workflow: Asynchrone Aufgaben (Nicht Echtzeit)

Die Wan 2.6 Videogenerierung ist asynchron. Erwarten Sie „Aufgabe erstellen → Aufgabenergebnis abfragen (pollen)“ als Standard-Integrationsmodell, mit einer typischen Fertigstellungszeit im Minutenbereich je nach Warteschlangen-Auslastung.

Wichtige Betriebsdetails:

  • Sie müssen den Async-Header senden: X-DashScope-Async: enable (DashScope HTTP-Modus).
  • Sie erhalten eine task_id und fragen den Status ab, bis sie erfolgreich ist/fehlschlägt.
  • task_id ist für 24 Stunden gültig (sofort speichern; nicht „neu einreichen“, um wiederherzustellen).
Engineering-Pattern (empfohlen)
  • Aufgabe von einem API-Worker einreichen
  • task_id + Request-Hash + Benutzer-/Job-Metadaten persistieren
  • Polling mit exponentieller Verzögerung (Backoff) (oder Scheduler/Queue)
  • Bei Erfolg die zurückgegebene video_url persistieren und herunterladen/replizieren (URLs sind oft zeitlich begrenzt)

3. Multi-Shot-Storytelling: Was sich in Wan 2.6 wirklich ändert

Alibaba hebt Multi-Shot-Narrative ausdrücklich als eine Wan 2.6-exklusive Fähigkeit für T2V und I2V hervor.

So aktivieren Sie es (T2V-Beispiel)

In Wan 2.6 DashScope T2V wird Multi-Shot durch Setzen von shot_type: "multi" aktiviert. Das offizielle Beispiel kombiniert dies mit prompt_extend: true.

Praktischer Prompt-Leitfaden für Multi-Shot:

  • Schreiben Sie Ihren Prompt wie eine kurze „Shot-List“ (Aufnahmeliste)
  • Halten Sie die Beschreibung des Hauptsubjekts konsistent über die Shots hinweg
  • Geben Sie Shot-Übergänge („Schnitt auf“, „Weitwinkel“, „Nahaufnahme“) nur an, wenn nötig; lassen Sie das Modell andernfalls automatisch segmentieren

Wie es in Wan 2.6 R2V funktioniert (Charakter-Referenzen)

Wan 2.6 R2V führt einen strengeren Kontrollmechanismus ein: Sie referenzieren Charaktere mit Tokens wie character1, character2 usw. und ordnen sie den Eingabe-Referenzvideos nach Array-Reihenfolge zu. Jedes Referenzvideo sollte eine einzelne Rolle/Objekt-Identität enthalten.
Wan 2.6 R2V demo 1
Wan 2.6 R2V demo 2

4. Audio: Worauf Sie sich sicher verlassen können

Wan 2.6 unterstützt Audio je nach Endpunkt auf unterschiedliche Weise:

T2V / I2V

  • Audio-Support umfasst Auto-Voiceover oder die Übergabe einer benutzerdefinierten Audio-Datei-URL, um eine Audio-Visuelle Synchronisation zu erreichen.
  • Wenn Sie eine benutzerdefinierte Audiodatei bereitstellen, dokumentiert die Plattform praktische Einschränkungen (Format/Größe) und dass Audio möglicherweise abgeschnitten/stumm gelassen wird, wenn es nicht zur angeforderten Dauer passt.

R2V

  • Audio wird via Prompt generiert und kann die Stimmfarbe des Eingabevideos referenzieren (nützlich, wenn Sie Stimmkontinuität wünschen).
Was Sie in Ihren Produktdokumenten nicht versprechen sollten

Wenn Sie es nicht End-to-End validiert haben, vermeiden Sie Behauptungen wie „Lippensynchronisation“ oder „phonemgenaue Mundanpassung“. Die offiziellen Dokumente beschreiben die Audiogenerierung und Audio-Visuelle Synchronisation, garantieren aber keine lippengenaue Ausrichtung.


5. Kostenmodell: Kennen Sie Ihre Pro-Sekunde-Preise im Voraus

Wan 2.6 wird hauptsächlich nach Sekunden x Auflösungsstufe abgerechnet, und die Preise unterscheiden sich nach Region (Festlandchina vs. Singapur „International“).

T2V-Preise (Alibaba Cloud / Bailian)

  • wan2.6-t2v: 0.6 RMB/Sek (720P), 1 RMB/Sek (1080P)

I2V-Preise (Erster Frame)

  • wan2.6-i2v: 0.6 RMB/Sek (720P), 1 RMB/Sek (1080P)

Wan 2.6 R2V-Preise (Referenzvideo)

Wan 2.6 R2V berechnet sowohl Eingabe- als auch Ausgabe-Videosekunden und weist ausdrücklich darauf hin:
  • Fehlschläge werden nicht berechnet
  • Die Abrechnungsdauer des Eingabevideos ist gedeckelt (dokumentiert als „nicht mehr als 5 Sekunden“ für die Abrechnung)
Preisgestaltung: wan2.6-r2v: 0.6 RMB/Sek Eingang + 0.6 RMB/Sek Ausgang (720P); 1 RMB/Sek Eingang + 1 RMB/Sek Ausgang (1080P)
Standardwerte zur Kostenkontrolle (dringend empfohlen)
  • Entwicklungs-/Test-Standard: 720P + kürzeste Dauer, die Ihre UX zulässt
  • Serverseitige Obergrenzen hinzufügen: max. Dauer, max. Auflösung, max. Jobs/Benutzer/Tag
  • Referenzvideo-Validierung vor der R2V-Einreichung verlangen (Format/Größe/Dauer), um Verschwendung zu reduzieren

Wan 2.6 pricing comparison

6. Zuverlässigkeits-Reibungspunkte bei Wan 2.6, auf die Sie tatsächlich stoßen werden

Regionale Bindung

Peking und Singapur haben unabhängige API-Schlüssel und Anfrage-Endpunkte; das Mischen dieser kann zu Auth-Fehlern führen.

SDK-Lücken (I2V)

Alibabas eigene Dokumente weisen darauf hin, dass wan2.6-i2v zum Zeitpunkt des Schreibens nicht via SDK unterstützt wird (nur HTTP-Workflow).

URLs und Assets

Über Workflows hinweg übergeben Sie Medien via URLs (HTTP/HTTPS), und Sie benötigen möglicherweise einen Upload-Schritt, um temporäre URLs für lokale Dateien zu erstellen.


7. Verwendung von Wan 2.6 über EvoLink.ai (Einheitliche API + Sauberes Task-Modell)

Wenn Sie nicht möchten, dass Ihr Anwendungscode eng an die Request/Response-Eigenheiten eines Anbieters gekoppelt ist, bietet EvoLink einen einzigen Endpunkt für die Wan 2.6 Videogenerierung:
  • POST https://api.evolink.ai/v1/videos/generations
  • Wan 2.6 Modelle (Beispiele):
    • wan2.6-text-to-video
    • wan2.6-reference-video
  • Asynchrone Verarbeitung mit Task-IDs, und generierte Videolinks sind für 24 Stunden gültig (prompt speichern).
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-text-to-video",
    "prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
  }'
curl --request POST \
  --url https://api.evolink.ai/v1/videos/generations \
  --header 'Authorization: Bearer YOUR_API_KEY' \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "wan2.6-reference-video",
    "prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
    "video_urls": [
      "https://your-cdn.example.com/reference_character.mp4"
    ]
  }'

Dieser Endpunkt akzeptiert bis zu 3 Referenzvideos und dokumentiert Anforderungen wie Format (mp4/mov), Dateigröße (≤100MB) und Dauerbereich (2–30s).


8. Liefern Sie Wan 2.6 schneller aus

Wenn Sie Produktions-Videofunktionen erstellen – UGC-Erstellungstools, Marketing-Automatisierung, Produktvisualisierung oder Storyline-Generierung – ist der schwierige Teil nicht „kann das Modell Video generieren?“ Der schwierige Teil ist die Operationalisierung: Aufgaben-Orchestrierung, Ausgabenkontrolle und die Entwicklung der Modell-/Anbieterwahl im Laufe der Zeit.

EvoLink.ai ist für diese Realität gebaut:
  • Eine API-Oberfläche für Wan 2.6 (und andere Videomodelle, wenn Sie Ihren Stack erweitern)
  • Ein sauberes asynchrones Aufgabenmuster, das Sie in Ihrem Backend standardisieren können
  • Ein praktischer Pfad, um Integrationsaufwand zu reduzieren, wenn Anbieter Parameter aktualisieren oder neue Endpunkte hinzufügen

9. FAQ (Produktionsnotizen)

1) Welche Dauer unterstützt Wan 2.6 für jeden Modus?

  • Text-to-Video (wan2.6-t2v): 5 / 10 / 15 Sekunden
  • Image-to-Video (wan2.6-i2v): 5 / 10 / 15 Sekunden
  • Referenzvideo (wan2.6-r2v): 5 / 10 Sekunden

2) Kann ich mein eigenes Audio mitbringen? Was sind die Einschränkungen?

Ja – T2V und I2V akzeptieren audio_url. Die Dokumente spezifizieren:
  • Formate: wav / mp3
  • Dauer: 3–30 Sekunden
  • Größe: ≤ 15MB
  • Wenn Audio länger als die angeforderte Videodauer ist, wird es abgeschnitten; wenn kürzer, bleibt das restliche Video stumm.

3) Wie erzwinge ich eine stumme Ausgabe (kein Auto-Audio)?

Verwenden Sie audio: false. Dies gilt nur, wenn Sie keine audio_url übergeben, und audio_url hat eine höhere Priorität als audio.

4) Was sind sichere Grenzen für die Prompt-Länge?

Die T2V-API von Alibaba Cloud dokumentiert ein Prompt-Limit von 1500 Zeichen für wan2.6-t2v und ein Limit für negative_prompt von 500 Zeichen. EvoLinks Wan 2.6 T2V Endpunkt dokumentiert ebenfalls Prompt auf 1500 Zeichen begrenzt.

Bereit, Ihre KI-Kosten um 89 % zu senken?

Starten Sie noch heute mit EvoLink und erleben Sie die Vorteile intelligenter API-Routing.