
Wan 2.6 API ガイド: 制作用の Text-to-Video、Image-to-Video、およびリファレンス ビデオ

このガイドは、非同期オーケストレーション、予算のガードレール、信頼性パターン、統合戦略 (最後にクリーンな EvoLink.ai パスを含む) など、実際のシステムに生成ビデオを組み込む CTO およびエンジニア向けに書かれています。
1. Wan 2.6 モデル ファミリ: 適切なエンドポイントの選択
| 機能 | T2V (wan2.6-t2v) | I2V (wan2.6-i2v) | R2V (wan2.6-r2v) |
|---|---|---|---|
| ユースケース | ビジュアル アセットはまだありません(アイデア、ストーリーボードの下書き、合成 B ロール) | 最初のフレームをアンカーする必要があります(製品ショット、キャラクターのキーアート、ブランドの一貫性) | リファレンス クリップからのキャラクターの一貫性が必要(外観 + 声の音色) |
| 解像度 | 720P / 1080P | 720P / 1080P | 720P / 1080P |
| 期間 | 5 / 10 / 15 秒 | 5 / 10 / 15 秒 | 5 / 10 秒 |
| 出力形式 | 30fps、MP4 (H.264) | 30fps、MP4 (H.264) | 30fps、MP4 (H.264) |
| オーディオ | 自動ナレーションまたはカスタム音声ファイル | 自動ナレーションまたはカスタム音声ファイル | プロンプト経由で音声を生成します。入力動画の音声音色を参照できます |
| マルチショット | サポートされています | サポートされています | サポートされています |
- コンセプトを探るために T2V から始めます。
- 尊重する必要がある「真実の情報源」フレームがある場合は、I2V に切り替えます。
- ショット/シーン全体で アイデンティティの連続性 が必要な場合は、R2V を使用します。
2. 本番ワークフロー: 非同期タスク (リアルタイムではない)
主要な運用の詳細:
- 非同期ヘッダー
X-DashScope-Async: enableを送信する必要があります(DashScope HTTP モード)。 task_idを受け取り、成功または失敗するまでステータスをポーリングします。task_idは 24 時間 有効です(すぐに保存してください。復元するために「再送信」しないでください)。
- API ワーカーからタスクを送信する
task_id+ リクエスト ハッシュ + ユーザー/ジョブ メタデータを永続化- 指数バックオフ (またはスケジューラー/キュー) を使用したポーリング
- 成功したら、返された
video_urlを永続化し、ダウンロード/複製します (URL はプロバイダーによって時間制限されていることがよくあります)
3. マルチショット ストーリーテリング: Wan 2.6 での実際の変更点
有効にする方法 (T2V の例)
shot_type: "multi" を設定することでマルチショットが有効になります。公式の例では、これを「prompt_extend: true」と組み合わせています。マルチショットに関する実践的なプロンプト ガイダンス:
- 短い「ショットリスト」のようにプロンプトを作成します
- 主な被写体の説明をどのショットでも一貫したものに保つ
- 必要な場合にのみ、ショット トランジション (「カット」、「ワイド ショット」、「クローズ アップ」) を指定します。それ以外の場合は、モデルを自動セグメント化します
Wan 2.6 R2V での仕組み (文字参照)
character1、character2 などのトークンを使用して文字を参照し、配列順序に従って入力参照ビデオにマッピングします。各参照ビデオには 単一 の役割/オブジェクト ID が含まれている必要があります。

4. オーディオ: 安全に信頼できるもの
Wan 2.6 は、エンドポイントに応じてさまざまな方法でオーディオをサポートします。
T2V / I2V
-
オーディオ サポートには、自動ナレーション、またはオーディオとビジュアルの同期を実現するためのカスタム オーディオ ファイル URL の受け渡しが含まれます。
-
カスタム オーディオ ファイルを提供する場合、プラットフォームでは実際的な制約 (形式/サイズ) が文書化されており、要求された長さと一致しない場合、そのオーディオは切り詰められたり、無音のままになったりすることがあります。
R2V
- 音声はプロンプト経由で生成され、入力ビデオの音声の音色を参照できます (音声の連続性が必要な場合に便利です)。
エンドツーエンドで検証していない限り、「リップシンク」または「音素の正確な口の一致」を主張することは避けてください。公式ドキュメントではオーディオの生成とオーディオとビジュアルの同期について説明していますが、リップレベルの調整を保証するものではありません。
5. コスト モデル: 1 秒あたりの価格を事前に把握する
T2V 料金 (Alibaba Cloud / Bailian)
wan2.6-t2v: 0.6 RMB/秒 (720P)、1 RMB/秒 (1080P)
I2V 料金 (最初のフレーム)
wan2.6-i2v: 0.6 RMB/秒 (720P)、1 RMB/秒 (1080P)
Wan 2.6 R2V の価格設定 (参考ビデオ)
-
失敗しても料金は請求されません
-
入力ビデオの課金期間には制限があります (課金に関しては「5 秒を超えない」と文書化されています)
wan2.6-r2v: 0.6 RMB/秒入力 + 0.6 RMB/秒出力 (720P);1 RMB/秒入力 + 1 RMB/秒出力 (1080P)-
開発/テストのデフォルト: 720P + UX が許可する最短期間
-
サーバー側の上限を追加: 最大期間、最大解像度、最大ジョブ/ユーザー/日
-
無駄を削減するために、R2V の送信前にリファレンスビデオの検証 (形式、サイズ、長さ) を要求する

6. Wan 2.6 実際に当たる信頼性の摩擦
領域バインディング
北京とシンガポールは独立した API キーとリクエスト エンドポイントを持っています。これらを混在させると認証エラーが発生する可能性があります。
SDK ギャップ (I2V)
URL とアセット
ワークフロー全体で、URL (HTTP/HTTPS) 経由でメディアを渡すため、ローカル ファイルの一時 URL を生成するアップロード手順が必要になる場合があります。
7. EvoLink.ai による Wan 2.6 の使用 (統合 API + クリーン タスク モデル)
POST https://api.evolink.ai/v1/videos/generations- Wan 2.6 モデル (例):
wan2.6-text-to-videowan2.6-reference-video
- タスク ID を使用した非同期処理、および生成されたビデオ リンクは 24 時間有効です (すぐに保存されます)。
例: EvoLink 経由のテキストからビデオへの変換
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-text-to-video",
"prompt": "A cinematic multi-shot sequence of a runner crossing a neon-lit city bridge at night, rain reflections, dramatic camera cuts, realistic motion."
}'例: EvoLink 経由の参照ビデオ (コピーアンドペースト)
curl --request POST \
--url https://api.evolink.ai/v1/videos/generations \
--header 'Authorization: Bearer YOUR_API_KEY' \
--header 'Content-Type: application/json' \
--data '{
"model": "wan2.6-reference-video",
"prompt": "character1 walks into a bright cafe, orders a drink, then turns and smiles to camera; multi-shot narrative.",
"video_urls": [
"https://your-cdn.example.com/reference_character.mp4"
]
}'このエンドポイントは、最大 3 つの参照ビデオを受け付け、形式 (mp4/mov)、ファイル サイズ (≤100MB)、継続時間の範囲 (2 ~ 30 秒) などの要件を文書化しています。
8. Wan 2.6 をより速く発送します
UGC 作成ツール、マーケティング オートメーション、製品ビジュアライゼーション、ストーリーライン生成などのプロダクション ビデオ機能を構築している場合、難しい部分は「モデルがビデオを生成できるかどうか」ではありません。難しいのは、タスクのオーケストレーション、支出の管理、時間の経過とともに進化するモデル/プロバイダーの選択など、それを運用することです。
- Wan 2.6 用の 1 つの API サーフェス (およびスタックの拡張に応じて他のビデオ モデル)
- バックエンドで標準化できるクリーンな非同期タスク パターン
- プロバイダーがパラメータを更新したり、新しいエンドポイントを追加したりする際の統合チャーンを軽減するための実用的な方法
9. FAQ (制作ノート)
1) Wan 2.6 は各モードでどのような期間をサポートしていますか?
- テキストからビデオへの変換 (wan2.6-t2v): 5 / 10 / 15 秒
- 画像からビデオへの変換 (wan2.6-i2v): 5 / 10 / 15 秒
- 参考ビデオ (wan2.6-r2v): 5 / 10 秒
2) 自分のオーディオを持ち込むことはできますか?制約は何ですか?
audio_url を受け入れます。ドキュメントでは次のように指定されています。- フォーマット: wav / mp3
- 持続時間: 3 ~ 30 秒
- サイズ: ≤ 15MB
- 音声が要求されたビデオの長さより長い場合、音声は切り捨てられます。短い場合、残りのビデオは無音になります。
3) サイレント出力 (自動音声なし) を強制するにはどうすればよいですか?
audio: false を使用します。audio_url を渡さない場合にのみ適用され、audio_url の方が audio よりも優先されます。

