Gemini Omni まもなく登場詳しく見る
Wan 2.7 APIガイド:テキストから動画、画像から動画、リファレンス動画、動画編集 — 完全統合ハンドブック
チュートリアル

Wan 2.7 APIガイド:テキストから動画、画像から動画、リファレンス動画、動画編集 — 完全統合ハンドブック

EvoLink Team
EvoLink Team
Product Team
2026年5月22日
24 分
これはWan 2.7 APIの決定版ガイドです — 4つの動画モードすべて、本番で重要なすべてのパラメータ、ターミナルに貼り付けられるコード例、実際のコスト計算、エラーハンドリング、そしてWan 2.6からの移行パスを網羅しています。実験ではなく、実装が必要な開発者とエンジニア向けに書かれています。
製品概要とプレイグラウンドについては、Wan 2.7モデルページをご覧ください。ファミリーレベルの比較については、Wan APIファミリーコレクションをご覧ください。Wanラインナップ全体の料金内訳については、Wan API料金ガイドをご覧ください。

要約

  • Wan 2.7は1つのエンドポイントに4つのモデル。 テキストから動画、画像から動画(先頭/末尾フレーム制御付き)、マルチキャラクターリファレンス動画(ボイスクローニング付き)、指示ベースの動画編集 — すべてPOST /v1/videos/generationsで利用可能。
  • EvoLinkの料金: 720pで$0.086/秒、1080pで$0.144/秒。10秒の720pクリップのコストは$0.86。サブスクリプションなし。
  • モデルID: wan2.7-text-to-videowan2.7-image-to-videowan2.7-reference-videowan2.7-video-edit
  • 非同期ワークフロー。 すべてのリクエストは即座にタスクIDを返します。GET /v1/tasks/\{task_id\}でステータスをポーリング。動画URLは24時間で期限切れ。
  • EvoLinkでWan 2.7がWan 2.6に追加するもの: Wan 2.7ルートによる動画編集、I2Vでの先頭・末尾フレーム制御、ボイスクローニング付きマルチキャラクターリファレンス動画。
  • 失敗したタスクは課金されません — リファレンス動画モードと動画編集モードの場合。

目次

  1. クイックスタート:60秒で最初のWan 2.7動画を生成
  2. 適切なモデルIDを選択
  3. モード1:テキストから動画
  4. モード2:フレーム制御付き画像から動画
  5. モード3:ボイスクローニング付きリファレンス動画
  6. モード4:動画編集
  7. 料金とコスト計算
  8. 非同期ワークフローとタスク管理
  9. エラーハンドリングと一般的なステータスコード
  10. 本番パターンとガードレール
  11. Wan 2.6からWan 2.7への移行
  12. パラメータリファレンスチートシート
  13. よくある質問

1. クイックスタート:60秒で最初のWan 2.7動画を生成

前提条件: EvoLinkアカウントとダッシュボードからのAPIキー。

ステップ1:動画を生成

curl -X POST https://api.evolink.ai/v1/videos/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "wan2.7-text-to-video",
    "prompt": "A drone shot over a misty mountain lake at sunrise, slow camera push forward, cinematic color grading",
    "quality": "720p",
    "aspect_ratio": "16:9",
    "duration": 5
  }'
レスポンス:
{
  "id": "task-unified-1757169743-7cvnl5zw",
  "status": "pending",
  "created": 1757169743
}

ステップ2:結果をポーリング

curl https://api.evolink.ai/v1/tasks/task-unified-1757169743-7cvnl5zw \
  -H "Authorization: Bearer YOUR_API_KEY"
status"completed"になると、レスポンスに動画URLを含むresults配列が含まれます。24時間以内にダウンロードしてください — リンクは期限切れになります。

ステップ3:以上です

~$0.43(5秒 × $0.086/秒)で動画を生成しました。modelパラメータを変更して、以下の4つのモードを切り替えてください。

2. 適切なモデルIDを選択

モデルIDモード最適な用途時間
wan2.7-text-to-videoテキスト → 動画広告クリエイティブ、SNSクリップ、スクリプトベースの生成2-15秒
wan2.7-image-to-video画像 → 動画製品アニメーション、ストーリーボードから動画、先頭/末尾フレーム制御2-15秒
wan2.7-reference-videoリファレンス → 動画ブランドスポークスパーソン、マルチキャラクターシリーズ、ボイスクローニング2-15秒(画像のみ)、2-10秒(動画リファレンス含む)
wan2.7-video-edit動画 → 編集済み動画スタイル変換、背景変更、衣装変更、カラー化2-10秒
4つすべてが同じエンドポイントを使用:POST /v1/videos/generationsmodelパラメータだけが変わります。

3. モード1:テキストから動画

機能

テキストプロンプトから動画を生成します。リップシンクや音楽同期出力用のオプションのドライビングオーディオをサポート。オーディオが提供されない場合、自動的にBGMを生成します。

主要パラメータ

パラメータ必須デフォルト説明
modelはいwan2.7-text-to-video
promptはいシーンの説明、最大5000文字
negative_promptいいえ除外する内容、最大500文字
audio_urlsいいえドライビングオーディオURL 1つの配列(wav/mp3、2-30秒、最大15MB)
qualityいいえ720p720pまたは1080p
aspect_ratioいいえ16:916:99:161:14:33:4
durationいいえ52-15秒(整数)
seedいいえランダム1-2147483647(再現可能な出力用)
prompt_extendいいえfalseLLMによるプロンプト書き換え(短いプロンプトにはtrueを設定)
callback_urlいいえタスク完了webhook用のHTTPS URL

マルチショットナラティブ

プロンプト内で直接ショット構造を制御:

{
  "model": "wan2.7-text-to-video",
  "prompt": "A tense detective story. Shot 1 [0-3s] wide angle: rainy night street, neon lights. Shot 2 [3-6s] medium: detective enters old building. Shot 3 [6-9s] close-up: detective's determined eyes. Shot 4 [9-12s] medium: cautious advance through dim corridor. Shot 5 [12-15s] close-up: discovers key clue.",
  "aspect_ratio": "16:9",
  "duration": 15
}

ドライビングオーディオ付き

{
  "model": "wan2.7-text-to-video",
  "prompt": "A cartoon general in golden armor on a horse, reciting a classical poem",
  "audio_urls": ["https://your-cdn.com/recital.mp3"],
  "duration": 10
}
オーディオのトランケーションルール:オーディオがdurationより長い場合、最初のN秒のみ使用されます。短い場合、残りの動画部分は無音になります。

4. モード2:フレーム制御付き画像から動画

機能

1枚または2枚のキーフレーム画像から動画を生成します。これは先頭・末尾フレーム制御を提供するモードです — 両端を定義すると、モデルが中間の動きの軌道を推定します。

3つの生成モード

generation_mode入力ユースケース
first_frameimage_start(+ オプションのaudio_urls製品写真やキャラクターイラストをアニメーション化
first_last_frameimage_start + image_end(+ オプションのaudio_urls開始・終了状態を定義し、モデルが動きを補完
video_continuationvideo_urls[0](+ オプションのimage_end既存クリップを延長、オプションで終了フレームを指定
generation_modeが省略された場合、サーバーが提供されたメディアから推定します。

有効な入力の組み合わせ

  1. image_startのみ
  2. image_start + audio_urls
  3. image_start + image_end
  4. image_start + image_end + audio_urls
  5. video_urls(継続)
  6. video_urls + image_end(終了フレーム付き継続)

その他の組み合わせは拒否されます。

例:先頭・末尾フレーム

curl -X POST https://api.evolink.ai/v1/videos/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "wan2.7-image-to-video",
    "generation_mode": "first_last_frame",
    "prompt": "A product bottle rotating 360 degrees with soft studio lighting",
    "image_start": "https://your-cdn.com/bottle-front.jpg",
    "image_end": "https://your-cdn.com/bottle-back.jpg",
    "quality": "1080p",
    "duration": 5
  }'

例:動画の継続

{
  "model": "wan2.7-image-to-video",
  "generation_mode": "video_continuation",
  "prompt": "The scene continues with the character walking toward the sunset",
  "video_urls": ["https://your-cdn.com/previous-clip.mp4"],
  "image_end": "https://your-cdn.com/sunset-ending.jpg",
  "duration": 5
}

5. モード3:ボイスクローニング付きリファレンス動画

機能

リファレンス画像や動画からキャラクターの外見を保持しながら新しい動画シーンを生成 — オプションで短いオーディオサンプルからボイスクローニングも可能です。これにより、各人物がエピソード間で一貫した見た目と声を持つマルチキャラクター動画シリーズを構築できます。

主な制約

  • image_urls + video_urlsの合計:最大5アイテム
  • image_startとボイスオーディオはこの5アイテム制限にカウントされません
  • 時間:2-15秒(画像のみのリファレンス)、2-10秒(動画リファレンスを含む場合)
  • 課金:入力動画の時間 + 出力動画の時間。失敗したタスクは無料。

プロンプト内のキャラクターインデックス

入力配列内の位置でキャラクターを参照:

  • 英語:Image 1Image 2Video 1Video 2
  • 中国語:图1图2视频1视频2
画像と動画は独立してカウントされます — Image 1Video 1は共存できます。

ボイスクローニング:2つの方法

方法1:voice_bindings(推奨)

キャラクターリファレンスとボイスオーディオの正確なキーバリューマッピング:

{
  "model": "wan2.7-reference-video",
  "prompt": "Image 1 holds Image 2 and says: 'What lovely sunshine today'",
  "image_urls": [
    "https://your-cdn.com/girl.jpg",
    "https://your-cdn.com/toy.png"
  ],
  "model_params": {
    "voice_bindings": {
      "image1": "https://your-cdn.com/girl-voice.mp3"
    }
  },
  "duration": 10
}
方法2:audio_urls(レガシー位置指定)
image_urls / video_urlsと位置で揃えたオーディオクリップ。動作しますが明示性が低い。新規統合にはvoice_bindingsを使用してください。

例:マルチキャラクターブランド動画

{
  "model": "wan2.7-reference-video",
  "prompt": "Image 1 and Image 2 are having a conversation in a modern office. Image 1 explains the product while Image 2 takes notes. The scene is professional and well-lit.",
  "image_urls": [
    "https://your-cdn.com/spokesperson-a.jpg",
    "https://your-cdn.com/spokesperson-b.jpg"
  ],
  "image_start": "https://your-cdn.com/office-wide-shot.jpg",
  "model_params": {
    "voice_bindings": {
      "image1": "https://your-cdn.com/voice-a.mp3",
      "image2": "https://your-cdn.com/voice-b.mp3"
    }
  },
  "quality": "1080p",
  "duration": 10
}

マルチグリッドストーリーボード

複数パネルを持つ単一画像リファレンス(例:キャラクターポーズの3×3グリッド)の場合:

{
  "model": "wan2.7-reference-video",
  "prompt": "Reference image. 3D cartoon style. 1. Wide shot of fantasy forest. 2. Boy parts the vines. 3. Robot scans ahead. 4. Close-up of map. 5. Boy's excited face. 6. They leap over roots.",
  "image_urls": ["https://your-cdn.com/storyboard-grid.png"],
  "duration": 15
}

6. モード4:動画編集

機能

既存の動画を取得し、テキストガイド付きの編集を適用 — スタイル変換、背景置換、衣装変更、カラー化、古い映像の修復 — ゼロから再生成せずに。EvoLinkの現在のWanルートでは、動画編集はWan 2.7を通じて公開されています。

主要パラメータ

パラメータ必須デフォルト説明
modelはいwan2.7-video-edit
promptはい自然言語による編集指示
video_urlsはいソース動画1つの配列(mp4/mov、2-10秒)
image_urlsいいえスタイル/コンテンツガイド用リファレンス画像(最大4枚)
keep_original_soundいいえfalsetrueで元のオーディオを保持;falseでモデルがオーディオを処理
durationいいえ00 = 元の長さを維持;明示的な値:2-10秒
qualityいいえ720p720pまたは1080p
課金:入力動画の時間 + 出力動画の時間。失敗したタスクは無料。

例:指示のみのスタイル変更

curl -X POST https://api.evolink.ai/v1/videos/generations \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "wan2.7-video-edit",
    "prompt": "Convert the entire scene to a vintage film look with warm color grading and film grain",
    "video_urls": ["https://your-cdn.com/source-clip.mp4"],
    "keep_original_sound": true,
    "duration": 0
  }'

例:リファレンスガイド付き衣装変更

{
  "model": "wan2.7-video-edit",
  "prompt": "Replace the girl's outfit with the clothes from the reference image",
  "video_urls": ["https://your-cdn.com/source.mp4"],
  "image_urls": ["https://your-cdn.com/target-outfit.png"]
}

編集できること

  • スタイル変換: 「アニメスタイルに変換」「水彩画エフェクトを適用」
  • 背景変更: 「背景を夜の雨に濡れた東京の通りに変更」
  • オブジェクト/衣装変更: 「ジャケットを赤に変更」「帽子を王冠に置き換え」
  • カラー化: 「この白黒映像をカラーに変換」
  • ライティング: 「ゴールデンアワーのライティングに変更」

7. 料金とコスト計算

画質秒あたりのコスト10秒クリップ
720p$0.086$0.86
1080p$0.144(720pの1.67倍)$1.44

サブスクリプションなし、最低契約なし。正常に生成された動画に対してのみ課金されます。

他プロバイダーとのコスト比較(プロバイダーページの掲載情報、2026年5月時点)

プロバイダー秒あたりの料金720p 10秒のコスト
EvoLink$0.086/秒$0.86
Together AI$0.10/秒$1.00
Segmind(720pクリップ)~$0.063/秒($0.625/10秒ベース)$0.625
Segmind(1080pクリップ)~$0.094/秒($0.9375/10秒ベース)$0.9375

リファレンス動画と動画編集の特別課金

これらの2つのモードは入力動画の時間 + 出力動画の時間で課金されます。5秒のリファレンス動画を渡して10秒の出力を生成した場合、15秒分が課金されます。失敗したタスクは課金されません。

予算見積もり式

月間コスト = (平均時間 × 秒あたりのコスト × 1日あたりのボリューム × 30)
例:100クリップ/日 × 8秒 × $0.086/秒 × 30日 = 720pで月額$2,064

8. 非同期ワークフローとタスク管理

すべてのWan 2.7リクエストは同じ非同期パターンに従います:

POST /v1/videos/generations → タスクID + ステータス "pending" を返す GET /v1/tasks/{task_id} → ステータスが "completed" または "failed" になるまでポーリング 24時間以内にresults配列から動画URLをダウンロード

タスクのライフサイクル

ステータス意味
pendingタスク受理済み、キューで待機中
processingタスクが生成処理中
completed動画準備完了、results配列にURLあり
failed生成失敗(エラーメッセージを確認)

コールバックURL(webhook)

ポーリングの代わりに、リクエストにcallback_urlを提供してください。タスクが完了、失敗、またはキャンセルされた際にEvoLinkがこのURLにPOSTします。コールバックは課金確認後に発火されます。

本番のベストプラクティス

  1. タスクIDを送信後すぐに永続化。 サービスがクラッシュしても復旧できます。
  2. ポーリング時に指数バックオフを使用。 5秒から開始し、最大30秒まで。
  3. 結果をすぐにダウンロードしてアーカイブ。 動画URLは24時間で期限切れ。
  4. 送信をべき等にする。 リクエストペイロードをハッシュし、重複排除してリトライストームによる二重課金を防止。

9. エラーハンドリングと一般的なステータスコード

HTTPコードエラーコード意味アクション
400invalid_requestパラメータ不正モデルID、プロンプト長、時間範囲、メディアURLを確認
401unauthorizedトークンが無効または期限切れAPIキーを更新
402insufficient_quotaクレジット不足アカウントにチャージ
403model_access_deniedトークンにモデルアクセス権限なしAPIキーの権限を確認
429rate_limit_exceededリクエスト過多バックオフして指数遅延でリトライ
500internal_errorサーバーエラー30秒後にリトライ;持続する場合はサポートに連絡

よくあるミス

  • モデルIDのスペルミス。 wan2.7-text-to-videoであり、wan-2.7-text-to-videowan27-t2vではありません。古いモデルIDは有用なエラーなしでクリーンな404を返します。
  • I2Vモードで無効なメディアの組み合わせを送信。 有効な入力の組み合わせ表を確認してください。
  • 結果を時間内にダウンロードしない。 動画URLは24時間で期限切れ。パイプラインに自動ダウンロードを組み込んでください。

10. 本番パターンとガードレール

予算ガードレール

1. サーバー側で最大時間を制限(例:ソーシャルコンテンツには10秒) 2. ユースケースが特に1080pを必要としない限り、デフォルトは720p 3. ユーザー、機能、モデルIDごとに支出を追跡 4. リファレンス動画の予算(入力+出力課金)をT2V/I2Vと分離 5. トラフィックをスケーリングする前にユーザーごとの日次制限を設定

信頼性パターン

  • べき等キーでリトライ。 リクエストペイロードをハッシュし、再送信前に既存タスクを確認。
  • タイムアウトハンドリング。 タスクが5分後に完了していない場合、盲目的に再送信するのではなく手動レビュー用にマーク。
  • フォールバック戦略。 Wan 2.7が特定モードで永続的なエラーを返す場合、Wan 2.6またはWan 2.5へのフォールバックを検討。
  • アセット検証。 送信前に画像の寸法、動画の時間、オーディオ形式を検証。不良アセットはモデル品質の問題に見える失敗を引き起こします。

キューアーキテクチャ

1日100本以上の動画を生成する本番システム向け:

ユーザーリクエスト → バリデーション → ジョブキュー → Wan 2.7 API → 結果ハンドラー → CDNアーカイブ → ユーザーに通知

ユーザー向けリクエストハンドラーからAPIを直接呼び出さないでください。常にバックグラウンドジョブシステムを経由してください。


11. Wan 2.6からWan 2.7への移行

変わらないもの

  • APIエンドポイント:POST /v1/videos/generations
  • 認証:同じAPIキーとBearerトークン
  • 非同期パターン:同じタスクID / ポーリング / コールバックフロー
  • EvoLinkの課金:同じアカウントとクレジットシステム

変わるもの

以下のIDはEvoLinkルートモデルIDであり、DashScope / Alibaba Cloudの生のモデル名ではありません。Alibabaの APIを直接使用する場合、モデル名は異なる規則に従います(例:wan2.7-t2v-2026-04-25)。
項目Wan 2.6Wan 2.7
モデルIDwan2.6-text-to-videowan2.6-image-to-videowan2.6-reference-videowan2.7-text-to-videowan2.7-image-to-videowan2.7-reference-videowan2.7-video-edit
I2Vフレーム制御先頭フレームのみ(image_start先頭と末尾フレーム(image_start + image_end
I2V生成モード暗黙的明示的なgeneration_modeパラメータ(first_framefirst_last_framevideo_continuation
リファレンス動画単一リファレンス、ボイスなし最大5つのリファレンス、voice_bindingsによるボイスクローニング
動画編集利用不可新機能:wan2.7-video-edit
マルチショットT2Vサポートサポート(同じプロンプト構文)

ステップバイステップの移行

  1. modelパラメータを変更。 wan2.6-text-to-videowan2.7-text-to-videoに置換(他のモードも同様)。
  2. 既存のプロンプトでテスト。 Wan 2.7は同じプロンプト形式を処理します。書き換え不要。
  3. 新機能を段階的に採用。 ワークフローの要件に応じてgeneration_modeimage_endvoice_bindings、動画編集を追加。
  4. Wan 2.6をフォールバックとして維持。 両バージョンはEvoLinkで並行稼働。すべてを一度に移行する必要はありません。

12. パラメータリファレンスチートシート

共有パラメータ(全モード)

パラメータ説明
modelstring必須。4つのモデルIDのいずれか
promptstring必須。最大5000文字
qualitystring720p(デフォルト)または1080p
callback_urlstringタスク完了用のHTTPS webhook

テキストから動画固有

パラメータ説明
negative_promptstring最大500文字
audio_urlsarrayドライビングオーディオ1つ(wav/mp3、2-30秒、最大15MB)
aspect_ratiostring16:99:161:14:33:4
durationnumber2-15秒
seedinteger1-2147483647
prompt_extendbooleanLLMプロンプト書き換え(デフォルトfalse)

画像から動画固有

パラメータ説明
generation_modestringfirst_framefirst_last_framevideo_continuation
image_startstring先頭フレーム画像URL
image_endstring末尾フレーム画像URL
video_urlsarray継続用ソース動画
audio_urlsarrayドライビングオーディオ(video_continuationでは不可)
durationnumber2-15秒

リファレンス動画固有

パラメータ説明
image_urlsarrayリファレンス画像(5アイテム制限にカウント)
video_urlsarrayリファレンス動画(5アイテム制限にカウント)
image_startstring開始フレーム(制限にカウントされない)
model_params.voice_bindingsobjectリファレンスキーからボイスオーディオURLへのマップ
audio_urlsarrayレガシーボイスバインディング(位置指定)
durationnumber2-15秒(画像のみ)または2-10秒(動画リファレンスあり)

動画編集固有

パラメータ説明
video_urlsarrayソース動画1つのみ
image_urlsarrayリファレンス画像(最大4枚)
keep_original_soundbooleantrueで元のオーディオを保持
durationnumber0 = 元の長さ;明示的:2-10秒

13. よくある質問

EvoLinkでのWan 2.7の料金は?

720pで$0.086/秒、1080pで$0.144/秒。10秒の720pクリップのコストは$0.86。サブスクリプションや最低契約なし。

Wan 2.7とWan 2.6の違いは?

EvoLinkでは、Wan 2.7は動画編集、ボイスクローニング付きマルチキャラクターリファレンス動画、I2Vモードでの先頭・末尾フレーム制御を提供します。Wan 2.6はシネマティックストーリーテリングやFlashバリアントによる高速イテレーションに引き続き有用です。両方がEvoLinkで並行稼働しています。

Wan 2.7は自動的にオーディオを生成しますか?

テキストから動画モードでは、はい — audio_urlsを提供しない場合、モデルは視覚コンテンツに合ったBGMや効果音を自動生成します。

失敗したタスクは課金されますか?

リファレンス動画と動画編集モードでは、失敗したタスクは明示的に課金されません。テキストから動画と画像から動画では、実際に生成された動画の時間に基づいて課金されます。

Wan 2.7をNSFWコンテンツに使用できますか?

いいえ。コンテンツポリシーに違反するプロンプトはモデルが拒否します。プロンプトが拒否された場合、invalid_contentエラーを受け取ります。

ボイスクローニングでサポートされるオーディオ形式は?

wavmp3。ボイスクローニングには1-10秒、ドライビングオーディオには2-30秒の長さが推奨されます。最大ファイルサイズは15MB。

動画URLの期限切れにどう対処しますか?

動画URLは24時間後に期限切れになります。タスク完了後すぐにパイプラインに自動ダウンロードとアーカイブのステップを組み込んでください。最終アセットは自社のCDNまたはオブジェクトストレージに保存してください。

Wan 2.6からダウンタイムなしで移行できますか?

はい。modelパラメータをwan2.6-*からwan2.7-*に変更してください。エンドポイント、認証、非同期パターンは同一です。両バージョンが並行稼働しているため、ルートごとに移行できます。

次のステップ

AIコストを89%削減する準備はできましたか?

今すぐEvoLinkを始めて、インテリジェントなAPIルーティングの力を体験してください。