Veo 3.1 API
利用 Google DeepMind 的 Veo 3.1 模型。生成带有对话和音效的 1080p 视频。选择 Fast 追求速度或 Pro 追求最佳质量。
No sample available
Upload up to 3 images
Click to upload or drag and drop
Supported formats: JPG, JPEG, PNG, WEBP
Maximum file size: 10MB; Maximum files: 3
Click Generate to see preview
History
最多保留20条0 运行中 · 0 已完成
Veo 3.1 API — 生产级带同步音频视频
集成 Google 最新的生成式视频模型。制作 4-8 秒片段,语音与环境音完美对齐。支持竖屏格式、参考图以及快速的提示词迭代。

使用 Veo 3.1 API 可以构建什么?
为什么开发者选择 Veo 3.1 API
Veo 3.1 提供两种变体:Fast 追求速度和性价比,Pro 追求最高视觉保真度。两者都包含原生音频生成。
满足不同需求的两种变体
Fast 变体适合快速迭代和高性价比需求。Pro 变体适合追求最高质量和复杂场景。
高性价比的规模化扩展
更低的每秒计算成本,使得为广告 A/B 测试或用户个性化内容进行数千次迭代成为可能。
生产级输出
提供用于草稿的 720p 和用于最终导出的 1080p 分辨率,并内置水印以确保安全与合规。
如何集成 Veo 3.1
一个简单的 API 工作流,用于通过文本或图像生成带音频的视频。
第 1 步 — 选择变体并配置
选择 Fast 或 Pro 变体。设置所需的时长(4秒、6秒、8秒)、画幅比例和分辨率(720p/1080p)。
第 2 步 — 发送提示词与参考图
提交您的文本提示词,以及可选的用于风格控制的参考图像,或用于转场的起始/结束帧。
第 3 步 — 获取视频 + 音频
接收完全内嵌同步音频的 MP4 输出文件,即可直接播放或发布。
核心能力
通过 Veo 3.1 API 端点可用的高级功能
原生音频生成
创建与视频动作在时间上对齐的语音、音乐和音效。
Fast 与 Pro 变体
选择 Fast 追求速度和性价比,或选择 Pro 追求最高视觉质量。
视觉控制
使用图生视频或首尾帧输入来控制流程和构图。
灵活分辨率
无需更换模型即可在追求速度的 720p 和追求质量的 1080p 之间切换。
物理模拟
更新的世界模型以高逼真度处理流体动力学、光照和碰撞。
SynthID 水印
默认嵌入不可见水印,以确保负责任的 AI 内容使用。
Veo 3.1 API 变体对比
对比 Fast 和 Pro 变体
| Model | Duration | Resolution | Price | Strength |
|---|---|---|---|---|
| Veo 3.1 Fast | 4/6/8秒 | 720p / 1080p | ~$0.15/秒 (EvoLink) | 延迟最低;原生音频;最多 3 张参考图;适合快速迭代。 |
| Veo 3.1 Pro | 4/6/8秒 | 720p / 1080p | 溢价 | 最高视觉保真度;复杂物理效果;首尾帧模式;适合最终资产。 |
| Sora (Pro) | 10–15秒 | 最高 1080p | ~$0.20/10秒 (标准) | 更长的原生时长;强大的提示词遵循度;有竞争力的物理效果。 |
常见问题解答
Everything you need to know about the product and billing.
API Reference
Select endpoint
Authentication
All APIs require Bearer Token authentication.
Authorization:
Bearer YOUR_API_KEY/v1/videos/generationsCreate Video
Veo 3.1 Fast Lite (veo3.1-fast) model supports text-to-video, first-frame image-to-video and other modes.
Asynchronous processing mode, use the returned task ID to .
Generated video links are valid for 24 hours, please save them promptly.
Request Parameters
modelstringRequiredDefault: veo3.1-fastVideo generation model name.
veo3.1-fastpromptstringRequiredPrompt describing what kind of video to generate.
Notes
- Limited to 2000 tokens
A cat playing pianoaspect_ratiostringOptionalDefault: autoVideo aspect ratio. When set to auto: image-to-video will automatically select based on the input image ratio, text-to-video will automatically select based on the prompt content.
| Value | Description |
|---|---|
| auto | Automatic selection based on input |
| 16:9 | Landscape video |
| 9:16 | Portrait video |
autoimage_urlsarrayOptionalReference image URL list for image-to-video feature.
Notes
- 1 image for first-frame video generation
- 2 images for first-and-last-frame video generation
- Up to 3 images for reference image to video
- Max size: 10MB per image
- Formats: .jpg, .jpeg, .png, .webp
- URLs must be directly viewable by the server
http://example.com/image1.jpggeneration_typestringOptionalVideo generation mode, default matches based on image count.
| Value | Description |
|---|---|
| TEXT | Text to video |
| FIRST&LAST | First and last frame to video (1-2 images) |
| REFERENCE | Reference image to video (up to 3 images, 16:9 only) |
TEXTenhance_promptbooleanOptionalDefault: trueWhether to automatically translate the prompt to English. When enabled, non-English prompts will be automatically translated to English for better generation results.
truecallback_urlstringOptionalHTTPS callback address after task completion.
Notes
- Triggered on completion, failure, or cancellation
- Sent after billing confirmation
- HTTPS only, no internal IPs
- Max length: 2048 chars
- Timeout: 10s, Max 3 retries
https://your-domain.com/webhooks/video-task-completed

