谷歌旗下人工智能团队宣布,其备受瞩目的视频生成模型Veo2正式通过Gemini API向开发者开放。这一消息迅速在科技圈掀起热潮,标志着AI视频生成技术迈入了全新的发展阶段。据悉,从即日起,凡是启用计费功能并达到Tier1及以上级别的开发者,均可通过API调用Veo2,体验其强大的文本到视频(Text-to-Video)和图像到视频(Image-to-Video)生成能力。这一举措不仅为开发者提供了尖端工具,也为AI驱动的创意产业注入了新的活力。

Veo 2重磅登陆Gemini API:AI视频生成革命正式启航

Veo2作为谷歌DeepMind团队的最新力作,以其高保真视频生成能力和对复杂指令的精准响应著称。该模型支持从文本描述或静态图像生成动态视频,最高可输出720p分辨率、每秒24帧的8秒视频片段。无论是基于文字脚本生成原创剧情,还是从单张图片扩展出流畅的动画场景,Veo2都能以惊艳的视觉效果和物理真实感完成任务。此前,Veo2已在Google Labs的VideoFX工具中向部分用户开放测试,而此次通过Gemini API的全面放开,则意味着开发者能够将其嵌入自己的应用中,探索更广泛的商业与创意可能性。

技术分析显示,Veo2的成功得益于其在生成模型架构上的多项优化。相较于第一代Veo,该版本在运动准确性、镜头控制和画面一致性上实现了显著提升,能够更好地模拟现实世界的物理规律和人类动作细节。例如,开发者可以通过详细的文本提示,指定镜头类型、拍摄角度甚至光影效果,生成具有电影质感的视频内容。此外,其图像到视频功能也为游戏开发、虚拟现实和数字营销等领域提供了全新的创作手段。

对于开发者而言,Veo2的开放具有重要意义。Gemini API作为谷歌AI生态的核心接口,已支持包括Gemini2.5在内的多种多模态模型,而Veo2的加入进一步丰富了其功能版图。目前,启用计费的开发者可直接通过API调用Veo2,每秒视频生成费用为0.35美元,这一定价策略在提供高质量输出的同时兼顾了成本可控性。更重要的是,该API支持灵活的集成方式,开发者能够将其与现有工作流结合,快速构建从个性化短视频到交互式故事体验的多样化应用。