阿里巴巴正式发布并开源全新的Wan2.2-S2V语音驱动生视频(Speech-to-Video)模型。 该创新工具专为数字人视频创作而开发,可以人像图片生成具备电影级质量的主体形象,并支持说话、唱歌与表演等动作。
该新模型是阿里巴巴 Wan2.2 视频生成系列的一员,通过单张图片及一段音频,即可生成高品质的动画视频。
Wan2.2-S2V 提供灵活多样的人物动画能力,支持肖像、半身以及全身等多种画幅形式的视频创作。 模型可依据文本指引动态生成人物动作与场景元素,协助专业内容创作者捕捉精准的视觉表现,以满足特定叙事与设计需求。
该模型运用先进的语音驱动动画技术,呈现栩栩如生的人物动态,从自然对话到音乐演奏均能流畅展现,并可于同一场景中无缝处理多个角色。 创作者还可透过语音音频驱动生动的动画形态,并支持多样化的主体形象,包括卡通、动物以及风格化的形象。
为满足专业内容创作者的多元需求,该技术灵活支持 480P 与 720P的解像度输出,确保生成的高质画面符合多样化的专业与创意标准,既适用于社交媒体内容,也适合专业展示。
技术创新增强角色动态并降低算力消耗
Wan2.2-S2V 超越传统数字人说话动画,结合文本引导的全局运动控制与音频驱动的细颗粒度局部运动,让角色在多样化和具挑战性的场景中依然能展现自然而富有表现力的角色动态。
另一项重要突破在于模型创新的帧处理技术,可将任意长度的历史帧压缩为单一且紧凑的隐层特征 ,大幅降低计算消耗,并成功实现长视频的稳定生成,从而解决长时段动画内容制作中的关键挑战。
模型的先进能力有赖完善的模型训练方法。 阿里巴巴研究团队专门针对影视制作场景构建了大规模的音视频数据集,并通过混合并行训练,使 Wan2.2-S2V 能灵活支持不同格式的视频生成 ,从竖屏短视频到传统横屏影视作品均可胜任。
用户可在Hugging Face、GitHub以及阿里云开源社区ModelScope下载Wan2.2-S2V。 作为全球开源生态的重要贡献者,阿里巴巴已于2025年2月开源Wan2.1系列模型,并于同年7月开源Wan2.2系列模型。 至今Wan系列模型在Hugging Face与ModelScope平台的总下载量已突破690万次。