阿里巴巴开源数字人视频生成模型

阿里巴巴正式发布并开源全新的Wan2.2-S2V语音驱动生视频（Speech-to-Video）模型。该创新工具专为数字人视频创作而开发，可以人像图片生成具备电影级质量的主体形象，并支持说话、唱歌与表演等动作。

该新模型是阿里巴巴 Wan2.2 视频生成系列的一员，通过单张图片及一段音频，即可生成高品质的动画视频。

Wan2.2-S2V 提供灵活多样的人物动画能力，支持肖像、半身以及全身等多种画幅形式的视频创作。模型可依据文本指引动态生成人物动作与场景元素，协助专业内容创作者捕捉精准的视觉表现，以满足特定叙事与设计需求。

该模型运用先进的语音驱动动画技术，呈现栩栩如生的人物动态，从自然对话到音乐演奏均能流畅展现，并可于同一场景中无缝处理多个角色。创作者还可透过语音音频驱动生动的动画形态，并支持多样化的主体形象，包括卡通、动物以及风格化的形象。

为满足专业内容创作者的多元需求，该技术灵活支持 480P 与 720P的解像度输出，确保生成的高质画面符合多样化的专业与创意标准，既适用于社交媒体内容，也适合专业展示。

技术创新增强角色动态并降低算力消耗

Wan2.2-S2V 超越传统数字人说话动画，结合文本引导的全局运动控制与音频驱动的细颗粒度局部运动，让角色在多样化和具挑战性的场景中依然能展现自然而富有表现力的角色动态。

另一项重要突破在于模型创新的帧处理技术，可将任意长度的历史帧压缩为单一且紧凑的隐层特征，大幅降低计算消耗，并成功实现长视频的稳定生成，从而解决长时段动画内容制作中的关键挑战。

模型的先进能力有赖完善的模型训练方法。阿里巴巴研究团队专门针对影视制作场景构建了大规模的音视频数据集，并通过混合并行训练，使 Wan2.2-S2V 能灵活支持不同格式的视频生成，从竖屏短视频到传统横屏影视作品均可胜任。

用户可在Hugging Face、GitHub以及阿里云开源社区ModelScope下载Wan2.2-S2V。作为全球开源生态的重要贡献者，阿里巴巴已于2025年2月开源Wan2.1系列模型，并于同年7月开源Wan2.2系列模型。至今Wan系列模型在Hugging Face与ModelScope平台的总下载量已突破690万次。

Tags: 业务与市场

阿里巴巴开源数字人视频生成模型

技术创新增强角色动态并降低算力消耗

其他资讯

英特尔助力阿里云推出多款云实例与存储方案，共筑AI时代云端算力基石

以创新引领功率未来，英飞凌亮相PCIM Asia 2025

率先实现后量子安全算法技术落地上车！小鹏汽车与阿里云签署后量子加密安全合作协议

阿里云公布国际扩展计划为新一代AI创新赋能

美的集团与华为签署战略合作协议，共拓AI领域创新生态

华为发布全球最强算力超节点和集群

英特尔助力阿里云推出多款云实例与存储方案，共筑AI时代云端算力基石

美的集团与华为签署战略合作协议，共拓AI领域创新生态

小鹏汽车首单汽车融资租赁出表型ABS成功发行，总规模达7.10亿元

首单外资消费REITs华夏凯德商业REIT成功上市

汉威士（Havas）大中华区董事长兼CEO伍雷先生访谈

德国卡赫 X 湖南新五丰丨深化合作，共筑畜牧清洁新防线

汉高粘合剂技术上海创新体验中心在华落成启用

现实版巧克力“梦工厂”，玛氏与菜鸟深化全球供应链合作

金鹏航空接收首架波音777货机

国家级认证！奥的斯智造实力再获认可

联系我们 | CONTACT US

阿里巴巴开源数字人视频生成模型

技术创新增强角色动态并降低算力消耗

其他资讯

联 系 我 们 | CONTACT US

联系我们 | CONTACT US