当前位置:首页 > 元宇宙 > AI

一张图即可生成电影级数字人视频:阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

来源: 责编: 时间:2025-08-29 08:49:29 84观看
导读 8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。据介绍,该模型单次生成的视

8 月 26 日消息,今日晚间,阿里云宣布开源全新多模态视频生成模型通义万相 Wan2.2-S2V,仅需一张静态图片和一段音频,即可生成面部表情自然、口型一致、肢体动作丝滑的电影级数字人视频。IVq28资讯网——每日最新资讯28at.com

据介绍,该模型单次生成的视频时长可达分钟级,大幅提升数字人直播、影视制作、AI 教育等行业的视频创作效率。IVq28资讯网——每日最新资讯28at.com

IVq28资讯网——每日最新资讯28at.com

目前,Wan2.2-S2V 可驱动真人、卡通、动物、数字人等类型图片,并支持肖像、半身以及全身等任意画幅,上传一段音频后,模型就能让图片中的主体形象完成说话、唱歌和表演等动作。IVq28资讯网——每日最新资讯28at.com

Wan2.2-S2V 还支持文本控制,输入 Prompt 后还可对视频画面进行控制,让视频主体的运动和背景的变化更丰富。IVq28资讯网——每日最新资讯28at.com

例如,上传一张人物弹钢琴的照片、一段歌曲和一段文字,Wan2.2-S2V 即可生成一段完整、声情并茂的钢琴演奏视频,不仅能保证人物形象和原图一致,其面部表情和嘴部动作还能与音频对齐,视频人物的手指手型、力度、速度也能完美匹配音频节奏。IVq28资讯网——每日最新资讯28at.com

IVq28资讯网——每日最新资讯28at.com

据介绍,Wan2.2-S2V 采用了基于通义万相视频生成基础模型能力,融合了文本引导的全局运动控制和音频驱动的细粒度局部运动,实现了复杂场景的音频驱动视频生成;同时引入 AdaIN 和 CrossAttention 两种控制机制,实现了更准确更动态的音频控制效果;为保障长视频生成效果,Wan2.2-S2V 通过层次化帧压缩技术,大幅降低了历史帧的 Token 数量,通过该方式将 motion frames (注:历史参考帧) 的长度从数帧拓展到 73 帧,从而实现了稳定的长视频生成效果。IVq28资讯网——每日最新资讯28at.com

在模型训练上,通义团队构建了超 60 万个片段的音视频数据集,通过混合并行训练进行全参数化训练,充分挖掘了模型的性能。同时通过多分辨率训练、支持模型多分辨率的推理,可支持不同分辨率场景的视频生成需求,如竖屏短视频、横屏影视剧。IVq28资讯网——每日最新资讯28at.com

IVq28资讯网——每日最新资讯28at.com

实测数据显示,Wan2.2-S2V 在 FID(视频质量,越低越好)、EFID(表情真实度,越低越好)、CSIM(身份一致性,越高越好)等核心指标上取得了同类模型最好的成绩。IVq28资讯网——每日最新资讯28at.com

阿里云表示,自今年 2 月以来,通义万相已连续开源文生视频、图生视频、首尾帧生视频、全能编辑、音频生视频等多款模型,在开源社区和三方平台的下载量已超 2000 万。IVq28资讯网——每日最新资讯28at.com

开源地址:IVq28资讯网——每日最新资讯28at.com

GitHub:https://github.com/Wan-Video/Wan2.2IVq28资讯网——每日最新资讯28at.com

魔搭社区:https://www.modelscope.cn/ models / Wan-AI / Wan2.2-S2V-14BIVq28资讯网——每日最新资讯28at.com

HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-S2V-14BIVq28资讯网——每日最新资讯28at.com

体验地址:IVq28资讯网——每日最新资讯28at.com

通义万相官网:https://tongyi.aliyun.com/ wanxiang / generateIVq28资讯网——每日最新资讯28at.com

阿里云百炼:https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2978215IVq28资讯网——每日最新资讯28at.com

本文链接:http://www.28at.com/showinfo-45-27068-0.html一张图即可生成电影级数字人视频:阿里云通义万相 Wan2.2-S2V 视频生成模型宣布开源

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: ChatGPT 被指导致美国一名 16 岁少年自杀:未有效干预且起到“教学”作用

下一篇: 智能门锁线上均价持续走低,2025年前七月已降至879元

标签:
  • 热门焦点
  • 拯救XR,苹果力不从心

    来源 | 光子星球撰文 | 文烨豪 编辑 | 吴先之 苹果终于呈上了它的“答卷”。 北京时间6月6日凌晨,苹果2023年全球开发者大会(WWDC)如期举行。作为苹果CEO库克口中&ld
  • 保时捷推出虚拟超跑,车企元宇宙营销这么香?

    保时捷又出超跑了,不过这次不是在现实世界,而是在虚拟世界。这款Vision Gran Turismo概念车,由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造,将于202
  • Layer1的新以太坊,更好的以太坊?

    以太坊作为区块链基础设施地位看起来已不可动摇,但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
  • 餐桌上怎么变出元宇宙?

    作者:星影“元宇宙让餐饮业脱胎换骨。”实体的餐饮与虚拟的元宇宙,看起来风马牛不相及,但最近全世界的餐饮企业都掀起了一股注册元宇宙商标的热潮。2月初,全球最大
  • 2022年元宇宙系列报告:UGC当道,XR带来新交互体验

    UGC作为元宇宙的主要内容创作模式,已经越来越多的呈现于游戏、娱乐、社交、传媒等方面,UGC模式勾勒了元宇宙的边界,现今元宇宙UGC模式的主要呈现方式以元宇宙概念
  • 这个好莱坞影视制作公司涉足NFT,让持有者在制作中发挥作用

    前米高梅首席执行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一个新的好莱坞工作室,提供 NFT,让持有者在制作中发挥作用Electromagnetic Productions 创始
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 元宇宙专题二:GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+DEFI(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • 我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top