微软新项目 VASA,实时生成头像图片转匹配口型的演讲视频 惊艳

admin 2周前 (04-19) 阅读数 24 #前沿

VASA项目微软是一个基于单张静态图像和语音音频片段生成逼真说话人脸的框架,具有吸引人的视觉情感技能(VAS)。采用的首款模型:VASA-1,不仅能够产生与音频精确同步的嘴唇动作,还能捕捉到广泛的面部细微差异和自然的头部运动,从而增强了真实感和生动性的感知。核心创新包括在面部潜在空间中工作的整体面部动态和头部运动生成模型,以及利用视频开发如此富有表现力和分离的面部潜在空间。通过包括在一组新指标上的评估在内的大量实验,我们展示了我们的方法在各个维度上显著优于以前的方法。我们的方法不仅提供了高质量的视频,具有逼真的面部和头部动态,还支持以最高可达40 FPS的速度在线生成512×512的视频,且启动延迟可忽略不计。它为模拟人类对话行为的逼真化头像的实时交互铺平了道路。


视频来源:微软研究院
以上视频演示了在离线批处理模式下以每秒45帧的速度生成512×512大小的视频帧,并且在在线流媒体模式下,使用一台配备单个NVIDIA RTX 4090 GPU的台式电脑,可以支持高达每秒40帧的速度,且前置延迟仅为170毫秒。