Refeshop > AirDrop > Internet >
阿里图片生成动画工具
时间:2024-05-23 21:22
来源 :Refeshop
阿里巴巴推出了一个创新的项目,可以通过图像和音频输入生成富有表现力的视觉内容,并且能将口型与发音进行精准匹配。

该项目支持多种语言,并能适应言谈、唱歌和快节奏的对话。这一创新工具可能会成为创造虚假信息的新途径,使得许多公众人物可能需要澄清"这不是我的原话,别乱讲"。

而且,根据输入视频的长度,可以生成任意时长的视频。

实现技术如下:

整个技术主要由两个阶段组成。第一个是"帧编码"阶段,这个阶段利用ReferenceNet从参考图像和运动帧中提取特征。然后,转到"扩散过程"阶段,这个阶段使用预训练的音频编码器处理音频数据嵌入。同样,在面部区域的遮罩与多帧的噪声数据结合后,会引导面部图像生成过程。

接下来,我们使用Backbone Network进行去噪。在Backbone Network中,我们实施了两个关键的注意力机制:一个基于参考图像的"参考注意力",另一个基于音频的"音频注意力"。

这两种机制对于保持角色面部特征的一致性和调整角色面部运动至关重要。最后,我们还采用了一个时间模块来调整图像的时间维度,从而调整角色的运动速度。上述各部分共同构成了我们的整体框架。

项目地址:humanaigc.github.io/emote-portrait

We are a non-profit organization dedicated to providing the most comprehensive and authentic information about brokers to the public, free of charge. Our mission is to present the most genuine aspects of brokers and offer the best comparison tools to help you thoroughly evaluate each broker. We welcome and encourage every visitor to share their experiences with any broker.More

展开

24*7 Live Chat

  • Chat 1
  • Chat 2
  • Chat 3
  • Join our community
  • Chat4send message to me
  • QQ:95388812