AI视频领域又又一次升级了!只需要一张图片和一段音频就能生成清晰度为4K分辨率并且时长能有1小时的视频吗?

  像现在市面上的AI视频工具生成时间基本上都是按分钟来“计算”的,清晰度也就基本在1080P左右。

  国产之光来了,复旦大学与百度联合开发了Hallo2,是目前为止首个实现长达一小时、4K 分辨率的音频驱动人像动画生成模型。

  对比之前的版本的Hallo升级迭代了不止一星半点,用过Hallo第一版本的小伙伴应该都有印象,分辨率是512,视频生成时长是分钟来算的。

  在大方向没有变的情况下,Hallo2还是音频驱动人像图像动画技术,它具备将音频转化为长达1小时、分辨率飙升至4K的生动人像视频的能力。并且操作及其简单,只需要1张照片和一段音频,属于你自己独一无二的数字人视频就制作好了

  这款工具推出之后,估计各大自媒体平台会涌现很多类型的数字人,来替代自己来实现商业变现。

  Hallo2为了显著提升长时间视频在视觉上的连贯性和一致性,Hallo2创新性地融入了数据增强策略,诸如patch-drop技术与高斯噪声的应用。这些手段极大地优化了视频质量。

  Hallo2融合了向量量化生成对抗网络(VQ-VAE)与时间对齐技术的精髓,确保了即便是在高分辨率下,视频也能保持卓越的品质与无比流畅的视觉体验。

  下图是展示Hallo2如何用一张参考图像和一段音频输入来生成视频的。

  该技术引入了可调节的文本标签功能,允许用户精准地操控视频中人物的面部表情及头部动作,这一特性不仅极大地丰富了动画的情感表达,还显著增强了观众与视频内容之间的互动性。

  Hallo2在视觉一致性与时间连贯性上也有了很大的升级,Hallo2 通过补丁丢弃和噪声增强技术,在生成长时视频时极大程度上减少了表情抖动和外观不一致等问题。

  最终生成的输出是一个高分辨率的4K视频,它与音频同步,并受这些可选表情提示的影响,确保视频在整个播放过程中保持连贯性。

  看下Hallo2的官方展示视频:

  以下是Hallo2的官网以及使用地址:

  项目官网:

  fudan-generative-vision.github.io/hallo2

  GitHub:

  https://github.com/fudan-generative-vision/hallo2

  HuggingFace:

  https://huggingface.co/fudan-generative-ai/hallo2

  Hallo2的代码和预训练模型已经在GitHub和Hugging Face上开源,提供了详细的安装和使用说明。

  试想一下,这款AI视频工具又高清、又持久、并且人物一致性高度还原,还能手动添加文本指挥人物的表情管理,在以后的短视频平台哪怕是短剧,岂不都是数字人,还能看到一个“真人”吗?演员行业岂不是要“凉凉”了?

  适用场景非常广泛,不管是露脸还是露声音的工作,都可以让Hallo2来代替,比如演讲、教育、录播课、自媒体创作者、动画短频、甚至是电影特效都能从中受益。如果有需要制作免费数字人的小伙伴可以登录上方链接进行使用。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。