Google的Lumiere AI使用STUNet创建逼真的视频

快速导读:Google的新视频生成AI模型Lumiere利用一种称为时空U-Net(STUNet)的扩散模型来创建逼真的视频。Lumiere采用一种单一过程的方法,从一个基础帧开始,利用STUNet框架来近似物体的运动,并生成无缝连接的帧。与Runway和稳定视频扩散等竞争对手相比,Lumiere生成80帧,并实现更逼真的运动。

AI视频生成和编辑的进展

Google的Lumiere代表了AI视频生成和编辑工具的一大飞跃。该技术在短短几年内从离奇谷发展到接近逼真的结果。Google进入这个领域与Runway和稳定视频扩散等平台竞争。虽然Runway在提供更逼真的视频方面取得了进展,但仍然难以有效地表现运动。另一方面,Lumiere展示了令人印象深刻的能力,正如Lumiere生成的视频与Runway生成的视频之间的比较所显示的那样。

令人印象深刻的逼真度和潜在影响

Google的Lumiere生成的视频展示了一个令人瞩目的逼真水平,其运动与真实生活中的动作非常相似。虽然仔细观察可能会发现一些轻微的人工元素,但整体质量令人印象深刻。即使是专业的视频编辑人员也可能被误认为这些视频是CGI而不是由AI生成的。Lumiere专注于根据生成内容在视频中的位置捕捉运动,这使其与依赖关键帧的其他模型有所区别。Google逐渐进入文本到视频类别,表明其致力于开发先进的AI模型和多模态方法。

Lumiere的能力和未来前景

除了文本到视频生成外,Lumiere还提供各种功能,如图像到视频生成、特定风格视频的风格化生成、动画特定部分的cinemagraphs,以及修改视频中颜色或图案的修复。虽然Lumiere尚未可供测试,但它展示了Google开发能与现有AI视频生成器相媲美甚至超越的AI视频平台的能力。这一进展意味着Google在仅仅两年内在AI视频领域的增长。