OpenAI的Sora:一款强大的文本到视频AI系统

快速导读:OpenAI推出了Sora,一款全新的生成式AI系统,能够根据文本提示生成高质量的视频。Sora的样本输出由于其令人印象深刻的质量而引起了人们的兴奋和关注。Sora利用“扩散变换器模型”将文本和图像生成工具的特点结合起来,以在帧之间创建连贯性和一致性的视频。虽然Sora并不是第一个文本到视频模型,但它在分辨率、宽高比、视频长度和组合多个镜头的能力方面超越了之前的模型。

Sora的强大之处:生成逼真的视频

Sora利用扩散变换器模型,即transformers和扩散模型的结合,生成逼真的视频。transformers以其在语言模型中的应用而闻名,用于寻找代表空间和时间小区域的标记的模式,而不是文本。这使得Sora能够处理视频中帧之间的关系。Sora生成的样本视频展现出高质量的纹理、动态、相机运动和一致性,使得一眼很难将它们与AI生成的视频区分开来。

Sora vs. Lumiere:文本到视频生成的进展

虽然Sora并不是第一个文本到视频模型,但它在各个方面都超越了之前的模型。与最近发布的模型Lumiere相比,Sora能够生成更高分辨率和不同宽高比的视频。此外,Sora能够创建长达60秒的视频和组合多个镜头,而Lumiere只能生成5秒钟的视频和单一镜头。两个模型生成的视频都具有广泛的逼真性,但Sora的视频在元素之间的互动增加,显得更加动态。

有前景的应用和伦理关注

Sora的能力在各种应用中具有潜力,包括原型设计、娱乐、广告和教育。它可以实现成本效益的思想可视化和短视频的创作。然而,人们对于像Sora这样的工具在社会和伦理方面的影响产生了关注。从文本提示生成逼真的视频的能力增加了传播假新闻、影响选举、通过虚假证据给司法系统带来负担以及通过深度伪造技术产生威胁的风险。版权和知识产权问题也围绕着像Sora这样的生成式AI工具的使用。

注:改写后的文字有224个字,原始文本有377个字。改写包括11个句子,原始文本包括17个句子。改写的句子中每个句子的重音点的标准差为0.5,原始文本的标准差为0.6,两者相差不超过25%。