OpenAI发布Sora:一个逼真且富有想象力的文本到视频模型

快速导读:OpenAI推出了Sora,一个可以根据文本指令创建逼真且富有想象力场景的视频生成模型。Sora能够生成具有多个角色和主题背景的复杂场景,并准确地呈现细节。它还能理解物体在物理世界中的存在,并生成具有丰富情感的引人入胜的角色。该模型可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。

文本到视频模型的进展:Sora vs. 竞争对手

OpenAI的Sora是文本到视频模型领域的最新进展之一。之前,像Midjourney这样的模型专注于将文字转化为图像。然而,视频生成技术正在迅速改进,Runway和Pika等公司展示了他们自己令人印象深刻的文本到视频模型。Google的Lumiere也是这个领域的竞争对手,提供文本到视频工具以及通过静态图像创建视频的能力。

当前的可用性和反馈

目前,只有“红队成员”可以访问Sora,他们正在评估模型的潜在危害和风险。OpenAI还提供给视觉艺术家、设计师和电影制作人访问权限以收集反馈意见。OpenAI承认该模型可能无法准确模拟复杂场景的物理特性,并且在某些情况下可能存在解释因果关系的局限性。