OpenAI揭示Sora:一种具有先进能力的文本到视频模型

快速导读:OpenAI推出了Sora,一种将生成式人工智能的边界推向前进的文本到视频模型。与Google的Lumiere不同,Sora可以生成长达1分钟的视频。OpenAI旨在收集专家和创意专业人士的反馈,以解决关于深度伪造的担忧,并让公众一窥未来人工智能的能力。Sora的优势在于其解释长提示和生成具有准确细节的复杂场景的能力。然而,它在准确描绘物理和理解因果关系方面仍然存在一些弱点。此外,ElevenLabs正在为视频开发基于文本的音效,这些音效可以叠加在Sora的人工智能生成的视频上。

Sora的先进能力和优势

OpenAI的Sora通过其解释长提示和生成长达1分钟的视频的能力使自己与众不同。利用OpenAI过去与Dall-E和GPT模型的合作,Sora可以创建各种角色、场景和风景。它借鉴了Dall-E 3的重新标题技术,为视觉训练数据生成高度描述性的标题。OpenAI分享的示例视频展示了Sora生成逼真场景的能力,尽管在近距离人脸和游泳海洋生物方面仍然存在一些限制。Sora还可以从静止图像生成视频,并扩展现有视频。

弱点和安全考虑

尽管Sora展示了令人印象深刻的能力,但它在准确描绘复杂物理和理解因果关系方面仍然存在一些弱点。例如,它可能难以准确描绘一个人咬了一口饼干后的咬痕。OpenAI承认这些限制,并强调安全的重要性。在广泛提供Sora之前,OpenAI旨在满足其安全标准,其中包括禁止极端暴力、性内容、仇恨图像、名人肖像和他人的知识产权。OpenAI认识到从实际使用中学习对于随着时间推移创建和发布越来越安全的人工智能系统至关重要。

为视频生成的文本音效

ElevenLabs正在为视频开发基于文本的音效,以补充Sora的能力。通过使用“波浪拍打”或“鸟儿鸣叫”等提示,ElevenLabs可以创建增强人工智能生成视频的音频。虽然尚未宣布发布日期,但ElevenLabs表示对社区的支持和激动,并期待向用户提供这个工具。