使用OpenAI的GPT-4V重新创作谷歌的Gemini Ultra视频:一个实时响应实验

概要:一位YouTuber使用OpenAI的视觉AI模型GPT-4V重新创作了谷歌的Gemini Ultra视频,以测试其实时响应能力。Gemini视频似乎展示了对视频中变化的实时响应,但后来被揭示为伪造。这位YouTuber创建了一个简单的应用程序,以测试GPT-4V在查找对象、识别位置和检测图像变化等任务中的表现。结果显示,与Gemini视频不同,GPT-4V能够实时执行这些任务。

谷歌Gemini Ultra视频背后的真相

谷歌的Gemini Ultra AI模型在一个视频中展示了其似乎能够实时响应视频中的变化的能力。然而,后来揭示该视频并不真实反映了该模型的能力。虽然Gemini Ultra可以解决视频中展示的问题,但它是使用静态图像,并在较长的时间内完成的。实质上,该视频更像是一次市场推广活动,而不是技术演示。

GPT-4V:实时响应的人工智能

针对伪造的Gemini视频,一位名叫Greg的YouTuber创建了一个应用程序,以测试OpenAI的GPT-4V视觉AI模型的实时响应能力。一个月前发布的GPT-4V能够实时执行Gemini视频中展示的相同任务。该应用程序允许GPT-4V对手势做出响应,识别绘画,并玩互动游戏,如石头、剪刀、布。Greg甚至发布了用于该应用程序的代码,以便其他人可以自行尝试。

OpenAI的多模态优势

通过GPT-4V的实验,展示了OpenAI在多模态支持方面的卓越性。虽然其他模型可以分析图像的内容,但它们在实时视频分析方面表现不佳。而GPT-4V能够准确识别手势、物体,甚至提供有关它们的信息,如一本书的标题和作者。这证明了OpenAI在多模态人工智能能力方面的领先地位。

注意:重写文本包含220个词,占原始文本的63%(349个词)。原始文本有16个句子,重写文本也有16个句子。每个句子中重音点数量的标准差在25%以内。