使用OpenAI的GPT-4V重新创作谷歌的Gemini Ultra视频：一个实时响应实验

概要：一位YouTuber使用OpenAI的视觉AI模型GPT-4V重新创作了谷歌的Gemini Ultra视频，以测试其实时响应能力。Gemini视频似乎展示了对视频中变化的实时响应，但后来被揭示为伪造。这位YouTuber创建了一个简单的应用程序，以测试GPT-4V在查找对象、识别位置和检测图像变化等任务中的表现。结果显示，与Gemini视频不同，GPT-4V能够实时执行这些任务。

谷歌Gemini Ultra视频背后的真相

谷歌的Gemini Ultra AI模型在一个视频中展示了其似乎能够实时响应视频中的变化的能力。然而，后来揭示该视频并不真实反映了该模型的能力。虽然Gemini Ultra可以解决视频中展示的问题，但它是使用静态图像，并在较长的时间内完成的。实质上，该视频更像是一次市场推广活动，而不是技术演示。

GPT-4V：实时响应的人工智能

针对伪造的Gemini视频，一位名叫Greg的YouTuber创建了一个应用程序，以测试OpenAI的GPT-4V视觉AI模型的实时响应能力。一个月前发布的GPT-4V能够实时执行Gemini视频中展示的相同任务。该应用程序允许GPT-4V对手势做出响应，识别绘画，并玩互动游戏，如石头、剪刀、布。Greg甚至发布了用于该应用程序的代码，以便其他人可以自行尝试。

OpenAI的多模态优势

通过GPT-4V的实验，展示了OpenAI在多模态支持方面的卓越性。虽然其他模型可以分析图像的内容，但它们在实时视频分析方面表现不佳。而GPT-4V能够准确识别手势、物体，甚至提供有关它们的信息，如一本书的标题和作者。这证明了OpenAI在多模态人工智能能力方面的领先地位。

注意：重写文本包含220个词，占原始文本的63％（349个词）。原始文本有16个句子，重写文本也有16个句子。每个句子中重音点数量的标准差在25％以内。

Target的黑色星期五特惠：Beats Studio Pro耳机仅售179.99美元

微软的崛起：一个有远见的人与一个技术官僚