OpenAI的新多模态AI模型:对话和物体识别

快速导读:据报道,OpenAI正在展示一种新的多模态AI模型,可以同时进行对话和识别物体。与OpenAI现有的转录和文本转语音模型相比,该模型提供了更快、更准确的图像和音频解释。它在客户服务、教育和翻译等领域具有潜在应用。尽管该模型在某些问答任务中可以胜过GPT-4 Turbo,但它也有其局限性。OpenAI还可能正在开发一种内置的ChatGPT功能,用于进行电话通话。

图像和音频解释的改进

据称,OpenAI的新多模态AI模型相较于该公司现有的转录和文本转语音模型,提供了对图像和音频的改进和更准确的解释。这一进步使得客户服务代理能够更好地理解来电者的语调并检测出讽刺。此外,该模型还有潜力帮助学生解决数学问题并翻译现实世界的标志。

在某些任务中胜过GPT-4 Turbo

据消息来源称,新的AI模型在某些问答任务中可以胜过GPT-4 Turbo。然而,需要注意的是,该模型并非完美无缺,仍然可能在自信度上犯错误。OpenAI还在探索将ChatGPT功能整合到模型中,使其能够进行电话通话。证据可以在代码中找到,并且为实时音频和视频通信提供了服务器。

不是GPT-5,但是一个有前途的发展

尽管OpenAI即将发布的公告与备受期待的GPT-5无关,但该公司的首席执行官Sam Altman表示,很快将推出一种比GPT-4“显著更好”的模型。据The Information报道,预计GPT-5将于今年年底发布。OpenAI的新多模态AI模型代表了人工智能能力的重大进步,并为各个领域的人机交互提供了增强的可能性。