苹果与圣塔芭芭拉大学合作开发图像编辑的AI模型

快速导读:苹果与圣塔芭芭拉大学合作开发了一种名为多模态大语言模型引导图像编辑(MGIE)的AI模型。该模型使用户能够根据自然语言指令进行图像编辑,类似于人们与ChatGPT的交互方式。MGIE通过解释和精炼指令,处理用户提供的文本指令,并生成精确的图像编辑命令。苹果旨在通过MGIE提升其在开源AI领域的能力,并为用户提供更具互动性和定制化的图像编辑体验。

多模态大语言模型和MGIE方法

多模态大语言模型(MLLM)是MGIE的基础。这些模型可以处理文本和图像,使其能够理解复杂的指令并在各种情况下工作。MGIE将生成文本、生成图像、分割和CLIP分析能力结合在一个单一的过程中。通过整合扩散模型,MGIE可以根据原始图像的特征应用编辑。

通过自然语言指令推进图像编辑

引入MGIE使苹果更接近实现类似OpenAI的ChatGPT Plus的功能。使用MGIE,用户可以用自然语言提供详细的指令,如“从前景中移除交通锥”,这些指令将被转化为图像编辑命令并执行。这使用户可以根据其文本输入轻松定制图像。苹果的方法与现有的工具(如稳定扩散和Pix2Pix)相一致,通过自然语言指令在编辑后的图像上实时产生效果。

苹果的开源策略和行业影响

苹果决定将MGIE开源的举措超越了许可要求。通过使用Llava和Vicuna等开源模型,苹果可以利用全球范围内的开发者资源,并促进协作,以增强MGIE的实力和灵活性。这一举措还提升了苹果在开发者和技术爱好者中的声誉。将MGIE作为开源软件发布,使苹果能够为基于AI的图像编辑设定行业标准,并为AI艺术家和开发者构建坚实的基础。