苹果开源的用于图像编辑的人工智能模型:MGIE

MGIE:通过文本命令提升图像编辑

苹果推出了最新的人工智能模型MLLM-Guided Image Editing(MGIE),允许用户使用文本命令编辑照片。MGIE是与加利福尼亚大学圣塔芭芭拉分校的研究人员合作开发的,它利用多模态大型语言模型(MLLMs)来解释和执行用户提供的指令。这个工具旨在解决当前方法的局限性,因为人类的指令往往对现有系统来说过于简洁,难以准确理解和遵循。

将文本提示转化为详细指令

MGIE采用的MLLMs具备将简单或模糊的文本提示转化为精确和详细指令的能力,以便照片编辑器能够理解和实施。例如,如果用户想要让一张意大利辣香肠披萨的照片“更健康”,MLLMs可以将其解释为“添加蔬菜配料”并相应地应用必要的编辑。MGIE还提供了一系列编辑选项,包括裁剪、调整大小、旋转、调整亮度、对比度和色彩平衡。此外,它还可以针对照片的特定区域进行编辑,如修改头发、眼睛、衣服,或者移除背景中的物体。

开源发布和未来计划

苹果已将MGIE作为一个开源项目发布在GitHub上,允许开发人员和研究人员探索和利用这项技术。有兴趣的个人还可以在Hugging Face Spaces上尝试MGIE的演示。然而,苹果尚未透露有关将MGIE整合到现有产品中的具体计划。目前还不清楚该公司是否会将从这个项目中获得的见解融入到未来的工具或功能中,以造福其用户。