苹果研究人员开发了新的基于文本的照片编辑模型

与MGIE一起的用户友好的照片编辑

由苹果和加利福尼亚大学圣塔芭芭拉分校开发的MGIE模型使用户能够使用文本描述来编辑照片,无需传统的照片编辑软件。用户只需简单地输入所需的更改,即可对图像进行裁剪、调整大小、翻转和添加滤镜。这个名为MLLM-Guided Image Editing的模型能够处理简单和复杂的编辑任务,如修改照片中的特定对象或调整亮度和对比度。

MGIE的工作原理

MGIE利用两步过程进行基于文本的照片编辑。首先,它学习解释用户提示,理解所需的更改。然后,通过“想象”视觉结果来生成相应的编辑。例如,如果用户要求照片中的天空更蓝,该模型会增加天空部分的亮度以达到所需的效果。MGIE背后的研究人员认为,这种多模态语言模型可以为未来的视觉与语言研究做出贡献。

可用性和未来计划

苹果已在GitHub上提供了MGIE模型的下载,让用户可以用于自己的照片编辑目的。此外,该公司还在Hugging Face Spaces上发布了一个网络演示。然而,苹果尚未透露该模型在研究之外的未来计划。其他图像生成平台,如OpenAI的DALL-E 3和Adobe的Firefly AI,也提供基于文本的照片编辑功能,为用户提供了多种增强图像的选择。