Компания Apple совместно с Калифорнийским университетом, представила инновационную модель искусственного интеллекта под названием MGIE, предоставившую открытый исходный код для широкого круга пользователей. Данная технология позволяет редактировать фотографии с использованием текстовых команд, написанных самим пользователем.
MGIE опирается на мультимодальные языковые модели (MLLM), чтобы исследовать и интерпретировать команды пользователей и эффективно выполнять их. Данный инструмент предоставляет возможность внесения как глобальных, так и локальных изменений на изображении. Например, пользователь может легко регулировать яркость, контрастность, резкость, а также применять художественные эффекты.
С использованием MGIE можно трансформировать форму, размер, цвет или текстуру определенных областей или объектов на фотографии. Также предусмотрены функции обрезки, изменения ориентации, изменения размера изображения и добавления фильтров. Дополнительные возможности включают изменение фона, добавление/удаление объектов и многое другое.
Инструмент MGIE доступен для общественного использования на платформе GitHub, где представлен не только исходный код, но и предварительно обученные модели. Кроме того, пользователи могут опробовать MGIE на веб-сайте Hugging Face Spaces.