Сбер представил новую версию своей нейросети — Kandinsky 2.2. Она создает фотореалистичные изображения с более высоким разрешением и разным соотношением сторон. Рассказываем, что умеет Kandinsky 2.2 и как правильно составлять промпты — текстовые задания для нейросети.
Сбер представил новую версию своей нейросети — Kandinsky 2.2. Она создает фотореалистичные изображения с более высоким разрешением и разным соотношением сторон. Рассказываем, что умеет Kandinsky 2.2 и как правильно составлять промпты — текстовые задания для нейросети.
Нейросеть Kandinsky 2.1 была выпущена в апреле этого года. Она стала самой быстрорастущей по числу пользователей нейросетью в мире, набрав 1 млн пользователей за четыре дня после выхода.
Для обучения ее преемницы Kandinsky 2.2 использовали 1,5 млрд пар «текст — изображение». Это на 300 млн пар больше, чем видел Kandinsky 2.1. Архитектура Kandinsky 2.2 кардинально не изменилась, но вторая версия получила расширенный функционал:
Для генерации изображения нужно составить промпт — текстовое описание, которое обычно состоит из нескольких ключевых слов. По этому запросу нейросеть создаст картинку. Основное правило — слова в начале промпта имеют больший вес, чем те, которые расположены в конце.
Важно правильно сформулировать промпт, чтобы получить картинку, точно соответствующую вашей идее.
— рассказывает ментор Duo Sapiens Евгений Бондарев.
Это нейронная сеть, которая моделирует обратный диффузионный процесс (поэтому часто ее так и называют — диффузионная модель). Из случайного изображения шаг за шагом получается все более и более красивая и реалистичная картинка (а самое главное — отражающая то, что вы попросили нарисовать текстом).
Модель может:
Выберите объект. Это может быть все, что угодно: человек, животное, сказочный персонаж, город, пейзаж, здание, автомобиль и любой другой физический объект. Укажите число объектов, но помните, что чем их больше, тем менее детализированными они будут. Пробуйте совмещать два объекта, например, «киберпанк-город» или «кот, похожий на картину “Мона Лиза”». Это позволит вам получить яркий и необычный концепт.
Запрос должен быть как можно более детальным, в нем должны быть описаны конкретные предметы, а не абстрактные понятия. Так, вместо слов «инопланетная жизнь» задайте «пятизвездочный отель на далекой планете».
Не используйте слова, выражающие отрицание («не», «кроме», «без», «за исключением», «никакой»), и деепричастные обороты. Нейросеть не поймет их, в результате вам придется переформулировать запрос. Для работы с негативным промптом используйте отдельную функцию «изменить негативный промпт» и напишите, что не хотите видеть на изображении: например, «тусклые цвета», «текст».
Добавляйте детали: как выглядит объект, что делает, в каком он настроении, где расположен на картинке, что еще находится в кадре, какая цветовая палитра и освещение, какое разрешение используется. Например, «футуристическая девушка из будущего, фантастические космические цветы, крупный план, кружевное платье и доспехи, 4K, кинематографический свет, гиперреалистичность, сверхдетализация, реализм, фотореалистичный стиль».
Экспериментируйте со стилями. В Kandinsky 2.2 их множество — от фотографии, аниме, поп-арта и мультфильма до хохломы, цифровой живописи и т. д. Вспомните своих любимых художников, архитекторов, режиссеров и экспериментируйте!
Вариация картинки. Чтобы вариация картинки сработала лучше, не выбирайте сложные композиции: например, человек в необычной позе или много разных объектов. Лучше всего брать портреты или абстрактные изображения.
Смешивание. Есть два варианта — «смешивание картинок» и «смешивание картинки и текста». В «смешивании картинок» отправьте основное изображение первым, а вторым — изображение с необычным стилем. Первое изображение приобретет дополнительные элементы из второго, которые сделают итог более красочным.
В «смешивании картинки и текста» отправьте исходное изображение и через запятую допишите, что вы хотите добавить на изображение или какой стиль применить. В получившемся изображении сохранятся цвета или стиль исходного изображения, но композиция и положение объектов поменяются. Лучше всего добавлять те объекты, которые будут уместны для исходной картинки.
ControlNet. Эта функция похожа на смешивание, но она не меняет композицию исходного изображения, объекты остаются ровно в том же положении, что и были. Вариантов функции тоже два — «перенос с картинки» и «перенос из текста». Вторая функция, «перенос из текста», позволяет как поменять объект и добавить новые элементы, так и изменить только стиль изображения.
Для изменения стиля изображения отправьте изображение и следующим текстом название стиля. Если стиль сложный или не сработал корректно, то можно следовать лайфхаку и перед стилем кратко написать, что изображено на исходном изображении.
Все вышеперечисленное является рекомендацией использования функций, а не ограничением. Вы можете тестировать функции, как пожелает ваша фантазия.
Создавать изображения поможет конструктор промптов Kandinsky 2.2. Выберите объект для картинки, подберите фон и стиль, скачайте готовое изображение или скопируйте промпт, чтобы сгенерировать самостоятельно. Оценить возможности нейросети можно на промостранице модели, на платформе FusionBrain.AI, в Telegram-боте и боте соцсети «ВКонтакте», а также при помощи команды «Запусти художника» на умных устройствах Sber, в мобильном приложении «Салют».
Изображения, сгенерированные нейросетью, можно использовать для иллюстрации статей в медиа и блоге компании, а также в презентациях, рассылках и соцсетях бренда. Картинки можно применять в дизайне (создание логотипа, упаковки, шапки сайта, UX-дизайна кнопок, одежды, обложек для трека, музыкального альбома или книги), рекламе и маркетинге (создание баннеров, рекламных иллюстраций, изображений для интернет-витрин).
Бизнес может получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций.
«Однажды ко мне пришел клиент, который делает стартап в Калифорнии в сфере нейробиологии. Ему нужны были сложные изображения нейронов мозга в разных стилях. Я поговорил с учеными в сфере нейробиологии, чтобы понять, что важно учесть при визуализации нейронов мозга и какие картинки похожи на научные, а какие выглядят как детское развлечение, и поэкспериментировал с промптами. В результате получил точные изображения, которые помогли очень быстро сделать качественную концепцию», — говорит ментор Duo Sapiens Евгений Бондарев.
Спасибо, что были с нами! Возобновить подписку можно в любой момент на сайте СберБизнес Live