Технологии

30 августа 2023

Сначала будет слово: как давать задания нейросети Kandinsky 2.2

30 августа 2023

Сбер представил новую версию своей нейросети — Kandinsky 2.2. Она создает фотореалистичные изображения с более высоким разрешением и разным соотношением сторон. Рассказываем, что умеет Kandinsky 2.2 и как правильно составлять промпты — текстовые задания для нейросети.

Что такое Kandinsky 2.2 и чем он отличается от Kandinsky 2.1?

Нейросеть Kandinsky 2.1 была выпущена в апреле этого года. Она стала самой быстрорастущей по числу пользователей нейросетью в мире, набрав 1 млн пользователей за четыре дня после выхода.

Для обучения ее преемницы Kandinsky 2.2 использовали 1,5 млрд пар «текст — изображение». Это на 300 млн пар больше, чем видел Kandinsky 2.1. Архитектура Kandinsky 2.2 кардинально не изменилась, но вторая версия получила расширенный функционал:

  • разрешение генерируемых изображений теперь может составлять 1024 пикселя по каждой стороне (в Kandinsky 2.1 было 768 пикселей). При этом картинки могут иметь любое соотношение сторон (раньше только формат 1:1). Например, Kandinsky 2.2 может создать изображение с соотношением сторон как 1:1, так и 16:9, 9:16, 3:2, 2:3;
  • генерируемые изображения стали более фотореалистичными, теперь они имеют более высокое качество;
  • возможности модели Kandinsky 2.2 расширились функционалом ControlNet. Теперь пользователь может менять часть изображения или стиль, сохраняя исходную композицию: карту глубины, контуры объектов и другие детали;
  • появилась возможность создавать стикеры, выбрав функцию «создание стикера», а затем скачать изображение без фона или сделать полноценный стикерпак в Telegram для того, чтобы обмениваться стикерами с друзьями и коллегами;
  • появилась дополнительная возможность использовать свой negative prompt.

Что такое промпты и как их создавать?

Для генерации изображения нужно составить промпт — текстовое описание, которое обычно состоит из нескольких ключевых слов. По этому запросу нейросеть создаст картинку. Основное правило — слова в начале промпта имеют больший вес, чем те, которые расположены в конце.

Важно правильно сформулировать промпт, чтобы получить картинку, точно соответствующую вашей идее.

«Успех зависит от того, насколько хорошо человек понимает возможности ИИ и насколько точно формулирует задачи. Хорошо поставленная задача уже наполовину решена, говорим ли мы про языковые модели или про нейросети, которые помогают создавать картинки по текстовому описанию. Человек здесь играет важнейшую роль»,

— рассказывает ментор Duo Sapiens Евгений Бондарев.

Что умеет Kandinsky 2.2?

Это нейронная сеть, которая моделирует обратный диффузионный процесс (поэтому часто ее так и называют — диффузионная модель). Из случайного изображения шаг за шагом получается все более и более красивая и реалистичная картинка (а самое главное — отражающая то, что вы попросили нарисовать текстом).

Модель может:

  • генерировать изображения с разным соотношением сторон и изменять по текстовому описанию отдельные объекты или элементы, сохраняя композицию исходной иллюстрации;
  • создавать стилизации изображений на основе образцов или текстового описания, смешивать рисунки;
  • генерировать разные вариации исходного изображения, дорисовывать недостающие части и продолжать картину за ее первоначальными границами (режим бесконечного полотна);
  • понимать запросы на русском и английском языках.

Пошаговая инструкция по составлению промпта:

.

Выберите объект. Это может быть все, что угодно: человек, животное, сказочный персонаж, город, пейзаж, здание, автомобиль и любой другой физический объект. Укажите число объектов, но помните, что чем их больше, тем менее детализированными они будут. Пробуйте совмещать два объекта, например, «киберпанк-город» или «кот, похожий на картину “Мона Лиза”». Это позволит вам получить яркий и необычный концепт.

Запрос должен быть как можно более детальным, в нем должны быть описаны конкретные предметы, а не абстрактные понятия. Так, вместо слов «инопланетная жизнь» задайте «пятизвездочный отель на далекой планете».

.

Не используйте слова, выражающие отрицание («не», «кроме», «без», «за исключением», «никакой»), и деепричастные обороты. Нейросеть не поймет их, в результате вам придется переформулировать запрос. Для работы с негативным промптом используйте отдельную функцию «изменить негативный промпт» и напишите, что не хотите видеть на изображении: например, «тусклые цвета», «текст».

.

Добавляйте детали: как выглядит объект, что делает, в каком он настроении, где расположен на картинке, что еще находится в кадре, какая цветовая палитра и освещение, какое разрешение используется. Например, «футуристическая девушка из будущего, фантастические космические цветы, крупный план, кружевное платье и доспехи, 4K, кинематографический свет, гиперреалистичность, сверхдетализация, реализм, фотореалистичный стиль».

.

Экспериментируйте со стилями. В Kandinsky 2.2 их множество — от фотографии, аниме, поп-арта и мультфильма до хохломы, цифровой живописи и т. д. Вспомните своих любимых художников, архитекторов, режиссеров и экспериментируйте!

Как пользоваться функциями Kandinsky 2.2

.

Вариация картинки. Чтобы вариация картинки сработала лучше, не выбирайте сложные композиции: например, человек в необычной позе или много разных объектов. Лучше всего брать портреты или абстрактные изображения.

.

Смешивание. Есть два варианта — «смешивание картинок» и «смешивание картинки и текста». В «смешивании картинок» отправьте основное изображение первым, а вторым — изображение с необычным стилем. Первое изображение приобретет дополнительные элементы из второго, которые сделают итог более красочным.

В «смешивании картинки и текста» отправьте исходное изображение и через запятую допишите, что вы хотите добавить на изображение или какой стиль применить. В получившемся изображении сохранятся цвета или стиль исходного изображения, но композиция и положение объектов поменяются. Лучше всего добавлять те объекты, которые будут уместны для исходной картинки.

.

ControlNet. Эта функция похожа на смешивание, но она не меняет композицию исходного изображения, объекты остаются ровно в том же положении, что и были. Вариантов функции тоже два — «перенос с картинки» и «перенос из текста». Вторая функция, «перенос из текста», позволяет как поменять объект и добавить новые элементы, так и изменить только стиль изображения.

Для изменения стиля изображения отправьте изображение и следующим текстом название стиля. Если стиль сложный или не сработал корректно, то можно следовать лайфхаку и перед стилем кратко написать, что изображено на исходном изображении.

Все вышеперечисленное является рекомендацией использования функций, а не ограничением. Вы можете тестировать функции, как пожелает ваша фантазия.

Создавать изображения поможет конструктор промптов Kandinsky 2.2. Выберите объект для картинки, подберите фон и стиль, скачайте готовое изображение или скопируйте промпт, чтобы сгенерировать самостоятельно. Оценить возможности нейросети можно на промостранице модели, на платформе FusionBrain.AI, в Telegram-боте и боте соцсети «ВКонтакте», а также при помощи команды «Запусти художника» на умных устройствах Sber, в мобильном приложении «Салют».

Где в бизнесе можно использовать Kandinsky 2.2?

Изображения, сгенерированные нейросетью, можно использовать для иллюстрации статей в медиа и блоге компании, а также в презентациях, рассылках и соцсетях бренда. Картинки можно применять в дизайне (создание логотипа, упаковки, шапки сайта, UX-дизайна кнопок, одежды, обложек для трека, музыкального альбома или книги), рекламе и маркетинге (создание баннеров, рекламных иллюстраций, изображений для интернет-витрин).

Бизнес может получить уникальную картинку под собственное описание и в любой момент создавать необходимое количество licence-free-иллюстраций.

«Однажды ко мне пришел клиент, который делает стартап в Калифорнии в сфере нейробиологии. Ему нужны были сложные изображения нейронов мозга в разных стилях. Я поговорил с учеными в сфере нейробиологии, чтобы понять, что важно учесть при визуализации нейронов мозга и какие картинки похожи на научные, а какие выглядят как детское развлечение, и поэкспериментировал с промптами. В результате получил точные изображения, которые помогли очень быстро сделать качественную концепцию», — говорит ментор Duo Sapiens Евгений Бондарев.

Темы: