Диалоги с роботами

Сегодня мы решили поддаться общему тренду и попробовать сгенерировать иллюстрацию к летнему обновлению нашего портфолио. У нас обширная библиотека ярких фотографий с прошедщих мероприятий в разных городах, во все времена года и с разными аудиториями - от школьников до дистрибьюторов MLM-компаний, развитые механизмы поиска по тегам и описаниям ("люди в зале смотрят расписание в мобильном приложении", "команды идут к финишу интерактивного квеста"), но хочется новенького и модного. Проверим, готов ли искусственный интеллект к решению наших художественных задач.

Рассмотрим подробнее запросы для ИИ

Экспериментировать решили на отечественном производителе: Kandinsky 2.1. Задание - нарисовать заставку к презентации нового интерактивного квеста. Начнём.

"Энергичные event-менеджеры проходят квест с гаджетами на Патриарших Прудах".
Понятно, про пруды не надо, мы наслышаны о произвольных трактовках и отсутствии фактических знаний. Меняем параметры по одному.

"Энергичные event-менеджеры проходят квест с гаджетами в историческом центре Москвы"
Помимо того что картинка кому-то напоминает 90-е, а кому-то вообще времена Ивана Грозного, явно нужно поработать над визуализацией командного и эмоционального. Идём дальше:

"Команды энергичных и позитивных event-менеджеров проходят квест с гаджетами в центре современной Москвы. Действие происходит в 2023 году"
С лицами у Кандинского всё ещё непорядок, но это настроим чуть позже, сначала добавим "цифр и надписей на картинке быть не должно". У программы есть ограничение на длину строки с ТЗ, но оно достаточно щадящее. Пробуем раскрыть тему и заодно указать всё-таки тип гаджетов:

"Команды энергичных и модно одетых event-менеджеров, преимущественно девушек, проходят увлекательный квест с iPad в центре Москвы и бурно выражают свои эмоции"
Нет, это очень бурно, и у робота странное представление о понятие "преимущественно". Как и о старинной русской архитектуре. Пробуем ещё:

"Команды энергичных, позитивных и модно одетых event-менеджеров обоего пола проходят увлекательный квест с iPad в центре Москвы, обмениваясь впечатлениями"
Тут у нас возникли вопросики к гендерной идентификации, ну да ладно. Всё ещё не видно особой командности, да и позитивные эмоции куда-то ушли. Кстати, каким-то образом в этой попытке ИИ отобразил самую интересную версию "центра Москвы". Относительно обмена впечатлениями друг с другом - ТЗ откровенно не выполнено, попробуем перефразировать и по части эмоций, и по технологическому вопросу:

"Команды энергичных и позитивных молодых людей обоего пола проходят увлекательный квест в центре Москвы, совместно решая задачи и обсуждая впечатления. У каждой команды - один iPad, который отображает задания и подсказки."
Люди слишком молодые, вернем event-менеджеров и попробуем что-то сделать с архитектурой. Но мы не сдаёмся.

"Команды энергичных и позитивных event-менеджеров обоего пола проходят увлекательный квест среди исторических зданий Москвы, совместно решая задачи и обсуждая впечатления. У каждой команды - один iPad, который отображает задания и подсказки. В каждой команде 4-5 человек."
Три вещи, которые робот упорно игнорирует - это формат команды (4-5 человек и один гаджет на команду), реалистичность размера гаджета и конечно же, понятие коммуникации. Но... представим что мы обучаем ребёнка и попробуем новую версию:

"Команды энергичных и позитивных менеджеров обоего пола проходят увлекательный квест среди исторических зданий Москвы. Они смотрят по сторонам, сообща решают задачи и обсуждают впечатления. У каждой команды - один iPad, на который они в пылу азарта не смотрят. В каждой команде 4-5 человек."
Не видно, не видно позитивности в менеджерах, но после пугающего оскала девиц на фоне пряничных домиков из версии №4 мы пытаемся быть аккуратнее с описаниями. А что если уточнить локацию и... убрать гаджеты?

"... проходят увлекательный квест среди исторических особняков на Пятницкой улице. Они смеются, общаются между собой, решают задания и обсуждают впечатления."
Кажется, мы начинаем понимать: с антуражем у робота всё хорошо, но плохо с фактами и отображением эмоций. Оставим тогда особняки и задний план вообще, и сфокусируемся на лицах. Заодно поменяем стиль генерации с "3d-рендер" на "Цифровая живопись".

"...Лица показаны крупным планом"
Ой, нет, хотя для какого-нибудь блога уже почти вполне, зрачки, в конце концов, можно дорисовать. Так, уберем "Смеются" и вернемся к 3d-рендеру. Поменяем, кстати, город на Санкт-Петербург.
Странно, в ТЗ было добавлено "по-разному одетых", но система, видимо, отыгралась на варежках. Эмоций тоже не стало видно. А попробуем добавить "солнечный"?
Эмоции выстроили, про гаджеты пока не заморачиваемся. Ну и последний штришок всё-таки про задний план.
Не поверите, мы поменяли "идут по центру Санкт-Петербурга" на "идут вдоль каналов центра Санкт-Петербурга". Одна девушка, правда, почему-то потеряла половинку очков, но при этом с разнообразием в одежде робот по-прежнему не заморачивается. Может быть, дело в том, что они "менеджеры"? Заменим на "молодые люди"
Внезапно: "без очков" проигнорировано, пропал образ Санкт-Петербурга, зато облачной погоды стало слишком много. Но картинка интересная, сохраним для презентации молодёжных программ.
Вернулись наши старые знакомые. Теперь в фуражках, потому что мы неосторожно добавили про "iPad в руках у капитана". И почему-то все опять в очках, хотя в ТЗ указано что они должны быть без. Зато хотя бы все очки целые.

Заменили капитана на "лидера", а "людей" на "молодых людей".
Стало хуже, но побочный эффект: наконец-то видно канал!

После замены "молодых людей" обратно на "менеджеров" и неосторожно добавленного "ярко одетых" программа вспомнила, чьим именем названа:
Кстати, тоже сохраним. Уберём из ТЗ параметры и эпитеты, на которые ИИ всё равно не обращает внимания ("команды", "обсуждают задания", "увлечённо"). Будем проще и прямолинейнее: "быстро идут", "улыбаются" и т.д.

Итог

Мультяшно, конечно, но в целом как иллюстрация уже вполне. Простим девушке кандибобер на голове и пойдём описывать смыслы новой программы. Смыслы - это мы пока сами. Спасибо, робот, мы ещё вернёмся!
Проанализируем ваш проект и предложим лучшие инструменты для его успешной реализации