Я перестал описывать изображения нейросети — и начал показывать. Что из этого вышло
Привет, Хабр!
У меня была довольно простая идея — сделать несколько принтов с хоккеистами. В итоге всё закончилось тем, что я превратил их в богов и собрал коллекцию футболок THE HOCKEY GODS SERIES.
1. Предисловие.
Сегодня я хотел бы рассказать о небольшом дизайнерском проекте, который я планировал реализовать уже давно, но никак не доходили руки.
Идея была такова: сделать небольшую коллекцию футболок с эпичными изображениями современных хоккеистов. Идея базировалась на трёх архетипах «Александр Овечкин — Архангел», «Здено Хара — Кибервойн» и «Виктор Хедман – Ледяной страж», но в процессе работы по ряду соображений (узнаваемость бренда у российский аудитории и некоторые сложности с результатами генерации по Здено Харе) я решил исключить всех иностранных хоккеистов или выделить их в отдельный блок позднее. Таким образом, сейчас в коллекцию входят футболки с хоккеистами: Александр Овечкин, Артемий Панарин, Сергей Бобровский, Павел Дацюк, Михаил Сергачёв и Евгений Малкин.
2. О процессе создания изображений и дизайна футболок.
По началу в плане дизайна всё шло довольно стандартно, но затем я неожиданно для себя открыл приём, который позволяет получить превосходные результаты при генерации изображения и экономит довольно много времени.
Ранее мой типовой подход к работе, связанной с генерацией и последующей обработкой изображений, заключался в следующем (поэтапно):
-
Описание текущей задачи ChatGPT. Я рассказываю нейросети о сути проекта, его особенностях, указываю на нюансы, которые обязательно должны присутствовать на сгенерированном изображении, даю описание стилистики изображения, цветового исполнения и т.д. Говоря проще, все это максимально стандартные действия.
-
Написание промпта для генерации изображения через ChatGPT. Собственно тут тоже все очевидно, нейронке даётся задание написать промпт. В ряде случаев указывается нейросеть, через которую будет осуществляться генерация изображений. К примеру, диалоговое окно в DALLE-3, с которой я работаю через https://www.bing.com/images/create имеет ограничение в порядка 540 символов, что необходимо указывать ChatGPT на этапе разработки промпта.
-
Генерация изображений. До последнего времени я работал в DALLE-3, Qwen и самом ChatGPT (нейросети перечислены в порядке от наиболее используемой к наименее используемой). И вводная часть «До последнего времени» написана здесь по совершенно определённой причине.
Так получилось, что DALLE-3 стала выглядеть совсем слабо на фоне появляющихся новых предложений от лидеров отрасли. Также следует отметить что, Qwen ввела жесточайший дневной лимит на генерацию изображений, а написание письма в support с просьбой вернуть всё как было ранее не дало никаких результатов. В бесплатной версии ChatGPT этот лимит был с самого начала и тут… в отрасли появился новый флагман – наверное, уже успевшая за крайне короткий срок набить многим оскомину Nano Banana (тадамс!!!)
-
Увеличение сгенерированного изображения. Поскольку, как правило, нейронки выдают изображение в разрешении 1024*1024 пикселя, для профессиональных задач его, естественно недостаточно. В издательском деле, особенно при работе с библиографическими исходниками от заказчиков, к примеру, когда необходимо использовать семейные фото 1900-х годов, выбирать не приходится, ну а для себя я увеличиваю изображения до формата 4096*4096. Раньше пользовался программой с нейросетевыми алгоритмами AI Photo & Art Enhancer. Недавно прочитал о нейросетевом инструменте Topaz, и, попробовав его возможности в плане увеличения (Upscale), снижения шума (Denoise), а также наличия отдельной функции улучшения лиц на фото и прочих возможностей, перешёл на него.
-
Предварительная цветовая коррекция через Luminar AI. Мне нравится Luminar AI тем, что в нём есть настройки-пресеты, сгруппированные в один стиль, и к обрабатываемому изображению применяются именно стили (которые можно изменить), а не отдельные настройки типа изменения яркости/контрастности.
-
Обработка в Photoshop. И, собственно, последний этап – доработка изображения в Photoshop. Удаление различного рода точек, помарок, шестых пальцев, косых глаз, нечеловеческих зрачков и т.д. Сейчас нейронки уже очень хорошо рисуют ладони человека, а раньше это была главная проблема.
Возвращаясь к теме нового подхода к генерации изображений. Даже очень подробно написав промпт, рассказав нейросети всё о проекте и прочих деталях автор по сути, не представляет до конца, что будет сгенерировано. Как решить проблему с тем, что на полученном изображении персонаж должен стоять в строго заданной позе, должен быть одет в те или иные (совершенно конкретные) предметы гардероба, иметь на одежде некие знаки отличия, номера на спортивной форме и прочее?
Очевидно, их нужно не описать в промпте, а показать нейросети-генератору напрямую и возможности современных нейросетей позволяют это сделать.
Т.е. новый подход заключается в том, чтобы в одном диалогов окне и промпте описать сюжет изображения и дать референсы, по которым нейросеть должна генерировать результат. Таким образом, я уже не просто пишу, кого нужно нарисовать, а сопровождаю промпт: А) фотографией/изображением центрального персонажа, Б) фотографией одежды и В) изображением сюжетной обстановки, а в рабочем промпте собираю А + Б + В.
3. Новый подход, примеры.
По очевидным причинам я стал генерировать изображения на сайте https://arena.ai/
Причины перечислены ниже:
-
Бесплатный доступ к gemini-3-pro-image-preview-2k (nano-banana-pro) и gpt-image-1.5-high-fidelity. Именно эти модели с указанного сайта, по моему опыту, позволяют получить наиболее впечатляющие результаты, которые требуют минимум пост-обработки, что серьезно экономит время и ресурсы. Nano banana 2 присутствовала на указанном выше сайте, однако, видимо, в силу популярности и высокой нагрузки была исключена из перечня доступных моделей, которых не меньше 30.
-
Возможность генерации в режиме Side by Side. Это когда вы можете выбрать две нейросети из этого крайне обширного списка моделей и сравнить их возможности в рамках решения одной задачи.
-
Относительно короткие временные таймауты (30-40 минут) при достижении лимита бесплатных генераций. Думаю, тут всё очевидно.
Промпт, посредством которого была реализована идея генерации изображения по трем референсам:
Проанализируй три загруженных изображения и нарисуй картину “Evgeni Malkin – The Stormbringer” в стилистике этих трех изображений. Тебе необходимо изучить их художественные особенности, выделить ключевые элементы каждого стиля и объединить их в единый синтезированный стиль, который будет использован для создания финального изображения.
Поскольку Evgeni Malkin является легендарным хоккейным игроком, на изображении должна присутствовать хоккейная атрибутика: коньки, клюшка, лёд и динамика игры. Однако его образ должен быть представлен как мифологический повелитель ледяной бури — Stormbringer, который приносит хаос на лед и ускоряет игру до предела.
Основная художественная идея изображения заключается в том, что Malkin управляет энергией шторма, словно его движение вызывает бурю на хоккейной арене.
Когда он движется по льду, след его коньков превращается в электрические трещины, которые расходятся по поверхности льда, будто лед не выдерживает его энергии.
Его клюшка должна выглядеть как проводник молнии, а древко может светиться электрическим светом, словно по нему проходит мощный разряд.
Шайба должна лететь перед ним как шаровая молния, окруженная электрическим сиянием и искрами энергии.
Хоккейная арена может выглядеть как надвигающийся штормовой фронт — небо над ареной наполнено темными облаками, в которых сверкают молнии, усиливающие ощущение силы и хаоса.
Лёд под Malkin может трескаться от энергии, словно он приносит бурю прямо на хоккейную площадку.
Финальный образ должен передавать ощущение неудержимой силы, скорости и разрушительной энергии, превращая Evgeni Malkin в мифологическую фигуру — “The Stormbringer”, бога хоккейной бури.
Таким образом, промпт состоит из двух частей – первая задает методологию работы применительно к референс-изображениям, а вторая даёт описание деталей, которые должны присутствовать на полученном изображении.
4. Коллекция футболок THE HOCKEY GODS SERIES, результаты.
Логотип для коллекции был разработан при участии ChatGPT, а затем отрисован из растра в вектор через Adobe Illustrator для того, чтобы его можно было бесконечно масштабировать без потери качества.
Для стилизованных подписей на фоне изображения был выбран рукописный шрифт Vladimir Script и классический Century Gothic, для общей надписи THE HOCKEY GODS SERIES – шрифт Oswald.
Первоначально я планировал немного заработать на данной коллекции. Сейчас у предпринимателей стала популярна тема боксов – продажи коллекционных наборов футболок с несколькими изображениями на одну тематику. Сильно не заморачиваясь поиском, крупных производителей под мою идею я не нашёл.
На vsemayki.ru есть возможность сотрудничества с ними в качестве дизайнера, но там необходимо открывать ИП или самозанятость (я понимаю, что это совсем не сложно) и, думается, прибыль там будет по три копейки с продажи. Тем более, у меня уже был опыт взаимодействия с ними – на тот момент vsemayki.ru вручную проверяли каждый проект дизайна перед допуском в продажу и, поскольку я загрузил свой проект за несколько дней до Нового Года, к концу января мне его так и не согласовали, ссылаясь на загруженность исполнителей.
В какой-то момент я понял, что не хочу превращать этот проект в очередной способ заработать.
THE HOCKEY GODS SERIES получился не про коммерцию, а про идею — про то, как можно посмотреть на спорт как на современную мифологию.
Поэтому я решил выложить все материалы в открытый доступ — без ограничений и условий.
Если кого-то это вдохновит на собственные эксперименты с нейросетями, дизайном или просто подарит эмоции — значит, проект уже сработал.
Иногда гораздо интереснее не продавать идею, а отпустить её в свободное плавание.
P.S. на моем Google drive лежат исходники в формате Adobe InDesign (сборка макетов осуществлялась в нём) и jpeg (разрешение 20.000*20.000 пикселей), а также логотип в различных форматах (png, svg, ai). Если кого-то заинтересует проект или создание чего-либо подобного — контакты указаны ниже. Пишите в любое время!
5. Информация об авторе статьи
Меня зовут Александр Сергеевич Погодин.
Автор: Odin_Himself

