Вдыхая жизнь в монохром: ИИ для колоризации изображений | ru

Сепия и градации серого старых фотографий обладают уникальным шармом, запечатлевая моменты, застывшие во времени. Однако им часто не хватает живой непосредственности оригинальной сцены. Представьте, как вы вдыхаете краски жизни в эти заветные воспоминания, превращая выцветший черно-белый портрет в окно, раскрывающее мир объекта во всей его полноте. Этот преобразующий процесс, известный как колоризация изображений, давно привлекал художников и историков. Сегодня, благодаря достижениям в области искусственного интеллекта, особенно глубокого обучения, автоматическая колоризация достигает результатов, которые когда-то казались научной фантастикой.

Придание цвета изображению в градациях серого представляет собой увлекательную задачу. Значительный объем информации – исходные хроматические данные – неизбежно теряется при рендеринге изображения в монохромном виде. Как алгоритм может узнать истинный цвет цветка, платья или неба только по значениям яркости? Ответ кроется в тонких подсказках, заложенных в самом изображении в градациях серого: текстурах, формах, контексте и игре света и тени. Хотя точное определение истинного исходного цвета может быть невозможным (была ли та роза действительно малиновой или, возможно, оттенка розового?), цель смещается к созданию правдоподобной и эстетически убедительной колоризации. Задача состоит в том, чтобы создать изображение, которое человек счел бы достоверным, возможно, даже неотличимым от оригинальной цветной фотографии.

Модели глубокого обучения превосходно справляются с выявлением сложных закономерностей и статистических взаимосвязей в огромных наборах данных. Обучая эти модели на миллионах изображений, сравнивая версии в градациях серого с их оригинальными цветными аналогами, алгоритмы учатся ассоциировать определенные текстуры и структуры с вероятными цветами. Они узнают, что трава обычно зеленая, небо часто синее, а определенные текстуры соответствуют древесине или ткани. Это сродни обоснованному предположению, но основанному на огромной визуальной энциклопедии. Алгоритм не ‘знает’ истинный цвет в человеческом понимании, но может делать высоковероятные прогнозы на основе изученных корреляций.

Язык цвета: CIELab и нейронные сети

Чтобы решить задачу колоризации вычислительным путем, нам нужен подходящий способ представления цвета. Хотя RGB (красный, зеленый, синий) распространен для дисплеев, он смешивает информацию о яркости (luminance) и цветности (chrominance). Более выгодной системой для этой задачи является цветовое пространство CIELab. Эта модель элегантно разделяет цвет на три отдельных компонента:

L (Lightness): Этот канал представляет информацию в градациях серого, варьирующуюся от чисто черного до чисто белого. По сути, это входные данные, которые у нас уже есть в черно-белом изображении.
a: Этот канал кодирует спектр от зеленого (отрицательные значения) до красного (положительные значения).
b: Этот канал кодирует спектр от синего (отрицательные значения) до желтого (положительные значения).

Прелесть CIELab заключается в этом разделении. Наша модель глубокого обучения может сосредоточиться на предсказании двух каналов цветности (‘a’ и ‘b’), основываясь исключительно на входном канале яркости (‘L’). Основная задача сводится к следующему: учитывая информацию в градациях серого (L), каковы наиболее вероятные соответствующие значения ‘a’ и ‘b’ для каждого пикселя?

Ранние попытки часто использовали сверточные нейронные сети (Convolutional Neural Networks, CNN) – тип архитектуры глубокого обучения, особенно хорошо подходящий для обработки данных сеточного типа, таких как изображения. Эти сети обучались на больших наборах данных изображений (например, ImageNet) для прямого предсказания значений ‘a’ и ‘b’ для каждого пикселя, рассматривая это как задачу регрессии (предсказание непрерывных значений). Однако возникла распространенная проблема: полученные колоризации часто выглядели ненасыщенными или блеклыми. Почему? Рассмотрим объект, например, яблоко. Оно вполне могло быть красным, зеленым или даже желтым. Если сеть пытается усреднить эти возможности во время регрессии, она может остановиться на тусклом, коричневатом компромиссе вместо яркого, конкретного цвета. Этот эффект усреднения по нескольким правдоподобным цветам имел тенденцию размывать результаты.

Смена парадигмы: Колоризация как классификация

Чтобы преодолеть проблему ненасыщенности и получить более яркие, реалистичные цвета, более сложный подход переосмысливает задачу. Вместо того чтобы рассматривать предсказание цвета как регрессию, его рассматривают как задачу классификации.

Вот концептуальный сдвиг:

Квантованное цветовое пространство: Непрерывный спектр возможных значений ‘a’ и ‘b’ дискретизируется в предопределенный набор репрезентативных цветовых ‘корзин’ или классов. Представьте это как сведение обширной палитры к управляемому, но всеобъемлющему набору различных цветовых вариантов в плоскости ‘a’-‘b’.
Предсказание вероятностей: Для каждого пикселя входного изображения в градациях серого CNN не предсказывает одно значение ‘a’ и ‘b’. Вместо этого она выводит распределение вероятностей по квантованным цветовым корзинам. По сути, она говорит: ‘Для этого пикселя вероятность принадлежности к ‘ярко-красной корзине №5’ составляет 70%, вероятность принадлежности к ‘бледно-красной корзине №2’ – 20%, вероятность принадлежности к ‘коричневатой корзине №12’ – 5%’ и так далее.
Учет неоднозначности: Этот вероятностный подход по своей сути справляется с цветовой неоднозначностью. Если объект может иметь несколько цветов (как яблоко), сеть может присвоить значительные вероятности нескольким различным цветовым корзинам, отражая эту неопределенность, не прибегая к блеклому среднему значению.
Декодирование в яркий цвет: Последний шаг включает преобразование этого распределения вероятностей обратно в один конкретный цвет для каждого пикселя. Наивный подход мог бы заключаться в простом выборе цветовой корзины с наивысшей вероятностью (моды). Однако для поощрения яркости и избежания проблемы ненасыщенности используются такие методы, как вычисление отжигового среднего (annealed mean) распределения. Этот метод придает больший вес менее вероятным, но более красочным (с более высокой насыщенностью) предсказаниям, эффективно ‘разрешая ничьи’ в пользу яркости, при этом уважая общее предсказанное распределение.

Эта классификационная структура в сочетании с тщательной разработкой функции потерь (метрики, используемой для оценки производительности модели во время обучения), специально предназначенной для колоризации, позволяет модели изучить сложную взаимосвязь между признаками в градациях серого и распределением вероятных цветов. Результатом являются изображения, которые не только правдоподобно окрашены, но и обладают насыщенностью и визуальной привлекательностью, часто отсутствующими в более ранних методах на основе регрессии.

Заглядывая под капот: Практический рабочий процесс глубокого обучения

Хотя обучение такой сложной CNN с нуля является монументальной задачей, требующей огромных вычислительных ресурсов и обширных наборов данных, использование предварительно обученных моделей делает эту технологию доступной. Давайте рассмотрим концептуальные шаги, связанные с использованием предварительно обученной модели глубокого обучения (в частности, построенной с использованием фреймворка Caffe, как в исходном примере) для колоризации изображений, реализованной с использованием Python и распространенных библиотек.

1. Сборка инструментария:

Основой обычно является Python, универсальный язык программирования, популярный в науке о данных и ИИ. Ключевые библиотеки играют важную роль:

NumPy: Необходим для эффективных численных операций, особенно для обработки многомерных массивов, представляющих изображения.
OpenCV (cv2): Мощная библиотека для задач компьютерного зрения. Она предоставляет функции для чтения, записи, обработки и отображения изображений, и, что особенно важно, включает модуль глубоких нейронных сетей (Deep Neural Network, DNN), способный загружать и запускать модели, обученные в различных фреймворках, таких как Caffe, TensorFlow и PyTorch.
Argparse: Стандартная библиотека Python для создания удобных интерфейсов командной строки, позволяющая пользователям легко указывать входные параметры, такие как путь к файлу изображения.
OS: Используется для базовых взаимодействий с операционной системой, например, для построения путей к файлам таким образом, чтобы они работали в разных системах (Windows, macOS, Linux).

2. Приобретение предварительно обученного интеллекта:

Вместо того чтобы строить нейронную сеть по кирпичику, мы используем файлы, представляющие сеть, уже обученную для колоризации. Обычно они включают:

Файл архитектуры модели (.prototxt для Caffe): Этот файл определяет структуру нейронной сети – слои, их типы, соединения и параметры. Это чертеж модели.
Файл обученных весов (.caffemodel для Caffe): Этот файл содержит числовые веса, изученные сетью в ходе ее обширного процесса обучения. Эти веса инкапсулируют ‘знания’, которые модель приобрела о сопоставлении признаков в градациях серого с вероятностями цвета. Это дистиллированный интеллект.
Данные квантования цвета (файл .npy): Этот файл NumPy обычно хранит центральные точки квантованных цветовых корзин, используемых в описанном ранее подходе классификации. Он действует как эталонная палитра для предсказанных вероятностей цвета.

Эти файлы представляют собой кульминацию потенциально недель или месяцев обучения на мощном оборудовании.

3. Загрузка движка колоризации:

После нахождения необходимых файлов модуль DNN библиотеки OpenCV предоставляет механизм для загрузки предварительно обученной сети в память. Функция cv2.dnn.readNetFromCaffe (или эквиваленты для других фреймворков) принимает файлы архитектуры и весов в качестве входных данных и создает экземпляр сети, делая ее готовой к выводу (inference) – процессу предсказания на новых данных. Точки квантования цвета из файла .npy также загружаются, обычно с использованием NumPy.

4. Тонкая настройка компонентов сети (при необходимости):

Иногда определенные слои в предварительно обученной сети требуют незначительных корректировок перед выводом. В контексте обсуждаемой модели колоризации на основе классификации:

Корректировка выходного слоя: Последний слой, отвечающий за вывод предсказаний каналов ‘a’ и ‘b’ (например, названный class8_ab в эталонной модели), может потребовать явной загрузки центров цветовых корзин из файла .npy. Это гарантирует, что выходные вероятности сети правильно сопоставляются с предопределенной цветовой палитрой. Точки часто преобразуются по форме и типу данных (например, float32) перед присвоением ‘блобам’ слоя (термин Caffe для контейнеров данных).
Ребалансировка цвета: Другой слой (например, conv8_313_rh) может быть скорректирован для влияния на баланс между различными цветами на выходе, потенциально повышая насыщенность или исправляя смещения, изученные во время обучения. Это часто включает установку блобов слоя на определенные изученные значения (например, значение 2.606, упомянутое в исходном коде, вероятно, полученное эмпирически или во время обучения).

Эти шаги адаптируют общую предварительно обученную модель к конкретным нюансам задачи колоризации с использованием подхода классификации.

5. Подготовка входного изображения:

Входное изображение в градациях серого должно пройти несколько этапов предварительной обработки перед подачей в нейронную сеть:

Загрузка: Изображение считывается из указанного пути файла с помощью cv2.imread. Даже если оно в градациях серого, OpenCV по умолчанию может загрузить его как 3-канальное изображение BGR, дублируя значение серого по каналам.
Нормализация: Значения пикселей, обычно находящиеся в диапазоне от 0 до 255, масштабируются до меньшего диапазона, часто от 0.0 до 1.0, путем деления на 255.0. Эта нормализация помогает стабилизировать процесс обучения и вывода сети.
Преобразование цветового пространства: Изображение преобразуется из стандартного цветового пространства BGR в цветовое пространство CIELab с помощью cv2.cvtColor. Это крайне важно для выделения канала яркости (L).
Изменение размера: Большинство предварительно обученных CNN ожидают входные изображения фиксированного размера (например, 224x224 пикселя, распространенный стандарт, обусловленный наборами данных, такими как ImageNet). Изображение LAB соответственно изменяется в размере с помощью cv2.resize. Эта стандартизация обеспечивает совместимость с архитектурой сети.
Выделение и центрирование канала L: Канал яркости (L) извлекается из измененного изображения LAB. Часто его значения (обычно 0-100 в LAB) затем центрируются вокруг нуля путем вычитания среднего значения (например, 50). Это центрирование является еще одной распространенной практикой, которая может улучшить производительность сети.

Этот тщательно предварительно обработанный канал L теперь готов к подаче в сеть.

6. Шаг вывода: Предсказание цвета:

Здесь происходит волшебство:

Создание блоба: Обработанный канал L (теперь 2D-массив) преобразуется в ‘блоб’, 4-мерный формат массива, ожидаемый модулем DNN (cv2.dnn.blobFromImage). Этот формат обычно включает измерения для размера пакета, каналов, высоты и ширины.
Прямой проход: Блоб устанавливается в качестве входа для загруженной сети с помощью net.setInput. Затем вызывается метод net.forward(). Это запускает вычисление: входные данные проходят через слои сети, подвергаясь преобразованиям, продиктованным изученными весами, и в конечном итоге производят предсказанный выход. Для нашей модели колоризации выход представляет собой предсказанные каналы ‘a’ и ‘b’ (или, точнее, распределения вероятностей по цветовым корзинам).
Изменение формы вывода: Необработанный вывод из сети необходимо преобразовать по форме и транспонировать обратно в 2D-пространственный формат, соответствующий каналам ‘a’ и ‘b’.

Сеть сгенерировала свое лучшее предположение о цветовой информации на основе входного изображения в градациях серого.

7. Реконструкция цветного изображения:

Заключительный этап включает объединение предсказанной цветовой информации с данными исходного изображения:

Изменение размера предсказанных каналов: Предсказанные каналы ‘a’ и ‘b’ (которые в настоящее время имеют размер 224x224, соответствующий входу сети) необходимо изменить обратно до исходных размеров входного изображения с помощью cv2.resize. Это гарантирует правильное выравнивание цветовой информации со структурой исходного изображения.
Извлечение исходной яркости: Крайне важно, что канал яркости (L) извлекается из оригинального, полноразмерного изображения LAB (созданного во время предварительной обработки перед изменением размера). Использование исходного канала L сохраняет исходную детализацию и структуру яркости изображения, которые были бы ухудшены при использовании измененного канала L.
Конкатенация: Исходный канал L объединяется (конкатенируется) с измененными, предсказанными каналами ‘a’ и ‘b’ вдоль оси цветовых каналов. Это воссоздает полное изображение LAB, теперь с предсказанным цветом.
Преобразование обратно в отображаемый формат: Полученное изображение LAB преобразуется обратно в цветовое пространство BGR с помощью cv2.cvtColor, так как это стандартный формат, ожидаемый большинством функций отображения изображений (например, cv2.imshow).
Ограничение и масштабирование: Значения пикселей в изображении BGR, в настоящее время находящиеся в нормализованном диапазоне (вероятно, от 0.0 до 1.0), ограничиваются (clipping), чтобы гарантировать, что они остаются в этом допустимом диапазоне (значения иногда могут немного выходить за границы из-за процесса предсказания). Затем они масштабируются обратно до стандартного целочисленного диапазона 0-255, необходимого для отображения или сохранения в виде стандартного файла изображения.

8. Визуализация:

Наконец, функции, такие как cv2.imshow, могут использоваться для отображения исходного изображения в градациях серого рядом с его только что колоризованным аналогом, что позволяет немедленно визуально сравнить их.

Выполнение процесса:

Обычно скрипт, реализующий эти шаги, запускается из командной строки. Используя настройку argparse, пользователь предоставляет путь к входному изображению в градациях серого в качестве аргумента (например, python colorize_image.py --image my_photo.jpg). Затем скрипт выполняет шаги загрузки, предварительной обработки, вывода и реконструкции, в конечном итоге отображая или сохраняя колоризованный результат.

Этот рабочий процесс, использующий предварительно обученные модели и мощные библиотеки, превращает сложную теорию колоризации с помощью глубокого обучения в практический инструмент, способный добавлять яркие, правдоподобные цвета к монохромным изображениям, эффективно преодолевая разрыв между прошлым и настоящим.

обновлено 2025-03-26

# AI # AIGC # GPT