Deep Learning voor Beeldinkleuring | nl

De sepiatinten en grijswaardenverlopen van oude foto’s hebben een unieke charme; ze vangen momenten die bevroren zijn in de tijd. Toch missen ze vaak de levendige directheid van de oorspronkelijke scène. Stel je voor dat je de tinten van het leven terugblaast in deze gekoesterde herinneringen, waarbij je een vervaagd zwart-witportret transformeert in een venster dat de wereld van het onderwerp in volle kleur onthult. Dit transformatieve proces, bekend als beeldinkleuring, fascineert al lange tijd kunstenaars en historici. Vandaag de dag, voortgestuwd door vooruitgang in kunstmatige intelligentie, met name deep learning, bereikt geautomatiseerde inkleuring resultaten die ooit sciencefiction leken.

Kleur toevoegen aan een grijswaardenafbeelding vormt een fascinerende uitdaging. Een aanzienlijke hoeveelheid informatie – de oorspronkelijke chromatische data – gaat inherent verloren wanneer een afbeelding in monochroom wordt weergegeven. Hoe kan een algoritme mogelijk de ware kleur van een bloem, een jurk of de lucht weten op basis van alleen luminantiewaarden? Het antwoord ligt in de subtiele aanwijzingen die ingebed zijn in de grijswaardenafbeelding zelf: texturen, vormen, context en het samenspel van licht en schaduw. Hoewel het vaststellen van de exacte oorspronkelijke kleur misschien onmogelijk is (was die roos echt karmozijnrood, of misschien een tint roze?), verschuift het doel naar het creëren van een plausibele en esthetisch overtuigende inkleuring. Het doel is om een afbeelding te produceren die een menselijke waarnemer geloofwaardig zou vinden, mogelijk zelfs niet te onderscheiden van een originele kleurenfoto.

Deep learning-modellen blinken uit in het ontdekken van ingewikkelde patronen en statistische relaties binnen enorme datasets. Door deze modellen te trainen op miljoenen afbeeldingen, waarbij grijswaardenversies worden vergeleken met hun originele kleurentegenhangers, leren algoritmen specifieke texturen en structuren te associëren met waarschijnlijke kleuren. Ze leren dat gras doorgaans groen is, luchten vaak blauw zijn, en bepaalde texturen overeenkomen met houtnerf of stof. Het is vergelijkbaar met een onderbouwde gok, maar dan een die geïnformeerd is door een enorme visuele encyclopedie. Het algoritme ‘weet’ de ware kleur niet in menselijke zin, maar het kan zeer waarschijnlijke voorspellingen doen op basis van geleerde correlaties.

De Taal van Kleur: CIELab en Neurale Netwerken

Om inkleuring computationeel aan te pakken, hebben we een geschikte manier nodig om kleur weer te geven. Hoewel RGB (Rood, Groen, Blauw) gebruikelijk is voor beeldschermen, vermengt het luminantie- (helderheid) en chrominantie- (kleur) informatie. Een voordeliger systeem voor deze taak is de CIELab-kleurruimte. Dit model scheidt kleur elegant in drie afzonderlijke componenten:

L (Lightness): Dit kanaal vertegenwoordigt de grijswaardeninformatie, variërend van puur zwart tot puur wit. Het is in wezen de invoerdata die we al hebben in een zwart-witafbeelding.
a: Dit kanaal codeert het spectrum van groen (negatieve waarden) tot rood (positieve waarden).
b: Dit kanaal codeert het spectrum van blauw (negatieve waarden) tot geel (positieve waarden).

De schoonheid van CIELab ligt in deze scheiding. Ons deep learning-model kan zich richten op het voorspellen van de twee chrominantiekanalen (‘a’ en ‘b’) uitsluitend op basis van het invoer Lightness (‘L’) kanaal. De kerntaak wordt: gegeven de grijswaardeninformatie (L), wat zijn de meest waarschijnlijke corresponderende ‘a’- en ‘b’-waarden voor elke pixel?

Vroege pogingen maakten vaak gebruik van Convolutional Neural Networks (CNN‘s) – een type deep learning-architectuur dat bijzonder bedreven is in het verwerken van rasterachtige data zoals afbeeldingen. Deze netwerken werden getraind op grote afbeeldingsdatasets (zoals ImageNet) om direct de ‘a’- en ‘b’-waarden voor elke pixel te voorspellen, waarbij het werd behandeld als een regressieprobleem (het voorspellen van continue waarden). Er dook echter een veelvoorkomende valkuil op: de resulterende inkleuringen zagen er vaak gedesatureerd of mat uit. Waarom? Denk aan een object zoals een appel. Het zou plausibel rood, groen of zelfs geel kunnen zijn. Als het netwerk probeert deze mogelijkheden te middelen tijdens regressie, kan het uitkomen op een saai, bruinachtig compromis in plaats van een levendige, specifieke kleur. Dit middelingseffect over meerdere plausibele kleuren had de neiging de resultaten te vervagen.

Een Paradigmaverschuiving: Inkleuring als Classificatie

Om het desaturatieprobleem te overwinnen en levendigere, realistischere kleuren te produceren, herformuleert een meer geavanceerde benadering het probleem. In plaats van kleurvoorspelling als regressie te behandelen, wordt het gezien als een classificatietaak.

Hier is de conceptuele verschuiving:

Gekwantiseerde Kleurruimte: Het continue spectrum van mogelijke ‘a’- en ‘b’-waarden wordt gediscretiseerd in een vooraf gedefinieerde set van representatieve kleur-‘bins’ of klassen. Zie het als het reduceren van een enorm palet tot een beheersbare, maar toch uitgebreide, set van afzonderlijke kleuropties binnen het ‘a’-‘b’-vlak.
Voorspellen van Waarschijnlijkheden: Voor elke pixel in de invoer grijswaardenafbeelding voorspelt de CNN niet één enkele ‘a’- en ‘b’-waarde. In plaats daarvan geeft het een waarschijnlijkheidsverdeling over de gekwantiseerde kleurbins. Het zegt in wezen: ‘Voor deze pixel is er een kans van 70% dat het behoort tot ‘levendig rood bin #5’, een kans van 20% dat het ‘bleekrood bin #2’ is, een kans van 5% dat het ‘bruinachtig bin #12’ is,’ enzovoort.
Omgaan met Ambiguïteit: Deze probabilistische benadering behandelt inherent kleurambiguïteit. Als een object meerdere kleuren kan hebben (zoals de appel), kan het netwerk significante waarschijnlijkheden toekennen aan verschillende kleurbins, wat deze onzekerheid weerspiegelt zonder zijn toevlucht te nemen tot een flauw gemiddelde.
Decoderen naar Levendige Kleur: De laatste stap omvat het terugvertalen van deze waarschijnlijkheidsverdeling naar één specifieke kleur voor elke pixel. Een naïeve benadering zou kunnen zijn om simpelweg de kleurbin met de hoogste waarschijnlijkheid (de modus) te kiezen. Echter, om levendigheid te bevorderen en het desaturatieprobleem te vermijden, worden technieken zoals het berekenen van het annealed mean van de verdeling gebruikt. Deze methode geeft meer gewicht aan minder waarschijnlijke maar kleurrijkere (hogere verzadiging) voorspellingen, waardoor effectief ‘de knoop wordt doorgehakt’ ten gunste van levendigheid, terwijl de algehele voorspelde verdeling nog steeds wordt gerespecteerd.

Dit classificatiekader, gecombineerd met een zorgvuldig ontwerp van de loss-functie (de metriek die wordt gebruikt om de prestaties van het model tijdens de training te evalueren) specifiek voor inkleuring, stelt het model in staat om de complexe relatie te leren tussen grijswaardenkenmerken en de verdeling van waarschijnlijke kleuren. Het resultaat zijn afbeeldingen die niet alleen plausibel gekleurd zijn, maar ook een rijkdom en visuele aantrekkingskracht bezitten die vaak ontbreekt bij eerdere op regressie gebaseerde methoden.

Een Kijkje Onder de Motorkap: Een Praktische Deep Learning Workflow

Hoewel het trainen van zo’n geavanceerde CNN vanaf nul een monumentale taak is die immense rekenkracht en enorme datasets vereist, maakt het gebruik van vooraf getrainde modellen deze technologie toegankelijk. Laten we de conceptuele stappen doorlopen die betrokken zijn bij het gebruik van een vooraf getraind deep learning-model (specifiek een model gebouwd met het Caffe-framework, zoals in het oorspronkelijke voorbeeld) voor beeldinkleuring, geïmplementeerd met Python en gangbare bibliotheken.

1. De Toolkit Samenstellen:

De basis omvat doorgaans Python, een veelzijdige programmeertaal die populair is in data science en AI. Belangrijke bibliotheken spelen cruciale rollen:

NumPy: Essentieel voor efficiënte numerieke operaties, met name het omgaan met de multidimensionale arrays die afbeeldingen representeren.
OpenCV (cv2): Een krachtpatserbibliotheek voor computervisie-taken. Het biedt functies voor het lezen, schrijven, manipuleren en weergeven van afbeeldingen, en cruciaal, bevat een Deep Neural Network (DNN) module die modellen kan laden en uitvoeren die getraind zijn in verschillende frameworks zoals Caffe, TensorFlow en PyTorch.
Argparse: Een standaard Python-bibliotheek voor het maken van gebruiksvriendelijke command-line interfaces, waardoor gebruikers eenvoudig invoerparameters zoals het afbeeldingsbestandspad kunnen specificeren.
OS: Gebruikt voor basisinteracties met het besturingssysteem, zoals het construeren van bestandspaden op een manier die werkt op verschillende systemen (Windows, macOS, Linux).

2. De Vooraf Getrainde Intelligentie Verkrijgen:

In plaats van het neurale netwerk steen voor steen op te bouwen, gebruiken we bestanden die een netwerk vertegenwoordigen dat al getraind is voor inkleuring. Deze omvatten doorgaans:

Model Architectuur Bestand (.prototxt voor Caffe): Dit bestand definieert de structuur van het neurale netwerk – de lagen, hun types, verbindingen en parameters. Het is de blauwdruk van het model.
Getrainde Gewichten Bestand (.caffemodel voor Caffe): Dit bestand bevat de numerieke gewichten die het netwerk heeft geleerd tijdens zijn uitgebreide trainingsproces. Deze gewichten bevatten de ‘kennis’ die het model heeft verworven over het koppelen van grijswaardenkenmerken aan kleurwaarschijnlijkheden. Het is de gedistilleerde intelligentie.
Kleurkwantisatie Data (.npy-bestand): Dit NumPy-bestand slaat meestal de middelpunten op van de gekwantiseerde kleurbins die worden gebruikt in de eerder beschreven classificatiebenadering. Het fungeert als het referentiepalet voor de voorspelde kleurwaarschijnlijkheden.

Deze bestanden vertegenwoordigen het hoogtepunt van mogelijk weken of maanden training op krachtige hardware.

3. De Inkleuringsmotor Laden:

Met de benodigde bestanden gelokaliseerd, biedt de DNN-module van OpenCV het mechanisme om het vooraf getrainde netwerk in het geheugen te laden. De functie cv2.dnn.readNetFromCaffe (of equivalenten voor andere frameworks) neemt de architectuur- en gewichtenbestanden als invoer en instantieert het netwerk, waardoor het klaar is voor inferentie (het proces van het doen van voorspellingen op nieuwe data). De kleurkwantisatiepunten uit het .npy-bestand worden ook geladen, meestal met NumPy.

4. Netwerkcomponenten Fijn-tunen (Indien Nodig):

Soms hebben specifieke lagen binnen het vooraf getrainde netwerk kleine aanpassingen nodig vóór inferentie. In de context van het besproken classificatie-gebaseerde inkleuringsmodel:

Aanpassing Uitvoerlaag: De laatste laag die verantwoordelijk is voor het uitvoeren van de ‘a’- en ‘b’-kanaalvoorspellingen (bijv. genaamd class8_ab in het referentiemodel) moet mogelijk expliciet worden geladen met de kleurbin-middelpunten uit het .npy-bestand. Dit zorgt ervoor dat de uitvoerwaarschijnlijkheden van het netwerk correct worden toegewezen aan het vooraf gedefinieerde kleurenpalet. De punten worden vaak hervormd en omgezet naar het juiste datatype (bijv. float32) voordat ze worden toegewezen aan de ‘blobs’ van de laag (Caffe‘s term voor datacontainers).
Kleurherbalancering: Een andere laag (bijv. conv8_313_rh) kan worden aangepast om de balans tussen verschillende kleuren in de uitvoer te beïnvloeden, mogelijk door de verzadiging te verhogen of vertekeningen te corrigeren die tijdens de training zijn geleerd. Dit omvat vaak het instellen van de blobs van de laag op specifieke geleerde waarden (zoals de 2.606-waarde genoemd in de oorspronkelijke code, waarschijnlijk empirisch of tijdens de training afgeleid).

Deze stappen passen het generieke vooraf getrainde model aan voor de specifieke nuances van de inkleuringstaak met behulp van de classificatiebenadering.

5. De Invoerafbeelding Voorbereiden:

De invoer grijswaardenafbeelding moet verschillende voorbewerkingsstappen ondergaan voordat deze aan het neurale netwerk wordt gevoed:

Laden: De afbeelding wordt gelezen vanaf het opgegeven bestandspad met cv2.imread. Zelfs als het grijswaarden is, kan OpenCV het standaard laden als een 3-kanaals BGR-afbeelding, waarbij de grijswaarde over de kanalen wordt gedupliceerd.
Normalisatie: Pixelwaarden, doorgaans variërend van 0 tot 255, worden geschaald naar een kleiner bereik, vaak 0.0 tot 1.0, door te delen door 255.0. Deze normalisatie helpt het leer- en inferentieproces van het netwerk te stabiliseren.
Kleurruimteconversie: De afbeelding wordt geconverteerd van de standaard BGR-kleurruimte naar de CIELab-kleurruimte met cv2.cvtColor. Dit is cruciaal voor het isoleren van het Lightness (L) kanaal.
Formaat Wijzigen: De meeste vooraf getrainde CNN‘s verwachten invoerafbeeldingen van een vaste grootte (bijv. 224x224 pixels, een veelgebruikte standaard beïnvloed door datasets zoals ImageNet). De LAB-afbeelding wordt dienovereenkomstig van formaat veranderd met cv2.resize. Deze standaardisatie zorgt voor compatibiliteit met de architectuur van het netwerk.
L-kanaal Isolatie en Centrering: Het Lightness (L) kanaal wordt geëxtraheerd uit de van formaat veranderde LAB-afbeelding. Vaak worden de waarden (doorgaans 0-100 in LAB) vervolgens gecentreerd rond nul door een gemiddelde waarde (bijv. 50) af te trekken. Deze centrering is een andere veelgebruikte praktijk die de netwerkprestaties kan verbeteren.

Dit zorgvuldig voorbewerkte L-kanaal is nu klaar om aan het netwerk te worden gepresenteerd.

6. De Inferentiestap: Kleur Voorspellen:

Dit is waar de magie gebeurt:

Blob Creatie: Het verwerkte L-kanaal (nu een 2D-array) wordt omgezet in een ‘blob’, een 4-dimensionaal array-formaat dat wordt verwacht door de DNN-module (cv2.dnn.blobFromImage). Dit formaat omvat doorgaans dimensies voor batchgrootte, kanalen, hoogte en breedte.
Forward Pass: De blob wordt ingesteld als de invoer voor het geladen netwerk met net.setInput. Vervolgens wordt de methode net.forward() aangeroepen. Dit activeert de berekening: de invoerdata stroomt door de lagen van het netwerk, ondergaat transformaties gedicteerd door de geleerde gewichten, en produceert uiteindelijk de voorspelde uitvoer. Voor ons inkleuringsmodel vertegenwoordigt de uitvoer de voorspelde ‘a’- en ‘b’-kanalen (of beter gezegd, de waarschijnlijkheidsverdelingen over kleurbins).
Uitvoer Hervormen: De ruwe uitvoer van het netwerk moet worden hervormd en getransponeerd terug naar een 2D ruimtelijk formaat dat overeenkomt met de ‘a’- en ‘b’-kanalen.

Het netwerk heeft nu zijn beste gok gegenereerd voor de kleurinformatie op basis van de invoer grijswaardenafbeelding.

7. De Kleurenafbeelding Reconstrueren:

De laatste fase omvat het combineren van de voorspelde kleurinformatie met de originele afbeeldingsdata:

Voorspelde Kanalen Formaat Wijzigen: De voorspelde ‘a’- en ‘b’-kanalen (die momenteel 224x224 groot zijn, overeenkomend met de netwerkinvoer) moeten terug worden geschaald naar de originele afmetingen van de invoerafbeelding met cv2.resize. Dit zorgt ervoor dat de kleurinformatie correct aansluit bij de originele afbeeldingsstructuur.
Originele Lightness Extraheren: Cruciaal is dat het Lightness (L) kanaal wordt geëxtraheerd uit de originele, volledige LAB-afbeelding (gemaakt tijdens de voorbewerking vóór het formaat wijzigen). Het gebruik van het originele L-kanaal behoudt het oorspronkelijke detail en de luminantiestructuur van de afbeelding, die zouden worden aangetast als het van formaat veranderde L-kanaal zou worden gebruikt.
Samenvoegen: Het originele L-kanaal wordt gecombineerd (samengevoegd) met de van formaat veranderde, voorspelde ‘a’- en ‘b’-kanalen langs de kleurkanaalas. Dit stelt een volledige LAB-afbeelding opnieuw samen, nu met voorspelde kleur.
Conversie Terug naar Weergaveformaat: De resulterende LAB-afbeelding wordt teruggeconverteerd naar de BGR-kleurruimte met cv2.cvtColor, aangezien dit het standaardformaat is dat wordt verwacht door de meeste afbeeldingsweergavefuncties (zoals cv2.imshow).
Clipping en Schalen: De pixelwaarden in de BGR-afbeelding, momenteel in het genormaliseerde bereik (waarschijnlijk 0.0 tot 1.0), worden ‘geknipt’ (clipped) om ervoor te zorgen dat ze binnen dit geldige bereik blijven (waarden kunnen soms de grenzen licht overschrijden door het voorspellingsproces). Vervolgens worden ze teruggeschaald naar het standaard 0-255 integer-bereik dat vereist is voor weergave of opslag als een standaard afbeeldingsbestand.

8. Visualisatie:

Ten slotte kunnen functies zoals cv2.imshow worden gebruikt om de originele grijswaardenafbeelding naast zijn nieuw ingekleurde tegenhanger weer te geven, wat directe visuele vergelijking mogelijk maakt.

Het Proces Uitvoeren:

Typisch zou een script dat deze stappen implementeert, worden uitgevoerd vanaf de command line. Met behulp van de argparse-setup zou de gebruiker het pad naar de invoer grijswaardenafbeelding als argument opgeven (bijv. python colorize_image.py --image mijn_foto.jpg). Het script voert vervolgens de laad-, voorbewerkings-, inferentie- en reconstructiestappen uit, en toont of slaat uiteindelijk het ingekleurde resultaat op.

Deze workflow, die gebruikmaakt van vooraf getrainde modellen en krachtige bibliotheken, transformeert de complexe theorie van deep learning-inkleuring in een praktisch hulpmiddel dat in staat is om levendige, plausibele kleuren toe te voegen aan monochrome afbeeldingen, en zo effectief de kloof tussen verleden en heden overbrugt.

bijgewerkt op 2025-03-26

# AI # AIGC # GPT