Klassifizierung von Kunstwerken nach Maltechnik


Klassifizierung von Kunstwerken nach Maltechnik

Einführung

Ein Gemälde nach Epoche, Stil, Maltechnik, Künstler oder anderen Attributen zu untersuchen und damit auch einzuordnen, ist für das menschliche Auge möglich [1].  Diese Klassifizierung gelingt, je nach Wissen und Erfahrung des Betrachters, besser oder schlechter. Selbst wenn man sich bei dieser Disziplin auf eine bestimmte Zeitperiode beschränkt, gilt es Unmengen von Bildern einzuordnen.

ARTizen ist ein Projekt, das sich auf die Kartographie der europäischen Kunst des langen 19. Jahrhunderts spezialisiert. Die Teilnehmer des Praktikums „Data Analysis in Art History“ der Ludwigs Maximilian Universität München versuchen in einer ein Semester währenden Projektarbeit ARTizen durch ihren Beitrag voranzubringen.

Die Frage, die im Zuge der hier beschriebenen Projektarbeit versucht wird zu klären, ist folgende: Ist ein Computerprogramm in der Lage, Gemälde nach ihrer Maltechnik zu klassifizieren?

Damit eine Klassifizierung überhaupt möglich wird, müssen zuerst bekannte Maltechniken eruiert werden. Die verbreitetsten Maltechniken sind Öl, Acryl, Kasein, Wasserfarben, Enkaustik, Mineral, Sand und Zeichnung [4]. Jede Malfarbe und Technik hat dabei besondere Eigenschaften und Verhalten. Diese bestimmen wiederum das Malverhalten und geben jeder Maltechnik somit auch ihren eigenen Stil. Somit unterscheiden sich Gemälde, die zum Beispiel mit Öl- oder Acrylfarben  gemalt  wurden sowohl in ihrer Zusammensetzung, als auch in ihrem Erscheinungsbild. Bei einem fertig getrockneten Ölgemälde entsteht eine wasserunlösliche Schicht, die hart und damit extrem lange haltbar ist. Öl benötigt im Gegensatz zu Acryl eine längere Zeit zum trocknen und bietet somit andere Möglichkeiten beim Malen als Acrylfarben. Wasserfarben hingegen sorgen für weiche und transparente Farbeffekte mit weichen Übergängen [7]. Des Weiteren nutzen einige Künstler mehrere Techniken und Medien bei der Erschaffung von Gemälden, sodass die gemischte Maltechnik ebenfalls betrachtet werden muss.

Für die Ermittlung der Maltechnik wird das Random Forest Klassifikationsverfahren verwendet. Bei den verwendeten Features wird es sich sowohl um textuelle als auch um Bilddaten handeln.

Der Bericht setzt sich neben der Einführung aus vier weiteren Kapiteln zusammen. Zuerst werden verwandte Arbeiten, Projekte und Programme vorgestellt, die sich ebenfalls mit dem Thema der Klassifizierung von Kunstwerken beschäftigen. Im folgenden wird auf Datenerhebung (Text und Bilddaten) und Datenweiterverarbeitung, beziehungsweise das Vorbereiten der Daten auf die Klassifizierung, eingegangen. Im Anschluss wird das implementierte System mit seinen Features vorgestellt, welche Experimente im Laufe des Projekts durchgeführt wurden und welche Ergebnisse dadurch erzielt wurden.

 

Verwandte Arbeiten

Die Klassifizierung von Kunstwerken ist für maschinelles Lernen ein Themenbereich, dessen Grenzen in jüngster Vergangenheit vielfach ausgetestet wurden. Wissenschaftler unterschiedlicher Fachbereiche arbeiten weltweit in diesem Feld. Diese Technologie ermöglicht nicht nur Rückschlüsse über den Inhalt eines Gemäldes, sondern auch über die Epoche, Herkunft und den Künstler selbst. Beispielsweise entwickelten Mitarbeiter des „Art and Artificial Intelligence Laboratory“ an der Rutgers University New Jersey Algorithmen, welche ermöglichen, eine Vielzahl von Gemälden nach Stilrichtung, Gattung und sogar Künstler zu klassifizieren. Die Klassifizierung wird dadurch ermöglicht, dass die Algorithmen in der Lage sind, Farbe, Komposition, Textur, Perspektive, Motiv und andere visuelle Merkmale zu erkennen [1]. Um dies zu erreichen, entwickelten Wissenschaftler unterschiedlichste Klassifizierungsalgorithmen.

Als weiteres Beispiel dient die wissenschaftliche Arbeit „Style classification and visualization of art painting’s genre using self-organizing maps“. Hierbei erfolgt die Klassifizierung mit Hilfe von Kohonenkarten, einer Art von künstlichen neuronalen Netzen. In diesem Fall lag die Genauigkeit der Klassifizierung bei signifikanten 90%. Studierende der Ludwigs-Maximilians-Universität München veröffentlichten letztes Jahr im Rahmen des Praktikums „Data Analysis with Python“ unter anderem den Forschungsbericht „Die „Malweiber“ – Künstlerinnen des 19. Jahrhundert “ [8]. Ziel des Praktikums war es, anhand unterschiedlicher Daten zu verstehen, inwieweit sich Gemälde der Künstlerinnen des 19. Jahrhunderts von denen ihrer männlichen Kollegen unterscheiden [8]. Hervorzuheben ist hierbei insbesondere die Wahl der Farben, welche durch die Rahmenbedingungen beider Geschlechter geprägt war. Das Ergebnis der Analyse war, dass sowohl männliche, als auch weibliche Maler ähnliche Farben und Helligkeiten verwendeten, das wiederum für eine ähnliche stilistische Entwicklung beider Geschlechter spricht [8].

Für diese Arbeit wird dieser Ansatz erweitert. Unter anderem werden Bildverarbeitungsalgorithmen verwendet, um unterschiedliche Feature, aus den Bildern zu gewinnen.

 

Methodologie

Das Projekt wurde in drei Meilensteine unterteilt: Zuerst wurden Daten eines amerikanischen Auktionshauses extrahiert. Im Anschluss wurden diese Daten für den späteren Einsatz vorbereitet und bereinigt. Zusätzlich werden Bilddaten aus den digitalen Kopien der Gemälde extrahiert. Im letzten Schritt wurde anhand dieser gesammelten Daten die Klassifizierung nach Maltechnik durchgeführt.

 

Datenbeschaffung und Verarbeitung

Um mit der Klassifizierung beginnen zu können, werden erst Daten benötigt, die im späteren Verlauf in Trainings- und Testdaten unterteilt werden. Die Erfahrung aus vorhergehenden Praktika zu dem Thema zeigt, dass sich zum Sammeln von Datensätzen bezüglich Gemälden, die Websites  von  Auktionshäuser gut eignen. Ein bekanntes amerikanisches Auktionshaus ist Heritage Auctions. Es ist das größte Auktionshaus in den USA, sowie das drittgrößte Auktionshaus der Welt [15] und bietet somit eine große Auswahl an Kunstwerken des langen 19. Jahrhunderts.

Für das Sammeln der Daten wird ein eigenes Programm implementiert, zugeschnitten auf die Website von Heritage. Dieses benutzt das Framework Scrapy [5]. Scrapy ermöglicht ein automatisiertes und effizientes Auslesen von Daten. Dieser Vorgang wird Webscrapen genannt. Da die Website Informationen via Javascript nachlädt, muss das Scrapen über einen Browser erfolgen. Dies wird mit dem Framework Selenium umgesetzt [16]. Durch die Kombination dieser beiden Frameworks ist es möglich, folgende Informationen aus über 14000 Auktionsgegenständen zu extrahieren: Eine digitalisierte Kopie (Fotografie) des jeweiligen Gemäldes, Titel, Name des Künstlers, Jahr der Schöpfung, Maltechnik, Größe, Verkaufsdatum, Preis (falls bereits verkauft), der angebotene/geschätzte Verkaufspreis und andere Daten in Form eines Fließtextes. Die Information über die Maltechnik ist entscheidend, da diese für die Evaluierung des Systems benutzt wird. Die Vollständigkeit der eben genannten Daten variiert für jedes einzelne Kunstwerk. Im allgemeinen kann man behaupten, je bekannter das Gemälde, desto vollständiger die Informationen.

Die gesammelten Daten werden im nächsten Schritt verarbeitet und damit auf die Klassifizierung vorbereitet. Artikel, die keine Beschreibung über die Maltechnik beinhalten, werden aus dem Datensatz entfernt. Wie bereits erwähnt, ist diese Information für den Klassifizierungsschritt unabdingbar. Der restlichen Satz an Daten wird unter anderem normalisiert, damit numerische Werte, wie zum Beispiel ein Datum, einer allgemeinen Form entsprechen. Preis, Breite und Höhe werden in ganzzahlige Werte umgerechnet. Im Folgenden werden die Schritte bezüglich der Normalisierung betreffend der Maltechnik erläutert.

In den gesammelten Daten ist für den Großteil der Gemälde eine Beschreibung der Maltechnik, sowie des Materials, auf dem die Farben aufgetragen wurden, vorhanden. Beispiele für Ölgemälde sind: „Oil on canvas, Oil, Oil on panel, Oil on masonite“. Für Wasserfarben kommen unter anderem folgende Begriffe vor: „Gouache, aquarelle, watercolor.  Für die Klassifizierung selbst wird eine allgemeinere Einteilung verwendet werden. Die in diesem Schritt des Praktikums definierten Klassen sind die folgenden: Öl, Wasserfarbe, Acryl, Gemischt, Kasein, Enkaustik, Sand und Mineral. Bei Vorkommen genau eines dieser Begriffe, auch in einem größeren Zusammenhang, wird auf exakt einen Begriff abgebildet. Das bedeutet, dass Vorkommen wie „Oil“, oder auch „Oil on Canvas“ der Klasse Öl(-gemälde) zugeordnet werden. Im Falle von unterschiedlichen Vorkommen oder wenn die Maltechnik als „mixed“ deklariert wird, entspricht dies der Klasse „Gemischt“. Daten, die auf diese Art nicht zugeordnet werden konnten, wurden aus dem Datensatz entfernt. Die Anzahl der Klassen wird im späteren Verlauf der Arbeit auf vier reduziert.

Tabelle 1: Dataset Statistiken

Maltechnik

Anzahl der extrahierten Datensätzen

Öl

8231

Wasserfarbe

953

Acryl

411

Gemischt

379

Kasein

20

Enkaustik

9

Sand

1

Mineral

1

Die oben gelistete Tabelle zeigt die Anzahl der extrahierten Datensätze für jede Maltechnik. Dieser ist zu entnehmen, dass lediglich die vier Maltechniken relevant sind, die am häufigsten auftreten – Öl, Wasserfarbe, Acryl und gemischte Maltechnik. Die Anzahl der restlichen Techniken sind für den Machine Learning Ansatz zu gering. Damit bleiben nach dem Verarbeitungsschritt von den Ursprünglich >14000 Datensätze noch ca. 10000 übrig.

Feature Extraktion

Für die Klassifizierung werden Regeln genutzt, die es erlauben, Merkmale für eine Unterscheidung verschiedener Klassen festzulegen. Diese Merkmale werden auch Features genannt. So wird zum Beispiel Farbe genutzt, um Orangen, Zitronen und Äpfel auf einem Laufband unterscheiden zu können. Ein weiteres Beispiel ist, dass mit der Länge der Wörter und der vorhandenen Buchstaben, Texte nach Sprache klassifiziert werden können. Im folgenden wird beschrieben, welche Feature im Rahmen des Praktikums extrahiert wurden, um damit die Maltechnik der Gemälde zu bestimmen.

Zusätzlich zu den Daten, die von der Webseite des Auktionshauses Heritage extrahiert werden konnten, werden aus den restlichen 10000 Datensätzen Bildinformationen – die eigentlichen Features – extrahiert. Die Daten beinhalten für jedes Gemälde auch eine digitalisierte Form, eine jpg-Datei, die als Grundlage der Features ist. Dieser Vorgang wird mit Hilfe von OpenCV, einer „Open Source Computer Vision Library“ [17], durchgeführt. Wichtig ist anzumerken, dass zu diesem Zeitpunkt nicht vorhergesehen werden kann, welche Bildinformationen erfolgversprechend sind und somit extrahiert werden müssen. Daher basiert die getroffene Auswahl der Bildfeatures rein auf Annahmen. Diese Annahmen sind Rückschlüsse von Beobachtungen und Vergleiche der vorhanden Kunstwerke.

Vergleicht man zwei Bilder der am häufigsten in dem verwendeten Datensatz vorkommenden Maltechniken, also Öl und Wasserfarbe, so fällt in der Regel ein Unterschied in der Helligkeit der Farben der Sättigung und in Farbverläufen auf. Selbstverständlich sind diese Beobachtungen in gewissen Maße subjektiv, dennoch sollen sie eine Ausgangslage schaffen, damit eine Feature Auswahl für die spätere Klassifizierung möglich ist. Erst der Schritt der Klassifizierung wird den Erfolg der Bilddaten zeigen können.

Folgende Features werden aus den Bildern extrahiert:

  • Grauwerte Histogramm (Helligkeit der einzelnen Pixel)
  • RGB-Farbwerte Histogramm
  • HSV-Histogramm (Farbwert und Sättigung)
  • HSV-Histogramm nach Posterisation
  • HSV-Histogramm nach Weichzeichnen
    • Einfaches Histogramm nach Weichzeichnen (Gaussian Blur)
    • Vergleiche verschiedener Tiefenstufen der Weichzeichner (Gaussian Level)

Graustufen, RGB und HSV Histogramme sind Verteilungen der Häufigkeiten der jeweiligen Werte eines Bildes. Die Grauwerte sind der Durchschnitt des RGB Farbwertes an Stelle x. Damit kann die Häufigkeit der Helligkeit  zwischen 0-255 dargestellt werden. RGB zeigt die Häufigkeit der einzelnen Farbwerte an. HSV hingegen zeigt Hue, Saturation und Value, also Farbwert, Sättigung und Helligkeitswert [18].

Die eben genannten Informationen können den Bildern ohne Veränderung entnommen werden. Im Gegensatz dazu ist die Posterisation und das Weichzeichnen nicht umkehrbar. Da zum Beispiel Wasserfarbengemälde weichere Farbverläufe als Ölgemälde haben, liegt die Vermutung nahe, dass Weichzeichnen oder Posterisieren die Eigenschaft der Maltechnik verstärken könnten. Beim Weichzeichnen werden Durchschnittswerte von umliegenden Pixeln gebildet um somit eine Angleichung der Werte zu erreichen und Pixel mit stark abweichenden Werten zu normalisieren [19]. Posterisieren hingegen mappt verschiedene Pixel auf einen bestimmten Wert. In der Fotografie wird dies auch Tontrennung genannt. Die Bildinformationen nach dem Weichzeichnen und der Posterisation werden jeweils wieder als HSV-Werte gespeichert. Das letzte Bilddaten Feature ist das Weichzeichnen mit unterschiedlicher Rasterung und ein darauffolgender Vergleich der jeweiligen HSV-Werte. Die Idee dahinter ist, dass der umumkehrbare Schritt des Weichzeichnens, also die Angleichung der Pixel, in unterschiedlicher Intensität erfolgt, in Form von HSV-Werten gespeichert und untereinander verglichen wird. Es werden 4 unterschiedliche Level der Intensität beim Weichzeichnen benutzt. Im Anschluss werden die daraus berechneten HSV-Histogramme miteinander verglichen – das heißt der Unterschied der Veränderung der einzelnen Rasterstufen. Die verwendeten Vergleiche, die OpenCV bietet, sind Korrelation, Chi-Square, Intersection und die Bhattacharyya Entfernung [20].

Die genannten Bildinformatinen werden für alle Daten extrahiert und gespeichert, damit diese in der folgenden Klassifizierung als Feature benutzt werden können. Für diesen Schritt werden sowohl die Bilddaten als auch die Textdaten in ein Trainings- (70%) und Testset (30%) unterteilt.

Klassifizierung

Klassifizierung in der Informatik bezeichnet den Vorgang, Objekte anhand ihrer Eigenschaften einer Klasse innerhalb einer Anzahl diskreter Klassen zuzuweisen [13]. Klassifikationsaufgaben treten in den unterschiedlichsten Bereichen auf und decken hierbei jeden beliebigen Kontext ab, in welchem Entscheidungen oder Prognosen aufgrund der zu einem bestimmten Zeitpunkt verfügbaren Informationen getroffen werden sollen [9]. In dieser Studienarbeit wird der Schwerpunkt auf überwachtes Lernen gesetzt. Hierbei werden Datenpaare dem System übergeben, welche aus einer Eingabe und der gewünschten Ausgabe bestehen. Das System lernt aus diesen Datenpaaren eine Funktion, welche die Eingabe auf die Ausgabe abbildet [10].

Wie bereits zuvor erwähnt, sind die Daten in dem hier implementieren System ungleichmäßig verteilt, dass die meisten Artikel der Klasse Öl zugehörig sind. Im Verlauf der Durchführung einer Reihe der Klassifizierungen stellte sich heraus, dass diese Eigenschaft die Ergebnisse dahingehend beeinflusst, dass die meisten Artikel als Öl klassifiziert werden. In der Fachliteratur gibt es unterschiedliche Ansätze, wie im Falle einer solchen Datenverteilung vorgegangen werden kann. Die beiden bekanntesten Methoden sind das Over-, und Undersampling. Beim Oversampling werden zusätzliche Beispiele für jede Klassen generiert, die weniger Daten enthalten. Hierbei können entweder die vorhandenen Instanzen dupliziert, oder neue mit den Kombinationen der Nachbareigenschaften angelegt werden. Hingegen wird beim Undersampling die Anzahl der Instanzen der Klasse verringert, welche im Vergleich zu den anderen zu groß ist [14]. Beide Methoden haben Vor- und Nachteile und können entweder Overfitting nach sich ziehen oder zum Verlust wichtiger Informationen führen.

Eine weitere Möglichkeit mit dieser ungleichen Datenverteilung umzugehen ist die Verwendung eines Klassifikator, der auf Entscheidungsbäumen basiert. Die hierarchische Struktur von Entscheidungsbäumen erlaubt es Merkmale aller Klassen zu lernen und berücksichtigen [14]. Im Verlaufe dieser Arbeit wird auf die Implementierung des Random Forest Classifier von scikit-learn, einem Open-Source Python Framework, zurückgegriffen. Dieses Framework enthält eine große Sammlung von Python Modulen für Maschinelles Lernen, sowie Data Mining [11]. Random Forest ist ein Klassifizierungsverfahren, das aus mehreren nicht korrelierenden Entscheidungsbäumen besteht. Alle Entscheidungsbäume entstehen während des Lernprozesses unter einer bestimmten Art von Randomisierung. Jeder Baum in diesem Wald darf eine Entscheidung treffen, die Klasse mit den meisten Stimmen entscheidet die endgültige Klassifikation [12].

Da dieses Verfahren die besten Ergebnisse im Vergleich zum Naive Bayes-Klassifikator (Gaussian und Multinomial Naive Bayes) und Support Vector Machines liefert, fiel im Laufe dieser Studienarbeit die Entscheidung auf den Random Forest Classifier. Darüber hinaus wurde zum Vergleich außerdem das Undersampling angewendet. Die Resultate werden im Kapitel „Experimente und Ergebnisse“ beschrieben.

Durchführung der Klassifizierung und Ergebnisse

Die Herangehensweise zu Beginn des Praktikums war es, eine breite Palette von Features zu sammeln und zu generieren, um später die Besten auswählen zu können. Die für diesen Zweck gesammelten Textbasierten Daten, wurden für den Klassifizierungsschritt verworfen, da es das eigentliche Ziel ist, nur Anhand der Bilder selbst und der daraus resultierenden Features eine Bestimmung der Maltechnik vornehmen zu können. Von den beschriebenen Features des Kapitels „Feature Extraktion“, haben drei bessere Ergebnisse geliefert. RGB-Werte, Graustufen-Werte und das Gaussian Level (abgespeichert als HSV-Werte). Die Vermutung war, dass besonders HSV gute Ergebnisse liefern würde, da für den Betrachter Sättigung und Lichtintensität zwischen Öl- und Wasserfarbengemälde (subjektiv) besonders dominant sind. Dahingehend ist die Tatstache, dass die klassischen Daten, RGB und Helligkeit (Graustufen), bessere Ergebnisse liefern überraschend. Weniger überraschend ist, dass das Gaussian Level, also das mehrmalige Weichzeichnen mit unterschiedlicher Rastergröße und anschließendem Vergleich der einzelnen Schritte zueinander, auch erfolgreich ist. Dies bestärkt die Vermutung, dass solch eine irreversibel Veränderung zum Hervorheben der Eigenschaften der jeweiligen Maltechniken (Farbverläufe werden durch Weichzeichnen vergrößert) geeignet ist.

Noch eine Eigenschaft, die einem Gemälde entnommen werden kann, ist seine Größe. Da im Durchschnitt Ölgemälde eine größere Fläche als Wasserfarben- oder Acrylgemälde haben, liegt die Vermutung nahe,  dass diese Information für die Klassifizierung entscheidend ist. Jedoch es hat sich gezeigt, dass weder Höhe und Breite, noch die Fläche der Gemälde einen Einfluss auf die Ergebnisse haben. Aus diesem Grund wurden diese Features weiterhin nicht mehr betrachtet.

Auswahl des Klassifikators

Im weiteren Verlauf wird die Klassifizierung mit Hilfe der folgenden drei Verfahren  durchgeführt und evaluiert: Multinomial Naive Bayes, Random Forest und das Gaussian Naive Bayes (GaussianNB). Das beste Ergebnis liefert das Random Forest Klassifizierungsverfahren (siehe Tabelle 2) und wird somit weiter verwendet.

Tabelle 2. Vergleich der Klassifikatoren

Klassifikator

Genauigkeit in %

Gaussian Naive Bayes (GaussianNB)

66

Naive Bayes classifier for multinomial models 68

Random forest classifier

82

Anwendung des Random Forest Klassifizierungsverfahrens

Für diese Durchführung wird wie bereits erwähnt, das sogenannte Random Forest Klassifizierungsverfahren verwendet. Die gewählten Features sind RGB-Werte, Graustufen-Werte und das Gaussian Level, da diese Kombination die besten Ergebnisse geliefert hat.

Die ursprünglichen >14000 Daten sind nach Bereinigung und Reduzierung auf die vier wichtigsten Kategorien auf 8988 Bilddaten gesunken. Die Daten der vier Klassen (Öl, Wasserfarbe, Acryl, Gemischt) werden zu 70% Trainingsdaten und 30% Testdaten aufgeteilt. Das im Folgenden beschriebene Experiment wird in zwei Teile unterteilt.

Als erstes haben wir die Klassifizierung mit allen vorhandenen Daten durchgeführt.  Die berechnete Genauigkeit der Vorhersage, zu welcher Klasse ein Datensatz korrekt zugeordnet wird, beträgt annähernd 82%.  Der in Tabelle 3 beschriebene Durchlauf zeigt, dass der Klassifikator Ölgemälde (97,47%) gut erkennen kann. Jedoch weisen die restlichen Maltechniken weniger gute Ergebnisse auf, so dass die Genauigkeit zwischen ca. 18% (Wasserfarben) und 4% (gemischte Technik) liegt.

Tabelle 3: Genauigkeit mit ungleicher Datenverteilung zwischen den Klassen

Klasse

Anzahl

Anzahl richtige

Anzahl richtige in %

ACRYL

115

11

9,56 %

GEMISCHT

136

5

3,68 %

ÖL

2452

2390

97,47 %

WASSERFARBE

290

52

17,93 %

Um eine Gleichverteilung zu schaffen, werden für diesen Durchlauf die Daten der Klasse Öl reduziert. Anschließend wird die neue Menge wieder in Trainings- und Testdaten aufgeteilt. In diesem Durchlauf ist der Genauigkeitswert auf 49% gesunken. Dies ist darauf zurückzuführen, dass Ölgemälde weniger gut klassifiziert werden – ca. 64% anstatt 97,5% (siehe Tabelle 3).

Tabelle 4: Genauigkeit mit reduzierter Anzahl der Ölgemälde

Klasse

Anzahl

Anzahl richtige

Anzahl richtige in %

ACRYL

109

42

38,53 %

GEMISCHT

127

9

7,09 %

ÖL

305

196

64,26 %

WASSERFARBE

291

163

56,01 %

Betrachtet man nun die anderen Werte, so werden Wasserfarben (56%) und Acryl Gemälde (38,5%) signifikant besser erkannt. Die vergleichbar schlechteren Klassifikationsergebnisse sind der Komplexität der gemischten Technik (7%) verschuldet. Es werden bis zu fünf unterschiedliche Techniken für ein Gemälde angewendet. Nach einer Stichprobe der falsch klassifizierten Gemälde hat sich herausgestellt, dass das System in vielen Fällen eine dominierende Maltechnik korrekt erkannt hat, einen weiteren Teil der gemischten Maltechnik jedoch nicht. So wird beispielsweise die Maltechnik eines Gemäldes von William Wood als „Oil and wax on canvas“ beschrieben. Dieses Gemälde wird durch das System als Ölgemälde klassifiziert.

Somit auch wenn der Genauigkeitswert gesunken ist, ist die Aussagekraft über mehrere Klassen und somit die Zeckmäßigkeit gestiegen.

Zusammenfassung

Das im Rahmen des Praktikums „Data Analysis in Art History“ zu entwickelnde System soll die Klassifizierung von Gemälden des langen 19. Jahrhunderts nach Maltechnik ermöglichen.

Die dafür benötigten Daten wurden von der Webpräsenz des US Auktionshauses  „Heritage Auctions“ gesammelt. Dafür wurde ein in Python selbst implementierter Webcrawler benutzt. Die gesammelten Daten wurden danach für den Machine Learning Schritt aufbereitet und angepasst. Im Zuge dessen wurden aus den gesammelten Bildern mit Hilfe von OpenCv unterschiedliche Bilddaten extrahiert. Mit Hilfe dieser Bilddaten und weiterer textbasierter Features (u.a. Fläche des Gemäldes) ist es jetzt möglich, durch die implementierte Klassifizierung Bilder mit Genauigkeit 82% in vier Klassen einzuordnen: Öl, Wasserfarben, Acryl und gemischte Technik.

Die Ergebnisse können mit einem größeren und gleichmäßiger verteilten Datensatz in Zukunft noch verbessert werden. Da die Auswahl der Bilddaten im Zuge dieser Arbeit rein spekulativ erfolgte, ist eine Ausweitung dieses interdisziplinären Forschungsgebiets durch den Einsatz andersartiger umfassenderer Bilddatensätze vielversprechend.

 

1: https://www.invision-news.de/allgemein/klassifizierung-von-gemaelden/

2: http://www.wissen.de/lexikon/maltechnik

3: http://deacademic.com/dic.nsf/dewiki/2494525

4: http://www.getty.edu/vow/AATHierarchy?find=WATER+COLOR&logic=AND&note=&page=1&subjectid=300053391

5: https://scrapy.org/

6: https://link.springer.com/content/pdf/10.1186%2Fs13673-016-0063-4.pdf

7: https://www.skizzen-zeichnungen.de/grundwissen-zu-acrylfarben-oelfarben-und-aquarellfarben/

8: https://www.artizen.de/docs/projekt-die-malweiber-kuenstlerinnen-des-19-jahrhundert-ganzer-bericht

9: Donald Michie, David J Spiegelhalter und Charles C Taylor. „Machine learning, neural and statistical classication“.

10: Florian Keller. Konzepte des maschinellen Lernens. Fachhochschule Koln. 2012, S.3-6.

11: http://scikit-learn.org/stable/

12: https://de.wikipedia.org/wiki/Random_Forest

13: http://www.seos-project.eu/modules/classification/classification-c03-p01.de.html

14: https://elitedatascience.com/imbalanced-classes

15: https://www.ha.com/c/about.zx?ic=footer-about-us-060716

16: http://www.seleniumhq.org/

17: https://opencv.org/

18: http://infohost.nmt.edu/tcc/help/pubs/colortheory/web/hsv.html

19: https://docs.opencv.org/3.1.0/d4/d13/tutorial_py_filtering.html

20: https://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comparison/histogram_comparison.html

Diskussion (0)

Für diesen Beitrag gibt es noch keine Kommentare.

Für diesen Beitrag wurde die Kommentarfunktion deaktiviert.