1. Datenbasis – aktueller Bestand und Erweiterung um weitere Quellen


1. Datenbasis – aktueller Bestand und Erweiterung um weitere Quellen

1.1 Aktueller Bestand

Das Projektteam hatte Zugriff auf bereits gesammelte Artigo-Daten. Diese beinhalten wertvolles Social Tagging (wenn auch nicht vollständig). Darüber hinaus lagen keine Bildbeschreibungen, Stilrichtungen etc. vor.

1.2 Erweiterung der Datenquellen

Eine der an das Team gestellten Ausgaben war die Erweiterung der Datenquellen um weitere. In diesem Zusammenhang wurden Daten zu Auktionen von Christie’s, sowie Wikiart herangezogen.

1.2.1 Daten des Auktionshauses Christie’s

Bei der Suche haben wir Seiten von verschiedenen Auktionshäusern betrachtet und es fiel auf, dass diese eine sehr gute Quelle für Kunstdaten bieten, da:

  • die Inhalten von Fachleuten kuratiert werden
  • echte Marktdaten zur Verfügung gestellt werden, incl. Schätzungen und realisierte Preise
  • die Metadaten wertvolle Erweiterungen wie z.B. Größeninformationen, Provenienz und bisherige Ausstellungen beinhalten.

Die Daten sind im Rahmen der Beschreibung der Kunstwerke für Auktionen seit der 90er Jahre erfasst worden. Offensichtlich führt Christies diese Daten in einer eigenen Datenbank, aus der die Webseiten zu Auktionen bespeist werden. Diese Seiten wiederum präsentieren die Daten in HTML/CSS, so dass eine teilweise strukturierte Form vorhanden und ein programmatischer Zugriff möglich erschien.

Durch Webscraping konnten ca. 100.000 Datensätze zu Kunstwerken erfasst werden. Für die weitere Analyse wurden davon 2.500 Datensätze zu Ölgemälden herausgefiltert. Die Analysen beziehen sich ausschliesslich auf diesen gefilterten Datenbestand.

1.2.2 Daten von Wikiart

Die Platform Wikiart bietet einen grossen Datenbestand zur Kunswelt, u.a. über

  • Stilrichtungen
  • Epochen
  • Kunstwerke
  • Künstler

Wikiart bietet eine API (schlecht und nur teilweise dokumentiert, kein Support), um auf diesen Datenbestand zuzugreifen.

Der Datenbestand von Wikiart wurde genutzt, um Namen von ca. 850 Künstlern, die um das 19. Jahrhundert aktiv warten, zu identifizieren.

1.2.3 Weitere betrachtete Datenquellen

  1. Artsy: Hierbei handelt es sich um Handelsplatform für Kunst. Artsy bietet eine API mit Zugriff zu über 26.000 Kunstwerken. Allerdings stehen weniger Metadaten zur Verfügung, als bei den Auktionshäusern. Es sind auch keine Preise aufgeführt und die Kunstwerke sind fast ausschliesslich aus dem 20. und 21. Jh. Somit hat es keinen Sinn ergeben,  Artsy für das Projekt heranzuziehen.
  2. Artnet und Artprice sind zwei Platformen, die von Kunstmarktexperten für Preisrecherche herangezogen werden. Diese Unternehmen verdienen mit diesen Daten Geld und daher existieren keine öffentlichen Zugänge hierzu.
  3. Sotheby’s (Hauptwettbewerber von Christie’s) Daten haben ähnliche Struktur und Qualität wie die von Christies. Der Zugriff auf diese Daten hat sich als schwieriger erwiesen als bei Christie’s, da IPs bei vielen Zugriffen hintereinander geblockt werden. Aufgrund der experimentellen Natur des Projektes, haben wir von der Erfassung dieser Daten abgesehen.
  4. Google Cloud Vision API: Gute Quelle um Metadaten von Bildern zu erhalten. Allerdings war die Qualitätä der gelieferten Metadaten für eine Klassifizierung der Kunswerke nur bedingt geeignet

1.3 Herausforderungen bei der Datenbeschaffung

Zusammengefasst gab es folgende Herausforderungen bei der Datenbeschaffung:

  • unzureichend dokumentierte APIs ode keine APIs vorhanden
  • Zusätzliche Funktionalität, die implementiert werden muss, um Beschränkungen beim Zugriff entgegenzuwirken, etwa
    • Zeitversetztes Abgreifen von Daten um Zugriffsrichtlinien der Webseitenbetreiber zu respektieren. Dieser Umstand hat den Zeitraum der Datengewinnung stark verlängert.
    • Inkonsistente Erfassung der Daten (etwa bei Preis, Datum)
    • Fehlende Daten
    • Wenn durch fehlende Daten die ein Sonderbehandlung erforderlich war. Beispiel: Betrachtung des Attributes zur Preis/Größe des Bilder führt zu Division duch null, wenn Größe nicht erfasst wurde
    • uvm
  • Aufwendig implementiert und auf eine Website stark individualisierte Webcrawler.

In der Quintessenz war für Beschaffung und Aufbereitung der Daten ein weitaus höherer Aufwand zu leisten, als für die Analyse, etwa Faktor 20:1

Übergeordnetes Dokument:Einleitung & Gliederung

6
Hinterlasse einen Kommentar

avatar
4 Kommentar Themen
2 Themen Antworten
2 Follower
 
Kommentar, auf das am meisten reagiert wurde
Beliebtestes Kommentar Thema
5 Kommentatoren
Martin BognerDeniz DemirsoyHarald KlinkeFrancois BryMHW93 Letzte Kommentartoren
  Abonnieren  
neueste älteste
Benachrichtige mich bei