Projekt „Iconographics“

Iconographics. Computational Understanding of Iconography and Narration in Visual Cultural Heritage

Das interdisziplinäre Forschungsprojekt „Iconographics“ widmet sich innovativen Möglichkeiten der digitalen Bilderkennung für die Kunst- und Geisteswissenschaften. Während Computer Vision bereits vielfach imstande ist, einzelne Objekte oder spezifische künstlerische Stile in Bildern zu identifizieren, stellt sich das Projekt dem offenen Problem, auch die komplexeren Bildstrukturen und Zusammenhänge digital zu erschließen. Auf Basis einer engen fächerübergreifenden Zusammenarbeit von Klassischer Archäologie, Christlicher Archäologie, Kunstgeschichte und den Informatischen Wissenschaften sowie in gemeinsamer theoretischer & methodischer Reflexion wird eine große Menge vielschichtiger Bildwerke analysiert, verglichen und kontextualisiert. Das Ziel ist, die oft sehr komplexen kompositorischen, erzählerischen und semantischen Strukturen dieser Bilder für Computer Vision fassbar zu machen.

The interdisciplinary research project „Iconographics“ explores innovative potentials of image recognition for the humanities. While computer vision is already able to identify specific objects or artistic styles in images, the research project targets the problem of understanding complex image structures and relations digitally. Based on an interdisciplinary cooperation between classical archaeology, christian archaeology, art history and informatics as well as common theoretical and methodical reflections we analyze, compare and contextualize a vast number of complex images. The goal is to achieve a digital understanding of the complex compositional, narrative and semantic structures of these images.

Das klassisch-archäologische Teilprojekt

Für das klassisch-archäologische Teilprojekt wurden mit Brautführungs-, Raub- und Liebesverfolgungsszenen (Abb. 1) sowie Szenen des mythologischen und agonalen Ringkampfes zentrale Schemata aus der attischen Vasenmalerei des 6. und 5. Jahrhunderts v. Chr. als case studies definiert, die in Bildern mit und ohne mythologischen Handlungszusammenhang Verwendung fanden. In all diesen Szenen spielen Figurenanordnungen und Körperhaltungen für die Bilderzählung eine entscheidende Rolle. Durch die Interaktion und Kommunikation der Figuren in Form von Gesten, Blicken und Berührungen werden Bezüge der Akteure auf- und zueinander hergestellt. Auf Grund der Wiederholung signifikanter Schemata entstanden kontextübergreifende Bildbezüge, die der antike Betrachtende entschlüsseln und somit ein Bildverständnis auch ohne begleitende Erläuterungen entwickeln konnte.

The subproject of classical archaeology deals with so-called ‘leading of a bride‘ scenes as well as scenes of abduction, pursuit, athletic and mythological wrestling from Attic vase paintings of the 6th and 5th cent. BC. These case studies are central schemata that occur in images of mythological and non-mythological narratives. The arrangement of the figures and their poses are crucial for the understanding of these scenes. Relations between the protagonists are established through the interaction and communication of the figures in the form of gestures, gazes and body contacts. The repetition of significant schemata resulted in intercontextual relations that helped the ancient viewer in decoding the narrative and thereby develop an understanding of the image without accompanying explanations.

Boreas, die geflügelte Personifikation des Nordwinds, verfolgt die vor ihm fliehende Nymphe Oreithyia

Abb. 1: Raub der Oreithyia durch Boreas, Ausschnitt von einem attischen Kelchkrater (um 450 v. Chr.) in Erlangen, Antikensammlung, Inv. I 387 (Foto: Georg Pöhlein)

Aktuelle Forschungen

In den ersten 18 Monaten der Projektlaufzeit konnten ein Bildcorpus mit über 2.000 Vasenbildern der ausgewählten Schemata erstellt sowie über 10.000 weitere Abbildungen antiker Vasen gesammelt und darin mehr als 42.000 Annotationen vorgenommen werden. Mittels dieser Annotationen ist ein RetinaNet-Modell als object detection-Algorithmus entwickelt worden, dessen durchschnittliche Präzision deutlich über dem state of the art in der digitalen Objekterkennung liegt (Abb. 2). Ebenfalls in seiner Anwendung auf antike Bildträger innovativ ist das entwickelte R-CNN-basierte pose estimation-Modell, das auf Grundlage der Annotationen vieler Gelenkpunkte die Körperhaltungen dargestellter Figuren automatisiert ermittelt und vergleicht (Abb. 3). Sowohl die bisherigen Arbeiten als auch die fortlaufenden Forschungen zur Erkennung von Gesten, Blick- und Bewegungsrichtungen sowie Körperkontakten stellen wichtige Schritte zu einer digitalen Erschließung szenischer Interaktion, nonverbaler Kommunikation in Bildern sowie dem Erkennen von Bildrelationen, und damit zu einem neuartigen computergestützten semantischen Bildverständnis dar.

During the project’s first 18 months we were able to gather an image corpus of over 2.000 relevant vase paintings, collect more than 10.000 additional images and carry out over 42.000 annotations within these images. Based on these annotations we developed a RetinaNet model as an object detection algorithm that applies particularly to ancient vase paintings. The average precision significantly exceeds the standard of recent state-of-the-art digital object detection algorithms. Furthermore we developed an innovative R-CNN-based pose estimation model that automatically detects and compares the poses of depicted figures using annotations of various body joints. Both the previous work and the still ongoing research on the recognition of gestures, directions of gaze and movement as well as body contacts represent important steps towards the digital understanding of scenic interaction, non-verbal communication in images as well as the recognition of image relations, and thus towards a new kind of computer-aided semantic understanding of images.

Abb. 2: Mit hoher Präzision ist der Algorithmus imstande, eigenständig über 80 unterschiedliche Objekte (z. B. Waffen, Architektur u. Götterattribute) in Vasenbildern zu erkennen. (Grafik: Dr. Ronak Kosti & Prathmesh Madhu, M. Sc., basierend auf dem Vasenbild eines Kolonettenkraters in Basel, Antikenmuseum und Sammlung Ludwig, Inv. BS480)

Abb. 3: Der top-down human pose estimation approach gelangt über mehrere Arbeitsschritte zu einem Posen-Skelett aus diversen Gelenkpunkten. (Grafik: Dr. Ronak Kosti & Prathmesh Madhu, M. Sc., basierend auf dem Vasenbild einer Oinochoe in Florenz, Museo Archeologico Nazionale di Firenze, Inv. 4025)

Teilprojektleitung:

Prof. Dr. Corinna Reinhardt

Wissenschaftlicher Mitarbeiter:

Dr. Torsten Bendschus

Projektkoordination:

Prof. Dr. Peter Bell, Digital Humanities mit Schwerpunkt Kunstgeschichte

weitere Projektpartner an der FAU Erlangen-Nürnberg:

Prof. Dr. Andreas Maier, Informatik (Mustererkennung)
Prof. Dr. Ute Verstegen, Christliche Archäologie

Finanzierung:

Das Projekt wird durch die Emerging Fields Initiative der FAU Erlangen-Nürnberg finanziert.