museum-digital:quality: Qualität von Sammlungsdaten messen und Interoperabilität herstellen

Abstract

In seiner aktuellsten veröffentlichten Statistik zählt das Institut für Museumsforschung alleine in Deutschland über 6800 Museen. So beträchtlich die Anzahl der Museen, so groß ist auch ihre Diversität in Bezug auf Größe und ihrem Zugang zur Digitalisierung.1 Einschließlich nahe verwandter Institutionen wie universitärer Sammlungen findet sich hier eine Vielzahl von eingesetzten Lösungen zum Sammlungsmanagement, die sich in oft nicht interoperablen Exportformaten wiederspiegeln. Für übergreifende Analysen und eine Nutzung durch die DH-Community aber sind eben jene Interoperabilität und eine möglichst hohe Qualität der Daten essentiell.

Im Rahmen von museum-digital wurden über die letzten 15 Jahre eine Reihe von Werkzeugen und Ansätzen zur Steigerung und Messung der darüber erfassten Objektdaten entwickelt2. Diese werden mit museum-digital:quality der breiteren Community bereitgestellt werden. Gleichzeitig bietet das hier vorgestellte Tool Funktionen zur Konversion proprietärer Exportformate in offene Austauschformate wie etwa LIDO oder das neuere EODEM.

museum-digital

museum-digital wurde 2009 auf Initiative sachsen-anhaltinischer Museen zur gemeinsamen Publikation von Museumsobjekten gegründet.3 Schnell wuchs es sowohl in Anspruch als auch in seiner Größe. Ausgehend von der gemeinsamen Publikation von Objektdaten wurden zusätzliche Tools, wie ein vollwertiges Sammlungsmanagementsystem (musdb), ein Browser für die gemeinsam genutzten Kontrollierten Vokabulare und ein Redaktionssystem für diese, sowie ein Tool zur Erstellung digitaler Ausstellungen geschaffen. Heute arbeiten über 1000 Museen, primär aus Deutschland, Ungarn, und der Ukraine mit museum-digital.

Das gemeinsame Publizieren der Daten bedeutete dabei von Beginn an, dass ein Fokus des Projektes auf der Qualität und Interoperabilität der veröffentlichten Daten lag, um einerseits effektive sammlungsübergreifende Suchen zu ermöglichen und andererseits die Sichtbarkeit der Bestände zu erhöhen. Hierzu wurden verschiedene Maßnahmen ergriffen: Auf architektureller Ebene wurden sammlungs- und museumsübergreifend genutzte Vokabulare für Akteure, Zeiten, Orte und Schlagworte geschaffen, die von einer zentralisierten Redaktion betreut und angereichert werden. Auf Ebene des User Interfaces werden User mit Auswahllisten und dem Vorschlagen von nahen Begriffen dazu angeregt, bestehende, bereits angereicherte Entitäten auszuwählen statt Duplikate zu erzeugen. Hierarchien von Orten und Schlagworten werden für das Vorschlagen von Konkretisierungen genutzt.

Andererseits bietet musdb verschiedene Tools zur Messung von Datenqualität und zur Erkennung von Inkonsistenzen. Mit dem "Publikations-Qualitäts-Index" etwa wird auf Basis u.a. der Textlänge der Objektbeschreibung, dem Vorhandensein von Maßangaben, der Ausgiebigkeit der Verschlagwortung und der Größe von Objektabbildungen ein quantitativer Wert zur Schätzung der Datenqualität errechnet, der bei der Erfassung von Objektdaten dauerhaft als farbiger Balken (grün / voll für gute Datenqualität, rot / leer als Zeichen für eine unvollständige Erfassung) angezeigt wird und Eingebende an die Vervollständigung der Angaben erinnert.4 Plausibilitätsprüfungen existieren für die Erfassung der Objektgeschichte als Ereignisse - Caspar David Friedrich malte ein gegebenes Gemälde erwartbar nicht im 15. Jh., ein 1950 gebautes Auto wurde erwartbar nicht 1920 genutzt -5 sowie für die Rechteangaben zu Objektabbildungen - ein 1960 gemaltes Gemälde ist etwa erkennbar nicht gemeinfrei.6

Interoperabilität beim Import herstellen

Abseits architektureller Entscheidungen basierenden allerdings all diese Mechanismen darauf, dass sie versuchen, Nutzende zu einer guten Erfassungspraxis anzuregen. Bei Datenimporten ist genau das nicht möglich. Die Importe erfolgen einerseits oft durch Techniker oder Administratoren statt der mit dem Bestand Arbeitenden und andererseits fehlt eine Oberfläche für die Anzeige relevanter "Nebeninformationen". Gleichzeitig arbeiten mehr als die Hälfte der mit museum-digital arbeitenden Museen primär mit anderen Erfassungssystemen, sodass die Importfunktionen zum Zwecke der Datenpublikation rege genutzt werden. Gleichzeitig fußen vollständige Datenmigrationen in Richtung museum-digital auf derselben Software. Importroutinen stehen für eine Reihe von offenen Austauschformaten sowie proprietären Exportformaten von verschiedenen Sammlungsmanagementdystemen zur Verfügung.7

Die Qualität der so ins System kommenden Daten ist abhängig vom Museum und dem genutzten Erfassungssystem extrem heterogen. Nichtsdestotrotz werden die Daten im Regelfall in die bei museum-digital bestehende Architektur importiert. Dabei wird soweit möglich versucht zumindest Werte aus kontrollierten Listen und Vokabularen schon beim Import mit den bestehenden, angereicherten Termini zu matchen. Wo das über Bezüge zu Normdateien möglich ist, werden diese genutzt.

Im deutlich häufigeren Fall müssen die Einträge über ihre zugeordnet werden. Wieder kommen verschiedene, Methoden zur automatischen Bereinigung der Begriffe zum Einsatz. So werden in allen Fällen zuerst überflüssige Zeichen entfernt und Marker für Unsicherheit extrahiert. Im Falle von Orts- und Zeitbegriffen bestehen oft verschiedene Notationen zum Ausdruck von Hierarchien ("Deutschland > Berlin", "Berlin (Deutschland)") oder dem gesamten Begriff (21.3.1920, 21.03.1920, 21. März 1920), die algorythmisch normalisiert werden können.

So vorbereitet werden die Begriffe mit dem vorliegenden Vokabularen verglichen und bei exakter Namensübereinstimmung als Match bewertet. Über das Speichern und Wiederholen bereits durchgeführter manueller Konsolidierungen können fehlende Matches durch Tippfehler und verbleibende unterschiedliche Notationen abgefangen werden. "Frankfurt aM." [sic] wird so automatisch "Frankfurt am Main" zugeordnet, weil dies bereits in einem vorhergegangenen Fall so war und die Bedeutungsgleichheit als immer und eindeutig geltend markiert wurde.

Architekturell besteht das Importtool aus drei logisch und technisch getrennten Komponenten: Einerseits Abbildungen der jeweiligen Datenstrukturen (etwa Objekt, Sammlung, Literaturverweis), zweitens für die jeweiligen Importformate spezifische Parser, die die Daten in die erwarteten Strukturen übertragen, und zuletzt Schreibroutinen, die die Daten in die tatsächliche Datenbank eintragen.

Von Importen zum Service

Aufbauend auf die ursprünglich für das Importieren von Museumsdaten erstellten Module für das Auslesen und uniforme Abbilden von Museumsdaten bietet museum-digital:quality nun weitergehende Funktionen an. Im Gegensatz zum Importieren werden die Daten allerdings nur in den Arbeitsspeicher geschrieben und dort ausgewertet. Dabei können die Eingangsdaten aus den meisten nicht museumsspezifischen Importformaten stammen, die auch für einen tatsächlichen Import unterstützt werden. Sie können über einen einfachen POST-Request eingereicht werden.

So können nun Daten beliebiger Museen, die in einem der derzeit acht unterstützten Importformate eingereicht werden, über eine Web-Oberfläche ohne Authentifizierung oder über eine offene Schnittstelle auf ihre Datenqualität und logische Konsistenz geprüft werden. Die zuvor nur in musdb verfügbaren dahingehenden Funktionen wurden in diesem Rahmen in ein eigenes Modul ausgelagert und unter der MIT-Lizenz veröffentlicht.8

Andererseits ist der Ansatz der Nachnutzung der Importfunktionalitäten für das Anbieten erweiterter Funktionalitäten über eine offene Schnittstelle beliebig erweiterbar. So wurde ein Check auf die Compliance der eingereichten Daten mit den zeitgleich mit museum-digital:quality auf der Herbsttagung der Fachgruppe Dokumentation des Deutschen Museumsverbands vorgestellten Empfehlung der AG Minimaldatensatz zeitnah implementiert.9 Auf diese Weitse bietet das Tool die Möglichkeit der Prüfung in Vorbereitung auf eine Datenlieferung zur Deutschen Digitalen Bibliothek.

Eine zweite Ergänzung geschah primär mit Blick auf Importe in museum-digital selbst. So wurde eine Prüfung auf die Anzahl von nicht zuortenbaren Akteurs-, Orts- und Zeitbegriffen sowie Schlagworten implementiert. So lässt sich vor einem Datenimport abschätzen, wie arbeitsintensiv eine Bereinigung der in zentralisierten Tabellen vorliegenden Daten sein wird. So können vor einem Import entsprechende Mittel oder Stellenkontingente für die Nachbereitung einfacher abgeschätzt und eingeworben bzw. frei gemacht werden.

"EODEM Without a System" - museum-digital:quality als Datenkonversionstool

Für eine perspektivisch deutlich bedeutsamere Erweiterung werden die für den Export von Daten aus musdb verwendeten Scripte nachgenutzt. Die primäre Exportfunktion für Objektdaten in musdb exportiert die relevanten Daten in einem ersten Schritt in ein proprietäres (XML-)Exportformat, das alle in musdb speicherbaren Daten abbilden kann. Haben die Benutzenden ein anderes Ausgabeformat gewählt, so werden die Exportdaten per XSLT in das gewünschte offene Austauschformat konvertiert. Unterstützt wird derzeit LIDO in seinen Versionen 1.0 und 1.110 sowie das speziell für Leihverkehre ausgerichtete LIDO-Anwendungsprofil EODEM11.

Auch diese XSLT-Scripte sind unter der MIT-Lizenz veröffentlicht12 und werden im Rahmen von museum-digital:quality genutzt, um die hochgeladenen Daten in die entsprechenden Austauschformate zu konvertieren. Gerade durch die so erstmals mögliche Konversion von Daten aus verschiedenen Ausgangssystemen zum noch sehr neuen EODEM-Standard, der trotz seiner für die Arbeit im Museum wegweisenden Ziele und einer breiten Beteiligung von Softwareherstellern am Entstehungsprozess bisher nur sehr eingeschränkte Software-Unterstützung genießt, kann dies eine enorme Arbeitsersparnis für Museumsmitarbeiter bedeuten, die so einen standardisierten, weitestgehend automatisierten Weg für den Austausch von Objektinformationen zwischen Museen im Fall von Leihverkehren nutzen können. Eine breitere Unterstützung und weitere Verbreitung des EODEM-Standards, der ein erstes niedrigschwelliges und hardware-unabhängiges Beispiel für technikgestützte Verfahren zur konkreten Vereinfachung von Workflows für eine regelmäßige und bisher oft noch manuell und zeitaufwendig durchzuführende Aufgabe darstellt, böte ein starkes Argument um auch die vielen verbleinden rein analog arbeitenden Museen zu einer stärkeren Nutzung digitaler Mittel anzuregen. Und mit der digitalen Erfassung wird auch die digitale Publikation und Schaffung einer Nachnutzbarkeit im Sinne der DH-Community realistischer.

Ausblick

Wie oben beschrieben bietet die Nachnutzung der bestehenden Importtools von museum-digital zum Zwecke der Auswertung und Weiterverarbeitung statt für einen Import eine große Erweiterbarkeit. Eine erste naheliegende und bisher noch ausstehende Erweiterung ist dabei die automatische Anreicherung der hochgeladenen Daten mithilfe der im Importprozess schon abgefragten kontrollierten Vokabulare. So könnten bei erfolgreichen Zuordnungen auf Basis des Namens von z.B. Orten automatisch Bezüge zu Normdatenrepositorien in die konvertierten Daten eingetragen werden. Die langfristige Wartung und Erweiterung um zusätzliche Import- und Ausgabeformate andererseits sind durch die enge Verzahnung mit dem Importtool bzw. musdb sichergestellt.

Verfügbarkeit und technische Umsetzung

museum-digital:quality basiert wie die anderen Softwarelösungen von museum-digital auf einem klassischen LAMP-Stack. Es kann unter https://quality.museum-digital.org/ als Progressive Web App oder über eine nach OpenAPI 3.0 spezifizierte Schnittstelle genutzt werden.

1

Institut für Museumsforschung - Staatliche Museen zu Berlin (2023. Zahlen und Materialien 2021. Hrsg. Patricia Rahemipour und Kathrin Grotz. Berlin. 2: Rohde-Enslin, S. 2015. PuQI - A Smart Way to Create Better Data. Uncommon Culture, 6(2), 122-129. https://uncommonculture.org/ojs/index.php/UC/article/view/6218 3: Kopp-Sievers, S., Scheeder, B., & Wübbenhorst, J. 2015. museum-digital - Ein zivilgesellschaftliches Projekt großer und kleiner Museen (pp. 322-329). DOI: 10.1515/9783110405774-032 4: Rohde-Enslin, S. 2015. PuQI - A Smart Way to Create Better Data. Uncommon Culture, 6(2), 122-129. https://uncommonculture.org/ojs/index.php/UC/article/view/6218 5: Rohde-Enslin, S. 2017. Plausi - PuQI hat einen Freund bekommen. Vortrag auf der Herbsttagung der Fachgruppe Dokumentation des Deutschen Museumsbundes 2017. Berlin. 6: Enslin, J. 2023. Datenqualitäts-Checks wie in musdb: Jetzt für alle. museum-digital:blog. https://blog.museum-digital.org/de/2023/10/12/datenqualitaets-checks-wie-in-musdb-jetzt-fuer-alle/ 7: https://de.handbook.museum-digital.info/import/liste-der-importformate.html 8: https://gitea.armuli.eu/museum-digital/MDQualityAssessment/src/branch/master 9: https://wiki.deutsche-digitale-bibliothek.de/pages/viewpage.action?pageId=120422678 10: https://cidoc.mini.icom.museum/working-groups/lido/lido-overview/lido-schema/ 11: https://cidoc.mini.icom.museum/working-groups/documentation-standards/eodem-home/ 12: https://gitea.armuli.eu/museum-digital/musdb-md-xm-xsls