"Der Wissenschaftsrat empfiehlt den Trägereinrichtungen die umfassende und langfristige Archivierung qualitätsgesicherter und für die jeweilige wissenschaftliche Gemeinschaft langfristig relevanter Daten."
Empfehlung zu Forschungsinfrastrukturen in den Geistes- und Sozialwissenschaften, Wissenschaftsrat, Berlin, 28.01.2011, S.57f.

Protokoll, Protokoll, Protokoll: Metadatenaustausch über OAI-PMH im NaLiDa Projekt

Ein Ziel des NaLiDa Projektes ist die Sammlung, Verwaltung und Publikation von Forschungsprimärdaten und ihren Metadatenbeschreibungen in einem zentralen Verzeichnis unter besonderer Berücksichtigung von Nachhaltigkeitsaspekten. Wir wollen uns in diesem Beitrag mit der technischen Ebene der Kommunikation zwischen den Erstellern von Metadaten und dem Zentrum für Nachhaltigkeit linguistischer Daten widmen.

Wie können Institutionen Metadatenbeschreibungen zur Verfügung stellen

Gehen wir vom Idealfall aus, nämlich dass ein Datenersteller bereits systematisch Forschungsprimärdaten speichert und mit Metadaten versieht. Die Institution habe also einen wie immer gearteten Prozess der vorschreibt, wie mit neu erzeugten Forschungsprimärdaten zu verfahren ist. Das schließt eine geeignete Wahl von Datenformaten aber auch eine Mindestkennzeichnung von Forschungsdaten mit Metadaten ein. Hier sollte als Mindestvoraussetzung eine Dublin Core Beschreibung vorliegen, wobei natürlich eine Beschreibung von Daten mithilfe komponenten-basierter CMDI-Profile eine weitaus ausdrucksstärkere Variante darstellt.

Gehen wir weiter davon aus dass sich der Bestand eines Datenerstellers dynamisch ändert. Neue Primärdaten kommen hinzu und werden mit Metadaten gekennzeichnet oder alte Bestände werden überarbeitet, z.B. weil bestehende Beschreibungen verändert oder erweitert werden.

Wie können diese Änderungen nun nach aussen kommuniziert werden? Dafür bietet das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) eine Lösung an. Der Datenersteller macht seine Datensammlung über OAI-PMH verfügbar, und das Zentrum für Nachhaltigkeit linguistischer Daten kann in regelmäßigen Abschnitten diese Datenbestände unter Nutzung des OAI-PMH Protokolls abrufen (und wie auch immer weiterverarbeiten).

Wie also nutzt man als Datenersteller OAI-PMH? Verwendet die Institution bereits mächtige Repository-Software zur Verwaltung digitaler Objekte wie DSpace oder Fedora-Commons, dann bekommt sie das OAI-PMH sozusagen "frei Haus". Diese Repository-Systeme unterstützen nämlich die Bereitstellung von Metadaten aller gespeicherten digitalen Objekte via OAI-PMH.

In der Standardkonfiguration liefert Fedora-Commons allerdings nur Dublin-Core-Metadaten aus. Mit ein paar Handgriffen kann man aber das Repository-System überreden, beliebige Metadaten auszuliefern. Dazu verwendet man PROAI, ein Tool, das sich mit Fedora-Commons verbindet und das volle OAI-PMH unterstützt. PROAI ist dabei flexibel konfigurierbar, läuft als Servlet in einer Tomcat-Umgebung wie Fedora-Commons und bedient sich einer Abfrage an Fedora-Commons, um die Objekte, die bestimmte Eigenschaften haben, als Metadaten auszuliefern, z.B. mithilfe einer Beschreibung in CMDI-Format. Dabei benutzt PROAI den Fedora-Commons-Resource-Index, um aus den digitalen Objekten die Datenströme zu extrahieren, die die Metadaten enthalten.

Aber man muss nicht DSpace oder Fedora-Commons verwenden um einen OAI-PMH basierten Service anzubieten. Die Open Archives Community stellt eine Liste von weiteren Tools zur Verfügung; unterstützt werden verschiedene Programmiersprachen (wie Java und Perl) und Betriebssysteme (Windows bzw. Unix-Systeme).

Auch hier kann Ihnen das Zentrum für Nachhaltigkeit linguistischer Daten beratend zur Seite stehen!

Das OAI-PMH Protokoll

Die aktuelle Version des Protokoll ist Version 2.0, und eingehend auf der Webseite der Open Archives Initiative beschrieben. OAI-PMH Anfragen werden dabei als HTTP requests formuliert. Die folgenden Anfragentypen sind möglich:

Identify:
liefert Informationen über das Repository wie Name, baseURL, unterstützte Version des Protokolls, oder auch earliestDatestamp welches die ältesten Ressourcen auszeichnet, und somit eine untere Grenze für Zeitintervall-basierte Suchanfragen bildet.
ListMetadataFormats:
gibt eine Liste aller unterstützter Metadatenformate zurück. Hier wird häufig Dublin Core zu finden sein, aber eben auch eigene Metadatenschema mit dann angegebenen Namespaces. Die Angabe des Metadatenformats ist für die nachfolgenden Dienste GetRecord und ListRecords zwingend.
ListIdentifiers:
gibt eine Liste der Identifikatoren aller Ressourcen zurück. Ein Identifikator ist als Parameter dem Dienst "GetRecord" beizugeben.
GetRecord:
liefert den Metadatensatz eines beizugebenden Identifikators zurück.
ListRecords:
liefert ohne Zeitinverallbegrenzung alle verfügbaren Metadatensätze zurück. Die Menge der Dokumente kann durch from und until Angaben zeitlich eingegrenzt werden; hier werden dann nur Dokumente zurückgeliefert, die in der angegebenen Zeitspanne erzeugt bzw. verändert worden sind.
ListSets:
liefert Organisationsmerkmale einen Metadatensammlung zurück.

Da OAI-PMH auf HTTP requests basiert, kann man das Protokoll in jedem Webbrowser aktivieren. Dazu gibt es z.B. eine Liste von OAI-PMH Servern. Wählt man z.B. den Dissertationsserver der Universität Amsterdam, so erhält man mit http://dare.uva.nl/cgi/arno/oai/uvadis?verb=Identify die wesentlichen Daten, mit http://dare.uva.nl/cgi/arno/oai/uvadis?verb=ListMetadataFormats die unterstützten Metadatenformate, mit http://dare.uva.nl/cgi/arno/oai/uvadis?verb=ListIdentifiers&metadataPrefix=arno die Identifikatoren aller Ressourcen, mit http://dare.uva.nl/cgi/arno/oai/uvadis?verb=GetRecord&identifier=oai:uvadis:369355&metadataPrefix=arno den Datensatz mit Identifikator "oai:uvadis:369355" im Metadatenformat "arno", und mit http://dare.uva.nl/cgi/arno/oai/uvadis?verb=ListRecords&metadataPrefix=arno die vollständige Beschreibung aller verfügbaren Ressourcen.

Weitere Fragen? Bitte kontaktieren Sie uns!