Beschreibung
Sprachressourcen wie Korpora, Lexika, Grammatiken, Computerprogramme oder Ergebnissammlungen werden in der linguistischen Forschung immer wichtiger. Dabei ist ihre Erstellung häufig sehr komplex, Informationen gehen auf lange Sicht verloren oder können nicht mehr verarbeitet werden. Das Projekt NaLiDa - Nachhaltigkeit linguistischer Daten - am Seminar für Sprachwissenschaft der Universität Tübingen beschäftigt sich damit, wie derartige Daten langfristig für Forschungsfragestellungen bereit gehalten werden können.
Eine solche nachhaltige Bereitstellung von Daten dient:
- der Auffindbarkeit und Sichtbarkeit in der wissenschaftlichen Gemeinschaft
- der Wiederverwendung in anderen Kontexten
- der Zitation der Grundlagendaten in Veröffentlichungen
- der Kooperation mit anderen Forschern
- als Belegzwecke im Rahmen der Förderung eines Projektes
Diese Ziele erfordern zum Teil noch Weiterentwicklung, Forschung und Unterstützung der Forschenden. Daher beschäftigt sich das Forschungsprojekt unter anderem mit folgenden Aspekten:
- Erfassen von Daten
- Sammeln von Ressourcen/Daten
- Zugang zu den Daten
- Rechtliche und ethische Aspekte der Langzeitarchivierung
- Standards für Sprachressourcen
- Beratung zu allen Aspekten der Datenhaltung digitaler Texte
Das Resultat dieser Forschungstätigkeiten besteht in einem Mehrwert für die Forschungsgemeinschaft. Dabei arbeitet das Projekt NaLiDa sowohl selbständig mit bestehenden Ressourcen als auch unterstützend für andere Ressourcenersteller. Dies umfasst die Bereiche:
- Dokumentation: Unterstützung beim Erstellen von Ressourcenbeschreibungen
- Katalog: Suchfunktion für Ressourcenbeschreibungen zum Auffinden von Ressourcen
- Portal: Informationen zu Sprachressourcen und Metadaten (Blog, Glossar, Katalog, Publikationen, Tutorials, Workshops)
Im Rahmen des Projekts werden Daten mit Bezug zu deutschen Forschungsprojekten in den Blick genommen. Daten werden hier im Sinne von linguistischen Ressourcen verstanden, d.h. Korpora, Lexika, Grammatiken, aber auch Software-Werkzeuge und Services und Ergebnislisten von Studien. Anders als bei traditionellen Bibliotheken und Archiven soll dabei gewährleistet sein, dass Ressourcen unter inhaltlichen Gesichtspunkten aufgefunden werden können, nicht nur (aber auch) anhand bibliographischer Informationen. Diese "Tiefensuche"(z.B. mittels eines Facetted Browsers) stellt einen ganz wesentlichen Ansatz dar, der Nachhaltigkeit gewährleisten soll, und beruht auf Vorstellungen des Semantic Web. Grundlagen für die Auffindbarkeit sind dabei die als Metadaten (nach CMDI-Konventionen) repräsentierbare strukturierte Verschlagwortung, Beschreibung und Klassifizierung von Ressourcen.
Zweite Projektphase
Mit der 2. Förderphase des NaLiDa-Projektes wurden die in der 1. Förderphase begonnenen Aktivitäten (Ressourcensammlung, -beschreibung, -archivierung) fortgesetzt; die fachbezogene Sichtweise jedoch durch eine Verstetigungsperspektive ergänzt, die auf generische d.h. disziplin- unabhängige Lösungen zur nachhaltigen Vorhaltung von Forschungsdaten setzt. Somit trat das Seminar für Sprachwissenschaft nunmehr als Mitantragssteller auf, die Federführung der 2. Förderphase wurde in die Hände des Informations-, Kommunikations- und Medienzentrum der Universität Tübingen (IKM), gebildet aus Universitätsbibliothek und Zentrum für Datenverarbeitung (Rechenzentrum), gelegt.