Beschreibung

Sprachressourcen wie Korpora, Lexika, Grammatiken, Computerprogramme oder Ergebnissammlungen werden in der linguistischen Forschung immer wichtiger. Dabei ist ihre Erstellung häufig sehr komplex, Informationen gehen auf lange Sicht verloren oder können nicht mehr verarbeitet werden. Das Projekt NaLiDa - Nachhaltigkeit linguistischer Daten - am Seminar für Sprachwissenschaft der Universität Tübingen beschäftigt sich damit, wie derartige Daten langfristig für Forschungsfragestellungen bereit gehalten werden können.

Eine solche nachhaltige Bereitstellung von Daten dient:

der Auffindbarkeit und Sichtbarkeit in der wissenschaftlichen Gemeinschaft
der Wiederverwendung in anderen Kontexten
der Zitation der Grundlagendaten in Veröffentlichungen
der Kooperation mit anderen Forschern
als Belegzwecke im Rahmen der Förderung eines Projektes

Diese Ziele erfordern zum Teil noch Weiterentwicklung, Forschung und Unterstützung der Forschenden. Daher beschäftigt sich das Forschungsprojekt unter anderem mit folgenden Aspekten:

Erfassen von Daten
Sammeln von Ressourcen/Daten
Zugang zu den Daten
Rechtliche und ethische Aspekte der Langzeitarchivierung
Standards für Sprachressourcen
Beratung zu allen Aspekten der Datenhaltung digitaler Texte

Das Resultat dieser Forschungstätigkeiten besteht in einem Mehrwert für die Forschungsgemeinschaft. Dabei arbeitet das Projekt NaLiDa sowohl selbständig mit bestehenden Ressourcen als auch unterstützend für andere Ressourcenersteller. Dies umfasst die Bereiche:

Dokumentation: Unterstützung beim Erstellen von Ressourcenbeschreibungen
Katalog: Suchfunktion für Ressourcenbeschreibungen zum Auffinden von Ressourcen
Portal: Informationen zu Sprachressourcen und Metadaten (Blog, Glossar, Katalog, Publikationen, Tutorials, Workshops)

Im Rahmen des Projekts werden Daten mit Bezug zu deutschen Forschungsprojekten in den Blick genommen. Daten werden hier im Sinne von linguistischen Ressourcen verstanden, d.h. Korpora, Lexika, Grammatiken, aber auch Software-Werkzeuge und Services und Ergebnislisten von Studien. Anders als bei traditionellen Bibliotheken und Archiven soll dabei gewährleistet sein, dass Ressourcen unter inhaltlichen Gesichtspunkten aufgefunden werden können, nicht nur (aber auch) anhand bibliographischer Informationen. Diese "Tiefensuche"(z.B. mittels eines Facetted Browsers) stellt einen ganz wesentlichen Ansatz dar, der Nachhaltigkeit gewährleisten soll, und beruht auf Vorstellungen des Semantic Web. Grundlagen für die Auffindbarkeit sind dabei die als Metadaten (nach CMDI-Konventionen) repräsentierbare strukturierte Verschlagwortung, Beschreibung und Klassifizierung von Ressourcen.

Zweite Projektphase

Mit der 2. Förderphase des NaLiDa-Projektes wurden die in der 1. Förderphase begonnenen Aktivitäten (Ressourcensammlung, -beschreibung, -archivierung) fortgesetzt; die fachbezogene Sichtweise jedoch durch eine Verstetigungsperspektive ergänzt, die auf generische d.h. disziplin- unabhängige Lösungen zur nachhaltigen Vorhaltung von Forschungsdaten setzt. Somit trat das Seminar für Sprachwissenschaft nunmehr als Mitantragssteller auf, die Federführung der 2. Förderphase wurde in die Hände des Informations-, Kommunikations- und Medienzentrum der Universität Tübingen (IKM), gebildet aus Universitätsbibliothek und Zentrum für Datenverarbeitung (Rechenzentrum), gelegt.