Ressourcen über Metadaten finden, oder: ist das nicht das Gleiche wie eine Bibliographie?
- Details
- Erstellt am Montag, 05. Juli 2010 06:26
- Geschrieben von Thorsten Trippel
Zum Auffinden von Sprachressourcen werden Angaben verwendet, die in Metadaten enthalten sind. Diese Metadaten umfassen auch solche Informationen, die man zur bibliographischen Suche verwenden würde, gehen aber deutlich darüber hinaus. Da diese Beschreibungen expliziter und vollständiger sind als man das von Bibliographien erwarten würde, kann man diese Angaben auch zu ganz anderen Suchstrategien verwenden.
Bibliographische Suche nach Sprachressourcen
Unter einer bibliographischen Suche nach Sprachressourcen verstehen wir das, was man auch von Büchern und Zeitschriftenartikeln kennt, nämlich eine Suche nach Titel, Jahr, Autor, etc. Diese Art der Suche setzt dabei voraus, dass man die Ressource im Prinzip schon kennt, also dass man den Titel, den Autoren oder die Institution vorliegen hat. Dies ist zum Beispiel dann gegeben, wenn man Informationen, die man zu dieser Ressource hat, überprüfen möchte oder um sie in einem neuen Zusammenhang zu verwenden. Zum Beispiel braucht man so eine Art der Suche, wenn man einen Hinweis von anderen Experten bekommt, dass eine bestimmte Ressource existiert, die für eine bestimmte Fragestellung interessant sein könnte, z.B. wenn man mit jemandem über ein "Wortnetz für Deutsch" spricht und auf das "GermaNet" aus Tübingen verwiesen wird.
Bibliographische Suche setzen voraus, dass man eine gute Intuition hat, welche Ressource relevant ist und/oder, dass jemand diese Ressource aufgrund einer Anforderungsbeschreibung nennen kann. Man erhält dadurch aber nicht alle relevanten Ressourcen. Auch erfordert dieses Vorgehen, dass man einen Experten mit Einblicken in die relevanten Ressourcen kennt oder ansprechen kann. Wenn das nicht der Fall ist, kommt man mit einer reinen bibliographischen Suche nicht weiter. Dies ist vergleichbar mit der Suche in einer Bibliothek: wenn man den Titel und Autor kennt, dann ahnt man bei einer Suche zu welchem Fachgebiet etwas gehört, ob die Literatur potentiell einschlägig ist und verwendet werden könnte. Wenn man nur das Fachgebiet kennt, muss man über einen entsprechenden Zugang zu den Informationen gehen, um die relevaten Bücher zu finden.
Suche nach Ressourcen: Flache Suche von Suchmaschinen
Von Internetsuchmaschinen kennt man die Suche nach Schlüsselbegriffen aus einem Text. Suchmaschinen wie Google, Baidu oder Bing indizieren dabei Texte, die sie im World Wide Web finden. Wenn jemand nach Wörtern sucht, die in diesem Text zu finden sind, dann werden diese in einer Ergebnisliste angezeigt. Diese Suche ist sehr flach und berücksichtigt erstmal nicht die unterschiedliche Position von Wörtern: ein Wort in einer Überschrift wird genauso behandelt wie ein Wort in dem Text selbst. Zwar führen moderne Suchmaschinen ein Ranking ein, d.h. Texte und Textteile werden als wichtiger oder weniger wichtig bewertet, aber diese Gewichtung ist nicht immer transparent für den Benutzer und dies ändert an dem Prinzip nichts, dass ein Wort (eigentlich sogar eine Zeichenkette) in diesem Text vorhanden sein muss. Zu den Ranking-Kriterien, die von Suchmaschinen verwendet werden, gehören:
- Worthäufigkeit: ein Wort, dass in einem Text häufiger vorkommt, macht diesen Text bei einer Suche nach diesem Wort wichtiger, erhöht also seinen Rang
- Position eines Wortes: ein Wort, das weit oben in einem Text steht (typischerweise dort, wo Überschriften oder Zusammenfassungen stehen), wird auch als bedeutsamer gesehen
- Links auf die Seite: eine Seite, die von vielen anderen Seiten verlinkt wird, gilt als "interessanter" und wird höher gewichtet
- Wörter, die bereits in der Adresse vorkommen, gelten dabei als besonders aussagekräftig.
Die konkreten Gewichtungen und Kriterien sind in der Regel Teil der Geschäftsgeheimnisse der Suchmaschinenbetreiber und damit auch für Benutzer nicht ganz nachvollziehbar. Die Branche der Suchmaschinenoptimierung macht sich aber Erfahrungen mit den Suchmaschinen zu nutze, um möglichst hohe Ränge für die optimierten Seiten zu erzielen, indem man etwa die Worthäufigkeiten und Positionen variiert und die Adressen geschickt wählt. Auch werden Positionen von Suchmaschinenbetreibern verkauft, wobei die Kennzeichnung als Anzeige mehr oder weniger deutlich ausfällt.
Suche nach Ressourcen: Tiefe Suche unter Einbeziehung von Strukturen der Metadaten
Sprachressourcen flach zu durchsuchen erscheint als sinnloses Unterfangen. Ein Linguist, der nach Texten sucht, welche nach Wortarten ausgezeichnet sind, interessiert sich primär wohl nicht für bestimmte Wörter im Rohtext; andere interessieren sich vielleicht für ein bestimmtes Genre, wobei dieses Genre als Bezeichnung wahrscheinlich nicht in dem Text vorkommt. Beide Informationen liegen aber bei detailierten Beschreibungen von Ressourcen vor. Bei sinnvollen und mehr oder weniger vollständigen Metadaten sogar strukturiert.
Das Suchen über die Metadaten einer Ressource erfolgt im Wesentlichen genauso wie eine Suche über die Bibliographie. Man kann also nach "Feldern" wie Titel, Jahr oder Autor suchen, so dass auch wirklich nur in den Autoren, Titeln oder Jahren gesucht wird. Diese Beschränkung auf eine Suche innerhalb der Strukturen ist ein wesentlicher Unterschied zu den Suchen über einen ganzen Text, die hier nicht differenzieren kann. Im Prinzip können dabei alle Datenkategorien getrennt voneinander betrachtet werden, z.B. Typ der Ressource, Genre, Annotationsebene, Sprache, Autor, Institution, Copyright, etc. Die einzige Beschränkung besteht darin, dass viele dieser Beschreibungsebenen vom Ersteller der Ressource manuell eingepflegt werden müssen und nicht automatisiert erfasst werden können. Aber wenn diese Angaben erfasst sind, wird die Genauigkeit der Suche und die Trefferquote deutlich erhöht. Mit anderen Worten: die Suche mit Hilfe von Strukturen in den Metadaten erhöht die Precision und den Recall.