LMF oder TMF: Welche Norm für welche lexikalische Ressource?

Details: Erstellt am Freitag, 27. August 2010 11:26; Geschrieben von Thorsten Trippel

Das Lexical Markup Framework und das Terminology Markup Framework scheinen auf dem ersten Blick ähnlich zu sein sein und eine Redundanz darzustellen, vielleicht vor dem Hintergrund, dass Terminologie und Lexikographie unterschiedliche Fachgemeinschaften darstellen. Auch wenn man davon ausgehen würde, fällt auf, dass LMF immer von einer lexikalischen Form ausgeht, während TMF von einer Bedeutung ausgeht. Je nach lexikalischer Tradition gibt es für die Zitierform unterschiedliche Namen, in der Terminologie wird die lexikalische Form als "Benennung" bezeichnet, bei Saussure wäre dies mehr oder weniger ein "Signifiant". TMF dagegen geht immer von einem "Term" aus, also dem, was Terminologen als "Begriff" bezeichnen, bei Saussure "Signifié" oder Bedeutung. In Wirklichkeit besteht der Unterschied also zwischen einer semasiologischen (von der Form auf die Semantik schließenden) und einer onomasiologoischen (auf die Form schließenden) Sicht auf lexikalische Ressourcen.

Semasiologische Ressourcen

Semasiologische lexikalische Ressourcen gehen in der Regel von einer Form-Bedeutungsabbildung aus, etwas wie in Enzyklopädien, etc. In besonderen Fällen wird auch auf Bedeutungsangaben verzichtet, etwa in orthographischen Wörterbüchern, Rechtschreibhilfeprogrammen, Graphem-Phonem-Übersetzungsprogrammen, bilingualen Übersetzungstabellen, etc. Dies ist auch das übliche Format für lexikalische Ressourcen aus dem Feldforschungskontext.

Das Lexical Markup Framework (LMF, ISO 24613) ist ein internationaler Standard, der es erlaubt, semasiologische lexikalische Ressourcen zu modellieren. Dabei wird das Datenmodell so beschrieben, dass die benötigten Datenkategorien in einer lexikalischen Ressource als Erweiterungen der Form-Bedeutungsabbildung gesehen werden. Der Standard enhält vielfältige Beispiele, sowohl für sprachtechnologische Lexika als auch für Lexika ohne diesen technologischen Anspruch.

Im Standard selbst ist dabei keine Serialisierung vorgesehen, also kein Datenformat als solches. Es werden nur ein paar Beispiele angegeben, wie so eine Serialisierung aussehen könnte. LMF bietet daher eine Modellierungs- und Beschreibungsmöglichkeit, erlaubt aber nicht den Austausch von Dateien. Eventuelle Serialisierungen könnten im Rahmen der Text Encoding Initiative Dictionaries oder LIFT, das unter anderem von einigen SIL-Anwendungen unterstützt wird, gefunden werden, es gibt aber weitere Implementierungen.

Onomasiologische Ressourcen

Onomasiologische lexikalische Ressourcen gehen im Gegensatz dazu von einer Bedeutungs-Form-Abbildung aus, d.h. von einer Bedeutung aus werden Wörter mit einer bestimmten Form, z.B. einer Orthographie, angegeben. Klassische Beispiele für onomasilogische Wörterbücher sind Thesauri, Synonymwörterbücher, etc. Aber auch Terminologie-Wörterbücher und -Datenbanken gehen davon aus, dass jeder Lexikoneintrag genau einer Bedeutung entspricht, es aber unterschiedliche Benennungen geben kann, die damit zueinander synonym sind. Auch Wortnetze wie das GermaNet oder das Princeton Wordnet haben im Kern Synonymgruppen, dort Synsets genannt. Damit sind auch diese Ressourcen zunächst einmal onomasiologisch aufgebaut. Häufig gibt es in onomasiologischen Wörterbüchern, gerade im Buchbereich, zusätzlich alphabetische Indizes, durch die eine Form auf ihre Bedeutung abgebildet wird.

Aus der industriellen Terminologiepraxis motiviert, wurde für diese Ressourcen das Terminology Markup Framework (TMF, ISO 16642) als Standard entwickelt. Auch dieser Standard erlaubt die Modellierung von lexikalischen Ressourcen, enthält aber auch eine Serialisierung, in diesem Fall ein XML Format. Für die Verwendung in der Übersetzungsindustrie und deren Software wurde darauf aufbauend noch eine konkretere Instantiierung des TMF verabschiedet zum TermBase eXchange (ISO 30042), also zum Austausch von Terminologie-Datenbanken, der aber nicht unbedingt für alle onomasiologischen Ressourcen gedacht ist.

Was nimmt man also wann?

Wenn man also eine semasiologische Ressource hat wie Wortlisten, Übersetzungswörterbücher, etc., sollte man sich zur Modellierung auf LMF (ISO 24613) beziehen, für onomasiologische Ressourcen wie Terminologielisten, Thesauri oder Wortnetze ist TMF (ISO 16642) die bessere Wahl. Man kann zwar auch die Trennung dieser Ressourcentypen anzweifeln und stattdessen Graphstrukturen postulieren, aber das wäre an dieser Stelle ein anderes Thema.