Merkmalsstrukturen in der TEI und in ISO 24610-1
- Details
- Erstellt am Dienstag, 17. August 2010 05:22
- Geschrieben von Thorsten Trippel
Merkmalsstrukturen sind in vielen linguistischen Theorien zu finden, z.B. in Theorien der Syntax (etwa in der HPSG, LFG), aber auch in verschiedenen lexikalischen Theorien (z.B. im Generativen Lexikon von James Pustejovsky). Wer schon einmal versucht hat, eine Merkmalsstruktur zu erstellen, weiß, dass man für wenige Zeilen einer Ressource sehr viel Zeit braucht. Daher ist die brauchbare Wiederverwertung solcher Merkmalsstrukturen seit langem Gegenstand von Standardisierungsbemühungen.
Die typische Darstellung von Merkmalsstrukturen erfolgt in Attribut-Wert-Matrizen, d.h. dass ein Merkmal jeweils einen Wert erhält, wobei Werte jeweils selbst auch Merkmalsstrukturen sein können. Dadurch entstehen Matrizen, die ineinander geschachtelt sind. Allerdings gibt es unter logischen Gesichtspunkten keinen Grund für diese visuelle Aufbereitung. Programme, die Merkmalsstrukturen interpretieren, haben auch häufig ineinander geschachtelte Klammern als Eingabeformat. Um eine Merkmalsstruktur zu verstehen, braucht man drei Dinge:
- Informationen dazu, wie Merkmale Werten zugeordnet werden und wie Merkmalsstrukturen als Werte angegeben werden können, etc., also quasi die "Syntax" der Merkmalsstruktur.
- Die Spezifikation der Merkmale und deren mögliche Wertemengen, also welche Möglichkeiten es gibt in Hinblick auf die benutzbaren Werte. Ein Beispiel dafür wäre, dass unter dem Merkmal Wortart nur Nomen, Adjektiv, Verb, usw. möglich wären, nicht aber Subjekt oder gar Apfel oder eine andere beliebige Bezeichnung. (Der geneigte Leser möge darauf verzichten nach pathologischen Fällen zu suchen, wo dies doch möglich oder sogar sinnvoll wäre.)
- Die Merkmalsstruktur, die dieser Syntax und diesen Merkmalen entspricht, also die Instanz einer Merkmalsstruktur mit den genannten Kriterien.
Genau diese Unterscheidung wird auch im Rahmen der TEI-Formate für Merkmalsstrukturen und auch bei einem internationalen Industriestandard (ISO-Standard) vorgenommen. Bei der Definition von Merkmalsstrukturen unterscheidet man zwischen Merkmalsstruktur-Repräsentationen (Feature Structure Representations, auch FSR, ISO 24610-1), Merkmalsstruktur-Beschreibungen (Feature Structure Declaration, FSD, ISO 24610-2) und der Merkmalsstruktur selbst.
Die Merkmalsstruktur-Repräsentation gibt dabei die Syntax einer Merkmalsstruktur an, also die Art und Weise, wie man Merkmalsstrukturen repräsentiert, was für Konstrukte möglich sind (z.B. Vererbung, Reentrancy). ISO 24610-1 gibt dazu ein XML-Format an und ein Vokabular für die möglichen Konstrukte, die etwa die Reihenfolge von Merkmalen respektieren oder nicht, Gemeinsamkeiten von bestimmten Teilstrukturen erlauben, etc.
Die Merkmalsstruktur Deklaration ist dagegen dafür da, festzulegen, welche Merkmale erfasst werden und wie die Merkmale logisch zusammenhängen. Es ist auch möglich Regeln und Abhängigkeiten zu definieren.
Die Unterscheidung von Merkmalsstruktur-Repräsentation und -Deklaration aus dem ISO-Standard stammt historisch gesehen aus den Betrachtungen der Text Encoding Initiative (TEI). Die Fortentwicklung der Standards erfolgt dabei parallel, d.h. die von der TEI verwendete Syntax stellt die konkrete Syntax für die ISO-Standards dar. Dazu wird auf der einen Seite der ISO-Standard mit Hilfe des TEI-ODD-Format ("One Document Does it All") bearbeitet, auf der anderen Seite Entwicklungen der TEI verfolgt und für den Standard diskutiert.