Glossar

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z

A

Arbil
Definition: Arbil ist ein Editor für Metadaten, der vom Max-Planck-Institut für Psycholinguistik, zuletzt auch im Kontext von CLARIN (Common Language Resources and Technology Infrastructure), entwickelt wurde und Metadatenschemas wie z.B. IMDI, OLAC oder CMDI unterstützt.
Referenz: Arbil Start Link unter: http://www.clarin.eu/cmdi
Archiv
Definition: Ein Archiv ist eine strukturierte Sammlung von Dokumenten, Daten und anderem Material, das dazu dient, diese Ressourcen zu erhalten und langfristig zugängich zu machen.
Siehe: Repositorium
B

C

CLARIN
Siehe: Common Language Resources and Technology Infrastructure
CLARIN Component Metadata Infrastructure
Siehe: Component Metadata Infrastructure
CMDI
Siehe: Component Metadata Infrastructure
Common Language Resources and Technology Infrastructure
Definition: CLARIN (Common Language Resources and Technology Infrastructure) ist ein europäisches Projekt, das sich mit der Erstellung, Koordination und Bereitstellung von Sprachressourcen und technologischer Infrastruktur beschäftigt.
Referenz: http://www.clarin.eu
Siehe: CLARIN
Component Metadata Infrastructure
Definition: Component Metadata Infrastructure (CMDI) ist eine im Kontext von CLARIN entwickelte komponentenbasierte Metadatenbeschreibung. Diese zeichnet sich dadurch aus, dass der Nutzer individuell durch die Auswahl bzw. Erstellung geeigneter Datenkategorien, Komponenten oder Profile passende Metadateninstanzen für seine eigenen Bedürfnisse erstellen kann. Trotz dieser Freiheiten in Hinblick auf die Erstellung von Metadateninstanzen bietet CMDI Verfahren an, um Standardisierungen ermöglichen zu können. Beispielsweise erfolgt die Auswahl der Datenkategorien über das Verzeichnis ISOcat, in dem jede Datenkategorie einen Persistent Identifier besitzt, sodass auch im Falle unterschiedlicher Benennungen einer Datenkategorie in verschiedenen Metadateninstanzen diese immer noch durch die Angabe des Persistent Identifiers auf dieselbe Datenkategorie verweisen. Des Weiteren ist es möglich bereits existierende Metadateninstanzen, die auf anderen Metadatenschemas basieren (z.B. IMDI, OLAC, etc.), auch in CMDI zu repräsentieren. Vorhandene Informationen gehen dabei nicht verloren, sondern können weiter spezifiziert werden, da die zu verwendenden Datenkategorien nicht beschränkt sind, sondern vom Verwender mittels ISOcat erweitert werden können.
Referenz: http://www.clarin.eu/cmdi
Siehe: CMDI, CLARIN Component Metadata Infrastructure
Component Registry
Definition: Die Component Registry enthält sowohl Profile als auch Komponenten für die Erstellung von Metadateninstanzen in CMDI (Component Metadata Infrastructure). Man hat die Möglichkeit Profile/Komponenten einzusehen, zu editieren oder eigene zu importieren.
Referenz: Zugang über http://www.clarin.eu/cmdi
D

Data Category Registry for ISO TC 37
Definition: ISOcat (Data Category Registry for ISO TC 37) ist ein Verzeichnis für Datenkategorien, das im Bereich der Terminologieverwaltungssysteme und Sprachressourcen verwendet wird. Jeder Eintrag für eine Datenkategorie enthält drei verschiedene Informationstypen zu der jeweiligen Kategorie: administrative, beschreibende und konzeptuelle Informationen. Administrative Informationen beinhalten z.B. den Namen einer Kategorie, ihren Status im ISO-Standardisierungsprozess und das Erstellungsdatum. Informationen zur Beschreibung der Datenkategorie werden in verschiedenen Sprachen angegeben und geben z.B. den Namen der Datenkategorie und eine Inhaltsdefinition an. Konzeptuelle Informationen legen den zulässigen Wertebereich einer Datenkategorie fest (z.B. das Format einer Datumsangabe). Zusätzlich zu diesen drei Informationstypen wird der Persistent Identifier (PID) für die Datenkategorie definiert und es werden Angaben zum Urheber und Typ der Datenkategorie gemacht. Das Verzeichnis bietet dem Nutzer nicht nur die Möglichkeit nach Datenkategorien zu suchen, sondern auch vorhandene zu editieren oder neue einzuführen, wobei diese zunächst den ISO-Standardisierungsprozess durchlaufen müssen. In der Praxis greift z.B. CMDI (s. Component Metadata Infrastructure) auf in ISOcat definierte Datenkategorien zurück.
Referenz: http://www.isocat.org
Siehe: ISOcat
Datenkategorie
Definition: Beim Erstellen von Metadaten für eine Ressource werden Datenkategorien verwendet, um die jeweiligen Metadaten kategorisieren zu können. Beispielsweise enthält die Datenkategorie resource title den Titel der Ressource oder metadata creator den Namen des Erstellers der Metadaten. Als Verzeichnis für Datenkategorien kann u.a. ISOcat verwendet werden.
DC
Siehe: Dublin Core
DCMI
Siehe: Dublin Core Metadata Initiative
Dublin Core
Definition: Dublin Core (DC) ist ein Metadatenstandard, der von der Dublin Core Metadata Initiative (DCMI) spezifiziert wurde und Elemente zur Beschreibung von Ressourcen enthält, die in erster Linie zur Katalogisierung von Dokumenten verwendet werden (z.B. in Archiven, Bibliotheken). Bei dieser Menge von Elementen wird zwischen zwei verschiedenen Ebenen von Metadaten in Dublin Core unterschieden: dem einfachen, standardisierten DC und dem qualifizierenden DC. Ersterer besteht aus 15 Kernelementen (Erweiterung von ursprünglich 13 Elementen), die optional je nach Zutreffen auf die jeweilige Ressource zu verwenden sind, z.B. für Autoren, Copyrightinhaber und Erscheinungsjahr, und in einer Metadateninstanz beliebig oft vorkommen dürfen. Zweiterer, der qualifizierende DC, spezifiziert diese Kernelemente weiter.
Referenz: http://dublincore.org/documents/usageguide/, http://dublincore.org/specifications/
Siehe: DC
Dublin Core Metadata Initiative
Definition: Die Dublin Core Metadata Initiative (DCMI) ist eine Organisation von Archivaren, die sich mit der Entwicklung von Metadatenstandards beschäftigt und das Dublin Core Metadatenschema entwickelt hat.
Referenz: http://dublincore.org/
Siehe: DCMI
E

Extensible Markup Language
Definition: Die Extensible Markup Language (XML) ist eine Auszeichnungssprache (d.h. eine Markupsprache), die auf der Standardized Markup Language (SGML) beruht und sich durch die Darstellung hierarchisch strukturierter Daten auszeichnet, die Inhalt und Form voneinander trennen. Genauer gesagt ist XML, wie auch SGML, nicht nur eine Auszeichnungs-, sondern eine Metasprache aufgrund der Fähigkeit andere Markupsprachen definieren zu können und somit erweiterbar zu sein.
Referenz: http://www.w3.org/standards/xml/, http://www.w3.org/TR/2008/REC-xml-20081126/
Siehe: XML
F

Faceted Browsing
Siehe: Faceted Search
Faceted Search
Definition: Faceted Search ist eine Methode, die angewendet wird, um Nutzer bei der Suche in elektronischen Verzeichnissen zu unterstützen. Dazu werden Suchergebnisse durch die Auswahl von Filterkriterien (d.h. Facetten) eingeschränkt.
Siehe: Guided Search, Faceted Browsing
G

Guided Search
Guided Search wird als Oberbegriff verschiedener Möglichkeiten verwendet, um Nutzer durch elektronische Verzeichnisse zu leiten, d.h. sie über Teilsuchergebnisse auf sinnvolle Suchraumeinschränkungen hinzuweisen. Zu diesen Methoden gehören etwa Faceted Search, Dynamic Taxonomies, etc.
Siehe: Faceted Search
H

Harvesting
Definition: Im Kontext von Metadaten bezeichnet Harvesting eine Methode, die angewendet wird, um Metadaten von Repositorien extrahieren und weiterverarbeiten zu können, um sie beispielsweise in einem Katalog zur Verfügung zu stellen. Aus technischer Sicht benötigt man für diesen Extraktionsprozess eine Umsetzung, die das Einsammeln der Metadaten ermöglicht. Dazu kann z.B. ein Protokoll wie OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) dienen.
I

ID
Siehe: Identifier
Identifier
Deutsch: Identifikator
Definition: Ein Identifier (ID) ist ein eindeutiger Bezeichner für eine Entität (z.B. für eine Variable).
Siehe: ID
IMDI
Siehe: ISLE Meta Data Initiative
ISLE Meta Data Initiative
Definition: ISLE Meta Data Initiative (IMDI) ist eine Arbeitsgruppe zur Entwicklung von Metadatenstandards für Sprachressourcen. Das von dieser Gruppe entwickelte Metadatenschema findet für multimodale und multimediale Sprachressourcen Anwendung. Dazu wird aufgrund dieser verschiedenen Ressourcentypen bei den Metadaten zwischen Katalogmetadaten und Sessionmetadaten (Sitzungsmetadaten) unterschieden.
Referenz: http://www.mpi.nl/imdi/
Siehe: IMDI
ISOcat
Siehe: Data Category Registry for ISO TC 37
ISO TC 37
Definition: Im Rahmen der internationalen Standardisierungsorganisation (ISO) ist das Technische Komitee 37 für Terminologie, Sprachressourcen, Wissen und Inhalt zuständig. In Deutschland wird es im Rahmen des Deutschen Instituts für Normung (DIN) im NA 105 "Normenausschuss Terminologie (NAT)" gespiegelt. Verschiedene Unterausschüsse befassen sich mit Terminologie aus der Übersetzungsindustrie, Fachwörterbüchern, Ontologien und Sprachressourcen.
Referenz: http://www.iso.org/tc37, weitere Informationen zu ISO TC 37: http://www.infoterm.info/standardization/iso_tc_37.php
ISO TC 37 SC 3
Definition: Im Rahmen des ISO TC 37 befasst sich das Unterkomitee (Subcommittee) 3 "Systems to manage terminology, knowledge and content" mit Computeranwendungen der Terminologie, besonders mit Datenformaten und Spezifikationen für Terminologieverwaltungssysteme. Im Deutschen Institut für Normung wird es vom Unterausschuss NA 105-00-05 "Systeme für die Verwaltung von Terminologie, Wissen und Content" gespiegelt.
Referenz: http://www.iso.org/tc37/sc3, http://www.nat.din.de/
ISO TC 37 SC 4
Definition: Der ISO Normen-Aussschuss ISO TC 37 SC4 (International Organisation of Standardisation, Technical Committee 37, Subcommittee 4) ist für alle Arten für Sprachressourcen zuständig, wie sie etwa in der linguistischen Forschung verwendet werden. Dazu werden Beschreibungsmodelle (sogenannte Frameworks) und Datenformate definiert, durch die diese Ressourcen beschreib- und vergleichbar werden sollen.
Referenz: http://www.tc37sc4.org/, http://www.iso.org/tc37/sc4
J

K

Katalog
Definition: Ein Katalog ist eine strukturierte Sammlung von Metadaten, der Zugang zu Ressourcen ermöglichen soll. Im Bibliothekswesen werden Kataloge verwendet, um die vorhandenen Bücher zu katalogisieren (d.h. um sowohl bibliographische Angaben als auch Informationen über die Verfügbarkeit und den Standort eines Buches in der Bibliothek geben zu können). Auch im Bereich der Sprachressourcen werden Kataloge verwendet, um Ressourcen mit Hilfe von Metadaten zugänglich zu machen.
Komplexe Ressource (in CMDI)
Englisch: complex resource
Definition: Der Begriff komplexe Ressource wird im Kontext von CMDI verwendet und bezeichnet eine Ressource, die sich aus verschiedenen Bestandteilen zusammensetzt, auf die individuell zugegriffen werden kann.
Beispiele: Lexikon mit Lexikoneinträgen; Baumbank mit unterschiedlichen Annotationsebenen (Syntax, POS, etc.)
Komponente (in CMDI)
Englisch: component
Definition: Eine Komponente in CMDI ist eine Sammlung von Metadatenkategorien. Zusammen beschreiben sie einen Aspekt einer Komponente wie z.B. Name, Sprache oder Adresse, und können durch den Nutzer erweitert werden. Außerdem sind Komponenten wiederverwendbar und können in gleicher Form in unterschiedlichen Profilen auftreten.
L

LAF
Siehe: Linguistic Annotation Framework
Linguistic Annotation Framework
Definition: Das Linguistic Annotation Framework (LAF) wurde innerhalb von ISO TC 37 SC 4 als Metamodell entwickelt. Dieses Metamodell soll sowohl ein Vokabular als auch eine Methode liefern, um linguistische Annotationen konsistent und vollständig zu beschreiben. Dazu werden in LAF Graphenformate verwendet. Auf diesen Grundlagen werden dann konkrete linguistische Ebenen beschrieben, wie beispielsweise innerhalb von ISO TC 37 SC 4 das Morphosyntactic Annotation Framework (MAF) und das Syntactic Annotation Framework (SynAF).
Referenz: http://www.tc37sc4.org/document.php?p=tc37sc4_list_total.txt&search_text=LAF&project_category=on
Siehe: LAF
Lexical Markup Framework
Definition: Das Lexical Markup Framework (LMF) ist ein ISO-Standard auf der Modellebene für lexikalische Ressourcen. Mit Hilfe von LMF sollen konkrete Dokumentgrammatiken für lexikalische Ressourcen beschrieben werden. Durch den einheitlichen Bezug auf LMF können die Gemeinsamkeiten der Ressourcen ermittelt und unter festgelegten Voraussetzungen ausgetauscht werden. Konkrete Instanziierungen sind nicht Teil des LMF.
Referenz: http://www.lexicalmarkupframework.org/
Siehe: LMF
LMF
Siehe: Lexical Markup Framework
LR
Definition: LR ist eine Abkürzung für Language Resource, welches im Deutschen gleichbedeutend mit Sprachressource verwendet wird.
Siehe: Sprachressource
M

MAF
Siehe: Morpho-Syntactic Annotation Framework
Metadaten
Definition: Metadaten werden häufig als "Daten über Daten" definiert. Genauer betrachtet handelt es sich dabei um strukturierte Informationen, die sowohl eine Beschreibung als auch das Auffinden einer Ressource ermöglichen. Ebenso dienen Metadaten der Archivierung von Ressourcen. Im Allgemeinen werden Metadaten von den eigentlichen Daten (auch Objektdaten genannt) unterschieden. Beispielsweise liegt als Ressource ein Korpus vor, das aus Zeitungsartikeln besteht. Die Objektdaten wären in diesem Fall das Korpus selbst, d.h. die Zeitungsartikel. Die zum Korpus gehörenden Metadaten hingegen würden Informationen über diese Ressource enthalten wie z.B. Titel, Beschreibung, Erstellungsdatum, Annotationsebenen, etc. Auch im Bibliothekswesen werden in Katalogen Metadaten verwendet, die Informationen über Titel, Autor, Verlag, Erscheinungsjahr oder Inhalt eines Buches liefern, sodass dieses auffindbar ist und gleichzeitig archiviert wird.
Metadateninstanz
Definition: Eine Metadateninstanz ist die Beschreibung einer Ressource anhand von Metadaten.
Metadatenschema
Definition: Um Metadaten, genauer Metadateninstanzen, für eine Ressource erstellen zu können, benötigt man Beschreibungsmuster, die die möglichen zu verwendenden Datenkategorien für einen Ressourcentyp definieren und somit über kontrolliertes Vokabular verfügen. Bei solchen Beschreibungsmustern handelt es sich um Metadatenschemas. Bekannte Metadatenschemas sind beispielsweise Dublin Core (DC), OLAC, TEI-Header oder IMDI. Eine größere Flexibilität für unterschiedliche Ressourcentypen bei einer höheren Genauigkeit der Beschreibung verspricht ein komponentenbasiertes Verfahren mit CMDI.
Metadatenstandard
Definition: Bei einem Metadatenstandard handelt es sich um ein Metadatenschema, das standardisiert ist. Das bedeutet, dass Metadatenschemas einen Standardisierungsprozess durchlaufen müssen, der von einem Standardisierungskomitte, z.B. ISO (ISO TC 37 SC 4 für Sprachressourcen), geleitet wird.
Morpho-Syntactic Annotation Framework
Definition: Das Morpho Syntactic Annotation Framework (MAF) repräsentiert morpho-syntaktische Annotationen nach einem zweistufigen Prinzip (Token und Wortform) und ermöglicht die Darstellung komplexer Annotationen. Für die Tagsets in MAF, die nicht standardisiert sind, sondern individuell erstellt werden können, sollen Datenkategorien aus ISOcat verwendet werden.
Referenz: http://atoll.inria.fr/~clerger/MAF/html/index.html
Siehe: MAF
N

Nachhaltigkeit
Definition: Im Bereich der Sprachressourcen wird der Begriff Nachhaltigkeit (Englisch sustainability) in Zusammenhang mit dem langfristigen Bereitstellen und Auffinden von Ressourcen verwendet. Eine Ressource ist nachhaltig, wenn sie auch in Zukunft trotz der möglichen Veränderungen technischer Standards, Metadatenschemas oder der nicht mehr präsenten Kontaktpersonen, die eine Ressource erstellt oder verwaltet haben, noch auffindbar und verwendbar ist.
O

OAI
Siehe: Open Archives Initiative
OAI-PMH
Siehe: Open Archives Initiative Protocol for Metadata Harvesting
OAI-ORE
Siehe: Open Archives Initiative Object Reuse and Exchange
Objektdaten
Definition: Im Gegensatz zu Metadaten bezeichnen Objektdaten (auch: Daten) nicht Informationen über eine Ressource, sondern die Daten einer Ressource selbst. Beispielsweise kann es sich bei einer Ressource um ein aus Zeitungsartikeln bestehendes Korpus handeln. Die Objektdaten wären in diesem Fall das Korpus, d.h. die Zeitungsartikel. Die Metadaten hingegen würden lediglich Informationen über die Daten, d.h. das Korpus, liefern.
OLAC
Siehe: Open Language Archives Community
Open Archives Initiative
Definition: Die Open Archives Initiative (OAI) entwickelt und fördert Standards, die die Kompatibilität von Ressourcen zur Verbreitung und zum Austausch von Inhalten gewährleisten. Die Initiative hat ihren Ursprung in Open Acccess Interessensgemeinschaften und institutionellen Repositorien.
Referenz: http://www.openarchives.org/
Siehe: OAI
Open Archives Initiative Object Reuse and Exchange
Definition: Für das Projekt der Open Archives Initiative zur Wiederverwendung und zum Austausch von Objekten geht man davon aus, dass beliebige Objekte zusammengefasst werden können, so dass gemeinsam darauf verwiesen werden kann. Solche Ressourcen können z.B. die unterschiedlichen Ebenen einer Annotation sein, auf die sowohl einzeln als auch als Gruppe verwiesen werden kann, oder eine Audiodatei mit ihrer Transkription, etc.
Referenz: http://www.openarchives.org/ore/
Siehe: OAI-ORE
Open Archives Initiative Protocol for Metadata Harvesting
Definition: OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) ist ein Protokoll, das das Harvesting von Metadaten im XML-Format unterstützt. Die Metadaten können beispielsweise in einem Repositorium eines Datenanbieters vorliegen und durch OAI-PMH extrahiert und in einem anderen Katalog eines Serviceanbieters gesammelt werden. Auf diese Weise kann ein zentraler Katalog erstellt werden, der über Metadaten aus unterschiedlichen Repositorien verfügt. Voraussetzung dafür ist, dass die Metadaten der Datenanbieter, gegebenenfalls zusätzlich zu anderen Formaten, in Dublin Core vorliegen, damit das Harvesting in einen gemeinsamen zentralen Katalog erfolgen kann.
Referenz: http://www.openarchives.org/pmh/
Siehe: OAI-PMH
Open Language Archives Community
Definition: Die Open Language Archives Community (OLAC) ist eine Gemeinschaft, die sich die Erschaffung einer weltweiten virtuellen Bibliothek von Sprachressourcen zum Ziel gesetzt hat. Zu diesem Zweck wurde das gleichnamige Metadatenschema OLAC definiert. OLAC stellt eine Erweiterung des Dublin Core (DC) Metadatenschemas dar, indem es alle 15 Kernelemente aus DC enthält und dieses Schema mit weiteren Elementen anreichert und differenziert. Insgesamt besteht OLAC aus 23 Datenkategorien, die optional und beliebig oft verwendet werden können.
Referenz: http://www.language-archives.org/
Siehe: OLAC
P

Persistent Identifier
Definition: Ein Persistent Identifier (PID) ist ein spezieller Typ der Identifikatoren, der auf eine Ressource referenziert und sich durch seine Persistenz, also Dauerhaftigkeit, auszeichnet. Im Gegensatz zum Auffinden von Ressourcen über URLs, die zwar eindeutig, aber als Referenzen auf eine Ressource beim Ändern der Adressierung nicht mehr gültig sind, treten diese Problematiken bei der Verwendung von PIDs nicht auf. Ein Persistent Identifier trennt die Vergabe eines eindeutigen Identifikators für eine Ressource und die Adressierung der Ressource voneinander. So bleiben die vergebenen PIDs auch bei Standortwechseln der Ressource gültig, sodass diese dauerhaft aufgefunden werden können. Aus technischer Sicht wird ein eindeutiger PID für eine Ressource vergeben, der in einem Zwischenprozess in die zugehörige URL umgewandelt wird. Dabei kann eine Ressource auch mehrere Standorte aufweisen, aber es wird pro Ressource nur ein PID vergeben, der den zutreffenden URLs zugeordnet wird. Für diesen Prozess sind Systeme erforderlich, die PIDs vergeben und den URLs langfristig zuordnen, wie z.B. das Handle-System.
Referenz: http://www.pidconsortium.eu/, http://handle.net/
Siehe: PID
PID
Siehe: Persistent Identifier
Profil (in CMDI)
Englisch: profile
Definition: In CMDI ist ein Profil ein Schema für einen bestimmten Ressourcentyp. Es besteht aus einer Sammlung von Komponenten, die Datenkategorien aus ISOcat enthalten.
Beispiele: Profile für Lexika, Korpora, Tools, etc.
Q

R

RDF
Siehe: Resource Description Framework
Repositorium
Englisch: repository
Definition: In der Informatik und verwandten Disziplinen bezeichnet ein Repositorium einen digitalen Ort zur Speicherung von Daten und Dokumenten. Wenn diese Speicherung der Langzeitarchivierung dient, spricht man auch von einem Archiv.
Siehe: Archiv
Resource Description Framework
Definition: Das Resource Description Framework (RDF) ist ein Standard zur Angabe von Metadaten, der im Bereich des Semantic Webs für die Modellierung semantischer Wortnetze und Ontologien verwendet wird.
Referenz: http://www.w3.org/standards/techs/rdf#w3c_all
Siehe: RDF
Ressource (in CMDI)
Englisch: resource
Definition: In CMDI wird als Ressource alles bezeichnet, was durch einen Uniform Resource Identifier (URI) auffindbar ist.
Beispiele: Ein elektronisches Dokument, ein Bild, eine Informationsquelle mit einem konsistenten Zweck (z.B. Wetterbericht), ein Service oder eine Sammlung von anderen Ressourcen.
Ressourcentyp
Definition: Ressourcentypen sind Klassen von Ressourcen, die bestimmte Gemeinsamkeiten haben und daher zu einer Art von Ressource zählen können.
Beispiele: Texte, Korpora, Annotationen, Lexika, Tools, Bilder, Audiodateien, Videos, etc.
S

Sammlung (in CMDI)
Englisch: collection
Definition: Im Bereich von CMDI ist eine Sammlung eine Menge von Ressourcen, die durch eine Metadatenbeschreibung repräsentiert wird, welche einen eigenen Uniform Resource Identifier (URI) besitzt.
Beispiele: Sammlung von Texten, Sammlung von Multimedia-Dateien
SGML
Siehe: Standard Generalized Markup Language
Sprachressource (allgemein)
Englisch: language resource (LR)
Definition: Sprachressourcen sind eine Klasse elektronisch vorliegender Sprachdaten, die mit linguistischen Informationen (z.B. Annotationen) angereichert sind. Sprachressourcen können beispielsweise Korpora, Lexika, Wortnetze oder Daten gesprochener Sprache sein.
Siehe: LR
Standard Generalized Markup Language
Definition: Die Standard Generalized Markup Language (SGML) ist eine Auszeichnungssprache (d.h. eine Markupsprache), genauer gesagt eine Metasprache, die andere Markupsprachen wie z.B. HTML definiert. Wie auch in der Extensible Markup Language (XML), die auf SGML beruht, werden in SGML Form und Inhalt voneinander getrennt. Heutzutage wird SGML allerdings nur noch in eingeschränktem Maße verwendet, u.a. aufgrund der nicht mehr vorhandenen Kompabilität mit aktuell verfügbarer Software und der geeigneteren Verwendung von XML für Dokumente im World Wide Web.
Referenz: http://www.w3.org/MarkUp/SGML/
Siehe: SGML
SynAF
Siehe: Syntactic Annotation Framework
Syntactic Annotation Framework
Definition: Das Syntactic Annotation Framework (SynAF) stellt ein Format für die Repräsentation syntaktischer Annotationen zur Verfügung.
Referenz: Siehe Dokumente zu SynAF unter http://www.tc37sc4.org
Siehe: SynAF
T

TEI
Siehe: Text Encoding Initiative
TEI Header
Definition: Der TEI Header ist der Teil des TEI-Standards, der am Anfang einer Instanz steht und zur Repräsentation von Metadaten für Sprachressourcen dient. Die Kategorien im Header entsprechen dabei bibliographischen Angaben und sind in vier Hauptkomponenten eingeteilt, die jeweils verschiedene Datenkategorien enthalten können: Beschreibung der Datei (file description, Elementname <fileDesc></fileDesc>), Beschreibung der Kodierung (encoding description, Elementname <encodingDesc></encodingDesc>), Textprofil (text profile, Elementname <profileDesc></profileDesc>) und Dokumentation von Revisionen (revision history, Elementname <revisionDesc></revisionDesc>).
Referenz: http://www.tei-c.org/release/doc/tei-p5-doc/en/html/HD.html
Siehe: Text Encoding Initiative
Text Encoding Initiative
Definition: Die Text Encoding Initiative (TEI) ist ein Konsortium, das Standards für SGML- oder XML-basiertes Markup von digital verfügbaren Texten entwickelt und erhält. Teil des TEI-Standards ist der TEI Header, der der Repräsentation von Metadaten für Sprachressourcen dient.
Referenz: http://www.tei-c.org
Siehe: TEI, TEI Header
U

Uniform Resource Identifier
Definition: Ein Uniform Resource Identifier (URI) ist eine Zeichenfolge, die eine Ressource im Internet identifiziert (z.B. eine Webseite oder eine E-Mail-Adresse). Ein URI setzt sich aus fünf Teilen zusammen: Scheme (Schema, d.h. die Art der Ressource oder das Protokoll, das benötigt wird, um Zugang zu der Ressource zu erhalten; Beispiele: HTTP, FTP, E-Mail), Authority (Instanz, die die Ressource bereitstellt; Beispiel: Hostname wie z.B. hinrichs.sfs.uni-tuebingen.de), Path (Pfad, durch den man zur Ressource gelangt), Query (Abfrage zum Retrieval der Ressource) und Fragment (Verweis auf einen bestimmten Teil der Ressource). Untergruppen des Uniform Resource Identifier sind URL (Uniform Resource Locator) und URN (Uniform Resource Name).
Siehe: URI
Uniform Resource Locator
Definition: Ein Uniform Resource Locator (URL) ist eine Unterart des Uniform Resource Identifier (URI) und addressiert eine Ressource im Internet (mittels HTTP oder FTP).
Siehe: URL
URI
Siehe: Uniform Resource Identifier
URL
Siehe: Uniform Resource Locator
V

Virtual Language Observatory
Definition: Das Virtual Language Observatory (VLO) wurde im Kontext von CLARIN entwickelt und beinhaltet verschiedene Möglichkeiten, um durch Metadatenbeschreibungen Zugang zu Sprachressourcen und Technologien erhalten zu können. Beispielsweise werden das CLARIN Language Resource Inventory und das CLARIN Language Tool Inventory angeboten, um mit Hilfe einer Faceted Search die Suche nach Ressourcen und Tools unter Einhaltung individueller Suchkriterien ermöglichen zu können.
Referenz: http://www.clarin.eu/vlo/
Siehe: VLO
VLO
Siehe: Virtual Language Observatory
W

W3C
Siehe: World Wide Web Consortium
World Wide Web Consortium
Definition: Das World Wide Web Consortium (W3C) ist eine internationale Vereinigung, die sich mit Standardisierungen von Technologien im World Wide Web befasst. Dazu werden für jede Technologie Richtlinien und Spezifikationen entwickelt, um die Einhaltung der Standards gewährleisten zu können. Vom W3C definierte Standards sind beispielsweise XML, HTML, XHTML, CSS, XSL oder XSLT.
Referenz: http://www.w3.org/
Siehe: W3C
X

XML
Siehe: Extensible Markup Language
Y

Z