MiLCA – Modul Texttechnologie
Mit dem Modul
“Texttechnologie” soll eine umfassende Einführung in das Gebiet der
Texttechnologie geschaffen werden, bei dem die spezifischen Aspekte der
computerlinguistischen Sprach- und Textverarbeitung im Mittelpunkt stehen.
Dabei geht es zum einen um die Vermittlung zahlreicher internationaler
Standards, die sowohl im World Wide Web als auch im Bereich des Electronic
Publishing eingesetzt werden (SGML, XML und flankierende Normen wie XLink,
XPointer, XSL, XSLT, DSSSL, RDF, Topic Maps etc.) sowie deren wissenschaftliche
Grundlagen. Zum anderen werden computerlinguistische Anwendungen dieser
Standards bzw. von Systemen, die diese Standards implementieren, thematisiert.
Das damit verbundene umfassende Ziel ist die Schaffung struktureller und
inhaltlicher Möglichkeiten zur einfachen Suche und Informationsexploration im World
Wide Web, beispielsweise durch die Entwicklung adaptiver Hypertext-Systeme,
die Entwicklung von Methoden zur automatischen Dokumentklassifikation, zur
automatischen Extraktion von Metadaten oder zur Anreicherung bestehender
textueller Daten mit semantischen Metainformationen.
Das MiLCA-Modul
“Texttechnologie” orientiert sich an dem Konzept des Document Lifecycle,
nach dem bei der Verarbeitung strukturierter textueller Informationen die
Phasen der Strukturierung und Erfassung, der Manipulation, der Transformation,
des Viewing und der Restrukturierung durchlaufen werden. Alle diese Phasen
basieren auf einer zentralen Dokument-Grammatik und jeweils spezifischen
Metadaten, die den erwähnten Standards folgen.
Im Submodul “Strukturierung” wird vermittelt, textuelle Daten zu analysieren und durch eine DTD zu spezifizieren. Dieser Vorgang kann mit dem Programmieren in einer Programmiersprache verglichen werden, da ein ähnlicher Unterzyklus (Spezifikation, Implementation, Testen, Modifikation) zu durchlaufen ist wie beim Software Engineering. Die damit verbundene Datenerfassung kann entweder die durch die DTD unterstützte Eingabe neuer Daten sein oder die teil- oder vollautomatische Konvertierung von Altdaten ins XML-Format.
Im Submodul “Manipulation” werden aus dem textuellen Datenbestand verschiedene Textversionen abgeleitet. Den Lernenden wird vermittelt, wie ein Textbestand beispielsweise mehrere Sprachversionen, möglicherweise auf der Ebene der kleinsten Texteinheiten parallelisiert, in sich vereinen kann. Eine praktische Aufgabe besteht darin, einen Verarbeitungsprozesses zu entwickeln, durch den die verschiedenen einzelsprachlichen Versionen aus dem Textbestand herausgefiltert und dabei ggfs. noch weitere notwendige Umstellungs- oder Auswertungsprozesse durchgeführt werden.
Die Transformation der Textbestände in andere Zielformate ähnelt der Festlegung von Style Sheets zu Zwecken des Viewing. Im Submodul “Transformation und Viewing” wird erlernt, wie XML-strukturierte Textbestände in andere Auszeichnungsformate überführt werden, um von dort aus mit anderen Verfahren weiterbearbeitet zu werden. Bei der Entwicklung von Views werden die XML-Strukturen über sog. Style Sheets mit Darstellungsinformationen kombiniert, um sie in geeigneten Browsern anzeigen zu können. Zur Definition eines Views auf die Daten gehört auch die Bereitstellung zusätzlicher Metadatenbestände, die für die Navigation in den Textbeständen durch den Benutzer herangezogen werden. Derartige Navigatoren können automatisch erzeugt werden, sofern für die in Textbeständen vorkommenden Struktureinheiten ihre Verwendung für Navigationszwecke allgemein festgelegt wird.
Im Submodul “Restrukturierung und Konvertierung” werden die in den Test- und Anwendungsläufen der DTD, der Bearbeitungs- und Viewing-Subsysteme gewonnenen Erfahrungen evaluiert, mit der Spezifikation neuer Anforderungen verbunden und können dann den Ausgangspunkt bilden für einen neuen Lauf durch den Document Lifecycle.
In einem fünften Submodul “Programmierung, Systeme, Tools” werden die softwaretechnologischen Voraussetzungen und Umsetzungsmöglichkeiten im Bereich der Texttechnologie vermittelt.
Das Modul entspricht dem Umfang nach einer Hauptstudiums-Veranstaltung von 4 SWS mit einer begleitenden Übung. Durch eine hochgradige Modularisierung des Materials soll eine flexible Aufbereitung und Rezeption der Inhalte gewährleistet werden, wobei auch Wert auf eine einfache Pflege der Daten gelegt werden muss, da die erwähnten Standards noch auf absehbare Zeit der Revision durch die zuständigen Gremien unterliegen. Revidierte oder auch neue Standards aus dem Bereich der Texttechnologie müssen folglich mit einfachen Mitteln in das vorhandene Material integrierbar sein, was eine eher netzartige Präsentation als die traditionelle lineare Rezeptionsstruktur, die beispielsweise einem Lehrbuch inhärent ist, nahelegt.
Neben den Grundsätzen zur didaktischen Umsetzung,
die für das MiLCA-Vorhaben insgesamt gelten, ist auf eine Besonderheit im Modul
“Texttechnologie” hinzuweisen. Die Ausrichtung der inhaltlichen Struktur des
Moduls am Document Lifecycle erlaubt es, den Wissenserwerb der Lernenden
durchgängig mit dem praktischen Erfahrungsgewinn durch die Verwendung eigener
Testmaterialien zu flankieren. Dazu sollen die Web-basierten Materialien, in
den Standards, Methoden und Systeme beschrieben werden, durch eine parallele
Schicht ergänzt werden, in der der/die Lernende einen eigenen Beispieltext
strukturiert, manipuliert, Transformationsskripte dafür entwirft und Style
Sheets für das Online-Viewing festlegt und diese exemplarischen
Eigenentwicklung sofort auf ihre Korrektheit und die gewünschte Funktionalität
überprüfen kann. Das Ziel besteht darin, dass die Lernenden nach dem
vollständigen Durchlaufen des Moduls zugleich auch den texttechnologischen
Lebenszyklus von Dokumenten vollständig mit eigenen Materialien durchlaufen
haben. Anders als etwa im Bereich der Naturwissenschaften, wo bei der
Web-basierten Lehre lediglich Simulationen konkreter Versuchsaufbauten zur
Verfügung gestellt werden können, kann im Bereich der Texttechnologie mit
realen Systemkomponenten und deren Funktionsweise experimentiert werden.
Vor diesem Hintergrund sind die Materialien zunächst so aufzubereiten, dass ein exploratives Lernen ermöglicht wird, d.h. es werden sowohl Materialien als auch die Werkzeuge, mit deren Hilfe diese Materialien zu manipulieren sind (beispielsweise verschiedene XML-Dateien auf der einen Seite und XML-Parser, Style Sheet-Prozessoren, XML-Editoren etc. auf der anderen Seite), zur unmittelbaren Verfügbarkeit der Lernenden gestellt. Daran schließen sich projektartige Arbeitsformen mit eigenen Materialien an, die sich am dargelegten texttechnologischen Lebenszyklus von Dokumenten orientieren.
Das Modul
“Texttechnologie” weist als Teil des Grundlagenbereichs von MiLCA enge Bezüge
mit zwei der vier Anwendungsbereiche auf, und zwar mit den Modulen “Information
Retrieval” und “Computerlexikographie”. Innerhalb des Moduls sollen
Schnittstellen zu diesen anwendungsbezogenen Modulen geschaffen werden, die es
den Lernenden erlauben, den erwähnten didaktischen Einsatz des Document
Lifecycle auf lexikographische Datenstrukturen zu beziehen oder mit
weitergehender Retrieval-Funktionalität zu verbinden.
Daneben bestehen deutliche Bezüge zu den Grundlagen-Modulen “Programmierkonzepte für die CL” und zu “Grammatikformalismen und Parsing”, da wesentliche Teile der Texttechnologie aus Grammatik- und Parsing-bezogenen Forschungsarbeiten hervorgegangen sind und sich Computerlinguistik-Studierenden aus dieser Perspektive besonders geradlinig vermitteln lassen. Ein wichtiger Querbezug besteht auch zum Modul “Gesprochene Sprache”, da für die Erstellung und Verwaltung von Korpora gesprochener Sprache texttechnologische Methoden Anwendung finden.
Auswahl neuerer
Publikationen:
Lobin, Henning: Informationsmodellierung in XML und SGML.
Berlin, Heidelberg: Springer-Verlag, 2000 [2. Aufl. 2001].
Lobin, Henning (Hrsg.): Text im digitalen Medium.
Linguistische Aspekte von Textdesign, Texttechnologie und Hypertext Engineering.
Wiesbaden: Westdeutscher Verlag, 1999.
Lobin,
Henning: “Textdesign, Texttechnologie und Hypertext Engineering”. In Lobin (Hrsg., 1999), 1-8.
Lobin, Henning: “Intelligente Dokumente. Linguistische Repräsentation
komplexer Inhalte für die hypermediale Wissensvermittlung”. In Lobin (Hrsg., 1999), 155-178.
Lobin, Henning: “Grammatische Restringierung von Dateninhalten
in SGML/XML”. In Jost Gippert (Hrsg.), Multilinguale Corpora – Codierung, Strukturierung,
Analyse. Prag: enigma
corporation, 1999.
Lobin,
Henning und Markus Reinsch:
“Unification of XML Documents”. In InterChange 5/2, 1999, 31-33.
Lobin,
Henning und Andreas Witt:
“Semantic and Thematic Navigation in Electronic Encyclopedias”. In Proc. of
Electronic Publishing 99. Rønneby 1999, 81-94.
Rehm,
Georg und Henning Lobin: “From
Open Source to Open Information”.In Proc. of Electronic Publishing 2000.
Kaliningrad 2000.
Das Gebiet der
Texttechnologie kann als ein neuer Zweig der Computerlinguistik verstanden
werden, der sich noch in seiner Ausformungsphase befindet und trotzdem schon
großen Einfluss auf andere Teilgebiete der Computerlinguistik gewonnen hat.
Dabei sind zwei Aspekte von besonderem Interesse. Die Strukturierung
sprachlicher Daten auf der Grundlage anerkannter Standards und allgemein
anerkannter Verarbeitungsmethoden mit den Mitteln der Texttechnologie führt zu
einer verstärkten Integration von Korpora unterschiedlicher Herkunft. Zweitens
eröffnen computerlinguistische Verarbeitungsmethoden im Bereich der
Texttechnologie die Möglichkeit, weitergehende Automatisierungen vorzunehmen
und bessere Retrieval-Möglichkeiten zu schaffen.
Der fachliche Beitrag des Antragstellers erstreckt sich vor allem darauf, aufgrund der vorhandenen wissenschaftlichen und anwendungsbezogenen Erfahrungen diesen Aspekt in das MiLCA-Gesamtkonzept einzubringen. In organisatorischer Hinsicht kann zusätzlich geltend gemacht werden, dass auch die Erstellung vernetzter Lehrmodule, die in unterschiedlicher “Dichte” und in unterschiedlichen didaktischen Zusammenhängen nutzbar sein sollen, als ein texttechnologisches Problem aufzufassen ist, bei dem Strukturierungsfragen, Verarbeitungsaspekte und Content Management eine wichtige Rolle spielen. Die Kompetenz des Gießener Projektstandorts soll deshalb neben der eigentlichen inhaltlichen Modulentwicklung dem gesamten Projektverbund zur Verfügung gestellt werden.
Mit dem vom Antragsteller verfassten Lehrbuch
“Informationsmodellierung in XML und SGML” liegt eine aktuelle Textgrundlage
für das Submodul “Strukturierung” im Modul “Texttechnologie” vor. Dieses
Lehrbuch hat – zum Teil in Vorversionen – bereits mehrfach als Grundlage für
Lehrveranstaltungen gedient und kann inhaltlich als gut auf die didaktischen
Bedürfnisse von Computerlinguistik-Studierenden abgestimmt betrachtet werden.
Daneben können eigene Beiträge aus dem vom Antragsteller herausgegebenen Band
“Text im digitalen Medium” (1999) als Hintergrundmaterialien herangezogen
werden.
Seit Beginn des Studienbetriebs im Fach
Computerlinguistik an der JLU Gießen (Magister-Nebenfach) im Herbst 1999 sind
sämtliche Lehrveranstaltungen Web-basiert durchgeführt worden. Es liegen somit
große Mengen an Materialien vor, mit Bezug auf das MiLCA-Modul
“Texttechnologie” insbesondere für die Lehrveranstaltungen “Einführung in die
Texttechnologie”, “Programmierpraktikum” und “Softwareentwicklung”. Die
Materialien wurden größtenteils in MS-Powerpoint entwickelt, da sie in einem
didaktisch vernetzten Seminarraum für die Präsenzlehre eingesetzt werden. Die
Materialien eignen sich also in dieser Form nicht für das Selbststudium oder
für kooperative virtuelle Lehrformen. Darüber hinaus sind in den Materialien
selbst keine übergreifenden didaktischen Konzepte ausgeprägt, da dieses Element
durch den Dozenten in der Seminarsitzung ergänzt wird. Trotzdem bieten die
Materialien einen guten Ausgangspunkt für einige Submodule des Moduls
“Texttechnologie”.
Das MiLCA-Modul “Texttechnologie” setzt sich inhaltlich aus den folgenden
Submodulen zusammen (s. 2.1 und 2.2):
Submodul D: “Restrukturierung und Konvertierung” |
Submodul E: “Programmierung,
Systeme, Tools” |
Für jedes
Submodul sind die folgende Arbeitspakete zu durchlaufen:
§
Erstellung: Entwicklung der Lehrmaterialien einschließlich
Implementation und Dokumentation
§
Erprobung: Einsatz in der Lehre, Berücksichtigung
unterschiedlicher Lehr-/Lernszenarien
§
Evaluation: mediendidaktische und lernpsychologische
Bewertung der erstellten Materialien in Zusammenarbeit mit dem Arbeitsbereich
Angewandte Kognitionspsychologie und Medienpsychologie des Institut für
Medienpsychologie der Universität Tübingen
§
Revision: Inhaltliche und didaktische Überarbeitung der
Submodule auf der Grundlage von Erprobungs- und Evaluationsergebnissen
§
Integration: Hypermediale Vernetzung mit anderen
MiLCA-Modulen, didaktische Angleichung
§
Transferinitiierung: Vorbereitung der Submodule für die Verwertung
als kommerzielles Weiterbildungsangebot für nicht-akademische Interessenten
nach Projektende
Das Modul
“Texttechnologie” soll im Rahmen der Computerlinguistik-Ausbildung an der
Universität Gießen in der Erprobungsphase für die beiden obligatorischen
Hauptseminare “Datenbanksysteme” und “Informationstechnologie und neue Medien”
eingesetzt werden. Beide Seminare sind curricular mit 2 SWS vorgesehen, sodass
sich durch die Zusammenlegung eine vierstündige Veranstaltung ergibt. Die
bisherigen Inhalte der beiden Veranstaltungen gehen dabei voll in dem
Verbundseminar “Texttechnologie” auf.
Im Sommersemester 2002 wird das Verbundseminar “Texttechnologie” als synchrones virtuelles Seminar realisiert werden. In dieser frühen Phase wird dabei eine Beschränkung auf Gießener Studierende vorgenommen. Das Seminar wird in einem didaktisch vernetzten Seminarraum stattfinden, der es erlaubt, über eine dem Sprachlabor ähnliche Funktionalität die Lernfortschritte der Lernenden zu kontrollieren und zugleich Gruppenarbeitsprozesse in Gang zu setzen. Dieses Lernszenario bildet eine gute Ausgangsbasis, um mit den neu entwickelten Materialien Erfahrungen für verteilte und stärker virtualisierte Lernszenarien zu erwerben. Neben der netzgestützten Präsenzlehre werden folgende Internet-basierte Kommunikationstechniken eingesetzt: Web, FTP, Email, Chat, Bulletin-Boards und Newsgroups. Es wird mit einem Betreuungsaufwand von sechs Stunden pro Woche gerechnet, wobei die Hinzuziehung von Tutorinnen/Tutoren geplant ist. Aufgrund der Tatsache, dass der Studiengang “Angewandte Sprachwissenschaft und Computerlinguistik” an der Universität Gießen erst seit dem Wintersemester 1999/2000 aufgebaut wird, liegen für Hauptstudiums-Lehrveranstaltungen noch keine realen Werte über die zu erwartendenden Teilnehmerzahlen vor. Aus den bisherigen Studierendenzahlen im Grundstudium sowie aufgrund zweier neuer BA- und MA-Studiengänge, die voraussichtlich zum Wintersemester 2001/2002 ihre Tätigkeit aufnehmen werden, lässt sich für die genannten Veranstaltungen eine Teilnehmerzahl von ca. 25 Studierenden abschätzen.
Im Wintersemester 2002/2003 und im Wintersemester 2003/2004 werden die Materialien für WBT zur Verfügung gestellt, die Erfahrungen in Hinsicht auf virtuelle Seminare sollen im Sommersemester 2003 in einem asynchronen virtuellen Seminar mit einer sich aus Studierenden des gesamten Verbundes zusammengesetzten Teilnehmerschaft vertieft werden.
Das Ergebnis des Projekts, ein Lehrmodul zum Thema
”Texttechnologie”, wird bereits zur Projektlaufzeit in den als Partner
beteiligten und assoziierten Universitäten erprobt, wo es in bestehenden
Studiengängen als Pflicht- oder Wahlpflichtveranstaltung verwendet wird. Im
letzten Projektjahr werden weitere Hochschulstandorte in die Nutzung des Moduls
einbezogen, wodurch die langfristige Einbettung des Moduls in die bestehende
computerlinguistischen Curricula bewirkt werden soll. Dabei wird auch auf
bestehenden Verbands- und Kooperationsstrukturen aufgebaut, vor allem in der
Gesellschaft für linguistische Datenverarbeitung (GLDV), in der der
Antragsteller bereits 1998 einen Arbeitskreis “Texttechnologie” gegründet hat
und seitdem leitet. Die Entwicklung des Arbeitskreises sowie der begleitenden
Workshops und Tagungen hat ein stetig steigendes Interesse an der Texttechnologie
in Forschung und Lehre gezeigt; es liegen schon jetzt eine Reihe von
Interessenbekundungen für die spätere Nutzung des Moduls vor. Darüber hinaus
besteht die Aussicht, dass mit der zur Zeit in der zweiten Begutachtungsphase
bei der DFG stehenden Forschergruppe “Texttechnologische Informationsmodellierung”,
an der neben dem Antragssteller aus dem MiLCA-Projekt auch Prof. Mönnich
beteiligt ist sowie eine Reihe anderer wichtiger Arbeitsgruppen in diesem
Bereich, mittelfristig ein solides wissenschaftliches Netzwerk geschaffen wird,
das die Verfügbarkeit fachlicher Kompetenz für die kontinuierliche Integration
neuer Forschungsergebnisse in das Lehrmodul sicherstellt.
Ein zweiter Verwertungsweg soll im Bereich der industriellen Weiterbildung erschlossen werden. Aufgrund langjähriger Beratungstätigkeit in Verlag und Industrie ist dem Antragsteller der Bedarf nach Weiterbildungsprogrammen im Bereich der Texttechnologie, die sich spezifisch auf die Bedürfnisse von Wirtschaftsunternehmen einstellen, bekannt. Eine wichtige Rolle kommt hierbei den Corporate Universities zu, in denen derartige Angebote gebündelt und der Mitarbeiterschaft zur Verfügung gestellt werden. Es ist beabsichtigt, über eine Verwertungsgesellschaft Kontakte mit industriellen Großabnehmern für Corporate Universities aufzubauen, um auf diesem Weg Einnahmen zu erzielen, durch die ein über die notwendige Aktualisierung hinausgehender weiterer Ausbau der Materialien finanziert werden kann.