MiLCA – Modul Texttechnologie

1.1 Inhalte

Mit dem Modul “Texttechnologie” soll eine umfassende Einführung in das Gebiet der Texttechnologie geschaffen werden, bei dem die spezifischen Aspekte der computerlinguistischen Sprach- und Textverarbeitung im Mittelpunkt stehen. Dabei geht es zum einen um die Vermittlung zahlreicher internationaler Standards, die sowohl im World Wide Web als auch im Bereich des Electronic Publishing eingesetzt werden (SGML, XML und flankierende Normen wie XLink, XPointer, XSL, XSLT, DSSSL, RDF, Topic Maps etc.) sowie deren wissenschaftliche Grundlagen. Zum anderen werden computerlinguistische Anwendungen dieser Standards bzw. von Systemen, die diese Standards implementieren, thematisiert. Das damit verbundene umfassende Ziel ist die Schaffung struktureller und inhaltlicher Möglichkeiten zur einfachen Suche und Informationsexploration im World Wide Web, beispielsweise durch die Entwicklung adaptiver Hypertext-Systeme, die Entwicklung von Methoden zur automatischen Dokumentklassifikation, zur automatischen Extraktion von Metadaten oder zur Anreicherung bestehender textueller Daten mit semantischen Metainformationen.

1.2 Struktur des Moduls

Das MiLCA-Modul “Texttechnologie” orientiert sich an dem Konzept des Document Lifecycle, nach dem bei der Verarbeitung strukturierter textueller Informationen die Phasen der Strukturierung und Erfassung, der Manipulation, der Transformation, des Viewing und der Restrukturierung durchlaufen werden. Alle diese Phasen basieren auf einer zentralen Dokument-Grammatik und jeweils spezifischen Metadaten, die den erwähnten Standards folgen.

Im Submodul “Strukturierung” wird vermittelt, textuelle Daten zu analysieren und durch eine DTD zu spezifizieren. Dieser Vorgang kann mit dem Programmieren in einer Programmiersprache verglichen werden, da ein ähnlicher Unterzyklus (Spezifikation, Implementation, Testen, Modifikation) zu durchlaufen ist wie beim Software Engineering. Die damit verbundene Datenerfassung kann entweder die durch die DTD unterstützte Eingabe neuer Daten sein oder die teil- oder vollautomatische Konvertierung von Altdaten ins XML-Format.

Im Submodul “Manipulation” werden aus dem textuellen Datenbestand verschiedene Textversionen abgeleitet. Den Lernenden wird vermittelt, wie ein Textbestand beispielsweise mehrere Sprachversionen, möglicherweise auf der Ebene der kleinsten Texteinheiten parallelisiert, in sich vereinen kann. Eine praktische Aufgabe besteht darin, einen Verarbeitungsprozesses zu entwickeln, durch den die verschiedenen einzelsprachlichen Versionen aus dem Textbestand herausgefiltert und dabei ggfs. noch weitere notwendige Umstellungs- oder Auswertungsprozesse durchgeführt werden.

Die Transformation der Textbestände in andere Zielformate ähnelt der Festlegung von Style Sheets zu Zwecken des Viewing. Im Submodul “Transformation und Viewing” wird erlernt, wie XML-strukturierte Textbestände in andere Auszeichnungsformate überführt werden, um von dort aus mit anderen Verfahren weiterbearbeitet zu werden. Bei der Entwicklung von Views werden die XML-Strukturen über sog. Style Sheets mit Darstellungsinformationen kombiniert, um sie in geeigneten Browsern anzeigen zu können. Zur Definition eines Views auf die Daten gehört auch die Bereitstellung zusätzlicher Metadatenbestände, die für die Navigation in den Textbeständen durch den Benutzer herangezogen werden. Derartige Navigatoren können automatisch erzeugt werden, sofern für die in Textbeständen vorkommenden Struktureinheiten ihre Verwendung für Navigationszwecke allgemein festgelegt wird.

Im Submodul “Restrukturierung und Konvertierung” werden die in den Test- und Anwendungsläufen der DTD, der Bearbeitungs- und Viewing-Subsysteme gewonnenen Erfahrungen evaluiert, mit der Spezifikation neuer Anforderungen verbunden und können dann den Ausgangspunkt bilden für einen neuen Lauf durch den Document Lifecycle.

In einem fünften Submodul “Programmierung, Systeme, Tools” werden die softwaretechnologischen Voraussetzungen und Umsetzungsmöglichkeiten im Bereich der Texttechnologie vermittelt.

Das Modul entspricht dem Umfang nach einer Hauptstudiums-Veranstaltung von 4 SWS mit einer begleitenden Übung. Durch eine hochgradige Modularisierung des Materials soll eine flexible Aufbereitung und Rezeption der Inhalte gewährleistet werden, wobei auch Wert auf eine einfache Pflege der Daten gelegt werden muss, da die erwähnten Standards noch auf absehbare Zeit der Revision durch die zuständigen Gremien unterliegen. Revidierte oder auch neue Standards aus dem Bereich der Texttechnologie müssen folglich mit einfachen Mitteln in das vorhandene Material integrierbar sein, was eine eher netzartige Präsentation als die traditionelle lineare Rezeptionsstruktur, die beispielsweise einem Lehrbuch inhärent ist, nahelegt.

1.3 Besonderheiten der didaktischen Umsetzung

Neben den Grundsätzen zur didaktischen Umsetzung, die für das MiLCA-Vorhaben insgesamt gelten, ist auf eine Besonderheit im Modul “Texttechnologie” hinzuweisen. Die Ausrichtung der inhaltlichen Struktur des Moduls am Document Lifecycle erlaubt es, den Wissenserwerb der Lernenden durchgängig mit dem praktischen Erfahrungsgewinn durch die Verwendung eigener Testmaterialien zu flankieren. Dazu sollen die Web-basierten Materialien, in den Standards, Methoden und Systeme beschrieben werden, durch eine parallele Schicht ergänzt werden, in der der/die Lernende einen eigenen Beispieltext strukturiert, manipuliert, Transformationsskripte dafür entwirft und Style Sheets für das Online-Viewing festlegt und diese exemplarischen Eigenentwicklung sofort auf ihre Korrektheit und die gewünschte Funktionalität überprüfen kann. Das Ziel besteht darin, dass die Lernenden nach dem vollständigen Durchlaufen des Moduls zugleich auch den texttechnologischen Lebenszyklus von Dokumenten vollständig mit eigenen Materialien durchlaufen haben. Anders als etwa im Bereich der Naturwissenschaften, wo bei der Web-basierten Lehre lediglich Simulationen konkreter Versuchsaufbauten zur Verfügung gestellt werden können, kann im Bereich der Texttechnologie mit realen Systemkomponenten und deren Funktionsweise experimentiert werden.

Vor diesem Hintergrund sind die Materialien zunächst so aufzubereiten, dass ein exploratives Lernen ermöglicht wird, d.h. es werden sowohl Materialien als auch die Werkzeuge, mit deren Hilfe diese Materialien zu manipulieren sind (beispielsweise verschiedene XML-Dateien auf der einen Seite und XML-Parser, Style Sheet-Prozessoren, XML-Editoren etc. auf der anderen Seite), zur unmittelbaren Verfügbarkeit der Lernenden gestellt. Daran schließen sich projektartige Arbeitsformen mit eigenen Materialien an, die sich am dargelegten texttechnologischen Lebenszyklus von Dokumenten orientieren.

1.4 Integration mit anderen MiLCA-Modulen

Das Modul “Texttechnologie” weist als Teil des Grundlagenbereichs von MiLCA enge Bezüge mit zwei der vier Anwendungsbereiche auf, und zwar mit den Modulen “Information Retrieval” und “Computerlexikographie”. Innerhalb des Moduls sollen Schnittstellen zu diesen anwendungsbezogenen Modulen geschaffen werden, die es den Lernenden erlauben, den erwähnten didaktischen Einsatz des Document Lifecycle auf lexikographische Datenstrukturen zu beziehen oder mit weitergehender Retrieval-Funktionalität zu verbinden.

Daneben bestehen deutliche Bezüge zu den Grundlagen-Modulen “Programmierkonzepte für die CL” und zu “Grammatikformalismen und Parsing”, da wesentliche Teile der Texttechnologie aus Grammatik- und Parsing-bezogenen Forschungsarbeiten hervorgegangen sind und sich Computerlinguistik-Studierenden aus dieser Perspektive besonders geradlinig vermitteln lassen. Ein wichtiger Querbezug besteht auch zum Modul “Gesprochene Sprache”, da für die Erstellung und Verwaltung von Korpora gesprochener Sprache texttechnologische Methoden Anwendung finden.

2 Zusätzliche Angaben

Auswahl neuerer Publikationen:

Lobin, Henning: Informationsmodellierung in XML und SGML. Berlin, Heidelberg: Springer-Verlag, 2000 [2. Aufl. 2001].

Lobin, Henning (Hrsg.): Text im digitalen Medium. Linguistische Aspekte von Textdesign, Texttechnologie und Hypertext Engineering. Wiesbaden: Westdeutscher Verlag, 1999.

Lobin, Henning: “Textdesign, Texttechnologie und Hypertext Engineering”. In Lobin (Hrsg., 1999), 1-8.

Lobin, Henning: “Intelligente Dokumente. Linguistische Repräsentation komplexer Inhalte für die hypermediale Wissensvermittlung”. In Lobin (Hrsg., 1999), 155-178.

Lobin, Henning: “Grammatische Restringierung von Dateninhalten in SGML/XML”. In Jost Gippert (Hrsg.), Multilinguale Corpora – Codierung, Strukturierung, Analyse. Prag: enigma corporation, 1999.

Lobin, Henning und Markus Reinsch: “Unification of XML Documents”. In InterChange 5/2, 1999, 31-33.

Lobin, Henning und Andreas Witt: “Semantic and Thematic Navigation in Electronic Encyclopedias”. In Proc. of Electronic Publishing 99. Rønneby 1999, 81-94.

Rehm, Georg und Henning Lobin: “From Open Source to Open Information”.In Proc. of Electronic Publishing 2000. Kaliningrad 2000.

2.1 Fachlicher und organisatorischer Beitrag des Antragstellers

Das Gebiet der Texttechnologie kann als ein neuer Zweig der Computerlinguistik verstanden werden, der sich noch in seiner Ausformungsphase befindet und trotzdem schon großen Einfluss auf andere Teilgebiete der Computerlinguistik gewonnen hat. Dabei sind zwei Aspekte von besonderem Interesse. Die Strukturierung sprachlicher Daten auf der Grundlage anerkannter Standards und allgemein anerkannter Verarbeitungsmethoden mit den Mitteln der Texttechnologie führt zu einer verstärkten Integration von Korpora unterschiedlicher Herkunft. Zweitens eröffnen computerlinguistische Verarbeitungsmethoden im Bereich der Texttechnologie die Möglichkeit, weitergehende Automatisierungen vorzunehmen und bessere Retrieval-Möglichkeiten zu schaffen.

Der fachliche Beitrag des Antragstellers erstreckt sich vor allem darauf, aufgrund der vorhandenen wissenschaftlichen und anwendungsbezogenen Erfahrungen diesen Aspekt in das MiLCA-Gesamtkonzept einzubringen. In organisatorischer Hinsicht kann zusätzlich geltend gemacht werden, dass auch die Erstellung vernetzter Lehrmodule, die in unterschiedlicher “Dichte” und in unterschiedlichen didaktischen Zusammenhängen nutzbar sein sollen, als ein texttechnologisches Problem aufzufassen ist, bei dem Strukturierungsfragen, Verarbeitungsaspekte und Content Management eine wichtige Rolle spielen. Die Kompetenz des Gießener Projektstandorts soll deshalb neben der eigentlichen inhaltlichen Modulentwicklung dem gesamten Projektverbund zur Verfügung gestellt werden.

2.2 Vorarbeiten

2.2.1 Fachbücher

Mit dem vom Antragsteller verfassten Lehrbuch “Informationsmodellierung in XML und SGML” liegt eine aktuelle Textgrundlage für das Submodul “Strukturierung” im Modul “Texttechnologie” vor. Dieses Lehrbuch hat – zum Teil in Vorversionen – bereits mehrfach als Grundlage für Lehrveranstaltungen gedient und kann inhaltlich als gut auf die didaktischen Bedürfnisse von Computerlinguistik-Studierenden abgestimmt betrachtet werden. Daneben können eigene Beiträge aus dem vom Antragsteller herausgegebenen Band “Text im digitalen Medium” (1999) als Hintergrundmaterialien herangezogen werden.

2.2.2 Web-gestützte Lehrveranstaltungen

Seit Beginn des Studienbetriebs im Fach Computerlinguistik an der JLU Gießen (Magister-Nebenfach) im Herbst 1999 sind sämtliche Lehrveranstaltungen Web-basiert durchgeführt worden. Es liegen somit große Mengen an Materialien vor, mit Bezug auf das MiLCA-Modul “Texttechnologie” insbesondere für die Lehrveranstaltungen “Einführung in die Texttechnologie”, “Programmierpraktikum” und “Softwareentwicklung”. Die Materialien wurden größtenteils in MS-Powerpoint entwickelt, da sie in einem didaktisch vernetzten Seminarraum für die Präsenzlehre eingesetzt werden. Die Materialien eignen sich also in dieser Form nicht für das Selbststudium oder für kooperative virtuelle Lehrformen. Darüber hinaus sind in den Materialien selbst keine übergreifenden didaktischen Konzepte ausgeprägt, da dieses Element durch den Dozenten in der Seminarsitzung ergänzt wird. Trotzdem bieten die Materialien einen guten Ausgangspunkt für einige Submodule des Moduls “Texttechnologie”.

3 Organisation

3.1 Komponenten

Das MiLCA-Modul “Texttechnologie” setzt sich inhaltlich aus den folgenden Submodulen zusammen (s. 2.1 und 2.2):

Submodul A: “Strukturierung und Datenerfassung”

Submodul B: “Manipulation”

Submodul C: “Transformation und Viewing”

Submodul D: “Restrukturierung und Konvertierung”

Submodul E: “Programmierung, Systeme, Tools”

Für jedes Submodul sind die folgende Arbeitspakete zu durchlaufen:

§ Erstellung: Entwicklung der Lehrmaterialien einschließlich Implementation und Dokumentation

§ Erprobung: Einsatz in der Lehre, Berücksichtigung unterschiedlicher Lehr-/Lernszenarien

§ Evaluation: mediendidaktische und lernpsychologische Bewertung der erstellten Materialien in Zusammenarbeit mit dem Arbeitsbereich Angewandte Kognitionspsychologie und Medienpsychologie des Institut für Medienpsychologie der Universität Tübingen

§ Revision: Inhaltliche und didaktische Überarbeitung der Submodule auf der Grundlage von Erprobungs- und Evaluationsergebnissen

§ Integration: Hypermediale Vernetzung mit anderen MiLCA-Modulen, didaktische Angleichung

§ Transferinitiierung: Vorbereitung der Submodule für die Verwertung als kommerzielles Weiterbildungsangebot für nicht-akademische Interessenten nach Projektende

3.2 Integration in die Computerlinguistik-Ausbildung

Das Modul “Texttechnologie” soll im Rahmen der Computerlinguistik-Ausbildung an der Universität Gießen in der Erprobungsphase für die beiden obligatorischen Hauptseminare “Datenbanksysteme” und “Informationstechnologie und neue Medien” eingesetzt werden. Beide Seminare sind curricular mit 2 SWS vorgesehen, sodass sich durch die Zusammenlegung eine vierstündige Veranstaltung ergibt. Die bisherigen Inhalte der beiden Veranstaltungen gehen dabei voll in dem Verbundseminar “Texttechnologie” auf.

Im Sommersemester 2002 wird das Verbundseminar “Texttechnologie” als synchrones virtuelles Seminar realisiert werden. In dieser frühen Phase wird dabei eine Beschränkung auf Gießener Studierende vorgenommen. Das Seminar wird in einem didaktisch vernetzten Seminarraum stattfinden, der es erlaubt, über eine dem Sprachlabor ähnliche Funktionalität die Lernfortschritte der Lernenden zu kontrollieren und zugleich Gruppenarbeitsprozesse in Gang zu setzen. Dieses Lernszenario bildet eine gute Ausgangsbasis, um mit den neu entwickelten Materialien Erfahrungen für verteilte und stärker virtualisierte Lernszenarien zu erwerben. Neben der netzgestützten Präsenzlehre werden folgende Internet-basierte Kommunikationstechniken eingesetzt: Web, FTP, Email, Chat, Bulletin-Boards und Newsgroups. Es wird mit einem Betreuungsaufwand von sechs Stunden pro Woche gerechnet, wobei die Hinzuziehung von Tutorinnen/Tutoren geplant ist. Aufgrund der Tatsache, dass der Studiengang “Angewandte Sprachwissenschaft und Computerlinguistik” an der Universität Gießen erst seit dem Wintersemester 1999/2000 aufgebaut wird, liegen für Hauptstudiums-Lehrveranstaltungen noch keine realen Werte über die zu erwartendenden Teilnehmerzahlen vor. Aus den bisherigen Studierendenzahlen im Grundstudium sowie aufgrund zweier neuer BA- und MA-Studiengänge, die voraussichtlich zum Wintersemester 2001/2002 ihre Tätigkeit aufnehmen werden, lässt sich für die genannten Veranstaltungen eine Teilnehmerzahl von ca. 25 Studierenden abschätzen.

Im Wintersemester 2002/2003 und im Wintersemester 2003/2004 werden die Materialien für WBT zur Verfügung gestellt, die Erfahrungen in Hinsicht auf virtuelle Seminare sollen im Sommersemester 2003 in einem asynchronen virtuellen Seminar mit einer sich aus Studierenden des gesamten Verbundes zusammengesetzten Teilnehmerschaft vertieft werden.

3.3 Ergebnisverwertung

Das Ergebnis des Projekts, ein Lehrmodul zum Thema ”Texttechnologie”, wird bereits zur Projektlaufzeit in den als Partner beteiligten und assoziierten Universitäten erprobt, wo es in bestehenden Studiengängen als Pflicht- oder Wahlpflichtveranstaltung verwendet wird. Im letzten Projektjahr werden weitere Hochschulstandorte in die Nutzung des Moduls einbezogen, wodurch die langfristige Einbettung des Moduls in die bestehende computerlinguistischen Curricula bewirkt werden soll. Dabei wird auch auf bestehenden Verbands- und Kooperationsstrukturen aufgebaut, vor allem in der Gesellschaft für linguistische Datenverarbeitung (GLDV), in der der Antragsteller bereits 1998 einen Arbeitskreis “Texttechnologie” gegründet hat und seitdem leitet. Die Entwicklung des Arbeitskreises sowie der begleitenden Workshops und Tagungen hat ein stetig steigendes Interesse an der Texttechnologie in Forschung und Lehre gezeigt; es liegen schon jetzt eine Reihe von Interessenbekundungen für die spätere Nutzung des Moduls vor. Darüber hinaus besteht die Aussicht, dass mit der zur Zeit in der zweiten Begutachtungsphase bei der DFG stehenden Forschergruppe “Texttechnologische Informationsmodellierung”, an der neben dem Antragssteller aus dem MiLCA-Projekt auch Prof. Mönnich beteiligt ist sowie eine Reihe anderer wichtiger Arbeitsgruppen in diesem Bereich, mittelfristig ein solides wissenschaftliches Netzwerk geschaffen wird, das die Verfügbarkeit fachlicher Kompetenz für die kontinuierliche Integration neuer Forschungsergebnisse in das Lehrmodul sicherstellt.

Ein zweiter Verwertungsweg soll im Bereich der industriellen Weiterbildung erschlossen werden. Aufgrund langjähriger Beratungstätigkeit in Verlag und Industrie ist dem Antragsteller der Bedarf nach Weiterbildungsprogrammen im Bereich der Texttechnologie, die sich spezifisch auf die Bedürfnisse von Wirtschaftsunternehmen einstellen, bekannt. Eine wichtige Rolle kommt hierbei den Corporate Universities zu, in denen derartige Angebote gebündelt und der Mitarbeiterschaft zur Verfügung gestellt werden. Es ist beabsichtigt, über eine Verwertungsgesellschaft Kontakte mit industriellen Großabnehmern für Corporate Universities aufzubauen, um auf diesem Weg Einnahmen zu erzielen, durch die ein über die notwendige Aktualisierung hinausgehender weiterer Ausbau der Materialien finanziert werden kann.