MiLCA � Modul Texttechnologie

1.1               Inhalte

Mit dem Modul �Texttechnologie� soll eine umfassende Einf�hrung in das Gebiet der Texttechnologie geschaffen werden, bei dem die spezifischen Aspekte der computerlinguistischen Sprach- und Textverarbeitung im Mittelpunkt stehen. Dabei geht es zum einen um die Vermittlung zahlreicher internationaler Standards, die sowohl im World Wide Web als auch im Bereich des Electronic Publishing eingesetzt werden (SGML, XML und flankierende Normen wie XLink, XPointer, XSL, XSLT, DSSSL, RDF, Topic Maps etc.) sowie deren wissenschaftliche Grundlagen. Zum anderen werden computerlinguistische Anwendungen dieser Standards bzw. von Systemen, die diese Standards implementieren, thematisiert. Das damit verbundene umfassende Ziel ist die Schaffung struktureller und inhaltlicher M�glichkeiten zur einfachen Suche und Informationsexploration im World Wide Web, beispielsweise durch die Entwicklung adaptiver Hypertext-Systeme, die Entwicklung von Methoden zur automatischen Dokumentklassifikation, zur automatischen Extraktion von Metadaten oder zur Anreicherung bestehender textueller Daten mit semantischen Metainformationen.

1.2               Struktur des Moduls

Das MiLCA-Modul �Texttechnologie� orientiert sich an dem Konzept des Document Lifecycle, nach dem bei der Verarbeitung strukturierter textueller Informationen die Phasen der Strukturierung und Erfassung, der Manipulation, der Transformation, des Viewing und der Restrukturierung durchlaufen werden. Alle diese Phasen basieren auf einer zentralen Dokument-Grammatik und jeweils spezifischen Metadaten, die den erw�hnten Standards folgen.

Im Submodul �Strukturierung� wird vermittelt, textuelle Daten zu analysieren und durch eine DTD zu spezifizieren. Dieser Vorgang kann mit dem Programmieren in einer Programmiersprache verglichen werden, da ein �hnlicher Unterzyklus (Spezifikation, Implementation, Testen, Modifikation) zu durchlaufen ist wie beim Software Engineering. Die damit verbundene Datenerfassung kann entweder die durch die DTD unterst�tzte Eingabe neuer Daten sein oder die teil- oder vollautomatische Konvertierung von Altdaten ins XML-Format.

Im Submodul �Manipulation� werden aus dem textuellen Datenbestand verschiedene Textversionen abgeleitet. Den Lernenden wird vermittelt, wie ein Textbestand beispielsweise mehrere Sprachversionen, m�glicherweise auf der Ebene der kleinsten Texteinheiten parallelisiert, in sich vereinen kann. Eine praktische Aufgabe besteht darin, einen Verarbeitungsprozesses zu entwickeln, durch den die verschiedenen einzelsprachlichen Versionen aus dem Textbestand herausgefiltert und dabei ggfs. noch weitere notwendige Umstellungs- oder Auswertungsprozesse durchgef�hrt werden.

Die Transformation der Textbest�nde in andere Zielformate �hnelt der Festlegung von Style Sheets zu Zwecken des Viewing. Im Submodul �Transformation und Viewing� wird erlernt, wie XML-strukturierte Textbest�nde in andere Auszeichnungsformate �berf�hrt werden, um von dort aus mit anderen Verfahren weiterbearbeitet zu werden. Bei der Entwicklung von Views werden die XML-Strukturen �ber sog. Style Sheets mit Darstellungsinformationen kombiniert, um sie in geeigneten Browsern anzeigen zu k�nnen. Zur Definition eines Views auf die Daten geh�rt auch die Bereitstellung zus�tzlicher Metadatenbest�nde, die f�r die Navigation in den Textbest�nden durch den Benutzer herangezogen werden. Derartige Navigatoren k�nnen automatisch erzeugt werden, sofern f�r die in Textbest�nden vorkommenden Struktureinheiten ihre Verwendung f�r Navigationszwecke allgemein festgelegt wird.

Im Submodul �Restrukturierung und Konvertierung� werden die in den Test- und Anwendungsl�ufen der DTD, der Bearbeitungs- und Viewing-Subsysteme gewonnenen Erfahrungen evaluiert, mit der Spezifikation neuer Anforderungen verbunden und k�nnen dann den Ausgangspunkt bilden f�r einen neuen Lauf durch den Document Lifecycle.

In einem f�nften Submodul �Programmierung, Systeme, Tools� werden die softwaretechnologischen Voraussetzungen und Umsetzungsm�glichkeiten im Bereich der Texttechnologie vermittelt.

Das Modul entspricht dem Umfang nach einer Hauptstudiums-Veranstaltung von 4 SWS mit einer begleitenden �bung. Durch eine hochgradige Modularisierung des Materials soll eine flexible Aufbereitung und Rezeption der Inhalte gew�hrleistet werden, wobei auch Wert auf eine einfache Pflege der Daten gelegt werden muss, da die erw�hnten Standards noch auf absehbare Zeit der Revision durch die zust�ndigen Gremien unterliegen. Revidierte oder auch neue Standards aus dem Bereich der Texttechnologie m�ssen folglich mit einfachen Mitteln in das vorhandene Material integrierbar sein, was eine eher netzartige Pr�sentation als die traditionelle lineare Rezeptionsstruktur, die beispielsweise einem Lehrbuch inh�rent ist, nahelegt.

1.3               Besonderheiten der didaktischen Umsetzung

Neben den Grunds�tzen zur didaktischen Umsetzung, die f�r das MiLCA-Vorhaben insgesamt gelten, ist auf eine Besonderheit im Modul �Texttechnologie� hinzuweisen. Die Ausrichtung der inhaltlichen Struktur des Moduls am Document Lifecycle erlaubt es, den Wissenserwerb der Lernenden durchg�ngig mit dem praktischen Erfahrungsgewinn durch die Verwendung eigener Testmaterialien zu flankieren. Dazu sollen die Web-basierten Materialien, in den Standards, Methoden und Systeme beschrieben werden, durch eine parallele Schicht erg�nzt werden, in der der/die Lernende einen eigenen Beispieltext strukturiert, manipuliert, Transformationsskripte daf�r entwirft und Style Sheets f�r das Online-Viewing festlegt und diese exemplarischen Eigenentwicklung sofort auf ihre Korrektheit und die gew�nschte Funktionalit�t �berpr�fen kann. Das Ziel besteht darin, dass die Lernenden nach dem vollst�ndigen Durchlaufen des Moduls zugleich auch den texttechnologischen Lebenszyklus von Dokumenten vollst�ndig mit eigenen Materialien durchlaufen haben. Anders als etwa im Bereich der Naturwissenschaften, wo bei der Web-basierten Lehre lediglich Simulationen konkreter Versuchsaufbauten zur Verf�gung gestellt werden k�nnen, kann im Bereich der Texttechnologie mit realen Systemkomponenten und deren Funktionsweise experimentiert werden.

Vor diesem Hintergrund sind die Materialien zun�chst so aufzubereiten, dass ein exploratives Lernen erm�glicht wird, d.h. es werden sowohl Materialien als auch die Werkzeuge, mit deren Hilfe diese Materialien zu manipulieren sind (beispielsweise verschiedene XML-Dateien auf der einen Seite und XML-Parser, Style Sheet-Prozessoren, XML-Editoren etc. auf der anderen Seite), zur unmittelbaren Verf�gbarkeit der Lernenden gestellt. Daran schlie�en sich projektartige Arbeitsformen mit eigenen Materialien an, die sich am dargelegten texttechnologischen Lebenszyklus von Dokumenten orientieren.

1.4               Integration mit anderen MiLCA-Modulen

Das Modul �Texttechnologie� weist als Teil des Grundlagenbereichs von MiLCA enge Bez�ge mit zwei der vier Anwendungsbereiche auf, und zwar mit den Modulen �Information Retrieval� und �Computerlexikographie�. Innerhalb des Moduls sollen Schnittstellen zu diesen anwendungsbezogenen Modulen geschaffen werden, die es den Lernenden erlauben, den erw�hnten didaktischen Einsatz des Document Lifecycle auf lexikographische Datenstrukturen zu beziehen oder mit weitergehender Retrieval-Funktionalit�t zu verbinden.

Daneben bestehen deutliche Bez�ge zu den Grundlagen-Modulen �Programmierkonzepte f�r die CL� und zu �Grammatikformalismen und Parsing�, da wesentliche Teile der Texttechnologie aus Grammatik- und Parsing-bezogenen Forschungsarbeiten hervorgegangen sind und sich Computerlinguistik-Studierenden aus dieser Perspektive besonders geradlinig vermitteln lassen. Ein wichtiger Querbezug besteht auch zum Modul �Gesprochene Sprache�, da f�r die Erstellung und Verwaltung von Korpora gesprochener Sprache texttechnologische Methoden Anwendung finden.

2                Zus�tzliche Angaben

Auswahl neuerer Publikationen:

Lobin, Henning: Informationsmodellierung in XML und SGML. Berlin, Heidelberg: Springer-Verlag, 2000 [2. Aufl. 2001].

Lobin, Henning (Hrsg.): Text im digitalen Medium. Linguistische Aspekte von Textdesign, Texttechnologie und Hypertext Engineering. Wiesbaden: Westdeutscher Verlag, 1999.

Lobin, Henning: �Textdesign, Texttechnologie und Hypertext Engineering�. In Lobin (Hrsg., 1999), 1-8.

Lobin, Henning: �Intelligente Dokumente. Linguistische Repr�sentation komplexer Inhalte f�r die hypermediale Wissensvermittlung�. In Lobin (Hrsg., 1999), 155-178.

Lobin, Henning: �Grammatische Restringierung von Dateninhalten in SGML/XML�. In Jost Gippert (Hrsg.), Multilinguale Corpora � Codierung, Strukturierung, Analyse. Prag: enigma corporation, 1999.

Lobin, Henning und Markus Reinsch: �Unification of XML Documents�. In InterChange 5/2, 1999, 31-33.

Lobin, Henning und Andreas Witt: �Semantic and Thematic Navigation in Electronic Encyclopedias�. In Proc. of Electronic Publishing 99. R�nneby 1999, 81-94.

Rehm, Georg und Henning Lobin: �From Open Source to Open Information�.In Proc. of Electronic Publishing 2000. Kaliningrad 2000.

2.1               Fachlicher und organisatorischer Beitrag des Antragstellers

Das Gebiet der Texttechnologie kann als ein neuer Zweig der Computerlinguistik verstanden werden, der sich noch in seiner Ausformungsphase befindet und trotzdem schon gro�en Einfluss auf andere Teilgebiete der Computerlinguistik gewonnen hat. Dabei sind zwei Aspekte von besonderem Interesse. Die Strukturierung sprachlicher Daten auf der Grundlage anerkannter Standards und allgemein anerkannter Verarbeitungsmethoden mit den Mitteln der Texttechnologie f�hrt zu einer verst�rkten Integration von Korpora unterschiedlicher Herkunft. Zweitens er�ffnen computerlinguistische Verarbeitungsmethoden im Bereich der Texttechnologie die M�glichkeit, weitergehende Automatisierungen vorzunehmen und bessere Retrieval-M�glichkeiten zu schaffen.

Der fachliche Beitrag des Antragstellers erstreckt sich vor allem darauf, aufgrund der vorhandenen wissenschaftlichen und anwendungsbezogenen Erfahrungen diesen Aspekt in das MiLCA-Gesamtkonzept einzubringen. In organisatorischer Hinsicht kann zus�tzlich geltend gemacht werden, dass auch die Erstellung vernetzter Lehrmodule, die in unterschiedlicher �Dichte� und in unterschiedlichen didaktischen Zusammenh�ngen nutzbar sein sollen, als ein texttechnologisches Problem aufzufassen ist, bei dem Strukturierungsfragen, Verarbeitungsaspekte und Content Management eine wichtige Rolle spielen. Die Kompetenz des Gie�ener Projektstandorts soll deshalb neben der eigentlichen inhaltlichen Modulentwicklung dem gesamten Projektverbund zur Verf�gung gestellt werden.

2.2               Vorarbeiten

2.2.1              Fachb�cher

Mit dem vom Antragsteller verfassten Lehrbuch �Informationsmodellierung in XML und SGML� liegt eine aktuelle Textgrundlage f�r das Submodul �Strukturierung� im Modul �Texttechnologie� vor. Dieses Lehrbuch hat � zum Teil in Vorversionen � bereits mehrfach als Grundlage f�r Lehrveranstaltungen gedient und kann inhaltlich als gut auf die didaktischen Bed�rfnisse von Computerlinguistik-Studierenden abgestimmt betrachtet werden. Daneben k�nnen eigene Beitr�ge aus dem vom Antragsteller herausgegebenen Band �Text im digitalen Medium� (1999) als Hintergrundmaterialien herangezogen werden.

2.2.2              Web-gest�tzte Lehrveranstaltungen

Seit Beginn des Studienbetriebs im Fach Computerlinguistik an der JLU Gie�en (Magister-Nebenfach) im Herbst 1999 sind s�mtliche Lehrveranstaltungen Web-basiert durchgef�hrt worden. Es liegen somit gro�e Mengen an Materialien vor, mit Bezug auf das MiLCA-Modul �Texttechnologie� insbesondere f�r die Lehrveranstaltungen �Einf�hrung in die Texttechnologie�, �Programmierpraktikum� und �Softwareentwicklung�. Die Materialien wurden gr��tenteils in MS-Powerpoint entwickelt, da sie in einem didaktisch vernetzten Seminarraum f�r die Pr�senzlehre eingesetzt werden. Die Materialien eignen sich also in dieser Form nicht f�r das Selbststudium oder f�r kooperative virtuelle Lehrformen. Dar�ber hinaus sind in den Materialien selbst keine �bergreifenden didaktischen Konzepte ausgepr�gt, da dieses Element durch den Dozenten in der Seminarsitzung erg�nzt wird. Trotzdem bieten die Materialien einen guten Ausgangspunkt f�r einige Submodule des Moduls �Texttechnologie�.

3                Organisation

3.1               Komponenten

Das MiLCA-Modul �Texttechnologie� setzt sich inhaltlich aus den folgenden Submodulen zusammen (s. 2.1 und 2.2):

Submodul A: �Strukturierung und Datenerfassung�

Submodul B: �Manipulation�

Submodul C: �Transformation und Viewing�

Submodul D: �Restrukturierung und Konvertierung�

Submodul E: �Programmierung, Systeme, Tools�

 

F�r jedes Submodul sind die folgende Arbeitspakete zu durchlaufen:

              Erstellung: Entwicklung der Lehrmaterialien einschlie�lich Implementation und Dokumentation

              Erprobung: Einsatz in der Lehre, Ber�cksichtigung unterschiedlicher Lehr-/Lernszenarien

              Evaluation: mediendidaktische und lernpsychologische Bewertung der erstellten Materialien in Zusammenarbeit mit dem Arbeitsbereich Angewandte Kognitionspsychologie und Medienpsychologie des Institut f�r Medienpsychologie der Universit�t T�bingen

              Revision: Inhaltliche und didaktische �berarbeitung der Submodule auf der Grundlage von Erprobungs- und Evaluationsergebnissen

              Integration: Hypermediale Vernetzung mit anderen MiLCA-Modulen, didaktische Angleichung

              Transferinitiierung: Vorbereitung der Submodule f�r die Verwertung als kommerzielles Weiterbildungsangebot f�r nicht-akademische Interessenten nach Projektende

3.2               Integration in die Computerlinguistik-Ausbildung

Das Modul �Texttechnologie� soll im Rahmen der Computerlinguistik-Ausbildung an der Universit�t Gie�en in der Erprobungsphase f�r die beiden obligatorischen Hauptseminare �Datenbanksysteme� und �Informationstechnologie und neue Medien� eingesetzt werden. Beide Seminare sind curricular mit 2 SWS vorgesehen, sodass sich durch die Zusammenlegung eine vierst�ndige Veranstaltung ergibt. Die bisherigen Inhalte der beiden Veranstaltungen gehen dabei voll in dem Verbundseminar �Texttechnologie� auf.

Im Sommersemester 2002 wird das Verbundseminar �Texttechnologie� als synchrones virtuelles Seminar realisiert werden. In dieser fr�hen Phase wird dabei eine Beschr�nkung auf Gie�ener Studierende vorgenommen. Das Seminar wird in einem didaktisch vernetzten Seminarraum stattfinden, der es erlaubt, �ber eine dem Sprachlabor �hnliche Funktionalit�t die Lernfortschritte der Lernenden zu kontrollieren und zugleich Gruppenarbeitsprozesse in Gang zu setzen. Dieses Lernszenario bildet eine gute Ausgangsbasis, um mit den neu entwickelten Materialien Erfahrungen f�r verteilte und st�rker virtualisierte Lernszenarien zu erwerben. Neben der netzgest�tzten Pr�senzlehre werden folgende Internet-basierte Kommunikationstechniken eingesetzt: Web, FTP, Email, Chat, Bulletin-Boards und Newsgroups. Es wird mit einem Betreuungsaufwand von sechs Stunden pro Woche gerechnet, wobei die Hinzuziehung von Tutorinnen/Tutoren geplant ist. Aufgrund der Tatsache, dass der Studiengang �Angewandte Sprachwissenschaft und Computerlinguistik� an der Universit�t Gie�en erst seit dem Wintersemester 1999/2000 aufgebaut wird, liegen f�r Hauptstudiums-Lehrveranstaltungen noch keine realen Werte �ber die zu erwartendenden Teilnehmerzahlen vor. Aus den bisherigen Studierendenzahlen im Grundstudium sowie aufgrund zweier neuer BA- und MA-Studieng�nge, die voraussichtlich zum Wintersemester 2001/2002 ihre T�tigkeit aufnehmen werden, l�sst sich f�r die genannten Veranstaltungen eine Teilnehmerzahl von ca. 25 Studierenden absch�tzen.

Im Wintersemester 2002/2003 und im Wintersemester 2003/2004 werden die Materialien f�r WBT zur Verf�gung gestellt, die Erfahrungen in Hinsicht auf virtuelle Seminare sollen im Sommersemester 2003 in einem asynchronen virtuellen Seminar mit einer sich aus Studierenden des gesamten Verbundes zusammengesetzten Teilnehmerschaft vertieft werden.

3.3               Ergebnisverwertung

Das Ergebnis des Projekts, ein Lehrmodul zum Thema �Texttechnologie�, wird bereits zur Projektlaufzeit in den als Partner beteiligten und assoziierten Universit�ten erprobt, wo es in bestehenden Studieng�ngen als Pflicht- oder Wahlpflichtveranstaltung verwendet wird. Im letzten Projektjahr werden weitere Hochschulstandorte in die Nutzung des Moduls einbezogen, wodurch die langfristige Einbettung des Moduls in die bestehende computerlinguistischen Curricula bewirkt werden soll. Dabei wird auch auf bestehenden Verbands- und Kooperationsstrukturen aufgebaut, vor allem in der Gesellschaft f�r linguistische Datenverarbeitung (GLDV), in der der Antragsteller bereits 1998 einen Arbeitskreis �Texttechnologie� gegr�ndet hat und seitdem leitet. Die Entwicklung des Arbeitskreises sowie der begleitenden Workshops und Tagungen hat ein stetig steigendes Interesse an der Texttechnologie in Forschung und Lehre gezeigt; es liegen schon jetzt eine Reihe von Interessenbekundungen f�r die sp�tere Nutzung des Moduls vor. Dar�ber hinaus besteht die Aussicht, dass mit der zur Zeit in der zweiten Begutachtungsphase bei der DFG stehenden Forschergruppe �Texttechnologische Informationsmodellierung�, an der neben dem Antragssteller aus dem MiLCA-Projekt auch Prof. M�nnich beteiligt ist sowie eine Reihe anderer wichtiger Arbeitsgruppen in diesem Bereich, mittelfristig ein solides wissenschaftliches Netzwerk geschaffen wird, das die Verf�gbarkeit fachlicher Kompetenz f�r die kontinuierliche Integration neuer Forschungsergebnisse in das Lehrmodul sicherstellt.

Ein zweiter Verwertungsweg soll im Bereich der industriellen Weiterbildung erschlossen werden. Aufgrund langj�hriger Beratungst�tigkeit in Verlag und Industrie ist dem Antragsteller der Bedarf nach Weiterbildungsprogrammen im Bereich der Texttechnologie, die sich spezifisch auf die Bed�rfnisse von Wirtschaftsunternehmen einstellen, bekannt. Eine wichtige Rolle kommt hierbei den Corporate Universities zu, in denen derartige Angebote geb�ndelt und der Mitarbeiterschaft zur Verf�gung gestellt werden. Es ist beabsichtigt, �ber eine Verwertungsgesellschaft Kontakte mit industriellen Gro�abnehmern f�r Corporate Universities aufzubauen, um auf diesem Weg Einnahmen zu erzielen, durch die ein �ber die notwendige Aktualisierung hinausgehender weiterer Ausbau der Materialien finanziert werden kann.