V. Modul B2: Computerlexikographie

1. Allgemeine Angaben

Antragsteller

 

Prof. Dr. Erhard Hinrichs

Seminar f�r Sprachwissenschaft / Computerlinguistik

Universit�t T�bingen

Wilhelmstr. 113

72074 T�bingen

Tel.���������������� 07071/29 75 446

Fax.���������������� 07071/55 13 35

E-Mail:���������������� eh@sfs.nphil.uni-tuebingen.de

Thema

Erstellung einer Lehr-/Lernumgebung f�r das Kursmodul ?Computerlexikographie?

Voraussichtliche Dauer

 

Januar 2002 bis Dezember 2003.

�bersicht �ber beantragte Zuwendung (s. AZA-Formulare)

        1 BAT IIa im Umfang von 20 PM

        1 SHK im Umfang von 15 PM

        Verbrauchsmaterialien, Gesch�ftsbedarf

        Reisekosten

 

2. Kurs: Computerlexikographie

 

2.1����������� Relevanz des Kursmoduls

 

Alle Systeme und Anwendungen, die auf der Analyse und / oder Generierung nat�rlicher Sprache basieren, ben�tigen neben diversen Regelsystemen reiche lexikalische Ressourcen. Diese lexikali�schen Ressourcen sollten in deklarativer Weise die phonologischen, morphologischen, syntakti�schen, semantischen und pragmatischen Eigenschaften der lexikalischen Einheiten einer Sprache repr�sentieren. Lexikalische Ressourcen, die bei der maschinellen Verarbeitung nat�rlicher Sprache zum Einsatz kommen, m�ssen sprachliches Wissen expliziter darstellen als W�rterb�cher, die sich an den menschlichen Benutzer richten. Nach anf�nglicher Marginalisierung des Lexikons als einer Komponente des Sprachwissens, in welcher ausschlie�lich das idiosynkratische Wissen �ber W�r�ter aufgelistet sein sollte, ist das Lexikon in den neunziger Jahren st�rker in das Zentrum linguisti�scher und computerlinguistischer Theoriebildung getreten.

Dabei stellen sich die folgenden Fragen, auf die speziell die Computerlexikographie Antworten lie�fern sollte:

1.      Wie k�nnen Beschreibungen, die in gro�em Umfang und hoher Qualit�t in Printw�rterb�chern f�r menschliche Benutzer vorliegen, beim Aufbau lexikalischer Ressourcen f�r computerlingui�stische Anwendungen nutzbar gemacht werden?

2.      Wie k�nnen Beschreibungen lexikalischer Zeichen aus Belegen ihres Vorkommens in authenti�schen Texten, also in gro�en Textkorpora, gewonnen werden?

3.      Welche Form m�ssen die Beschreibungen lexikalischer Zeichen annehmen, damit sie von m�glichst vielen Formalismen und Systemen f�r die Verarbeitung nat�rlicher Sprache in unter�schiedlichen Anwendungskontexten korrekt interpretiert werden k�nnen ?

4.      Wie k�nnen Generalisierungen im Lexikon ad�quat mit Hilfe von lexikalischen Regeln darge�stellt werden?

5.      Wie k�nnen maschinenlesbare W�rterb�cher effektiv implementiert werden?

6.      Welche Rolle spielen sprachtechnologische Verfahren beim Design von Benutzungsfunktionen f�r elektronische W�rterb�cher, also zum Beispiel bei der Suchfunktion?

 

2.2����������� Standort des Kurses im CL-Curriculum

 

Das erfolgreiche Absolvieren dieses Kursmoduls erfordert eine Reihe von Grundkenntnissen in verschiedenen Gebieten des Computerlinguistik-Curriculums: Algorithmen und Datenstrukturen, Parsing, formale Sprachen, Statistik. Es ist daher sinnvoll, diesen Kurs im Hauptstudium zu unterrichten und ihn f�r Graduierte in Graduiertenkollegs offenzuhalten. Der Kurs enth�lt Elemente, die zum Kern der Computerlinguistik geh�ren und ebenso Elemente, die in das Gebiet benachbarter Disziplinen fal�len. Es ist daher anzustreben, die einzelnen Bestandteile des Kurses bei allen Abh�ngigkeiten von einander modular zu gestalten.

 

2.3����������� �bersicht �ber die Inhalte / Submodule des Kurses

 

1.      Lexikalische Semantik. Diese Einf�hrung wird sich vor allem auf die f�r die Computerlexikographie wichtige Frage der lexikalischen Polysemie und deren textuelles Pendant, die Ambi�guit�t, beziehen. Es werden neuere Ans�tze zur Beschreibung und Formalisierung lexikalischer Polysemie und zur (halb)automatischen Aufl�sung textueller Ambiguit�t vorgestellt.

2.      Lexikon vs. Enzyklop�die. In diesem Modul wird auf die in theoretischer und kognitiver Linguistik sowie in der Artificial Intelligence gef�hrte Unterscheidung zwischen lexikalischem und enzyklop�dischem Wissen eingegangen. Diese Unterscheidung hat unmittelbare Auswirkungen auf die Form traditioneller Referenzwerke. Es wird zu fragen sein, ob diese Unterscheidung bei lexikalischen Ressourcen f�r Anwendungen der maschinellen Sprachverarbeitung noch re�levant ist oder ob diese Unterscheidung aufgegeben werden soll.

3.      Standardisierte Eintr�ge im traditionellen Printw�rterbuch. Es gibt eine ausgefeilte Theorie der Makro-, Mikro- und Verweisstrukturen von Printw�rterb�chern. Diese Theorie wird vorgestellt. Sie hat unmittelbare Relevanz f�r die formale Beschreibung von standardisierten W�rter�buchartikeln. Es wird zu fragen sein, inwiefern diese Strukturmodelle auch auf elektronische W�rterb�cher anwendbar sind.

4.      Formale Beschreibungssprachen f�r Dokumente: SGML, XML, HTML. Das Wissen �ber die Struktur von W�rterbuchartikeln kann dazu genutzt werden, die abstrakten Strukturen in Do�kumenttypdefinitionen umzusetzen und die Daten der konkreten Mikrostrukturen mit einer der g�ngigen Markup-Sprachen zu elektronischen Dokumenten aufzubereiten. In dieser Lehreinheit werden Grammatiken f�r einfache und m��ig komplexe standardisierte W�rterbuchartikel ent�wickelt und diese mit einem Standardwerkzeug f�r die Validierung von SGML/XML-Doku�menten �berpr�ft Grundlage ist die SGML-Spezifikation der TEI f�r W�r�terbuchartikel.

5.      Parsen von W�rterbuchartikeln. Ausgehend von der formalen Beschreibung der abstrakten Mikrostrukturen eines W�rterbuchs kann ein Parser benutzt werden, der mit der formalen Strukturbeschreibung als Dokumentgrammatik die konkreten Eintr�ge analysiert und relevante Daten extrahiert. Hierf�r steht in T�bingen ein dedizierter Parser zur Verf�gung, der im Rahmen des Projektes f�r die Lehre aufbereitet wird (LexParse).

6.      Struktur lexikalischer Datenbasen f�r NLP Anwendungen: Maschinenlesbare W�r�terb�cher, lexikalische Datenbanken, Lexikalische Wissensbasen. In diesem Modul wird auf die verschiedenen M�glichkeiten eingegangen, lexikalische Daten zu repr�sentieren. Es wird auf den Unterschied zwischen statischen Datenbasen und dynamischen Wissensbasen einzugehen sein.

7.      Vom Text zum W�rterbuch 1: Lexikostatistik. In diesem Modul wird in grundlegende Verfahren der Lexikostatistik eingef�hrt. Im Mittelpunkt stehen Wortfrequenz-Verteilungen in Texten und Schl�sse, die daraus f�r die lexikalische Repr�sentation dieser W�rter gezogen werden k�nnen.

8.      Vom Text zum W�rterbuch 2: Morphologische Analyse und Lemmatisierung. Im Kontrast zu den frequenz- und verteilungsorientierten Verfahren stehen symbolische Verfahren der Abstraktion von Textw�rtern zu lexikalischen Einheiten und statistische sowie regelbasierte Verfahren zur Ermittlung von Wortart und Bedeutung (Tagging). Es geht in dieser Lehreinheit vor allem um morphologische Analyse, Lemmatisierung und Wortartentaggung. In Zusammenhang mit diesem Modul soll in Verfahren des maschinelllen Lernens eingef�hrt und mindestens ein maschineller Lerner getestet werden.

9.      Lexikalische Akquisition aus Textkorpora. In dieser Lehreinheit wird dargestellt, welche Arten lexikalischer Beschreibungen aus Textkorpora generiert werden k�nnen und welche manuellen, halbautomatischen und automatischen Verfahren hierzu verwendet werden.

10.      Kollokationen und Mehrwortlexeme. Die in den letzten Modulen erworbenen theoretischen Kenntnisse sollen am Fallbeispiel der Erkennung komplexer lexikalischer Einheiten in Texten angewendet werden. Es werden g�ngige linguistische Klassifiktionen von Mehrwortlexemen vorgestellt. Bei der Erkennung von Mehrwortlexemen in Texten ist vor allem deren Variabilit�t in Form und Distribution Texten zu beachten. Es soll versucht werden, diese Variabilit�t mittels regul�rer Ausdr�cke zu modellieren.

11.  Lexikalische Regeln. In diesem Modul sollen einige Beispiele f�r lexikalische Regeln betrachtet werden. Es wird zu fragen sein, welchen Kriterien lexikalische Einheiten ge�n�gen m�ssen, um in die Menge der Einheiten zu fallen, auf der diese Regel anwendbar sind. Es werden einfache F�lle aus dem Bereich der Syntax und komplexere F�lle aus dem Bereich der Semantik beschrieben. Dieses Modul kann mit den korrespondierenden Submodulen des Kurses ?Grammatikformalismen und Parsing? vernetzt werden. Dort werden einige Beispiele lexikalischer Regeln im Rahmen der HPSG pr�sentiert.

12.  Implementierung maschinenlesbarer W�rterb�cher. In diesem Modul soll gezeigt werden, wie W�rterb�cher als endliche Automaten bzw. �bergangsnetzwerke effektiv implementiert wer�den k�nnen. Dar�berhinaus werden die in den letzten Lehreinheiten gewonnenen Erkenntnisse zum Verh�ltnis zwischen lexikalischer Einheit und textuellem Vorkommen operationalisiert, indem Bausteine f�r eine vom Text ausgehende flexible Suchmaschine f�r W�rterb�cher erstellt werden.

Der Konzeption nach hat dieser Kurs einen Umfang, der sowohl die f�r die Erstellung beantragten Mittel als auch den Lehrzeitraum eines Semesters sprengt. Das Programm ist nur deshalb zu reali�sieren, weil ein Teil der Materialien zu den mit einem Stern gekennzeichneten Themen aus dem Kurs "Applied Computational Linguistics" importiert werden kann. Hierf�r ist die erste Projekt�phase von Juli 2001 bis Dezember 2001 vorgesehen. Nat�rlich brauchen auch diese Submodule eine computerlexikographische Vertiefung, die sie im Rahmen eines allgemeinen Kurses zur angandten Computerlinguistik nicht haben konnten. Dass die Zahl der Submodule den Umfang eines einse�mestrigen Kurses sprengen ist beabsichtigt. Neben den Kernmodulen des Faches werden die Stu�dierenden entsprechend ihrer Vorkenntnisse unterschiedliche Vertiefungs- und Erg�nzungsmodule ausw�hlen k�nnen.

2.4������ Die Lehr-/Lernumgebung des Kurses

 

Der Kurs "Computerlexikographie" vermittelt Kenntnisse, die in zunehmendem Ma�e von MitarbeiterInnen in den Redaktionen von Lexikographieverlagen verlangt werden. In dem Ma�e, wie elektronische W�rterb�cher ins Zentrum des Verlagsangebots r�cken, gewinnen Kenntnisse der Pr�sentation und der Erschlie�ung lexikographischer Inhalte in den verschiedenen Medien - Text, Audio, Grafik und Video - und damit die in diesem Kurs vermittelten sprachtechnologischen Grundlagen an Bedeutung. Computerlexikogra�phie ist ein datenintensives Gesch�ft. Die Arbeitsmaterialien und Werkzeuge sind bereits oder werden in Zukunft in Lexikographenarbeitspl�tze integriert. Auf solche Arbeitsbedingungen sollte eine angemessene Ausbildung vorbereiten, die nicht nur die Benutzung, sondern auch die Akquisition bzw. Entwicklung und Verwaltung der Daten und Werkzeuge zum Gegenstand hat. Das Fach "Computerlexikographie" kann deshalb gar nicht anders als in einer com�putervermittelten Lehr- und Arbeitsumgebung vermittelt werden. Ein mediengest�tzter Kurs ist die Lehr-Lern-Umgebung, die sich f�r diesen Kurs anbietet.

Typischerweise sind der Bereich der Erstellung lexikographischer Daten und der Bereich des elek�tronischen Publizierens dieser Daten in Lexikographieverlagen getrennt, sie arbeiten aber bei der Erstellung von Produkten eng zusammen. Teamwork ist also ein wichtiges Element der sp�teren Arbeit und damit auch der Ausbildung. Deshalb wird f�r diesen Kurs das Szenario des virtuellen Seminars mit starker Workshop-Komponente gew�hlt.

Die folgenden Elemente einer Lehr-/Lernumgebung werden auch f�r diesen Kurs realisiert:

Information: Das Kursmaterial wird in Form eines Hyperbuchs zur Verf�gung gestellt. Das Hyperbuch unterst�tzt die Selbstlernphasen innerhalb des Kurses. Neben dem Lehrstoff wird es �bungen zur Selbkontrolle sowie ein themenspezifisches Portal ins Internet geben. Qualifizierte Beitr�ge der Studierenden werden in das Hyperbuch aufgenommen.

Exploration: die oben erw�hnten Werkzeuge werden f�r das Web so aufbereitet, dass Studierende sie in Form interaktiver Demos testen und verwenden k�nnen.

Kommunikation: Im Zentrum des Seminars stehen Szenarien der viele:viele-Kommunikation: eine Mailingliste und eine Newsgroup f�r die asynchrone Kommunikation und Chatr�ume f�r die synchrone Kommunikation im Plenum und in Kleingruppen.

Die regelm��igen Seminarsitzungen werden folgende Struktur haben und den folgenden Lernzielen dienen:

1.                        In Einzel- oder in Gruppenarbeit werden kontroverse Themen in der Form von ?Ansto�refe�rate? erarbeitet, im Seminar pr�sentiert und diskutiert

2.                        Zu einzelnen Sitzungen werden ExpertInnen, also Personen, die an zu den jeweiligen Themen forschen, eingeladen.

3.                        In den Seminaren werden Fragen zum Lehrstoff und den �bungsaufgaben gekl�rt bzw. Mu�sterl�sungen pr�sentiert.

Das Kursmodul deckt eine Lehrveranstaltung um Umfang von 4 SWS ab. Hinzu kommen �bungen und Selbststudium im Umfang von etwa 2 SWS. Der Betreuungsaufwand wird auf ca. 6 Stunden pro Unterrichtsstunde gesch�tzt.

2.5������ Bez�ge und Vorarbeiten

 

Der Kurs "Computerlexikographie" rekurriert auf verschiedene Aktivit�ten und Projekte am Seminar f�r Sprachwissenschaft. Die Ergebnisse dieser Projekte sollen f�r die Zwecke des Unterrichts aufbereitet werden.

        GermaNet: GermaNet ist ein lexikalisch-semantisch und ontologisch organisiertes Wortnetz f�r das Deutsche, das an Wortnetze anderer Sprachen im Rahmen von "EuroWordNet" ange�bunden wurde. GermaNet wird im Rahmen des Kurses als maschinenlesbare lexikalische Res�source bzw. lexikalische Datenbank verwendet, anhand derer vor allem Datenmodellierung und die Verwendung von Markup-Sprachen dargestellt werden.

        Lexparse ist ein Parser f�r die Analyse von W�rterbuchartikeln auf der Grundlage entspre�chender Grammatiken. LexParse wird als Referenzwerkzeug f�r das W�rterbuchparsing ver�wendet.

        DeReKo: Aufbau eines deutschen Referenzkorpus. Aufbereitung und Annotation der Texte bis hinauf zur Satzebene, incl. Entwicklung und Evaluation der entsprechenden Werkzeuge bilden den T�binger Beitrag zu diesem Verbundprojekt. Die Korpora des Projektes sowie deren An�notierung werden f�r Beispiele des korpusbasierten Akquisition lexikalischer Daten verwendet.

        Nutzung der Eigenschaften endlicher Automaten sowie von �bergangsnetzwerken f�r die ef�fektive Implementierung von W�rterb�chern.

Die Ergebnisse der genannten Projekte m�ssen in die Lehr-/Lernumgebung des Kurses integriert werden.

 

Virtuelles Seminar ?Applied Computational Linguistics?: Im Rahmen des Verbundprojektes "VirtuGrade" (virtuelle Szenarien in der Graduiertenausbildung) wurde am Lehrstuhl von Professor Hinrichs ein Kurs "Applied Computational Linguistics" entworfen, entwickelt und unterrichtet.Die Lehr-/Lernumgebung des Kurses "Applied Computational Linguistics" hatte den Einsatz von Werkzeugen f�r die computervermittelte Kommunikation im Rahmen eines virtuellen Seminars als Schwerpunkt. Es kamen asynchrone und vor allem synchrone Medien zum Einsatz, �ber die die Sitzungen an zwei Standorten (T�bingen und Heidelberg) moderiert wurden. Lehreinheiten, interaktive Anteile und �bungen standen den Studierenden in Form eines Hyperbuches zur Verf�gung. Die Studierenden nutzten eine Mailingliste und eine gemeinsame Arbeitsumgebung (BSCW). Die Seminare wurden mit Hilfe eines Chatwerkzeuges moderiert. Das im SS 2000 abgehaltene Se�minar hat wichtige Erkenntnisse �ber M�glichkeiten und Grenzen der computervermittelten Kom�munikation in der Situation der gemeinsamen Wissensaneignung gebracht. Diese Erfahrungen, die auch einen Anforderungskatalog f�r die mediale Unterst�tzung dieser Lehrform umfasst, wird T��bingen in das Projektkonsorium einbringen.

2.6����������� Zusammenhang mit anderen MiLCA-Lehreinheiten

 

MiLCA verfolgt das Ziel, gro�e Teile eines modellhaften Curriculums f�r das Fach Computerlinguistik medial aufzubereiten. Das impliziert, dass, wie in jedem guten Curriculum, die Vernetzung und Verzahnung der Module. Letztendlich ist die Entscheidung f�r eine gemeinsame Plattform f�r die Lehrmaterialien auch dadurch begr�ndet, dass die impliziten und expliziten Bez�ge zwischen den Lehreinheiten leicht sichtbar und f�r die Studierenden nach�vollziehbar gemacht werden k�nnen. Die Studierenden erhalten auch in der Besch�ftigung mit den Details immer wieder den �berblick �ber den Gesamtzusammenhang.

Dar�ber hinaus gibt es enge Bez�ge zwischen der Lehreinheit Computerlexikographie und zwei weiteren Lehreinheiten, und dies in zweierlei Hinsicht. Es steht in engem Zusammenhang mit dem Modul "Texttechnologie" und, etwas weniger eng, mit dem Modul I-CALL.

        Im Bereich der lexikalischen Analyse von Texten gibt es einige Ber�hrungspunkte mit der Texttechnologie. Im Rahmen der Texttechnologie ist vor allem die Anwendung entsprechender Verfahren f�r eine spezielle Aufgabe relevant. Es ist zu �berlegen, ob die Module des Teiles Texttechnologie, die den theoretischen Hintergrund der Anwendung bilden, als vertiefende Module im Rahmen des Kurses ?Computerlexikographie? zur individuellen Vertiefung ange�boten werden, insbesondere im Hinblick auf einschl�gige Abschlussarbeiten einzelner Studie�render.

        Der Einsatz sprachtechnologischer Verfahren bei Aufbereitung und Pr�sentation lexikalischer Daten spielt auch im Bereich des I-CALL eine Rolle. Die entsprechenden Module unseres Kur�ses sollten deshalb mit der Lehreinheit I-CALL vernetzt werden. Auch dies bedeutet eine Er�weiterung des Gesichtsfeldes der Studierenden.

 

2.7����������� Literatur

 

Breidt, Elisabeth (1998), "Neuartige W�rterb�cher f�r Mensch und Maschine: W�rterbuchdaten�banken in COMPASS", in: H. E. Wiegand (Hg.), W�rterb�cher in der Diskussion: Vortr�ge aus dem Heidelberger Lexikographischen Kolloquium. III T�bingen, 1-28.

Engelberg, Stefan / Lothar Lemnitzer (2001), Einf�hrung in die Lexikographie und W�rterbuchbenutzung. T�bingen:Stauffenburg (erscheint Fr�hjahr 2002).

Feldweg, Helmut (1997), ?W�rterb�cher und neue Medien: Alter Wein in neuen Schl�uchen??, Zeitschrift f�r Literaturwissenschaft und Linguistik Heft 107, 110-122.

Feldweg, Helmut/ Erhard W. Hinrichs (Hgg., 1996), Lexikon und Text. Wiederverwendbare Methoden und Ressourcen zur linguistischen Erschlie�ung des Deutschen, T�bingen.

Heid, Ulrich (1997), Zur Strukturierung von einsprachigen und kontrastiven elektronischen W�r�terb�chern, T�bingen (= Lexicographica Series Maior 77)

Kunze, C. (2001), Lexikalisch-semantische Wortnetze. In: Carstensen, K.-U. et al. (Hrsg.), Computerlingusitik und Sprachtechnologie: eine Einfuehrung. Heidelberg; Berlin: Spektrum, Akademischer Verlag, S. 386-393.

Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. T�bingen:Niemeyer.

Storrer, Angelika / Ralf Hauser (1993), ?Dictionary Entry Parsing Using the LexParse System?, in: Lexicographica 9, 174-219.

 

 

3                  Aufgaben und Arbeitspakete

 

 

 

Zur Realisierung des Kurses ?Computerlexikographie? geh�ren die folgenden Aufgaben, die in Arbeitspaketen zu definieren sind:

 

1.      Administration des Kurses (1 PM)

        Kontakt mit der Projektkoordination

        Darstellung des Projektes auf Messen und Tagungen

        Abstimmung mit den Projektpartnern

        Teilnahme an Workshops und Schulungen

2.      �bernahme und �berarbeitung der f�r den Kurs Computerlexikographie relevanten Module aus dem Kurs ?Applied Computational Linguistics?

        einige Module des Kurses ?Applied Computational Linguistics? - texttechnologische Ver�fahren, lexikalische Semantik, Kodierung von W�rterbucheintr�gen - k�nnen �bernommen werden und bilden das Grundger�st des Kurses ?Computerlexikographie?

        die Kurseinheiten m�ssen zum Teil auf den neuesten Stand der Forschung gebracht werden

        die Kurseinheiten m�ssen in das Deutsche �bersetzt werden

3.      mediendidaktische Auswertung der jeweiligen Kurse (1 PM)

        Analyse der Auswertung der Frageb�gen

        Planung von mediendidaktischen Settings, die eine gezielte Evaluation gestatten, z.B. Bil�dung von standort�bergreifenden Gruppen oder geschlechtsspezifischen Gruppen, um die spezifischen Interessen und Dispositionen weiblicher Studierender zu evaluieren

4.      �bernahme und Test der gemeinsamen Lehr-/Lernplattform (1 PM)

        Erstellung eines projektspezifischen Anforderungskatalogs

        Teilnahme an Einf�hrung / Schulung durch den Projektkoordinator

        Vorbereitung des Imports der existierenden Lehrmaterialien

5.      Erstellung neuer Lehreinheiten f�r den Kurs ?Computerlexikographie? (8 PM)

        Erstellung der Lehrbuchtexte

        Auswahl kontroverser Texte f�r die Vorbereitung von Positionsreferaten

        Kontakt zu Experten der einzelnen Themen zur Vorbereitung von Expertenchats

        Erstellen von �bungsaufgaben

        Erstellen lerndidaktischer Settings f�r die einzelnen Module

        Integration von Software-Demos bei einigen der Module

6.      Anpassung des COMPASS-Demo an die Bed�rfnisse des Kurses ?Computerlexikographie? (2 PM)

        Integration weiterer auf dem Netz verf�gbarer W�rterb�cher in den Prototypen

        Reimplementierung des Java-Codes

        Verbindung der Prototypen mit Germanet-Daten

        Verbindung des Prototypen mit der Ausgabe des DeReKO Annotationswerkzeugs

7.      Anpassung des LexParse W�rterbuchparsers an die Bed�rfnisse des Kurses ?Computerlexiko�graphie? (2 PM)

        Entwicklung einer Java-Benutzerschnittstelle f�r das Werkzeug

        Erstellung einer Dokumentation des Werkzeugs und eines Tutorials

        Erstellung von W�rterbuchartikel-Mustern und entsprechender Strukturgrammatiken

8.      Anpassung einiger kleinerer Programme f�r texttechnologische Aufgaben (Tokenisierung, Lemmatisierung, Tagger, Chunk Parser, Tool zur Visualisierung endlicher Automaten, statisti�sches Tool f�r die Identifizierung von Mehrwortlexemen) an die Bed�rfnisse des Kurses ?Computerlexikographie? (3 PM)

        Erstellung von Benutzerschnittstellen mit PERL oder Java, sofern nicht bereits vorhanden

        Erstellung der Dokumentation sowie von Tutorials, sofern nicht bereits vorhanden

9.      Durchf�hrung des Kurses im SS 2002, im SS 2003 sowie auf der Sommerschule (3 PM)

        Leitung der Seminarsitzungen und tutorielle Betreuung

        Verwaltung der asynchronen Kommunikationsmittel (Mailinglist, Newsgroups, FAQ)

        Durchsicht und Korrektur der L�sungen zu den �bungen

10.  Vorbereitung des Kurses f�r die Verbreitung bei weiteren akademischen und nichtakademi�schen Institutionen

        Erstellung eines Kurshandbuchs

 

11.  Einrichtung eines Internetportals f�r die Fachinhalte ?Lexikographie? und ?Computerlexiko�graphie? (1 PM)

        Recherchen im WWW nach fachbezogenen Inhalten und Bewertung der Fundseiten

        Erstellung eines fachlich gegliederten und kommentierten Portals

        regelm��ige Aktualisierung der Portals; �berpr�fung der Links

        Kontakt zu den Autoren der in das Portal aufgenommenen Seiten

12.  �bersetzung der textuellen Anteile des Kurses (ins Englische bzw. ins Deutsche) (2 PM)

13.  Test der Softwarekomponenten (4 PM)

        Entwicklung eines Testverfahrens, das auf die einzelnen Softwarekomponenten abgestimmt ist

        Tests der verschiedenen Versionen der Softwarekomponenten

        Anfertigen von Testprotokollen

14.  Pr�fung der multimedialen Lehrinhalte auf Konsistenz (1 PM)

        Entwicklung eines Testverfahrens

        Sichtung von Software, durch die einige Tests automatisiert werden k�nnen

        Anfertigen von Testprotokollen

15.  Etikettierung eines Referenzkorpus f�r die Aufgaben der lexikalischen Akquisition (7 PM)

        Entwurf von Auswahlkriterien

        Auswahl von Texten aus dem deutschen Referenzkorpus

        automatische Annotierung der ausgew�hlten Texte

        manuelle Kontrolle der Annotation

        Test der texttechnologischen Werkzeuge auf den Beispieltexten

        Erstellen eines Handbuchs, das die Auswahl- und Annotationskriterien dokumentiert

 

Anmerkungen

        Aufgaben / Arbeitspakete 1 und 3 -10 werden von die wissenschaftliche Mitarbeiterin durchge�f�hrt

        Aufgaben / Arbeitspakete 11- 15 werden von der studentischen Hilfkraft durchgef�hrt.

        Aufgabe 2 wird von den Mitarbeitern des VirtuGrade Projektes in der ersten MiLCA-Projekt�phase (7/2001 - 12/2001) erbracht und schl�gt deshalb f�r dieses Projekt nicht zu Buche.

 

4�������� Komponenten und Meilensteine, an denen sich die Beteiligung des Antragstellers ausrichtet.

 

1.                        Der Kurs "Applied Computational Linguistics" wird im Sommersemester 2001 erneut und weitgehend mit den bereits entwickelten Inhalten, angeboten. An der Veranstaltung werden ne�ben den oben genannten Partnern die Partner des MiLCA Projektes sowie ein mindestens weite�rer Fachbereich an dem Kurs partizipieren. Dadurch ist bereits vor Beginn des Projektes f�r die Partner die M�glichkeit gegeben, eine modellhafte Lehr-/Lernumgebung kennenzulernen.

2.                        Als Meilensteine des Gesamtprojektes sind zwei Workshops und eine Sommerschule vorgese�hen. Verbundworkshop I im Fr�hsommer 2002 befasst sich mit der Lernumgebung, dem didak�tischen Konzept und der Evaluation und bereitet so den ersten Einsatz der Lehreinheiten vor. Verbundworkshop 2 im Herbst 2002 befasst sich mit den ersten Evaluationsergebnissen und be�reitet die weiter gehende Verbreitung der Lehreinheiten bei akademischen und nichtakademi�schen Partnern vor. Auf der Sommerschule werden alle Lehreinheiten im Zusammenhang und vor projektexternen adademischen und nichtakademischen Partnern eingesetzt.

3.                        Aus dem Verlauf dieses Teilprojektes ergeben sich nat�rlicherweise Meilensteine, an denen der Erfolg der bisherigen Arbeit �berpr�ft und evaluiert wird. Dies sind der Zeitpunkt nach der er�sten Durchf�hrung der Lehrveranstaltung (Juli 2002) und nach Durchf�hrung der zweiten Lehrveranstaltung und der Sommerschule (Herbst 2003).

5�������� Kosten-Nutzen-Relation

 

In der Erprobungsphase erreicht der Kurs Studierende am Standort T�bingen, wobei gezielt auch in der neuphilogischen Fakult�t f�r den Kurs geworben wird. Das virtuelle Seminar wird eine tradi�tionelle Lehrveranstaltung zu diesem Thema ersetzen und dessen Platz im BA-/MA-Curriculum des Faches einnehmen. Durch diese feste curriculare Einbindung ist zugleich gesichert, dass das Ange�bot auch nach Projektende genutzt und gepflegt wird.

Dar�ber hinaus wird der Kurs bei den Projektpartnern angeboten. Es ist angesichts der Lehrform virtuelles Seminar aber davon auszugehen, dass die Zahl der TeilnehmerInnen in der Erprobungs�phase beschr�nkt bleiben muss (auf h�chstens 25 Teilnehmer).

F�r die weitere Verbreitung in akademischen Kreisen werden die spezifischen Standesorganisatio�nen (ACL Europe, GLDV) sowie Interessensgemeinschaften allgemeinerer Standesorganisation (Gesellschaft f�r Informatik, Gesellschaft f�r deutsche Sprache) angesprochen. Zudem bestehen aus dem VirtuGrade Projekt Beziehungen zu weiteren CL-Standorten (Heidelberg, Potsdam, Z��rich, Seoul). Die internationale Verbreitung wird dadurch gesichert, dass alle Materialien auch in Englisch erstellt werden.

Verwendung einer offenen Lehr-/Lernumgebung (vermutlich ILIAS) und starke Moduluarisierung der Lehr-/Lerneinheiten erm�glichen die Nutzung einzelner Module auch in anderen fachlichen Zusammenh�ngen, insbesondere Lexikographie und lexikalische Semantik als Teilgebiet der Sprachwissenschaft.

Zumindest der auf lexikalische Datenbanken und elektronische W�rterb�cher bezogene Teil ist auch als Material f�r die Fortbildung in Verlagen und Firmen der ?language industry? interessant. Diese Firmen sollen in der Phase der Vorbereitung der Sommerschule gezielt angesprochen wer�den.

Es ist beabsichtigt, �ber eine Verwertungsgesellschaft Kontakte mit industriellen Gro�abnehmern f�r Corporate Universities aufzubauen. Die hierdurch zu erzielenden Einnahmen werden die Grundlage f�r die notwendige permanente Aktualisierung des Kurses schaffen.