V. Modul B2: Computerlexikographie
Prof. Dr. Erhard Hinrichs
Seminar f�r Sprachwissenschaft / Computerlinguistik
Universit�t
T�bingen
Wilhelmstr.
113
72074
T�bingen
Tel.���������������� 07071/29 75 446
Fax.���������������� 07071/55 13 35
E-Mail:���������������� eh@sfs.nphil.uni-tuebingen.de
Erstellung einer Lehr-/Lernumgebung f�r das Kursmodul
?Computerlexikographie?
Januar 2002 bis Dezember 2003.
�
1 BAT IIa im Umfang von 20 PM
�
1 SHK im Umfang von 15 PM
�
Verbrauchsmaterialien, Gesch�ftsbedarf
�
Reisekosten
Alle Systeme und
Anwendungen, die auf der Analyse und / oder Generierung nat�rlicher Sprache
basieren, ben�tigen neben diversen Regelsystemen reiche lexikalische
Ressourcen. Diese lexikali�schen Ressourcen sollten in deklarativer Weise die
phonologischen, morphologischen, syntakti�schen, semantischen und pragmatischen
Eigenschaften der lexikalischen Einheiten einer Sprache repr�sentieren. Lexikalische
Ressourcen, die bei der maschinellen Verarbeitung nat�rlicher Sprache zum
Einsatz kommen, m�ssen sprachliches Wissen expliziter darstellen als
W�rterb�cher, die sich an den menschlichen Benutzer richten. Nach anf�nglicher
Marginalisierung des Lexikons als einer Komponente des Sprachwissens, in
welcher ausschlie�lich das idiosynkratische Wissen �ber W�r�ter aufgelistet
sein sollte, ist das Lexikon in den neunziger Jahren st�rker in das Zentrum
linguisti�scher und computerlinguistischer Theoriebildung getreten.
Dabei stellen sich die
folgenden Fragen, auf die speziell die Computerlexikographie Antworten lie�fern
sollte:
1. Wie k�nnen
Beschreibungen, die in gro�em Umfang und hoher Qualit�t in Printw�rterb�chern
f�r menschliche Benutzer vorliegen, beim Aufbau lexikalischer Ressourcen f�r
computerlingui�stische Anwendungen nutzbar gemacht werden?
2. Wie k�nnen
Beschreibungen lexikalischer Zeichen aus Belegen ihres Vorkommens in authenti�schen
Texten, also in gro�en Textkorpora, gewonnen werden?
3. Welche Form m�ssen die
Beschreibungen lexikalischer Zeichen annehmen, damit sie von m�glichst vielen
Formalismen und Systemen f�r die Verarbeitung nat�rlicher Sprache in unter�schiedlichen
Anwendungskontexten korrekt interpretiert werden k�nnen ?
4. Wie k�nnen
Generalisierungen im Lexikon ad�quat mit Hilfe von lexikalischen Regeln darge�stellt
werden?
5. Wie k�nnen
maschinenlesbare W�rterb�cher effektiv implementiert werden?
6. Welche Rolle spielen
sprachtechnologische Verfahren beim Design von Benutzungsfunktionen f�r
elektronische W�rterb�cher, also zum Beispiel bei der Suchfunktion?
Das erfolgreiche
Absolvieren dieses Kursmoduls erfordert eine Reihe von Grundkenntnissen in
verschiedenen Gebieten des Computerlinguistik-Curriculums: Algorithmen und
Datenstrukturen, Parsing, formale Sprachen, Statistik. Es ist daher sinnvoll,
diesen Kurs im Hauptstudium zu unterrichten und ihn f�r Graduierte in
Graduiertenkollegs offenzuhalten. Der Kurs enth�lt Elemente, die zum Kern der
Computerlinguistik geh�ren und ebenso Elemente, die in das Gebiet benachbarter
Disziplinen fal�len. Es ist daher anzustreben, die einzelnen Bestandteile des
Kurses bei allen Abh�ngigkeiten von einander modular zu gestalten.
1. Lexikalische Semantik. Diese Einf�hrung wird
sich vor allem auf die f�r die Computerlexikographie wichtige Frage der
lexikalischen Polysemie und deren textuelles Pendant, die Ambi�guit�t,
beziehen. Es werden neuere Ans�tze zur Beschreibung und Formalisierung
lexikalischer Polysemie und zur (halb)automatischen Aufl�sung textueller
Ambiguit�t vorgestellt.
2. Lexikon vs. Enzyklop�die. In diesem Modul wird
auf die in theoretischer und kognitiver Linguistik sowie in der Artificial
Intelligence gef�hrte Unterscheidung zwischen lexikalischem und
enzyklop�dischem Wissen eingegangen. Diese Unterscheidung hat unmittelbare
Auswirkungen auf die Form traditioneller Referenzwerke. Es wird zu fragen sein,
ob diese Unterscheidung bei lexikalischen Ressourcen f�r Anwendungen der
maschinellen Sprachverarbeitung noch re�levant ist oder ob diese Unterscheidung
aufgegeben werden soll.
3. Standardisierte Eintr�ge
im traditionellen Printw�rterbuch. Es gibt eine ausgefeilte Theorie der Makro-,
Mikro- und Verweisstrukturen von Printw�rterb�chern. Diese Theorie wird
vorgestellt. Sie hat unmittelbare Relevanz f�r die formale Beschreibung von
standardisierten W�rter�buchartikeln. Es wird zu fragen sein, inwiefern diese
Strukturmodelle auch auf elektronische W�rterb�cher anwendbar sind.
4. Formale
Beschreibungssprachen f�r Dokumente: SGML, XML, HTML. Das Wissen �ber die
Struktur von W�rterbuchartikeln kann dazu genutzt werden, die abstrakten
Strukturen in Do�kumenttypdefinitionen umzusetzen und die Daten der konkreten
Mikrostrukturen mit einer der g�ngigen Markup-Sprachen zu elektronischen
Dokumenten aufzubereiten. In dieser Lehreinheit werden Grammatiken f�r einfache
und m��ig komplexe standardisierte W�rterbuchartikel ent�wickelt und diese mit
einem Standardwerkzeug f�r die Validierung von SGML/XML-Doku�menten �berpr�ft
Grundlage ist die SGML-Spezifikation der TEI f�r W�r�terbuchartikel.
5. Parsen von
W�rterbuchartikeln.
Ausgehend von der formalen Beschreibung der abstrakten Mikrostrukturen eines
W�rterbuchs kann ein Parser benutzt werden, der mit der formalen Strukturbeschreibung
als Dokumentgrammatik die konkreten Eintr�ge analysiert und relevante Daten
extrahiert. Hierf�r steht in T�bingen ein dedizierter Parser zur Verf�gung, der
im Rahmen des Projektes f�r die Lehre aufbereitet wird (LexParse).
6. Struktur lexikalischer
Datenbasen f�r NLP Anwendungen: Maschinenlesbare W�r�terb�cher,
lexikalische Datenbanken, Lexikalische Wissensbasen. In diesem Modul wird
auf die verschiedenen M�glichkeiten eingegangen, lexikalische Daten zu
repr�sentieren. Es wird auf den Unterschied zwischen statischen Datenbasen und
dynamischen Wissensbasen einzugehen sein.
7. Vom Text zum W�rterbuch
1: Lexikostatistik.
In diesem Modul wird in grundlegende Verfahren der Lexikostatistik eingef�hrt. Im Mittelpunkt stehen Wortfrequenz-Verteilungen in Texten und Schl�sse, die daraus f�r die lexikalische Repr�sentation dieser W�rter gezogen werden k�nnen.
8. Vom Text zum W�rterbuch
2: Morphologische Analyse und Lemmatisierung. Im Kontrast zu den frequenz- und
verteilungsorientierten Verfahren stehen symbolische Verfahren der Abstraktion von Textw�rtern zu lexikalischen Einheiten und statistische sowie regelbasierte Verfahren zur Ermittlung von Wortart und Bedeutung (Tagging). Es geht in dieser Lehreinheit vor allem um morphologische Analyse, Lemmatisierung und Wortartentaggung. In Zusammenhang mit diesem Modul soll in Verfahren des
maschinelllen Lernens eingef�hrt und mindestens ein maschineller Lerner
getestet werden.
9. Lexikalische
Akquisition aus Textkorpora. In dieser Lehreinheit wird dargestellt, welche Arten lexikalischer Beschreibungen aus Textkorpora generiert werden k�nnen und welche manuellen, halbautomatischen und automatischen Verfahren hierzu verwendet werden.
10. Kollokationen und Mehrwortlexeme. Die in den letzten
Modulen erworbenen theoretischen Kenntnisse sollen am Fallbeispiel der
Erkennung komplexer lexikalischer Einheiten in Texten angewendet werden.
Es werden g�ngige linguistische Klassifiktionen von Mehrwortlexemen vorgestellt.
Bei der Erkennung von Mehrwortlexemen in Texten ist vor allem deren Variabilit�t in Form und Distribution Texten zu beachten. Es soll versucht werden, diese Variabilit�t mittels regul�rer Ausdr�cke zu modellieren.
11. Lexikalische Regeln. In diesem Modul sollen
einige Beispiele f�r lexikalische Regeln betrachtet werden. Es wird zu fragen
sein, welchen Kriterien lexikalische Einheiten ge�n�gen m�ssen, um in die Menge
der Einheiten zu fallen, auf der diese Regel anwendbar sind. Es werden einfache
F�lle aus dem Bereich der Syntax und komplexere F�lle aus dem Bereich der
Semantik beschrieben. Dieses Modul kann mit den korrespondierenden Submodulen
des Kurses ?Grammatikformalismen und Parsing? vernetzt werden. Dort werden
einige Beispiele lexikalischer Regeln im Rahmen der HPSG pr�sentiert.
12. Implementierung
maschinenlesbarer W�rterb�cher. In diesem Modul soll gezeigt werden, wie
W�rterb�cher als endliche Automaten bzw. �bergangsnetzwerke effektiv
implementiert wer�den k�nnen. Dar�berhinaus werden die in den letzten Lehreinheiten gewonnenen Erkenntnisse zum Verh�ltnis zwischen lexikalischer Einheit und textuellem Vorkommen operationalisiert, indem Bausteine f�r eine vom Text ausgehende flexible Suchmaschine f�r W�rterb�cher erstellt werden.
Der Konzeption nach hat
dieser Kurs einen Umfang, der sowohl die f�r die Erstellung beantragten Mittel
als auch den Lehrzeitraum eines Semesters sprengt. Das Programm ist nur deshalb
zu reali�sieren, weil ein Teil der Materialien zu den mit einem Stern
gekennzeichneten Themen aus dem Kurs "Applied Computational Linguistics"
importiert werden kann. Hierf�r ist die erste Projekt�phase von Juli 2001 bis
Dezember 2001 vorgesehen. Nat�rlich brauchen auch diese Submodule eine
computerlexikographische Vertiefung, die sie im Rahmen eines allgemeinen Kurses
zur angandten Computerlinguistik nicht haben konnten. Dass die Zahl der
Submodule den Umfang eines einse�mestrigen Kurses sprengen ist beabsichtigt.
Neben den Kernmodulen des Faches werden die Stu�dierenden entsprechend ihrer
Vorkenntnisse unterschiedliche Vertiefungs- und Erg�nzungsmodule ausw�hlen
k�nnen.
Der Kurs "Computerlexikographie" vermittelt
Kenntnisse, die in zunehmendem Ma�e von MitarbeiterInnen in den Redaktionen
von Lexikographieverlagen verlangt werden. In dem Ma�e, wie elektronische
W�rterb�cher ins Zentrum des Verlagsangebots r�cken, gewinnen Kenntnisse der
Pr�sentation und der Erschlie�ung lexikographischer Inhalte in den
verschiedenen Medien - Text, Audio, Grafik und Video - und damit die in diesem
Kurs vermittelten sprachtechnologischen Grundlagen an Bedeutung.
Computerlexikogra�phie ist ein datenintensives Gesch�ft. Die
Arbeitsmaterialien und Werkzeuge sind bereits oder werden in Zukunft in
Lexikographenarbeitspl�tze integriert.
Auf solche Arbeitsbedingungen sollte eine angemessene
Ausbildung vorbereiten, die nicht nur die Benutzung, sondern auch die
Akquisition bzw. Entwicklung und Verwaltung der Daten und Werkzeuge zum
Gegenstand hat.
Das Fach "Computerlexikographie" kann
deshalb gar nicht anders als in einer com�putervermittelten Lehr- und
Arbeitsumgebung vermittelt werden. Ein mediengest�tzter Kurs ist die
Lehr-Lern-Umgebung, die sich f�r diesen Kurs anbietet.
Typischerweise sind der Bereich der Erstellung
lexikographischer Daten und der Bereich des elek�tronischen Publizierens dieser
Daten in Lexikographieverlagen getrennt, sie arbeiten aber bei der Erstellung
von Produkten eng zusammen. Teamwork ist also ein wichtiges Element der
sp�teren Arbeit und damit auch der Ausbildung. Deshalb wird f�r diesen Kurs das
Szenario des virtuellen Seminars mit starker Workshop-Komponente gew�hlt.
Die folgenden Elemente einer Lehr-/Lernumgebung werden
auch f�r diesen Kurs realisiert:
Information: Das
Kursmaterial wird in Form eines Hyperbuchs zur Verf�gung gestellt. Das Hyperbuch
unterst�tzt die Selbstlernphasen innerhalb des Kurses. Neben dem Lehrstoff wird
es �bungen zur Selbkontrolle sowie ein themenspezifisches Portal ins Internet
geben. Qualifizierte Beitr�ge der Studierenden werden in das Hyperbuch aufgenommen.
Exploration: die
oben erw�hnten Werkzeuge werden f�r das Web so aufbereitet, dass Studierende
sie in Form interaktiver Demos testen und verwenden k�nnen.
Kommunikation: Im
Zentrum des Seminars stehen Szenarien der viele:viele-Kommunikation: eine
Mailingliste und eine Newsgroup f�r die asynchrone Kommunikation und Chatr�ume
f�r die synchrone Kommunikation im Plenum und in Kleingruppen.
Die regelm��igen Seminarsitzungen werden folgende
Struktur haben und den folgenden Lernzielen dienen:
1.
In Einzel- oder in
Gruppenarbeit werden kontroverse Themen in der Form von ?Ansto�refe�rate?
erarbeitet, im Seminar pr�sentiert und diskutiert
2.
Zu einzelnen Sitzungen
werden ExpertInnen, also Personen, die an zu den jeweiligen Themen forschen,
eingeladen.
3.
In den Seminaren werden
Fragen zum Lehrstoff und den �bungsaufgaben gekl�rt bzw. Mu�sterl�sungen
pr�sentiert.
Das Kursmodul deckt eine Lehrveranstaltung um Umfang
von 4 SWS ab. Hinzu kommen �bungen und Selbststudium im Umfang von etwa 2 SWS.
Der Betreuungsaufwand wird auf ca. 6 Stunden pro Unterrichtsstunde gesch�tzt.
Der Kurs "Computerlexikographie" rekurriert auf verschiedene Aktivit�ten und Projekte
am Seminar
f�r Sprachwissenschaft. Die Ergebnisse dieser Projekte sollen f�r die Zwecke
des Unterrichts aufbereitet werden.
�
GermaNet: GermaNet ist ein
lexikalisch-semantisch und ontologisch organisiertes Wortnetz f�r das Deutsche,
das an Wortnetze anderer Sprachen im Rahmen von "EuroWordNet" ange�bunden
wurde. GermaNet wird im Rahmen des Kurses als maschinenlesbare lexikalische Res�source
bzw. lexikalische Datenbank verwendet, anhand derer vor allem Datenmodellierung
und die Verwendung von Markup-Sprachen dargestellt werden.
�
Lexparse
ist ein
Parser f�r die Analyse von W�rterbuchartikeln auf der Grundlage entspre�chender
Grammatiken. LexParse wird als Referenzwerkzeug f�r das W�rterbuchparsing ver�wendet.
�
DeReKo: Aufbau eines deutschen
Referenzkorpus. Aufbereitung und Annotation der Texte bis hinauf zur Satzebene,
incl. Entwicklung und Evaluation der entsprechenden Werkzeuge bilden den
T�binger Beitrag zu diesem Verbundprojekt. Die Korpora des Projektes sowie
deren An�notierung werden f�r Beispiele des korpusbasierten Akquisition
lexikalischer Daten verwendet.
�
Nutzung
der Eigenschaften endlicher Automaten sowie von �bergangsnetzwerken f�r die ef�fektive
Implementierung von W�rterb�chern.
Die Ergebnisse der
genannten Projekte m�ssen in die Lehr-/Lernumgebung des Kurses integriert
werden.
Virtuelles Seminar
?Applied Computational Linguistics?: Im Rahmen des Verbundprojektes "VirtuGrade"
(virtuelle Szenarien in der Graduiertenausbildung) wurde am Lehrstuhl von
Professor Hinrichs ein Kurs "Applied Computational Linguistics"
entworfen, entwickelt und unterrichtet.�
Die Lehr-/Lernumgebung des Kurses "Applied Computational
Linguistics" hatte den Einsatz von Werkzeugen f�r die computervermittelte
Kommunikation im Rahmen eines virtuellen Seminars als Schwerpunkt. Es kamen
asynchrone und vor allem synchrone Medien zum Einsatz, �ber die die Sitzungen
an zwei Standorten (T�bingen und Heidelberg) moderiert wurden. Lehreinheiten,
interaktive Anteile und �bungen standen den Studierenden in Form eines
Hyperbuches zur Verf�gung. Die Studierenden nutzten eine Mailingliste und eine
gemeinsame Arbeitsumgebung (BSCW). Die Seminare wurden mit Hilfe eines
Chatwerkzeuges moderiert. Das im SS 2000 abgehaltene Se�minar hat wichtige
Erkenntnisse �ber M�glichkeiten und Grenzen der computervermittelten Kom�munikation
in der Situation der gemeinsamen Wissensaneignung gebracht. Diese Erfahrungen,
die auch einen Anforderungskatalog f�r die mediale Unterst�tzung dieser
Lehrform umfasst, wird T��bingen in das Projektkonsorium einbringen.
MiLCA verfolgt das Ziel,
gro�e Teile eines modellhaften Curriculums f�r das Fach
Computerlinguistik medial aufzubereiten. Das impliziert, dass, wie in jedem guten
Curriculum, die Vernetzung und Verzahnung der Module. Letztendlich ist die
Entscheidung f�r eine gemeinsame Plattform f�r die Lehrmaterialien auch dadurch
begr�ndet, dass die impliziten und expliziten Bez�ge zwischen den Lehreinheiten
leicht sichtbar und f�r die Studierenden nach�vollziehbar gemacht werden
k�nnen. Die Studierenden erhalten auch in der Besch�ftigung mit den Details
immer wieder den �berblick �ber den Gesamtzusammenhang.
Dar�ber hinaus gibt es enge Bez�ge zwischen der
Lehreinheit Computerlexikographie und zwei weiteren Lehreinheiten, und dies in
zweierlei Hinsicht. Es steht in engem Zusammenhang mit dem Modul
"Texttechnologie" und, etwas weniger eng, mit dem Modul I-CALL.
�
Im Bereich der
lexikalischen Analyse von Texten gibt es einige Ber�hrungspunkte mit der Texttechnologie.
Im Rahmen der Texttechnologie ist vor allem die Anwendung entsprechender
Verfahren f�r eine spezielle Aufgabe relevant. Es ist zu �berlegen, ob die
Module des Teiles Texttechnologie, die den theoretischen Hintergrund der
Anwendung bilden, als vertiefende Module im Rahmen des Kurses
?Computerlexikographie? zur individuellen Vertiefung ange�boten werden,
insbesondere im Hinblick auf einschl�gige Abschlussarbeiten einzelner Studie�render.
�
Der Einsatz
sprachtechnologischer Verfahren bei Aufbereitung und Pr�sentation lexikalischer
Daten spielt auch im Bereich des I-CALL eine Rolle. Die entsprechenden Module
unseres Kur�ses sollten deshalb mit der Lehreinheit I-CALL vernetzt werden.
Auch dies bedeutet eine Er�weiterung des Gesichtsfeldes der Studierenden.
Breidt, Elisabeth (1998), "Neuartige W�rterb�cher f�r Mensch und
Maschine: W�rterbuchdaten�banken in COMPASS", in: H. E. Wiegand (Hg.),
W�rterb�cher in der Diskussion: Vortr�ge aus dem Heidelberger Lexikographischen
Kolloquium. III T�bingen, 1-28.
Engelberg,
Stefan / Lothar Lemnitzer (2001), Einf�hrung in die Lexikographie und W�rterbuchbenutzung.
T�bingen:Stauffenburg (erscheint Fr�hjahr 2002).
Feldweg,
Helmut (1997),
?W�rterb�cher und neue Medien: Alter Wein in neuen Schl�uchen??, Zeitschrift
f�r Literaturwissenschaft und Linguistik Heft 107, 110-122.
Feldweg,
Helmut/ Erhard W. Hinrichs (Hgg., 1996), Lexikon und Text. Wiederverwendbare Methoden
und Ressourcen zur linguistischen Erschlie�ung des Deutschen, T�bingen.
Heid,
Ulrich (1997),
Zur Strukturierung von einsprachigen und kontrastiven elektronischen W�r�terb�chern,
T�bingen (= Lexicographica Series Maior 77)
Kunze, C. (2001), Lexikalisch-semantische Wortnetze. In: Carstensen, K.-U. et al. (Hrsg.), Computerlingusitik und Sprachtechnologie: eine Einfuehrung. Heidelberg; Berlin: Spektrum, Akademischer Verlag, S. 386-393.
Lemnitzer,
Lothar (1997): Extraktion
komplexer Lexeme aus Textkorpora. T�bingen:Niemeyer.
Storrer, Angelika / Ralf Hauser (1993), ?Dictionary Entry Parsing Using the LexParse System?, in: Lexicographica
9, 174-219.
Zur Realisierung des Kurses ?Computerlexikographie?
geh�ren die folgenden Aufgaben, die in Arbeitspaketen zu definieren sind:
1.
Administration des
Kurses (1 PM)
�
Kontakt mit der
Projektkoordination
�
Darstellung des
Projektes auf Messen und Tagungen
�
Abstimmung mit den
Projektpartnern
�
Teilnahme an Workshops
und Schulungen
2.
�bernahme und
�berarbeitung der f�r den Kurs Computerlexikographie relevanten Module aus dem
Kurs ?Applied Computational Linguistics?
�
einige Module des Kurses
?Applied Computational Linguistics? - texttechnologische Ver�fahren,
lexikalische Semantik, Kodierung von W�rterbucheintr�gen - k�nnen �bernommen
werden und bilden das Grundger�st des Kurses ?Computerlexikographie?
�
die Kurseinheiten m�ssen
zum Teil auf den neuesten Stand der Forschung gebracht werden
�
die Kurseinheiten m�ssen
in das Deutsche �bersetzt werden
3.
mediendidaktische
Auswertung der jeweiligen Kurse (1 PM)
�
Analyse der Auswertung
der Frageb�gen
�
Planung von
mediendidaktischen Settings, die eine gezielte Evaluation gestatten, z.B. Bil�dung
von standort�bergreifenden Gruppen oder geschlechtsspezifischen Gruppen, um die
spezifischen Interessen und Dispositionen weiblicher Studierender zu evaluieren
4.
�bernahme und Test der
gemeinsamen Lehr-/Lernplattform (1 PM)
�
Erstellung eines
projektspezifischen Anforderungskatalogs
�
Teilnahme an Einf�hrung
/ Schulung durch den Projektkoordinator
�
Vorbereitung des Imports
der existierenden Lehrmaterialien
5.
Erstellung neuer
Lehreinheiten f�r den Kurs ?Computerlexikographie? (8 PM)
�
Erstellung der
Lehrbuchtexte
�
Auswahl kontroverser
Texte f�r die Vorbereitung von Positionsreferaten
�
Kontakt zu Experten der
einzelnen Themen zur Vorbereitung von Expertenchats
�
Erstellen von
�bungsaufgaben
�
Erstellen
lerndidaktischer Settings f�r die einzelnen Module
�
Integration von
Software-Demos bei einigen der Module
6.
Anpassung des COMPASS-Demo
an die Bed�rfnisse des Kurses ?Computerlexikographie? (2 PM)
�
Integration weiterer auf
dem Netz verf�gbarer W�rterb�cher in den Prototypen
�
Reimplementierung des
Java-Codes
�
Verbindung der
Prototypen mit Germanet-Daten
�
Verbindung des Prototypen
mit der Ausgabe des DeReKO Annotationswerkzeugs
7.
Anpassung des LexParse
W�rterbuchparsers an die Bed�rfnisse des Kurses ?Computerlexiko�graphie? (2 PM)
�
Entwicklung einer
Java-Benutzerschnittstelle f�r das Werkzeug
�
Erstellung einer
Dokumentation des Werkzeugs und eines Tutorials
�
Erstellung von
W�rterbuchartikel-Mustern und entsprechender Strukturgrammatiken
8.
Anpassung einiger
kleinerer Programme f�r texttechnologische Aufgaben (Tokenisierung,
Lemmatisierung, Tagger, Chunk Parser, Tool zur Visualisierung endlicher
Automaten, statisti�sches Tool f�r die Identifizierung von Mehrwortlexemen) an
die Bed�rfnisse des Kurses ?Computerlexikographie? (3 PM)
�
Erstellung von
Benutzerschnittstellen mit PERL oder Java, sofern nicht bereits vorhanden
�
Erstellung der
Dokumentation sowie von Tutorials, sofern nicht bereits vorhanden
9.
Durchf�hrung des Kurses
im SS 2002, im SS 2003 sowie auf der Sommerschule (3 PM)
�
Leitung der
Seminarsitzungen und tutorielle Betreuung
�
Verwaltung der
asynchronen Kommunikationsmittel (Mailinglist, Newsgroups, FAQ)
�
Durchsicht und Korrektur
der L�sungen zu den �bungen
10. Vorbereitung des Kurses f�r die Verbreitung bei
weiteren akademischen und nichtakademi�schen Institutionen
�
Erstellung eines
Kurshandbuchs
11. Einrichtung eines Internetportals f�r die Fachinhalte
?Lexikographie? und ?Computerlexiko�graphie? (1 PM)
�
Recherchen im WWW nach
fachbezogenen Inhalten und Bewertung der Fundseiten
�
Erstellung eines
fachlich gegliederten und kommentierten Portals
�
regelm��ige
Aktualisierung der Portals; �berpr�fung der Links
�
Kontakt zu den Autoren
der in das Portal aufgenommenen Seiten
12. �bersetzung der textuellen Anteile des Kurses (ins
Englische bzw. ins Deutsche) (2 PM)
13. Test der Softwarekomponenten (4 PM)
�
Entwicklung eines
Testverfahrens, das auf die einzelnen Softwarekomponenten abgestimmt ist
�
Tests der verschiedenen
Versionen der Softwarekomponenten
�
Anfertigen von
Testprotokollen
14. Pr�fung der multimedialen Lehrinhalte auf Konsistenz
(1 PM)
�
Entwicklung eines
Testverfahrens
�
Sichtung von Software,
durch die einige Tests automatisiert werden k�nnen
�
Anfertigen von
Testprotokollen
15. Etikettierung eines Referenzkorpus f�r die Aufgaben
der lexikalischen Akquisition (7 PM)
�
Entwurf von
Auswahlkriterien
�
Auswahl von Texten aus
dem deutschen Referenzkorpus
�
automatische Annotierung
der ausgew�hlten Texte
�
manuelle Kontrolle der
Annotation
�
Test der
texttechnologischen Werkzeuge auf den Beispieltexten
�
Erstellen eines
Handbuchs, das die Auswahl- und Annotationskriterien dokumentiert
Anmerkungen
�
Aufgaben
/ Arbeitspakete 1 und 3 -10 werden von die wissenschaftliche Mitarbeiterin
durchge�f�hrt
�
Aufgaben
/ Arbeitspakete 11- 15 werden von der studentischen Hilfkraft durchgef�hrt.
�
Aufgabe
2 wird von den Mitarbeitern des VirtuGrade Projektes in der ersten
MiLCA-Projekt�phase (7/2001 - 12/2001) erbracht und schl�gt deshalb f�r dieses
Projekt nicht zu Buche.
1.
Der
Kurs "Applied Computational Linguistics" wird im Sommersemester 2001
erneut und weitgehend mit den bereits entwickelten Inhalten, angeboten. An der
Veranstaltung werden ne�ben den oben genannten Partnern die Partner des MiLCA
Projektes sowie ein mindestens weite�rer Fachbereich an dem Kurs partizipieren.
Dadurch ist bereits vor Beginn des Projektes f�r die Partner die M�glichkeit
gegeben, eine modellhafte Lehr-/Lernumgebung kennenzulernen.
2.
Als
Meilensteine des Gesamtprojektes sind zwei Workshops und eine Sommerschule
vorgese�hen. Verbundworkshop I im Fr�hsommer 2002 befasst sich mit der
Lernumgebung, dem didak�tischen Konzept und der Evaluation und bereitet so den
ersten Einsatz der Lehreinheiten vor. Verbundworkshop 2 im Herbst 2002 befasst
sich mit den ersten Evaluationsergebnissen und be�reitet die weiter gehende
Verbreitung der Lehreinheiten bei akademischen und nichtakademi�schen Partnern
vor. Auf der Sommerschule werden alle Lehreinheiten im Zusammenhang und vor
projektexternen adademischen und nichtakademischen Partnern eingesetzt.
3.
Aus
dem Verlauf dieses Teilprojektes ergeben sich nat�rlicherweise Meilensteine, an
denen der Erfolg der bisherigen Arbeit �berpr�ft und evaluiert wird. Dies sind
der Zeitpunkt nach der er�sten Durchf�hrung der Lehrveranstaltung (Juli 2002)
und nach Durchf�hrung der zweiten Lehrveranstaltung und der Sommerschule
(Herbst 2003).
In der Erprobungsphase erreicht der Kurs Studierende
am Standort T�bingen, wobei gezielt auch in der neuphilogischen Fakult�t f�r
den Kurs geworben wird. Das virtuelle Seminar wird eine tradi�tionelle
Lehrveranstaltung zu diesem Thema ersetzen und dessen Platz im
BA-/MA-Curriculum des Faches einnehmen. Durch diese feste curriculare
Einbindung ist zugleich gesichert, dass das Ange�bot auch nach Projektende
genutzt und gepflegt wird.
Dar�ber hinaus wird der Kurs bei den Projektpartnern
angeboten. Es ist angesichts der Lehrform virtuelles Seminar aber davon
auszugehen, dass die Zahl der TeilnehmerInnen in der Erprobungs�phase
beschr�nkt bleiben muss (auf h�chstens 25 Teilnehmer).
F�r die weitere Verbreitung in akademischen Kreisen
werden die spezifischen Standesorganisatio�nen (ACL Europe, GLDV) sowie
Interessensgemeinschaften allgemeinerer Standesorganisation (Gesellschaft f�r
Informatik, Gesellschaft f�r deutsche Sprache) angesprochen. Zudem bestehen aus
dem VirtuGrade Projekt Beziehungen zu weiteren CL-Standorten (Heidelberg,
Potsdam, Z��rich, Seoul). Die internationale Verbreitung wird dadurch
gesichert, dass alle Materialien auch in Englisch erstellt werden.
Verwendung einer offenen Lehr-/Lernumgebung
(vermutlich ILIAS) und starke Moduluarisierung der Lehr-/Lerneinheiten
erm�glichen die Nutzung einzelner Module auch in anderen fachlichen
Zusammenh�ngen, insbesondere Lexikographie und lexikalische Semantik als
Teilgebiet der Sprachwissenschaft.
Zumindest der auf
lexikalische Datenbanken und elektronische W�rterb�cher bezogene Teil ist auch
als Material f�r die Fortbildung in Verlagen und Firmen der ?language industry?
interessant. Diese Firmen sollen in der Phase der Vorbereitung der Sommerschule
gezielt angesprochen wer�den.
Es ist beabsichtigt,
�ber eine Verwertungsgesellschaft Kontakte mit industriellen Gro�abnehmern f�r
Corporate Universities aufzubauen. Die hierdurch zu erzielenden Einnahmen
werden die Grundlage f�r die notwendige permanente Aktualisierung des Kurses
schaffen.