V. Modul B2: Computerlexikographie

1. Allgemeine Angaben

Antragsteller

Prof. Dr. Erhard Hinrichs

Seminar für Sprachwissenschaft / Computerlinguistik

Universität Tübingen

Wilhelmstr. 113

72074 Tübingen

Tel. 07071/29 75 446

Fax. 07071/55 13 35

E-Mail: eh@sfs.nphil.uni-tuebingen.de

Thema

Erstellung einer Lehr-/Lernumgebung für das Kursmodul ?Computerlexikographie?

Voraussichtliche Dauer

Januar 2002 bis Dezember 2003.

Übersicht über beantragte Zuwendung (s. AZA-Formulare)

· 1 BAT IIa im Umfang von 20 PM

· 1 SHK im Umfang von 15 PM

· Verbrauchsmaterialien, Geschäftsbedarf

· Reisekosten

2. Kurs: Computerlexikographie

2.1 Relevanz des Kursmoduls

Alle Systeme und Anwendungen, die auf der Analyse und / oder Generierung natürlicher Sprache basieren, benötigen neben diversen Regelsystemen reiche lexikalische Ressourcen. Diese lexikalischen Ressourcen sollten in deklarativer Weise die phonologischen, morphologischen, syntaktischen, semantischen und pragmatischen Eigenschaften der lexikalischen Einheiten einer Sprache repräsentieren. Lexikalische Ressourcen, die bei der maschinellen Verarbeitung natürlicher Sprache zum Einsatz kommen, müssen sprachliches Wissen expliziter darstellen als Wörterbücher, die sich an den menschlichen Benutzer richten. Nach anfänglicher Marginalisierung des Lexikons als einer Komponente des Sprachwissens, in welcher ausschließlich das idiosynkratische Wissen über Wörter aufgelistet sein sollte, ist das Lexikon in den neunziger Jahren stärker in das Zentrum linguistischer und computerlinguistischer Theoriebildung getreten.

Dabei stellen sich die folgenden Fragen, auf die speziell die Computerlexikographie Antworten liefern sollte:

1. Wie können Beschreibungen, die in großem Umfang und hoher Qualität in Printwörterbüchern für menschliche Benutzer vorliegen, beim Aufbau lexikalischer Ressourcen für computerlinguistische Anwendungen nutzbar gemacht werden?

2. Wie können Beschreibungen lexikalischer Zeichen aus Belegen ihres Vorkommens in authentischen Texten, also in großen Textkorpora, gewonnen werden?

3. Welche Form müssen die Beschreibungen lexikalischer Zeichen annehmen, damit sie von möglichst vielen Formalismen und Systemen für die Verarbeitung natürlicher Sprache in unterschiedlichen Anwendungskontexten korrekt interpretiert werden können ?

4. Wie können Generalisierungen im Lexikon adäquat mit Hilfe von lexikalischen Regeln dargestellt werden?

5. Wie können maschinenlesbare Wörterbücher effektiv implementiert werden?

6. Welche Rolle spielen sprachtechnologische Verfahren beim Design von Benutzungsfunktionen für elektronische Wörterbücher, also zum Beispiel bei der Suchfunktion?

2.2 Standort des Kurses im CL-Curriculum

Das erfolgreiche Absolvieren dieses Kursmoduls erfordert eine Reihe von Grundkenntnissen in verschiedenen Gebieten des Computerlinguistik-Curriculums: Algorithmen und Datenstrukturen, Parsing, formale Sprachen, Statistik. Es ist daher sinnvoll, diesen Kurs im Hauptstudium zu unterrichten und ihn für Graduierte in Graduiertenkollegs offenzuhalten. Der Kurs enthält Elemente, die zum Kern der Computerlinguistik gehören und ebenso Elemente, die in das Gebiet benachbarter Disziplinen fallen. Es ist daher anzustreben, die einzelnen Bestandteile des Kurses bei allen Abhängigkeiten von einander modular zu gestalten.

2.3 Übersicht über die Inhalte / Submodule des Kurses

1. Lexikalische Semantik. Diese Einführung wird sich vor allem auf die für die Computerlexikographie wichtige Frage der lexikalischen Polysemie und deren textuelles Pendant, die Ambiguität, beziehen. Es werden neuere Ansätze zur Beschreibung und Formalisierung lexikalischer Polysemie und zur (halb)automatischen Auflösung textueller Ambiguität vorgestellt.

2. Lexikon vs. Enzyklopädie. In diesem Modul wird auf die in theoretischer und kognitiver Linguistik sowie in der Artificial Intelligence geführte Unterscheidung zwischen lexikalischem und enzyklopädischem Wissen eingegangen. Diese Unterscheidung hat unmittelbare Auswirkungen auf die Form traditioneller Referenzwerke. Es wird zu fragen sein, ob diese Unterscheidung bei lexikalischen Ressourcen für Anwendungen der maschinellen Sprachverarbeitung noch relevant ist oder ob diese Unterscheidung aufgegeben werden soll.

3. Standardisierte Einträge im traditionellen Printwörterbuch. Es gibt eine ausgefeilte Theorie der Makro-, Mikro- und Verweisstrukturen von Printwörterbüchern. Diese Theorie wird vorgestellt. Sie hat unmittelbare Relevanz für die formale Beschreibung von standardisierten Wörterbuchartikeln. Es wird zu fragen sein, inwiefern diese Strukturmodelle auch auf elektronische Wörterbücher anwendbar sind.

4. Formale Beschreibungssprachen für Dokumente: SGML, XML, HTML. Das Wissen über die Struktur von Wörterbuchartikeln kann dazu genutzt werden, die abstrakten Strukturen in Dokumenttypdefinitionen umzusetzen und die Daten der konkreten Mikrostrukturen mit einer der gängigen Markup-Sprachen zu elektronischen Dokumenten aufzubereiten. In dieser Lehreinheit werden Grammatiken für einfache und mäßig komplexe standardisierte Wörterbuchartikel entwickelt und diese mit einem Standardwerkzeug für die Validierung von SGML/XML-Dokumenten überprüft Grundlage ist die SGML-Spezifikation der TEI für Wörterbuchartikel.

5. Parsen von Wörterbuchartikeln. Ausgehend von der formalen Beschreibung der abstrakten Mikrostrukturen eines Wörterbuchs kann ein Parser benutzt werden, der mit der formalen Strukturbeschreibung als Dokumentgrammatik die konkreten Einträge analysiert und relevante Daten extrahiert. Hierfür steht in Tübingen ein dedizierter Parser zur Verfügung, der im Rahmen des Projektes für die Lehre aufbereitet wird (LexParse).

6. Struktur lexikalischer Datenbasen für NLP Anwendungen: Maschinenlesbare Wörterbücher, lexikalische Datenbanken, Lexikalische Wissensbasen. In diesem Modul wird auf die verschiedenen Möglichkeiten eingegangen, lexikalische Daten zu repräsentieren. Es wird auf den Unterschied zwischen statischen Datenbasen und dynamischen Wissensbasen einzugehen sein.

7. Vom Text zum Wörterbuch 1: Lexikostatistik. In diesem Modul wird in grundlegende Verfahren der Lexikostatistik eingeführt. Im Mittelpunkt stehen Wortfrequenz-Verteilungen in Texten und Schlüsse, die daraus für die lexikalische Repräsentation dieser Wörter gezogen werden können.

8. Vom Text zum Wörterbuch 2: Morphologische Analyse und Lemmatisierung. Im Kontrast zu den frequenz- und verteilungsorientierten Verfahren stehen symbolische Verfahren der Abstraktion von Textwörtern zu lexikalischen Einheiten und statistische sowie regelbasierte Verfahren zur Ermittlung von Wortart und Bedeutung (Tagging). Es geht in dieser Lehreinheit vor allem um morphologische Analyse, Lemmatisierung und Wortartentaggung. In Zusammenhang mit diesem Modul soll in Verfahren des maschinelllen Lernens eingeführt und mindestens ein maschineller Lerner getestet werden.

9. Lexikalische Akquisition aus Textkorpora. In dieser Lehreinheit wird dargestellt, welche Arten lexikalischer Beschreibungen aus Textkorpora generiert werden können und welche manuellen, halbautomatischen und automatischen Verfahren hierzu verwendet werden.

10. Kollokationen und Mehrwortlexeme. Die in den letzten Modulen erworbenen theoretischen Kenntnisse sollen am Fallbeispiel der Erkennung komplexer lexikalischer Einheiten in Texten angewendet werden. Es werden gängige linguistische Klassifiktionen von Mehrwortlexemen vorgestellt. Bei der Erkennung von Mehrwortlexemen in Texten ist vor allem deren Variabilität in Form und Distribution Texten zu beachten. Es soll versucht werden, diese Variabilität mittels regulärer Ausdrücke zu modellieren.

11. Lexikalische Regeln. In diesem Modul sollen einige Beispiele für lexikalische Regeln betrachtet werden. Es wird zu fragen sein, welchen Kriterien lexikalische Einheiten genügen müssen, um in die Menge der Einheiten zu fallen, auf der diese Regel anwendbar sind. Es werden einfache Fälle aus dem Bereich der Syntax und komplexere Fälle aus dem Bereich der Semantik beschrieben. Dieses Modul kann mit den korrespondierenden Submodulen des Kurses ?Grammatikformalismen und Parsing? vernetzt werden. Dort werden einige Beispiele lexikalischer Regeln im Rahmen der HPSG präsentiert.

12. Implementierung maschinenlesbarer Wörterbücher. In diesem Modul soll gezeigt werden, wie Wörterbücher als endliche Automaten bzw. Übergangsnetzwerke effektiv implementiert werden können. Darüberhinaus werden die in den letzten Lehreinheiten gewonnenen Erkenntnisse zum Verhältnis zwischen lexikalischer Einheit und textuellem Vorkommen operationalisiert, indem Bausteine für eine vom Text ausgehende flexible Suchmaschine für Wörterbücher erstellt werden.

Der Konzeption nach hat dieser Kurs einen Umfang, der sowohl die für die Erstellung beantragten Mittel als auch den Lehrzeitraum eines Semesters sprengt. Das Programm ist nur deshalb zu realisieren, weil ein Teil der Materialien zu den mit einem Stern gekennzeichneten Themen aus dem Kurs "Applied Computational Linguistics" importiert werden kann. Hierfür ist die erste Projektphase von Juli 2001 bis Dezember 2001 vorgesehen. Natürlich brauchen auch diese Submodule eine computerlexikographische Vertiefung, die sie im Rahmen eines allgemeinen Kurses zur angandten Computerlinguistik nicht haben konnten. Dass die Zahl der Submodule den Umfang eines einsemestrigen Kurses sprengen ist beabsichtigt. Neben den Kernmodulen des Faches werden die Studierenden entsprechend ihrer Vorkenntnisse unterschiedliche Vertiefungs- und Ergänzungsmodule auswählen können.

2.4 Die Lehr-/Lernumgebung des Kurses

Der Kurs "Computerlexikographie" vermittelt Kenntnisse, die in zunehmendem Maße von MitarbeiterInnen in den Redaktionen von Lexikographieverlagen verlangt werden. In dem Maße, wie elektronische Wörterbücher ins Zentrum des Verlagsangebots rücken, gewinnen Kenntnisse der Präsentation und der Erschließung lexikographischer Inhalte in den verschiedenen Medien - Text, Audio, Grafik und Video - und damit die in diesem Kurs vermittelten sprachtechnologischen Grundlagen an Bedeutung. Computerlexikographie ist ein datenintensives Geschäft. Die Arbeitsmaterialien und Werkzeuge sind bereits oder werden in Zukunft in Lexikographenarbeitsplätze integriert. Auf solche Arbeitsbedingungen sollte eine angemessene Ausbildung vorbereiten, die nicht nur die Benutzung, sondern auch die Akquisition bzw. Entwicklung und Verwaltung der Daten und Werkzeuge zum Gegenstand hat. Das Fach "Computerlexikographie" kann deshalb gar nicht anders als in einer computervermittelten Lehr- und Arbeitsumgebung vermittelt werden. Ein mediengestützter Kurs ist die Lehr-Lern-Umgebung, die sich für diesen Kurs anbietet.

Typischerweise sind der Bereich der Erstellung lexikographischer Daten und der Bereich des elektronischen Publizierens dieser Daten in Lexikographieverlagen getrennt, sie arbeiten aber bei der Erstellung von Produkten eng zusammen. Teamwork ist also ein wichtiges Element der späteren Arbeit und damit auch der Ausbildung. Deshalb wird für diesen Kurs das Szenario des virtuellen Seminars mit starker Workshop-Komponente gewählt.

Die folgenden Elemente einer Lehr-/Lernumgebung werden auch für diesen Kurs realisiert:

Information: Das Kursmaterial wird in Form eines Hyperbuchs zur Verfügung gestellt. Das Hyperbuch unterstützt die Selbstlernphasen innerhalb des Kurses. Neben dem Lehrstoff wird es Übungen zur Selbkontrolle sowie ein themenspezifisches Portal ins Internet geben. Qualifizierte Beiträge der Studierenden werden in das Hyperbuch aufgenommen.

Exploration: die oben erwähnten Werkzeuge werden für das Web so aufbereitet, dass Studierende sie in Form interaktiver Demos testen und verwenden können.

Kommunikation: Im Zentrum des Seminars stehen Szenarien der viele:viele-Kommunikation: eine Mailingliste und eine Newsgroup für die asynchrone Kommunikation und Chaträume für die synchrone Kommunikation im Plenum und in Kleingruppen.

Die regelmäßigen Seminarsitzungen werden folgende Struktur haben und den folgenden Lernzielen dienen:

1. In Einzel- oder in Gruppenarbeit werden kontroverse Themen in der Form von ?Anstoßreferate? erarbeitet, im Seminar präsentiert und diskutiert

2. Zu einzelnen Sitzungen werden ExpertInnen, also Personen, die an zu den jeweiligen Themen forschen, eingeladen.

3. In den Seminaren werden Fragen zum Lehrstoff und den Übungsaufgaben geklärt bzw. Musterlösungen präsentiert.

Das Kursmodul deckt eine Lehrveranstaltung um Umfang von 4 SWS ab. Hinzu kommen Übungen und Selbststudium im Umfang von etwa 2 SWS. Der Betreuungsaufwand wird auf ca. 6 Stunden pro Unterrichtsstunde geschätzt.

2.5 Bezüge und Vorarbeiten

Der Kurs "Computerlexikographie" rekurriert auf verschiedene Aktivitäten und Projekte am Seminar für Sprachwissenschaft. Die Ergebnisse dieser Projekte sollen für die Zwecke des Unterrichts aufbereitet werden.

· GermaNet: GermaNet ist ein lexikalisch-semantisch und ontologisch organisiertes Wortnetz für das Deutsche, das an Wortnetze anderer Sprachen im Rahmen von "EuroWordNet" angebunden wurde. GermaNet wird im Rahmen des Kurses als maschinenlesbare lexikalische Ressource bzw. lexikalische Datenbank verwendet, anhand derer vor allem Datenmodellierung und die Verwendung von Markup-Sprachen dargestellt werden.

· Lexparse ist ein Parser für die Analyse von Wörterbuchartikeln auf der Grundlage entsprechender Grammatiken. LexParse wird als Referenzwerkzeug für das Wörterbuchparsing verwendet.

· DeReKo: Aufbau eines deutschen Referenzkorpus. Aufbereitung und Annotation der Texte bis hinauf zur Satzebene, incl. Entwicklung und Evaluation der entsprechenden Werkzeuge bilden den Tübinger Beitrag zu diesem Verbundprojekt. Die Korpora des Projektes sowie deren Annotierung werden für Beispiele des korpusbasierten Akquisition lexikalischer Daten verwendet.

· Nutzung der Eigenschaften endlicher Automaten sowie von Übergangsnetzwerken für die effektive Implementierung von Wörterbüchern.

Die Ergebnisse der genannten Projekte müssen in die Lehr-/Lernumgebung des Kurses integriert werden.

Virtuelles Seminar ?Applied Computational Linguistics?: Im Rahmen des Verbundprojektes "VirtuGrade" (virtuelle Szenarien in der Graduiertenausbildung) wurde am Lehrstuhl von Professor Hinrichs ein Kurs "Applied Computational Linguistics" entworfen, entwickelt und unterrichtet. Die Lehr-/Lernumgebung des Kurses "Applied Computational Linguistics" hatte den Einsatz von Werkzeugen für die computervermittelte Kommunikation im Rahmen eines virtuellen Seminars als Schwerpunkt. Es kamen asynchrone und vor allem synchrone Medien zum Einsatz, über die die Sitzungen an zwei Standorten (Tübingen und Heidelberg) moderiert wurden. Lehreinheiten, interaktive Anteile und Übungen standen den Studierenden in Form eines Hyperbuches zur Verfügung. Die Studierenden nutzten eine Mailingliste und eine gemeinsame Arbeitsumgebung (BSCW). Die Seminare wurden mit Hilfe eines Chatwerkzeuges moderiert. Das im SS 2000 abgehaltene Seminar hat wichtige Erkenntnisse über Möglichkeiten und Grenzen der computervermittelten Kommunikation in der Situation der gemeinsamen Wissensaneignung gebracht. Diese Erfahrungen, die auch einen Anforderungskatalog für die mediale Unterstützung dieser Lehrform umfasst, wird Tübingen in das Projektkonsorium einbringen.

2.6 Zusammenhang mit anderen MiLCA-Lehreinheiten

MiLCA verfolgt das Ziel, große Teile eines modellhaften Curriculums für das Fach Computerlinguistik medial aufzubereiten. Das impliziert, dass, wie in jedem guten Curriculum, die Vernetzung und Verzahnung der Module. Letztendlich ist die Entscheidung für eine gemeinsame Plattform für die Lehrmaterialien auch dadurch begründet, dass die impliziten und expliziten Bezüge zwischen den Lehreinheiten leicht sichtbar und für die Studierenden nachvollziehbar gemacht werden können. Die Studierenden erhalten auch in der Beschäftigung mit den Details immer wieder den Überblick über den Gesamtzusammenhang.

Darüber hinaus gibt es enge Bezüge zwischen der Lehreinheit Computerlexikographie und zwei weiteren Lehreinheiten, und dies in zweierlei Hinsicht. Es steht in engem Zusammenhang mit dem Modul "Texttechnologie" und, etwas weniger eng, mit dem Modul I-CALL.

· Im Bereich der lexikalischen Analyse von Texten gibt es einige Berührungspunkte mit der Texttechnologie. Im Rahmen der Texttechnologie ist vor allem die Anwendung entsprechender Verfahren für eine spezielle Aufgabe relevant. Es ist zu überlegen, ob die Module des Teiles Texttechnologie, die den theoretischen Hintergrund der Anwendung bilden, als vertiefende Module im Rahmen des Kurses ?Computerlexikographie? zur individuellen Vertiefung angeboten werden, insbesondere im Hinblick auf einschlägige Abschlussarbeiten einzelner Studierender.

· Der Einsatz sprachtechnologischer Verfahren bei Aufbereitung und Präsentation lexikalischer Daten spielt auch im Bereich des I-CALL eine Rolle. Die entsprechenden Module unseres Kurses sollten deshalb mit der Lehreinheit I-CALL vernetzt werden. Auch dies bedeutet eine Erweiterung des Gesichtsfeldes der Studierenden.

2.7 Literatur

Breidt, Elisabeth (1998), "Neuartige Wörterbücher für Mensch und Maschine: Wörterbuchdatenbanken in COMPASS", in: H. E. Wiegand (Hg.), Wörterbücher in der Diskussion: Vorträge aus dem Heidelberger Lexikographischen Kolloquium. III Tübingen, 1-28.

Engelberg, Stefan / Lothar Lemnitzer (2001), Einführung in die Lexikographie und Wörterbuchbenutzung. Tübingen:Stauffenburg (erscheint Frühjahr 2002).

Feldweg, Helmut (1997), ?Wörterbücher und neue Medien: Alter Wein in neuen Schläuchen??, Zeitschrift für Literaturwissenschaft und Linguistik Heft 107, 110-122.

Feldweg, Helmut/ Erhard W. Hinrichs (Hgg., 1996), Lexikon und Text. Wiederverwendbare Methoden und Ressourcen zur linguistischen Erschließung des Deutschen, Tübingen.

Heid, Ulrich (1997), Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern, Tübingen (= Lexicographica Series Maior 77)

Kunze, C. (2001), Lexikalisch-semantische Wortnetze. In: Carstensen, K.-U. et al. (Hrsg.), Computerlingusitik und Sprachtechnologie: eine Einfuehrung. Heidelberg; Berlin: Spektrum, Akademischer Verlag, S. 386-393.

Lemnitzer, Lothar (1997): Extraktion komplexer Lexeme aus Textkorpora. Tübingen:Niemeyer.

Storrer, Angelika / Ralf Hauser (1993), ?Dictionary Entry Parsing Using the LexParse System?, in: Lexicographica 9, 174-219.

3 Aufgaben und Arbeitspakete

Zur Realisierung des Kurses ?Computerlexikographie? gehören die folgenden Aufgaben, die in Arbeitspaketen zu definieren sind:

1. Administration des Kurses (1 PM)

· Kontakt mit der Projektkoordination

· Darstellung des Projektes auf Messen und Tagungen

· Abstimmung mit den Projektpartnern

· Teilnahme an Workshops und Schulungen

2. Übernahme und Überarbeitung der für den Kurs Computerlexikographie relevanten Module aus dem Kurs ?Applied Computational Linguistics?

· einige Module des Kurses ?Applied Computational Linguistics? - texttechnologische Verfahren, lexikalische Semantik, Kodierung von Wörterbucheinträgen - können übernommen werden und bilden das Grundgerüst des Kurses ?Computerlexikographie?

· die Kurseinheiten müssen zum Teil auf den neuesten Stand der Forschung gebracht werden

· die Kurseinheiten müssen in das Deutsche übersetzt werden

3. mediendidaktische Auswertung der jeweiligen Kurse (1 PM)

· Analyse der Auswertung der Fragebögen

· Planung von mediendidaktischen Settings, die eine gezielte Evaluation gestatten, z.B. Bildung von standortübergreifenden Gruppen oder geschlechtsspezifischen Gruppen, um die spezifischen Interessen und Dispositionen weiblicher Studierender zu evaluieren

4. Übernahme und Test der gemeinsamen Lehr-/Lernplattform (1 PM)

· Erstellung eines projektspezifischen Anforderungskatalogs

· Teilnahme an Einführung / Schulung durch den Projektkoordinator

· Vorbereitung des Imports der existierenden Lehrmaterialien

5. Erstellung neuer Lehreinheiten für den Kurs ?Computerlexikographie? (8 PM)

· Erstellung der Lehrbuchtexte

· Auswahl kontroverser Texte für die Vorbereitung von Positionsreferaten

· Kontakt zu Experten der einzelnen Themen zur Vorbereitung von Expertenchats

· Erstellen von Übungsaufgaben

· Erstellen lerndidaktischer Settings für die einzelnen Module

· Integration von Software-Demos bei einigen der Module

6. Anpassung des COMPASS-Demo an die Bedürfnisse des Kurses ?Computerlexikographie? (2 PM)

· Integration weiterer auf dem Netz verfügbarer Wörterbücher in den Prototypen

· Reimplementierung des Java-Codes

· Verbindung der Prototypen mit Germanet-Daten

· Verbindung des Prototypen mit der Ausgabe des DeReKO Annotationswerkzeugs

7. Anpassung des LexParse Wörterbuchparsers an die Bedürfnisse des Kurses ?Computerlexikographie? (2 PM)

· Entwicklung einer Java-Benutzerschnittstelle für das Werkzeug

· Erstellung einer Dokumentation des Werkzeugs und eines Tutorials

· Erstellung von Wörterbuchartikel-Mustern und entsprechender Strukturgrammatiken

8. Anpassung einiger kleinerer Programme für texttechnologische Aufgaben (Tokenisierung, Lemmatisierung, Tagger, Chunk Parser, Tool zur Visualisierung endlicher Automaten, statistisches Tool für die Identifizierung von Mehrwortlexemen) an die Bedürfnisse des Kurses ?Computerlexikographie? (3 PM)

· Erstellung von Benutzerschnittstellen mit PERL oder Java, sofern nicht bereits vorhanden

· Erstellung der Dokumentation sowie von Tutorials, sofern nicht bereits vorhanden

9. Durchführung des Kurses im SS 2002, im SS 2003 sowie auf der Sommerschule (3 PM)

· Leitung der Seminarsitzungen und tutorielle Betreuung

· Verwaltung der asynchronen Kommunikationsmittel (Mailinglist, Newsgroups, FAQ)

· Durchsicht und Korrektur der Lösungen zu den Übungen

10. Vorbereitung des Kurses für die Verbreitung bei weiteren akademischen und nichtakademischen Institutionen

· Erstellung eines Kurshandbuchs

11. Einrichtung eines Internetportals für die Fachinhalte ?Lexikographie? und ?Computerlexikographie? (1 PM)

· Recherchen im WWW nach fachbezogenen Inhalten und Bewertung der Fundseiten

· Erstellung eines fachlich gegliederten und kommentierten Portals

· regelmäßige Aktualisierung der Portals; Überprüfung der Links

· Kontakt zu den Autoren der in das Portal aufgenommenen Seiten

12. Übersetzung der textuellen Anteile des Kurses (ins Englische bzw. ins Deutsche) (2 PM)

13. Test der Softwarekomponenten (4 PM)

· Entwicklung eines Testverfahrens, das auf die einzelnen Softwarekomponenten abgestimmt ist

· Tests der verschiedenen Versionen der Softwarekomponenten

· Anfertigen von Testprotokollen

14. Prüfung der multimedialen Lehrinhalte auf Konsistenz (1 PM)

· Entwicklung eines Testverfahrens

· Sichtung von Software, durch die einige Tests automatisiert werden können

· Anfertigen von Testprotokollen

15. Etikettierung eines Referenzkorpus für die Aufgaben der lexikalischen Akquisition (7 PM)

· Entwurf von Auswahlkriterien

· Auswahl von Texten aus dem deutschen Referenzkorpus

· automatische Annotierung der ausgewählten Texte

· manuelle Kontrolle der Annotation

· Test der texttechnologischen Werkzeuge auf den Beispieltexten

· Erstellen eines Handbuchs, das die Auswahl- und Annotationskriterien dokumentiert

Anmerkungen

· Aufgaben / Arbeitspakete 1 und 3 -10 werden von die wissenschaftliche Mitarbeiterin durchgeführt

· Aufgaben / Arbeitspakete 11- 15 werden von der studentischen Hilfkraft durchgeführt.

· Aufgabe 2 wird von den Mitarbeitern des VirtuGrade Projektes in der ersten MiLCA-Projektphase (7/2001 - 12/2001) erbracht und schlägt deshalb für dieses Projekt nicht zu Buche.

4 Komponenten und Meilensteine, an denen sich die Beteiligung des Antragstellers ausrichtet.

1. Der Kurs "Applied Computational Linguistics" wird im Sommersemester 2001 erneut und weitgehend mit den bereits entwickelten Inhalten, angeboten. An der Veranstaltung werden neben den oben genannten Partnern die Partner des MiLCA Projektes sowie ein mindestens weiterer Fachbereich an dem Kurs partizipieren. Dadurch ist bereits vor Beginn des Projektes für die Partner die Möglichkeit gegeben, eine modellhafte Lehr-/Lernumgebung kennenzulernen.

2. Als Meilensteine des Gesamtprojektes sind zwei Workshops und eine Sommerschule vorgesehen. Verbundworkshop I im Frühsommer 2002 befasst sich mit der Lernumgebung, dem didaktischen Konzept und der Evaluation und bereitet so den ersten Einsatz der Lehreinheiten vor. Verbundworkshop 2 im Herbst 2002 befasst sich mit den ersten Evaluationsergebnissen und bereitet die weiter gehende Verbreitung der Lehreinheiten bei akademischen und nichtakademischen Partnern vor. Auf der Sommerschule werden alle Lehreinheiten im Zusammenhang und vor projektexternen adademischen und nichtakademischen Partnern eingesetzt.

3. Aus dem Verlauf dieses Teilprojektes ergeben sich natürlicherweise Meilensteine, an denen der Erfolg der bisherigen Arbeit überprüft und evaluiert wird. Dies sind der Zeitpunkt nach der ersten Durchführung der Lehrveranstaltung (Juli 2002) und nach Durchführung der zweiten Lehrveranstaltung und der Sommerschule (Herbst 2003).

5 Kosten-Nutzen-Relation

In der Erprobungsphase erreicht der Kurs Studierende am Standort Tübingen, wobei gezielt auch in der neuphilogischen Fakultät für den Kurs geworben wird. Das virtuelle Seminar wird eine traditionelle Lehrveranstaltung zu diesem Thema ersetzen und dessen Platz im BA-/MA-Curriculum des Faches einnehmen. Durch diese feste curriculare Einbindung ist zugleich gesichert, dass das Angebot auch nach Projektende genutzt und gepflegt wird.

Darüber hinaus wird der Kurs bei den Projektpartnern angeboten. Es ist angesichts der Lehrform virtuelles Seminar aber davon auszugehen, dass die Zahl der TeilnehmerInnen in der Erprobungsphase beschränkt bleiben muss (auf höchstens 25 Teilnehmer).

Für die weitere Verbreitung in akademischen Kreisen werden die spezifischen Standesorganisationen (ACL Europe, GLDV) sowie Interessensgemeinschaften allgemeinerer Standesorganisation (Gesellschaft für Informatik, Gesellschaft für deutsche Sprache) angesprochen. Zudem bestehen aus dem VirtuGrade Projekt Beziehungen zu weiteren CL-Standorten (Heidelberg, Potsdam, Zürich, Seoul). Die internationale Verbreitung wird dadurch gesichert, dass alle Materialien auch in Englisch erstellt werden.

Verwendung einer offenen Lehr-/Lernumgebung (vermutlich ILIAS) und starke Moduluarisierung der Lehr-/Lerneinheiten ermöglichen die Nutzung einzelner Module auch in anderen fachlichen Zusammenhängen, insbesondere Lexikographie und lexikalische Semantik als Teilgebiet der Sprachwissenschaft.

Zumindest der auf lexikalische Datenbanken und elektronische Wörterbücher bezogene Teil ist auch als Material für die Fortbildung in Verlagen und Firmen der ?language industry? interessant. Diese Firmen sollen in der Phase der Vorbereitung der Sommerschule gezielt angesprochen werden.

Es ist beabsichtigt, über eine Verwertungsgesellschaft Kontakte mit industriellen Großabnehmern für Corporate Universities aufzubauen. Die hierdurch zu erzielenden Einnahmen werden die Grundlage für die notwendige permanente Aktualisierung des Kurses schaffen.