V. Modul B2: Computerlexikographie
Prof. Dr. Erhard Hinrichs
Seminar für Sprachwissenschaft / Computerlinguistik
Universität
Tübingen
Wilhelmstr.
113
72074
Tübingen
Tel. 07071/29 75 446
Fax. 07071/55 13 35
E-Mail: eh@sfs.nphil.uni-tuebingen.de
Erstellung einer Lehr-/Lernumgebung für das Kursmodul
?Computerlexikographie?
Januar 2002 bis Dezember 2003.
·
1 BAT IIa im Umfang von 20 PM
·
1 SHK im Umfang von 15 PM
·
Verbrauchsmaterialien, Geschäftsbedarf
·
Reisekosten
Alle Systeme und
Anwendungen, die auf der Analyse und / oder Generierung natürlicher Sprache
basieren, benötigen neben diversen Regelsystemen reiche lexikalische
Ressourcen. Diese lexikalischen Ressourcen sollten in deklarativer Weise die
phonologischen, morphologischen, syntaktischen, semantischen und pragmatischen
Eigenschaften der lexikalischen Einheiten einer Sprache repräsentieren. Lexikalische
Ressourcen, die bei der maschinellen Verarbeitung natürlicher Sprache zum
Einsatz kommen, müssen sprachliches Wissen expliziter darstellen als
Wörterbücher, die sich an den menschlichen Benutzer richten. Nach anfänglicher
Marginalisierung des Lexikons als einer Komponente des Sprachwissens, in
welcher ausschließlich das idiosynkratische Wissen über Wörter aufgelistet
sein sollte, ist das Lexikon in den neunziger Jahren stärker in das Zentrum
linguistischer und computerlinguistischer Theoriebildung getreten.
Dabei stellen sich die
folgenden Fragen, auf die speziell die Computerlexikographie Antworten liefern
sollte:
1. Wie können
Beschreibungen, die in großem Umfang und hoher Qualität in Printwörterbüchern
für menschliche Benutzer vorliegen, beim Aufbau lexikalischer Ressourcen für
computerlinguistische Anwendungen nutzbar gemacht werden?
2. Wie können
Beschreibungen lexikalischer Zeichen aus Belegen ihres Vorkommens in authentischen
Texten, also in großen Textkorpora, gewonnen werden?
3. Welche Form müssen die
Beschreibungen lexikalischer Zeichen annehmen, damit sie von möglichst vielen
Formalismen und Systemen für die Verarbeitung natürlicher Sprache in unterschiedlichen
Anwendungskontexten korrekt interpretiert werden können ?
4. Wie können
Generalisierungen im Lexikon adäquat mit Hilfe von lexikalischen Regeln dargestellt
werden?
5. Wie können
maschinenlesbare Wörterbücher effektiv implementiert werden?
6. Welche Rolle spielen
sprachtechnologische Verfahren beim Design von Benutzungsfunktionen für
elektronische Wörterbücher, also zum Beispiel bei der Suchfunktion?
Das erfolgreiche
Absolvieren dieses Kursmoduls erfordert eine Reihe von Grundkenntnissen in
verschiedenen Gebieten des Computerlinguistik-Curriculums: Algorithmen und
Datenstrukturen, Parsing, formale Sprachen, Statistik. Es ist daher sinnvoll,
diesen Kurs im Hauptstudium zu unterrichten und ihn für Graduierte in
Graduiertenkollegs offenzuhalten. Der Kurs enthält Elemente, die zum Kern der
Computerlinguistik gehören und ebenso Elemente, die in das Gebiet benachbarter
Disziplinen fallen. Es ist daher anzustreben, die einzelnen Bestandteile des
Kurses bei allen Abhängigkeiten von einander modular zu gestalten.
1. Lexikalische Semantik. Diese Einführung wird
sich vor allem auf die für die Computerlexikographie wichtige Frage der
lexikalischen Polysemie und deren textuelles Pendant, die Ambiguität,
beziehen. Es werden neuere Ansätze zur Beschreibung und Formalisierung
lexikalischer Polysemie und zur (halb)automatischen Auflösung textueller
Ambiguität vorgestellt.
2. Lexikon vs. Enzyklopädie. In diesem Modul wird
auf die in theoretischer und kognitiver Linguistik sowie in der Artificial
Intelligence geführte Unterscheidung zwischen lexikalischem und
enzyklopädischem Wissen eingegangen. Diese Unterscheidung hat unmittelbare
Auswirkungen auf die Form traditioneller Referenzwerke. Es wird zu fragen sein,
ob diese Unterscheidung bei lexikalischen Ressourcen für Anwendungen der
maschinellen Sprachverarbeitung noch relevant ist oder ob diese Unterscheidung
aufgegeben werden soll.
3. Standardisierte Einträge
im traditionellen Printwörterbuch. Es gibt eine ausgefeilte Theorie der Makro-,
Mikro- und Verweisstrukturen von Printwörterbüchern. Diese Theorie wird
vorgestellt. Sie hat unmittelbare Relevanz für die formale Beschreibung von
standardisierten Wörterbuchartikeln. Es wird zu fragen sein, inwiefern diese
Strukturmodelle auch auf elektronische Wörterbücher anwendbar sind.
4. Formale
Beschreibungssprachen für Dokumente: SGML, XML, HTML. Das Wissen über die
Struktur von Wörterbuchartikeln kann dazu genutzt werden, die abstrakten
Strukturen in Dokumenttypdefinitionen umzusetzen und die Daten der konkreten
Mikrostrukturen mit einer der gängigen Markup-Sprachen zu elektronischen
Dokumenten aufzubereiten. In dieser Lehreinheit werden Grammatiken für einfache
und mäßig komplexe standardisierte Wörterbuchartikel entwickelt und diese mit
einem Standardwerkzeug für die Validierung von SGML/XML-Dokumenten überprüft
Grundlage ist die SGML-Spezifikation der TEI für Wörterbuchartikel.
5. Parsen von
Wörterbuchartikeln.
Ausgehend von der formalen Beschreibung der abstrakten Mikrostrukturen eines
Wörterbuchs kann ein Parser benutzt werden, der mit der formalen Strukturbeschreibung
als Dokumentgrammatik die konkreten Einträge analysiert und relevante Daten
extrahiert. Hierfür steht in Tübingen ein dedizierter Parser zur Verfügung, der
im Rahmen des Projektes für die Lehre aufbereitet wird (LexParse).
6. Struktur lexikalischer
Datenbasen für NLP Anwendungen: Maschinenlesbare Wörterbücher,
lexikalische Datenbanken, Lexikalische Wissensbasen. In diesem Modul wird
auf die verschiedenen Möglichkeiten eingegangen, lexikalische Daten zu
repräsentieren. Es wird auf den Unterschied zwischen statischen Datenbasen und
dynamischen Wissensbasen einzugehen sein.
7. Vom Text zum Wörterbuch
1: Lexikostatistik.
In diesem Modul wird in grundlegende Verfahren der Lexikostatistik eingeführt. Im Mittelpunkt stehen Wortfrequenz-Verteilungen in Texten und Schlüsse, die daraus für die lexikalische Repräsentation dieser Wörter gezogen werden können.
8. Vom Text zum Wörterbuch
2: Morphologische Analyse und Lemmatisierung. Im Kontrast zu den frequenz- und
verteilungsorientierten Verfahren stehen symbolische Verfahren der Abstraktion von Textwörtern zu lexikalischen Einheiten und statistische sowie regelbasierte Verfahren zur Ermittlung von Wortart und Bedeutung (Tagging). Es geht in dieser Lehreinheit vor allem um morphologische Analyse, Lemmatisierung und Wortartentaggung. In Zusammenhang mit diesem Modul soll in Verfahren des
maschinelllen Lernens eingeführt und mindestens ein maschineller Lerner
getestet werden.
9. Lexikalische
Akquisition aus Textkorpora. In dieser Lehreinheit wird dargestellt, welche Arten lexikalischer Beschreibungen aus Textkorpora generiert werden können und welche manuellen, halbautomatischen und automatischen Verfahren hierzu verwendet werden.
10. Kollokationen und Mehrwortlexeme. Die in den letzten
Modulen erworbenen theoretischen Kenntnisse sollen am Fallbeispiel der
Erkennung komplexer lexikalischer Einheiten in Texten angewendet werden.
Es werden gängige linguistische Klassifiktionen von Mehrwortlexemen vorgestellt.
Bei der Erkennung von Mehrwortlexemen in Texten ist vor allem deren Variabilität in Form und Distribution Texten zu beachten. Es soll versucht werden, diese Variabilität mittels regulärer Ausdrücke zu modellieren.
11. Lexikalische Regeln. In diesem Modul sollen
einige Beispiele für lexikalische Regeln betrachtet werden. Es wird zu fragen
sein, welchen Kriterien lexikalische Einheiten genügen müssen, um in die Menge
der Einheiten zu fallen, auf der diese Regel anwendbar sind. Es werden einfache
Fälle aus dem Bereich der Syntax und komplexere Fälle aus dem Bereich der
Semantik beschrieben. Dieses Modul kann mit den korrespondierenden Submodulen
des Kurses ?Grammatikformalismen und Parsing? vernetzt werden. Dort werden
einige Beispiele lexikalischer Regeln im Rahmen der HPSG präsentiert.
12. Implementierung
maschinenlesbarer Wörterbücher. In diesem Modul soll gezeigt werden, wie
Wörterbücher als endliche Automaten bzw. Übergangsnetzwerke effektiv
implementiert werden können. Darüberhinaus werden die in den letzten Lehreinheiten gewonnenen Erkenntnisse zum Verhältnis zwischen lexikalischer Einheit und textuellem Vorkommen operationalisiert, indem Bausteine für eine vom Text ausgehende flexible Suchmaschine für Wörterbücher erstellt werden.
Der Konzeption nach hat
dieser Kurs einen Umfang, der sowohl die für die Erstellung beantragten Mittel
als auch den Lehrzeitraum eines Semesters sprengt. Das Programm ist nur deshalb
zu realisieren, weil ein Teil der Materialien zu den mit einem Stern
gekennzeichneten Themen aus dem Kurs "Applied Computational Linguistics"
importiert werden kann. Hierfür ist die erste Projektphase von Juli 2001 bis
Dezember 2001 vorgesehen. Natürlich brauchen auch diese Submodule eine
computerlexikographische Vertiefung, die sie im Rahmen eines allgemeinen Kurses
zur angandten Computerlinguistik nicht haben konnten. Dass die Zahl der
Submodule den Umfang eines einsemestrigen Kurses sprengen ist beabsichtigt.
Neben den Kernmodulen des Faches werden die Studierenden entsprechend ihrer
Vorkenntnisse unterschiedliche Vertiefungs- und Ergänzungsmodule auswählen
können.
Der Kurs "Computerlexikographie" vermittelt
Kenntnisse, die in zunehmendem Maße von MitarbeiterInnen in den Redaktionen
von Lexikographieverlagen verlangt werden. In dem Maße, wie elektronische
Wörterbücher ins Zentrum des Verlagsangebots rücken, gewinnen Kenntnisse der
Präsentation und der Erschließung lexikographischer Inhalte in den
verschiedenen Medien - Text, Audio, Grafik und Video - und damit die in diesem
Kurs vermittelten sprachtechnologischen Grundlagen an Bedeutung.
Computerlexikographie ist ein datenintensives Geschäft. Die
Arbeitsmaterialien und Werkzeuge sind bereits oder werden in Zukunft in
Lexikographenarbeitsplätze integriert.
Auf solche Arbeitsbedingungen sollte eine angemessene
Ausbildung vorbereiten, die nicht nur die Benutzung, sondern auch die
Akquisition bzw. Entwicklung und Verwaltung der Daten und Werkzeuge zum
Gegenstand hat.
Das Fach "Computerlexikographie" kann
deshalb gar nicht anders als in einer computervermittelten Lehr- und
Arbeitsumgebung vermittelt werden. Ein mediengestützter Kurs ist die
Lehr-Lern-Umgebung, die sich für diesen Kurs anbietet.
Typischerweise sind der Bereich der Erstellung
lexikographischer Daten und der Bereich des elektronischen Publizierens dieser
Daten in Lexikographieverlagen getrennt, sie arbeiten aber bei der Erstellung
von Produkten eng zusammen. Teamwork ist also ein wichtiges Element der
späteren Arbeit und damit auch der Ausbildung. Deshalb wird für diesen Kurs das
Szenario des virtuellen Seminars mit starker Workshop-Komponente gewählt.
Die folgenden Elemente einer Lehr-/Lernumgebung werden
auch für diesen Kurs realisiert:
Information: Das
Kursmaterial wird in Form eines Hyperbuchs zur Verfügung gestellt. Das Hyperbuch
unterstützt die Selbstlernphasen innerhalb des Kurses. Neben dem Lehrstoff wird
es Übungen zur Selbkontrolle sowie ein themenspezifisches Portal ins Internet
geben. Qualifizierte Beiträge der Studierenden werden in das Hyperbuch aufgenommen.
Exploration: die
oben erwähnten Werkzeuge werden für das Web so aufbereitet, dass Studierende
sie in Form interaktiver Demos testen und verwenden können.
Kommunikation: Im
Zentrum des Seminars stehen Szenarien der viele:viele-Kommunikation: eine
Mailingliste und eine Newsgroup für die asynchrone Kommunikation und Chaträume
für die synchrone Kommunikation im Plenum und in Kleingruppen.
Die regelmäßigen Seminarsitzungen werden folgende
Struktur haben und den folgenden Lernzielen dienen:
1.
In Einzel- oder in
Gruppenarbeit werden kontroverse Themen in der Form von ?Anstoßreferate?
erarbeitet, im Seminar präsentiert und diskutiert
2.
Zu einzelnen Sitzungen
werden ExpertInnen, also Personen, die an zu den jeweiligen Themen forschen,
eingeladen.
3.
In den Seminaren werden
Fragen zum Lehrstoff und den Übungsaufgaben geklärt bzw. Musterlösungen
präsentiert.
Das Kursmodul deckt eine Lehrveranstaltung um Umfang
von 4 SWS ab. Hinzu kommen Übungen und Selbststudium im Umfang von etwa 2 SWS.
Der Betreuungsaufwand wird auf ca. 6 Stunden pro Unterrichtsstunde geschätzt.
Der Kurs "Computerlexikographie" rekurriert auf verschiedene Aktivitäten und Projekte
am Seminar
für Sprachwissenschaft. Die Ergebnisse dieser Projekte sollen für die Zwecke
des Unterrichts aufbereitet werden.
·
GermaNet: GermaNet ist ein
lexikalisch-semantisch und ontologisch organisiertes Wortnetz für das Deutsche,
das an Wortnetze anderer Sprachen im Rahmen von "EuroWordNet" angebunden
wurde. GermaNet wird im Rahmen des Kurses als maschinenlesbare lexikalische Ressource
bzw. lexikalische Datenbank verwendet, anhand derer vor allem Datenmodellierung
und die Verwendung von Markup-Sprachen dargestellt werden.
·
Lexparse
ist ein
Parser für die Analyse von Wörterbuchartikeln auf der Grundlage entsprechender
Grammatiken. LexParse wird als Referenzwerkzeug für das Wörterbuchparsing verwendet.
·
DeReKo: Aufbau eines deutschen
Referenzkorpus. Aufbereitung und Annotation der Texte bis hinauf zur Satzebene,
incl. Entwicklung und Evaluation der entsprechenden Werkzeuge bilden den
Tübinger Beitrag zu diesem Verbundprojekt. Die Korpora des Projektes sowie
deren Annotierung werden für Beispiele des korpusbasierten Akquisition
lexikalischer Daten verwendet.
·
Nutzung
der Eigenschaften endlicher Automaten sowie von Übergangsnetzwerken für die effektive
Implementierung von Wörterbüchern.
Die Ergebnisse der
genannten Projekte müssen in die Lehr-/Lernumgebung des Kurses integriert
werden.
Virtuelles Seminar
?Applied Computational Linguistics?: Im Rahmen des Verbundprojektes "VirtuGrade"
(virtuelle Szenarien in der Graduiertenausbildung) wurde am Lehrstuhl von
Professor Hinrichs ein Kurs "Applied Computational Linguistics"
entworfen, entwickelt und unterrichtet.
Die Lehr-/Lernumgebung des Kurses "Applied Computational
Linguistics" hatte den Einsatz von Werkzeugen für die computervermittelte
Kommunikation im Rahmen eines virtuellen Seminars als Schwerpunkt. Es kamen
asynchrone und vor allem synchrone Medien zum Einsatz, über die die Sitzungen
an zwei Standorten (Tübingen und Heidelberg) moderiert wurden. Lehreinheiten,
interaktive Anteile und Übungen standen den Studierenden in Form eines
Hyperbuches zur Verfügung. Die Studierenden nutzten eine Mailingliste und eine
gemeinsame Arbeitsumgebung (BSCW). Die Seminare wurden mit Hilfe eines
Chatwerkzeuges moderiert. Das im SS 2000 abgehaltene Seminar hat wichtige
Erkenntnisse über Möglichkeiten und Grenzen der computervermittelten Kommunikation
in der Situation der gemeinsamen Wissensaneignung gebracht. Diese Erfahrungen,
die auch einen Anforderungskatalog für die mediale Unterstützung dieser
Lehrform umfasst, wird Tübingen in das Projektkonsorium einbringen.
MiLCA verfolgt das Ziel,
große Teile eines modellhaften Curriculums für das Fach
Computerlinguistik medial aufzubereiten. Das impliziert, dass, wie in jedem guten
Curriculum, die Vernetzung und Verzahnung der Module. Letztendlich ist die
Entscheidung für eine gemeinsame Plattform für die Lehrmaterialien auch dadurch
begründet, dass die impliziten und expliziten Bezüge zwischen den Lehreinheiten
leicht sichtbar und für die Studierenden nachvollziehbar gemacht werden
können. Die Studierenden erhalten auch in der Beschäftigung mit den Details
immer wieder den Überblick über den Gesamtzusammenhang.
Darüber hinaus gibt es enge Bezüge zwischen der
Lehreinheit Computerlexikographie und zwei weiteren Lehreinheiten, und dies in
zweierlei Hinsicht. Es steht in engem Zusammenhang mit dem Modul
"Texttechnologie" und, etwas weniger eng, mit dem Modul I-CALL.
·
Im Bereich der
lexikalischen Analyse von Texten gibt es einige Berührungspunkte mit der Texttechnologie.
Im Rahmen der Texttechnologie ist vor allem die Anwendung entsprechender
Verfahren für eine spezielle Aufgabe relevant. Es ist zu überlegen, ob die
Module des Teiles Texttechnologie, die den theoretischen Hintergrund der
Anwendung bilden, als vertiefende Module im Rahmen des Kurses
?Computerlexikographie? zur individuellen Vertiefung angeboten werden,
insbesondere im Hinblick auf einschlägige Abschlussarbeiten einzelner Studierender.
·
Der Einsatz
sprachtechnologischer Verfahren bei Aufbereitung und Präsentation lexikalischer
Daten spielt auch im Bereich des I-CALL eine Rolle. Die entsprechenden Module
unseres Kurses sollten deshalb mit der Lehreinheit I-CALL vernetzt werden.
Auch dies bedeutet eine Erweiterung des Gesichtsfeldes der Studierenden.
Breidt, Elisabeth (1998), "Neuartige Wörterbücher für Mensch und
Maschine: Wörterbuchdatenbanken in COMPASS", in: H. E. Wiegand (Hg.),
Wörterbücher in der Diskussion: Vorträge aus dem Heidelberger Lexikographischen
Kolloquium. III Tübingen, 1-28.
Engelberg,
Stefan / Lothar Lemnitzer (2001), Einführung in die Lexikographie und Wörterbuchbenutzung.
Tübingen:Stauffenburg (erscheint Frühjahr 2002).
Feldweg,
Helmut (1997),
?Wörterbücher und neue Medien: Alter Wein in neuen Schläuchen??, Zeitschrift
für Literaturwissenschaft und Linguistik Heft 107, 110-122.
Feldweg,
Helmut/ Erhard W. Hinrichs (Hgg., 1996), Lexikon und Text. Wiederverwendbare Methoden
und Ressourcen zur linguistischen Erschließung des Deutschen, Tübingen.
Heid,
Ulrich (1997),
Zur Strukturierung von einsprachigen und kontrastiven elektronischen Wörterbüchern,
Tübingen (= Lexicographica Series Maior 77)
Kunze, C. (2001), Lexikalisch-semantische Wortnetze. In: Carstensen, K.-U. et al. (Hrsg.), Computerlingusitik und Sprachtechnologie: eine Einfuehrung. Heidelberg; Berlin: Spektrum, Akademischer Verlag, S.
386-393.
Lemnitzer,
Lothar (1997): Extraktion
komplexer Lexeme aus Textkorpora. Tübingen:Niemeyer. Storrer, Angelika / Ralf Hauser (1993), ?Dictionary Entry Parsing Using the LexParse System?, in: Lexicographica
9, 174-219. Zur Realisierung des Kurses ?Computerlexikographie?
gehören die folgenden Aufgaben, die in Arbeitspaketen zu definieren sind: 1.
Administration des
Kurses (1 PM) ·
Kontakt mit der
Projektkoordination ·
Darstellung des
Projektes auf Messen und Tagungen ·
Abstimmung mit den
Projektpartnern ·
Teilnahme an Workshops
und Schulungen 2.
Übernahme und
Überarbeitung der für den Kurs Computerlexikographie relevanten Module aus dem
Kurs ?Applied Computational Linguistics? ·
einige Module des Kurses
?Applied Computational Linguistics? - texttechnologische Verfahren,
lexikalische Semantik, Kodierung von Wörterbucheinträgen - können übernommen
werden und bilden das Grundgerüst des Kurses ?Computerlexikographie? ·
die Kurseinheiten müssen
zum Teil auf den neuesten Stand der Forschung gebracht werden ·
die Kurseinheiten müssen
in das Deutsche übersetzt werden 3.
mediendidaktische
Auswertung der jeweiligen Kurse (1 PM) ·
Analyse der Auswertung
der Fragebögen ·
Planung von
mediendidaktischen Settings, die eine gezielte Evaluation gestatten, z.B. Bildung
von standortübergreifenden Gruppen oder geschlechtsspezifischen Gruppen, um die
spezifischen Interessen und Dispositionen weiblicher Studierender zu evaluieren 4.
Übernahme und Test der
gemeinsamen Lehr-/Lernplattform (1 PM) ·
Erstellung eines
projektspezifischen Anforderungskatalogs ·
Teilnahme an Einführung
/ Schulung durch den Projektkoordinator ·
Vorbereitung des Imports
der existierenden Lehrmaterialien 5.
Erstellung neuer
Lehreinheiten für den Kurs ?Computerlexikographie? (8 PM) ·
Erstellung der
Lehrbuchtexte ·
Auswahl kontroverser
Texte für die Vorbereitung von Positionsreferaten ·
Kontakt zu Experten der
einzelnen Themen zur Vorbereitung von Expertenchats ·
Erstellen von
Übungsaufgaben ·
Erstellen
lerndidaktischer Settings für die einzelnen Module ·
Integration von
Software-Demos bei einigen der Module 6.
Anpassung des COMPASS-Demo
an die Bedürfnisse des Kurses ?Computerlexikographie? (2 PM) ·
Integration weiterer auf
dem Netz verfügbarer Wörterbücher in den Prototypen ·
Reimplementierung des
Java-Codes ·
Verbindung der
Prototypen mit Germanet-Daten ·
Verbindung des Prototypen
mit der Ausgabe des DeReKO Annotationswerkzeugs 7.
Anpassung des LexParse
Wörterbuchparsers an die Bedürfnisse des Kurses ?Computerlexikographie? (2 PM) ·
Entwicklung einer
Java-Benutzerschnittstelle für das Werkzeug ·
Erstellung einer
Dokumentation des Werkzeugs und eines Tutorials ·
Erstellung von
Wörterbuchartikel-Mustern und entsprechender Strukturgrammatiken 8.
Anpassung einiger
kleinerer Programme für texttechnologische Aufgaben (Tokenisierung,
Lemmatisierung, Tagger, Chunk Parser, Tool zur Visualisierung endlicher
Automaten, statistisches Tool für die Identifizierung von Mehrwortlexemen) an
die Bedürfnisse des Kurses ?Computerlexikographie? (3 PM) ·
Erstellung von
Benutzerschnittstellen mit PERL oder Java, sofern nicht bereits vorhanden ·
Erstellung der
Dokumentation sowie von Tutorials, sofern nicht bereits vorhanden 9.
Durchführung des Kurses
im SS 2002, im SS 2003 sowie auf der Sommerschule (3 PM) ·
Leitung der
Seminarsitzungen und tutorielle Betreuung ·
Verwaltung der
asynchronen Kommunikationsmittel (Mailinglist, Newsgroups, FAQ) ·
Durchsicht und Korrektur
der Lösungen zu den Übungen 10. Vorbereitung des Kurses für die Verbreitung bei
weiteren akademischen und nichtakademischen Institutionen ·
Erstellung eines
Kurshandbuchs 11. Einrichtung eines Internetportals für die Fachinhalte
?Lexikographie? und ?Computerlexikographie? (1 PM) ·
Recherchen im WWW nach
fachbezogenen Inhalten und Bewertung der Fundseiten ·
Erstellung eines
fachlich gegliederten und kommentierten Portals ·
regelmäßige
Aktualisierung der Portals; Überprüfung der Links ·
Kontakt zu den Autoren
der in das Portal aufgenommenen Seiten 12. Übersetzung der textuellen Anteile des Kurses (ins
Englische bzw. ins Deutsche) (2 PM) 13. Test der Softwarekomponenten (4 PM) ·
Entwicklung eines
Testverfahrens, das auf die einzelnen Softwarekomponenten abgestimmt ist ·
Tests der verschiedenen
Versionen der Softwarekomponenten ·
Anfertigen von
Testprotokollen 14. Prüfung der multimedialen Lehrinhalte auf Konsistenz
(1 PM) ·
Entwicklung eines
Testverfahrens ·
Sichtung von Software,
durch die einige Tests automatisiert werden können ·
Anfertigen von
Testprotokollen 15. Etikettierung eines Referenzkorpus für die Aufgaben
der lexikalischen Akquisition (7 PM) ·
Entwurf von
Auswahlkriterien ·
Auswahl von Texten aus
dem deutschen Referenzkorpus ·
automatische Annotierung
der ausgewählten Texte ·
manuelle Kontrolle der
Annotation ·
Test der
texttechnologischen Werkzeuge auf den Beispieltexten ·
Erstellen eines
Handbuchs, das die Auswahl- und Annotationskriterien dokumentiert Anmerkungen ·
Aufgaben
/ Arbeitspakete 1 und 3 -10 werden von die wissenschaftliche Mitarbeiterin
durchgeführt ·
Aufgaben
/ Arbeitspakete 11- 15 werden von der studentischen Hilfkraft durchgeführt. ·
Aufgabe
2 wird von den Mitarbeitern des VirtuGrade Projektes in der ersten
MiLCA-Projektphase (7/2001 - 12/2001) erbracht und schlägt deshalb für dieses
Projekt nicht zu Buche. 1.
Der
Kurs "Applied Computational Linguistics" wird im Sommersemester 2001
erneut und weitgehend mit den bereits entwickelten Inhalten, angeboten. An der
Veranstaltung werden neben den oben genannten Partnern die Partner des MiLCA
Projektes sowie ein mindestens weiterer Fachbereich an dem Kurs partizipieren.
Dadurch ist bereits vor Beginn des Projektes für die Partner die Möglichkeit
gegeben, eine modellhafte Lehr-/Lernumgebung kennenzulernen. 2.
Als
Meilensteine des Gesamtprojektes sind zwei Workshops und eine Sommerschule
vorgesehen. Verbundworkshop I im Frühsommer 2002 befasst sich mit der
Lernumgebung, dem didaktischen Konzept und der Evaluation und bereitet so den
ersten Einsatz der Lehreinheiten vor. Verbundworkshop 2 im Herbst 2002 befasst
sich mit den ersten Evaluationsergebnissen und bereitet die weiter gehende
Verbreitung der Lehreinheiten bei akademischen und nichtakademischen Partnern
vor. Auf der Sommerschule werden alle Lehreinheiten im Zusammenhang und vor
projektexternen adademischen und nichtakademischen Partnern eingesetzt. 3.
Aus
dem Verlauf dieses Teilprojektes ergeben sich natürlicherweise Meilensteine, an
denen der Erfolg der bisherigen Arbeit überprüft und evaluiert wird. Dies sind
der Zeitpunkt nach der ersten Durchführung der Lehrveranstaltung (Juli 2002)
und nach Durchführung der zweiten Lehrveranstaltung und der Sommerschule
(Herbst 2003). In der Erprobungsphase erreicht der Kurs Studierende
am Standort Tübingen, wobei gezielt auch in der neuphilogischen Fakultät für
den Kurs geworben wird. Das virtuelle Seminar wird eine traditionelle
Lehrveranstaltung zu diesem Thema ersetzen und dessen Platz im
BA-/MA-Curriculum des Faches einnehmen. Durch diese feste curriculare
Einbindung ist zugleich gesichert, dass das Angebot auch nach Projektende
genutzt und gepflegt wird. Darüber hinaus wird der Kurs bei den Projektpartnern
angeboten. Es ist angesichts der Lehrform virtuelles Seminar aber davon
auszugehen, dass die Zahl der TeilnehmerInnen in der Erprobungsphase
beschränkt bleiben muss (auf höchstens 25 Teilnehmer). Für die weitere Verbreitung in akademischen Kreisen
werden die spezifischen Standesorganisationen (ACL Europe, GLDV) sowie
Interessensgemeinschaften allgemeinerer Standesorganisation (Gesellschaft für
Informatik, Gesellschaft für deutsche Sprache) angesprochen. Zudem bestehen aus
dem VirtuGrade Projekt Beziehungen zu weiteren CL-Standorten (Heidelberg,
Potsdam, Zürich, Seoul). Die internationale Verbreitung wird dadurch
gesichert, dass alle Materialien auch in Englisch erstellt werden. Verwendung einer offenen Lehr-/Lernumgebung
(vermutlich ILIAS) und starke Moduluarisierung der Lehr-/Lerneinheiten
ermöglichen die Nutzung einzelner Module auch in anderen fachlichen
Zusammenhängen, insbesondere Lexikographie und lexikalische Semantik als
Teilgebiet der Sprachwissenschaft. Zumindest der auf
lexikalische Datenbanken und elektronische Wörterbücher bezogene Teil ist auch
als Material für die Fortbildung in Verlagen und Firmen der ?language industry?
interessant. Diese Firmen sollen in der Phase der Vorbereitung der Sommerschule
gezielt angesprochen werden. Es ist beabsichtigt,
über eine Verwertungsgesellschaft Kontakte mit industriellen Großabnehmern für
Corporate Universities aufzubauen. Die hierdurch zu erzielenden Einnahmen
werden die Grundlage für die notwendige permanente Aktualisierung des Kurses
schaffen. 3
Aufgaben und Arbeitspakete
4 Komponenten
und Meilensteine, an denen sich die Beteiligung des Antragstellers ausrichtet.
5 Kosten-Nutzen-Relation