Modul B1:� Informationserschlie�ung

Thema

Erstellung eines Moduls zum Thema Informationserschlie�ung (Information Retrieval)

Beschreibung des Moduls

Inhalte

Der Arbeitsbereich Theoretische Computerlinguistik (Prof. M�nnich) beteiligt sich mit einem Kurs �ber Information Retrieval (Informationserschlie�ung), der im Hauptstudium f�r den Studiengang Allgemeine Sprachwisschaft und Nebenf�cher und im neu beantragten BA-Studiengang Computerlinguistik curricular verankert ist. Au�erdem k�nnen Studenten der Informatik mit Nebenfach Linguistik und der Medieninformatik diesen Kurs im Wahlpflichtbereich des Hauptstudiums belegen. Der Kurs soll eine Einf�hrung in die Methoden und Techniken in Information Retrieval geben und au�erdem die Anwendung von computerlinguistischen Verfahren in diesem Bereich sowie Indexierung und Retrieval bei Multimedia-Dokumenten ber�cksichtigen.

Zu den klassischen Methoden und Techniken der Volltextrecherche z�hlen vor allem effiziente Indexierungsmethoden, string-matching-Verfahren und Suchalgorithmen, die in Kombination mit verschiedenen Retrieval-Strategien (von simplen Vorkommenstests bis hin zu verfeinerten Verfahren wie extended boolean retrieval, �hnlichkeitssuche oder auch diverse Methoden der query expansion) vor allem am Beispiel englischer Testkollektionen �berpr�ft wurden. F�r die Evaluation von IR-Systemen gibt es etablierte Ma�e (wie etwa recall und precision) und eine ganze Reihe von statistischen Berechnungsverfahren.

Computerlinguistische Verfahren werden in j�ngster Zeit verst�rkt bei der Informationserschlie�ung angewandt, wobei syntaktische und morphologische Methoden und Techniken die gr��te Verbreitung haben. Daneben spielen Kenntnisse aus der lexikalischen Semantik (automatische Thesauruserstellung) oder aus der Phonetik/Phonologie (fehlertolerante string-matching-Verfahren, Spracherkennung) eine wachsende Rolle. Linguistik-basierte Erschlie�ungsverfahren zeichnen sich durchweg durch h�here Pr�zision aus. Werden z. B. syntaktische Analysen zur Indexerstellung herangezogen, ergibt sich etwa gegen�ber den bekannten Suchmaschinen Im Internet der Vorteil, dass zusammengesetzte Phrasen (wie z.B. "Strategien zur Umsetzung regionaler Nachhaltigkeit") als Einheit indiziert werden k�nnen. Werden die Indexterme auch noch �bersetzt, k�nnen selbst Dokumente in einer anderen Sprache gesucht werden, ohne dass dazu eine �bersetzung der gesamen Datenbasis n�tig w�re. Dieses so genannte cross-language information retrieval war in den letzten Jahren ein Sonderthema der Text Retrieval Conference (TREC), bei denen der Antragsteller im Rahmen des Twenty-One- Projekts teilgenommen hat.

Klassische Modelle des IR betrachten Texte als unstrukturierte und flache Folgen von W�rtern. Praktisch alle Textdokumente (wie z.B. B�cher, Zeitungen, Brosch�ren, Arztrezepte, Zeugnisse, Formulare, Gesetzestexte, Rechnungen) weisen jedoch eine reichhaltige und charakteristische logische Struktur auf. Durch die Verwendung von Markup-Sprachen wie SGML und XML, die heute in fast allen Bereichen der Textverarbeitung Einzug gehalten haben, wird die logische Struktur in expliziter Weise erfasst, dar�berhinaus werden inhaltlich besonders relevante Abschnitte ihrer semantischen Rolle nach markiert. Damit k�nnen Dokumentensammlungen, wie sie in umfangreicher Form insbesondere im World Wide Web vorliegen, als spezielle Datenbanken mit semi-strukturierten Daten betrachtet werden.

Die besondere Herausforderung, die sich hieraus f�r das� Retrieval in Dokumentendatenbanken ergibt, besteht in der Entwicklung effizienter Abfragetechniken, mit denen der Informationssuchende in ad�quater Form sowohl auf Struktur als auch auf textuellen Inhalt von Dokumenten und Dokumententeilen Bezug nehmen kann. Ein ganz �hnliches Problem ergibt sich bei der Abfrage linguistischer Baumdatenbanken, wo die Eintr�ge gleichfalls textuelle Aspekte (Wortvorkommen) und strukturelle Aspekte vereinen. Vor diesem Hintergrund entwickelte sich die Abfrage von Baumdatenbanken mit textuellen Inhalten in den letzten Jahren zu einem intensiv bearbeiteten Gebiet, in dem klassisches� Information Retrieval, Computerlinguistik und Datenbanktechnologie eine neue Verbindung eingehen.

Mit dem Teilmodul IR auf strukturierten Dokumenten soll ein vertiefter Einblick in die formalen und algorithmischen Hintergr�nde bei der Entwicklung praktischer Systeme zur Abfrage strukturierter Dokumente gegeben werden. Parallel werden die in vieler Hinsicht �hnlichen M�glichkeiten und Schwierigkeiten bei der Abfrage linguistischer Baumdatenbanken beleuchtet.

Struktur des Moduls

1.	Einf�hrung und allgemeine Verfahren der Informationserschlie�ung
2.	Vektorraumbasierte Modelle
3.	Evaluation von IR-Systemen
4.	Computerlinguistische Verfahren bei der Informationserschlie�ung
5.	IR auf strukturierten Dokumenten
6.	Indexierung und Retrieval von Multimedia-Dokumenten

Die ersten drei Module stellen die Kernmodule dar, die im Rahmen des virtuellen Seminars auf jeden Fall zu bearbeiten sind. Die letzten drei Module k�nnen wahlweise als Schwerpunkt von den Teilnehmern der Veranstaltungen gew�hlt werden. Aufgrund des Umfangs wird es nicht m�glich sein, die Kernmodule und alle diese Zusatzmodule in einem Semester durchzuarbeiten.

Teilmodul 1: Einf�hrung und allgemeine Verfahren der Informationserschlie�ung

In diesem Modul sollen Grundkenntnisse der Informationserschlie�ung und ihrer Geschichte vermittelt werden. Die wichtigsten Themen sind: Unterschiede zur Datenbankabfrage, Texttypen und deren Eignung zur Erschlie�ung, Indexerstellung, Retrievalstrategien (Boolesches Retrieval, relevance feedback etc.).

Teilmodul 2: Vektorraumbasierte Modelle

Vektorraummodelle stellen einen wichtigen Anteil der IR-Systeme; sie erm�glichen eine Gewichtigung der Indexw�rter in einem Dokument, die die Bedeutung der Begriffe f�r das Dokument im Rahmen der Gesamtkollektion simulieren soll. In dieser Einheit sollen die wichtigsten Berechnungsverfahren f�r Wortgewichtungen und f�r die �hnlichkeit von Dokumenten vorgestellt werden. Eigene Programmierarbeiten der Teilnehmer sind wichtig in dieser Phase; die Lektionen dieses Teilmoduls setzen au�erdem gewisse mathematische Grundkenntnisse (in Lineare Algebra, Statistik und Wahrscheinlichkeitsrechnung) voraus.

Teilmodul 3: Evaluation von IR-Systemen

Themen dieses Kapitels sind die traditionellen Ma�e wie recall und precision, Probleme und Aussagekraft dieser Ma�e insbesondere bei l�ngeren Dokumenten und Video-Materialien, das Verfahren known item retrieval und Bewertungen in diesem Zusammenhang, neuere Bewertungsverfahren (wie z.B. video recall quality).

Teilmodul 4: Computerlinguistische Verfahren bei der Informationserschlie�ung

Die Anwendung von Lemmatisierung und Parsing bei IR-Systemen und die dadurch erzielte qualitative Verbesserung sind der Hauptgegenstand dieser Lehr-Lerneinheiten. Au�erdem werden die verschiedenen M�glichkeiten des cross-language Information Retrieval und die Verwendung semantischer und konzeptueller Repr�sentationen behandelt.

Teilmodul 5: IR auf strukturierten Dokumenten

Es sollen zun�chst kurz SGML- und XML-markierte Dokumente sowie linguistische Baumdatenbanken als Anwendungsfelder der nachfolgend behandelten Techniken betrachtet werden. Eine detaillierte Diskussion von SGML und XML er�brigt sich durch einen Querverweis auf den Teilmodul Texttechnologie.

Nachfolgend werden wichtige Ans�tze zur Abfrage strukturierter Dokumente (PAT, Regionenformalismen, Proximal Nodes, Formalismen des Baum-Matching, Dolores, XSLT) unter folgenden Gesichtpunkten dargestellt:

zugrundegelegte mathematische Modellierung von Dokumentensammlungen,
Syntax der Anfragesprache,
logische und algebraische Semantik der Anfragesprache,
Algorithmische Grundlagen der Antwortberechnung,
Implementierungsaspekte, Verwendung spezieller Indexstrukturen.

Die M�glichkeiten der Anfrageformulierung sollen jeweils durch eine Reihe praxisnaher Beispiele diskutiert werden. Die Formalismen sollen dann in Bezug auf ihre formale� Ausdrucksst�rke, Effizienz und im Hinblick auf M�glichkeiten des Feedbacks und der Antwortinspektion verglichen werden. In diesem Rahmen wird auch das Problem der Relevanzbewertung von Antworten beim Retrieval strukturierter Dokumente thematisiert.

Durch die Bereitstellung eines prototypischen Systems zur Abfrage strukturierter Dokumente sollen den Kursteilnehmern die neuen M�glichkeiten einer kombinerten phrasenorientierten� und strukturellen Suche konkret verdeutlicht werden. Bei der Auswahl der hierf�r verwendeten Dokumentensammlung wird eine Verflechtung mit dem Modul Texttechnologie angestrebt.

Teilmodul 6: Indexierung und Retrieval von Multimedia-Dokumenten

F�r die Indexierung und das Retrieval von Bildern, Audio- und Video-Materialien gibt es in j�ngster Zeit interessante Verfahren, die hier vorgestellt werden. Insbesondere die Ans�tze des content-based vs. contex-based indexing machen deutlich, welche Vorz�ge textbasierte Verfahren auch bei der Indexierung von Multimedia-Dokumenten (immer noch) haben. Beim Video-Retrieval spielen zus�tzlich die Browsing-Verfahren f�r die Fundstellen eine gro�e Rolle.

Besonderheiten der didaktischen Umsetzung

Im Teilmodul Informationserschlie�ung sind synchrone virtuelle Seminare geplant, die durch asynchrone Kommunikationsmedien erg�nzt werden. Die Seminarsitzungen sollen in der Regel von T�bingen aus moderiert werden; die Dozenten in Tilburg und M�nchen sind Experten f�r Teilmodule und fungieren als Moderatoren in Sitzungen �ber diese Themen. Eine Ausnahme bildet die Veranstaltung in Tilburg; dort werden wesentlich h�here Teilnehmerzahlen erwartet. Hier werden mehrere, parallele synchrone Seminare abgehalten werden, von denen eines gleichzeitig mit dem virtuellen Seminar f�r die anderen MiLCA-Teilnehmer stattfinden wird.

Als Kommunikationswerkzeuge sind Chat, Whiteboard und Web-Kameras vorgesehen. Erg�nzend sollen eMail, Newsgroup und andere asynchrone Werkzeuge nur f�r organisatorische Mitteilungen wie z.B. Terminabsprachen verwendet werden.

Der Schwerpunkt soll auf der Strukturierung der Kommunikation in Zusammenhang mit der Moderation durch die Dozenten liegen. Es soll versucht werden, die Diskussion der Teilnehmer untereinander zu stimulieren, ohne dass dadurch die individuelle Qualifizierungsm�glichkeit, die bei diesem Kurs u.a. in Form von Programmieraufgaben gegeben ist, beeintr�chtigt wird.

Erg�nzend zum virtuellen Szenario planen wir eine Pr�senzveranstaltung pro Semester, bei der die Teilnehmer ihre eigenen Programmierarbeiten vorstellen sollen. Dies gibt ihnen die Gelegenheit, in internationalem Rahmen Vortragserfahrungen zu sammeln, und nat�rlich auch die M�glichkeit, die virtuellen Bekanntschaften in wirkliche zu �berf�hren. Aufgrund der gesch�tzten Teilnehmerzahlen wird die kosteng�nstigste Variante voraussichtlich in zwei Pr�senzveranstaltungen in M�nchen und Tilburg bestehen.

Zus�tzlich zu der im Gesamtantrag erw�hnten didaktischen Konzeption wird bei diesem Teilmodul das selbstgesteuerte Lernen durch die kreative T�tigkeit an den eigenen Programmierungen durch die Lernenden erg�nzt. Der Wissenserwerb wird also durch diese praktischen Erfahrungen begleitet.

Au�erdem entstehen durch die praktische T�tigkeit der Studierenden sich selbst verbessernde Systeme, bei denen das Gelernte von den Studierenden unmittelbar zur Optimierung der eigenen Lernumgebung eingesetzt wird. Diese Selbstbez�glichkeit erm�glicht ein quasi symbiotisches Verh�ltnis von Theorie und Praxis, wie es in traditionellen Lehr- und Lernformen nicht ann�hernd geleistet werden kann.

Einige Module stellen einen unmittelbaren Bezug zu aktuellen Forschungsfeldern dar (vor allem die Teilmodule 5 und 6) und m�ssen deshalb laufend aktualisiert werden. Nat�rlich sind diese Gebiete besonders interessant f�r vertiefte Arbeiten der jungen Wissenschaftler.

2.4 Integration mit anderen MiLCA-Modulen

Die Kooperation mit anderen Partnern im Rahmen von MiLCA impliziert einerseits, dass die Lehr-/ Lerneinheiten in Module zusammengefasst werden, die nach Bedarf mit den Modulen der Partner verlinkt werden k�nnen. Diese Module sollen wichtige Themenbereiche im IR abdecken und auf bestimmte Teilnehmerprofile zugeschnitten sein. Das Modul vektorraumbasierte Modelle bietet sich zum Beispiel an, wenn Grundkenntnisse der Informationserschlie�ung vorhanden sind; es vermittelt gezielt die verschiedenen Gewichtungsverfahren f�r die Indexierung bei diesen Modellen.

Die Kooperation innerhalb von MiLCA wird andererseits die Anwendungen von computerlinguistischen Verfahren bei der Informationserschlie�ung auf eine solidere Basis stellen. Als Kurs im Rahmen der Anwendungen der Computerlinguistik beinhaltet er Lerneinheiten, die in ganz besonderem Ma�e mit den Kursen der Partner verbunden sind. Sollten manche Teilnehmer den Wunsch haben, eine grundlegende Methode zu vertiefen, so werden sie auf einen Kurs der Partner verwiesen. Im Kapitel Indexierung von Video-Materialien werden beispielsweise text-basierte Verfahren erw�hnt, die mittels Spracherkennung der Tonspuren automatisch time-codierte Texte generieren und damit dann Videosequenzen indizieren. Interessierte Teilnehmer sollten sich an dieser Stelle �ber die besonderen Techniken und Probleme der Spracherkennung in den Modulen der Universit�t Bonn informieren k�nnen.

Im Teilmodul Computerlinguistische Verfahren bei der Informationserschlie�ung werden Grundkenntnisse von Computational Lexicography und der Implementierung von Grammatikfragmenten vorausgesetzt. Teilnehmer, die auf diesen Gebieten Unsicherheiten haben, k�nnen nat�rlich ihre Kenntnisse in den entsprechenden Modulen der Partner auffrischen.

Das Teilmodul IR auf strukturierten Dokumenten weist einen direkten Bezug zum Teilmodul Texttechnologie auf. W�hrend das letztgenannte Modul einen Schwerpunkt auf den praktischen Einsatz unterschiedlicher Techniken der Dokumentenbearbeitung im Rahmen computerlinguistischer Anwendungen legt, zielt das Modul IR auf strukturierten Dokumenten darauf ab, die mathematischen und algorithmischen Grundlagen von Systemen speziell zur Abfrage von Dokumentensammlungen und linguistischen Datenbanken deutlich zu machen. Wie schon im Bereich des Teilmoduls 4 besteht eine direkte Beziehungen auch zum Modul Computerlexikographie, etwa im Bereich der Lemmatisierung und automatischen Indexierung von Dokumenten.

Durch die Einbeziehung linguistischer Baumdatenbanken in die Betrachtungen ergeben sich viele zus�tzliche Verbindungen zum Modul Grammatikformalismen und Parsing.

Zus�tzliche Angaben

Besondere Erfahrungen des Antragsstellers

Die beteiligten Gruppen in T�bingen, M�nchen und Tilburg haben in den letzten Jahren regelm��ig Kurse zur Informationserschlie�ung durchgef�hrt und wissenschaftliche Arbeiten zu damit verbundenen Themen ver�ffentlicht. Der Kurs Information Retrieval baut auf der Mitarbeit des Arbeitsbereichs Theoretische Computerlinguistik (Prof. M�nnich) in folgenden europ�ischen Verbundprojekten auf:

Twenty-One (Development of a Multimedia Information Dissemination and Transaction Tool)
PopEye (A Multilingual Continuous Video Disclosing Tool, Based on Subtitle Indexing and Partial Translation)
Olive (A Multilingual Indexing Tool for Broadcast Material Based on Speech Recognition)

K. Kr�ger-Thielmann hat auf dem Gebiet der Evaluation im Rahmen von IR und insbesondere f�r Multimedia-Dokumente einschl�gige Erfahrungen gesammelt; sie ist in der Vorbereitungsgruppe f�r den "video track" bei TREC10, der "Weltolympiade" f�r IR-Systeme.

Die Vorarbeiten, die im Rahmen von VirtuGrade , aber auch davon unabh�ngig am CIS (Centrum f�r Informations- und Sprachverarbeitung, LMU M�nchen) erfolgten, werden als Basis f�r die Kurse in MiLCA dienen. �berarbeitungen von vorhandenen Lehr-Lerneinheiten, Anpassungen an neue Formate, Neuentwicklung einiger Kapitel sowie die Gruppierung der Einheiten zu neuen Modulen werden einen Hauptanteil der Arbeiten f�r MiLCA ausmachen.

Die Arbeitsgruppe von Prof. Schulz besch�ftigt sich seit mehreren Jahren intensiv mit verschiedenen Aspekten der Bearbeitung strukturierter Dokumenten sowie mit Techniken der Inhaltsanalyse und Strukturanreicherung bei Dokumenten. Im Rahmen eines DFG-Projekts wird derzeit ein in der Gruppe entwickeltes Abfragemodell f�r Baumdatenbanken implementiert und in verschiedene Richtungen weiterentwickelt. Das Modell zeichnet sich insbesondere durch eine spezielle Art der Erfassung und Darstellung relevanter Dokumententeile in der Antwortmenge aus, die neue M�glichkeiten zur Inspektion der Antwortmenge er�ffnet. In Zusammenarbeit mit dem JURIS Verlag Saarbr�cken wird derzeit das Abfragemodell f�r das Retrieval auf einer Sammlung juristischer Texte mit SGML-Markup einsetzbar gemacht. Am CIS wurde eine Sammlung geparster deutscher Nominalphrasen aus Zeitungstexten im Umfang mehrerer GByte realisiert, die Abfrage mit dem genannten Modell wird derzeit getestet.

Ein weiterer Schwerpunkt der Arbeiten liegt auf der OCR-Erfassung von Papierdokumenten und auf der �berf�hrung von Dokumenten in XML Format. Prof. Schulz arbeitet seit etwa drei Jahren auf dem Gebiet der automatischen Analyse von gedruckter Korrespondenz in einem gemeinsamen Projekt mit den Firmen ARPA GmbH (OCR-Technologie, Adliswil, Schweiz) und Spectrum & Partner (EDV- und Unternehmensberatung, M�nchen) zusammen. Die Nutzungsrechte der entstehenden Lehrmaterialien sind gesichert.

Fachlicher und organisatorischer Beitrag des Antragstellers

Techniken zur Abfrage, weitergehend zur Manipulation und Umgestaltung strukturierter Dokumente weisen eine st�rmische Entwicklung auf, die an die Computerlinguistik neue und wichtige M�glichkeiten und Herausforderungen stellt. Die derzeit� allgemein zur Verf�gung stehenden Tools zur Behandlung von XML-Dokumenten und zur Abfrage von verwandten Baumdatenbanken vermitteln nur einen sehr vorl�ufigen Einblick in die prinzipiellen M�glichkeiten, die sich durch die in Gang gekommene Standardisierung der Erfassung von Information bieten. Das Teilmodul IR auf strukturierten Textdokumenten greift einen wichtigen Teilaspekt heraus und bietet einen vertieften Einblick in die formalen und algorithmischen Hintergr�nde bei der Entwicklung praktischer Systeme zur Abfrage strukturierter Dokumente. Parallel werden die in vieler Hinsicht �hnlichen M�glichkeiten und Schwierigkeiten bei der Abfrage linguistischer Baumdatenbanken beleuchtet. Vermittelt wird damit Lehrstoff zu einem Thema von gro�er aktueller Bedeutung, das bislang nicht in zufriedenstellendem Umfang in Lehrb�chern abgehandelt ist.

Vorarbeiten

Lehrveranstaltungen

�ber die oben erw�hnten Forschungsarbeiten hinaus hat Prof. Schulz in den letzten Jahren zahlreiche Lehrveranstaltungen sowohl im allgemeinen Bereich des IR wie auch zur speziellen Thematik der Abfrage und Bearbeitung strukturierter Dokumente abgehalten. Die Unterrichtsmaterialien liegen derzeit allerdings in der Mehrzahl nur in Form handschriflicher Aufzeichnungen vor.

Web-gest�tzte Lehrveranstaltungen

Die einzelnen Lehr-/Lerneinheiten basieren teilweise auf den in VirtuGrade entwickelten Skripten f�r das dort abgehaltene virtuelle Seminar. Diese Einheiten beruhen auf Programmierungen von J. J. Paijmans und sind an das Format der neuen Lernumgebung f�r MiLCA anzupassen.

Organisation

Der erste Kurs "Information Retrieval" wird vom 4. bis 15. März 2002 als Kompaktkurs durchgeführt. Weitere Kurse sind für Frühjahr 2003 und währden der Sommerschule 2003 geplant.

Literaturhinweise

Krüger-Thielmann, K.: "Towards Small-Scale Evaluation of a Multilingual Information Retrieval System for Multimedia Documents". Proceedings of the SALT Club Workshop Evaluation in Speech and Language Technology", Sheffield, 1997.

Krüger-Thielmann, K. & Requardt, N.: "Travelling with a Huge, Silver Cigar. A study on Subtitle and Script Reliability for Indexing Video Material". Proceedings of RIAO, Paris, 2000.

Meus, H.: "Logical Tree Matching with Complete Answer Aggregates for Retrieving Structured Documents", PhD. Thesis, Universit�t M�nchen, 2000.

Meuss, H. & K.U. Schulz, "Complete Answer Aggregatesfor Tree-like Databases: A Novel Approach to Combine Querying and Navigation" erscheint in: ACM Theory of Information Systems (TOIS), 2001.

Meuss, H., K.U. Schulz & Francois Bry, "Towards Aggregated Answers for Semistructured Data", in: Proceedings of the International Conference on Database Theory, ICDT 2001.

Meuss, H. & C. Strohmaier, "Improving Index Structures for Structured Document Retrieval", 21st Annual Colloquium on IR Research (IRSG'99), 1999.

Oesterle, J. & P. Maier-Meyer, "The gnop (german noun phrase) treebank". In First International Conference on Language Resources and Evaluation, pp. 699-703, 1998

Paijmans, J.J.: "Explorations in the document vector model of information retrieval", Dissertation, Tilburg University, Sept. 14, 1999.

Paijmans, J.J. & J. Hoppenbrouwers: "Invading the fortress: how to besiege reinforced information bunkers", Proceedings of the IEEE advances in Digital Libraries 2000, pp. 27--38, 2000

Paijmans, J.J.: "Information Retrieval en Open Source", as: Congres Linux2000 Ede Holland 9-10 october, 2000

Paijmans, J.J.: "A dissertation without cost: Information Retrieval research with Open Source software", as: Dutch Information Retrieval Workshop 13 September 2000 University Maastricht, 2000

Schlieder, T. & Holger Meuss, "Result Ranking for Structured Queries Against XML Databases", First DELOS Workshop on Information Seeking, Querying and Searching in Digital Libraries, 2000.

Schulz, K.U. & S. Mihov, "Efficient String Correction with Levenshtein-Automata", CIS-Report. CIS, Universit�t M�nchen, 2001.