Suche

Analyse, Aufarbeitung und Organisation von unstrukturierten Daten unter Einsatz von UIMA


Bachelorarbeit

Ausgangslage

UIM-Applikationen sind Anwendungen, die unstrukturierte Informationen (Text, Audio, Video, etc.) aus vorhanden Daten analysieren und organisieren. UIM basiert zu großen Teilen aus statistischen und regelbasierten Methoden zur Informationsaufbereitung. Die UIMA-Entwicklung von IBM stellt ein Framework zur Verfügung, welches unstrukturierten Text analysiert und für den Benutzer aufbereitet. In dieser Bachelorarbeit soll IBM's UIMA-Framework eingesetzt werden, um unstrukturierte Daten in Reisekatalogen zu analysieren und die Resultate in XML-Dateien zu strukturieren. Die hieraus resultierenden XML-Dateien sollen anschließend für präferenzbasierte Suche zur Verfügung gestellt werden.

Ziel

Die Arbeit soll im theoretischen und praktischen Teil das Extrahieren von Daten aus unstruktiertem Volltext beinhalten. Die gefilterten Daten sollen anschließend in einer XML-Datei strukturiert gespeichert und für präferenzbasierte Suche zur Verfügung gestellt werden.

Theoretischer Teil

  • Einarbeitung in UIMA
  • Zusammenfassung der Konzepte
  • Entwurf eines relationalen Datenbankschemas für Hotelangebote
  • Erstellen eines Thesaurus für Volltextsuche in unstrukturierten Daten
  • Entwurf und Modellierung von UIMA-Techniken für vorhandene Produktkataloge

Praktischer Teil

  • Umsetzung des Entwurfs
  • Einrichten der Touristik-Datenbank für Hotelangebote
  • Einrichten des erstellten Thesaurus für UIMA
  • Strukturierung und Speicherung von relevanten Daten aus Volltext in XML

Voraussetzungen

  • Gute Programmierkenntnisse in Java
  • Datenbankkenntnisse
  • Kenntnisse im Bereich XML

Ansprechpartner

Markus Endres