Analyse, Aufarbeitung und Organisation von unstrukturierten Daten unter Einsatz von UIMA
Bachelorarbeit
Ausgangslage
UIM-Applikationen sind Anwendungen, die unstrukturierte Informationen (Text, Audio, Video, etc.) aus vorhanden Daten analysieren und organisieren. UIM basiert zu großen Teilen aus statistischen und regelbasierten Methoden zur Informationsaufbereitung. Die UIMA-Entwicklung von IBM stellt ein Framework zur Verfügung, welches unstrukturierten Text analysiert und für den Benutzer aufbereitet. In dieser Bachelorarbeit soll IBM's UIMA-Framework eingesetzt werden, um unstrukturierte Daten in Reisekatalogen zu analysieren und die Resultate in XML-Dateien zu strukturieren. Die hieraus resultierenden XML-Dateien sollen anschließend für präferenzbasierte Suche zur Verfügung gestellt werden.Ziel
Die Arbeit soll im theoretischen und praktischen Teil das Extrahieren von Daten aus unstruktiertem Volltext beinhalten. Die gefilterten Daten sollen anschließend in einer XML-Datei strukturiert gespeichert und für präferenzbasierte Suche zur Verfügung gestellt werden.Theoretischer Teil
- Einarbeitung in UIMA
- Zusammenfassung der Konzepte
- Entwurf eines relationalen Datenbankschemas für Hotelangebote
- Erstellen eines Thesaurus für Volltextsuche in unstrukturierten Daten
- Entwurf und Modellierung von UIMA-Techniken für vorhandene Produktkataloge
Praktischer Teil
- Umsetzung des Entwurfs
- Einrichten der Touristik-Datenbank für Hotelangebote
- Einrichten des erstellten Thesaurus für UIMA
- Strukturierung und Speicherung von relevanten Daten aus Volltext in XML
Voraussetzungen
- Gute Programmierkenntnisse in Java
- Datenbankkenntnisse
- Kenntnisse im Bereich XML


