Evaluation eines Ontologie-Basierten Word Sense Disambiguation Algorithmus
Masterarbeit, September 2009
In dieser Arbeit wird ein Konzept vorgestellt und implementiert, das ermöglicht, unter Verwendung einer Wissensdatenbank in Form einer Domain Ontology (DO) Wörter zu disambiguieren (Word Sense Disambiguation, WSD). Existieren verschiedene Bedeutungen eines Wortes, kann anhand ihrer semantischen Abstände in der DO zu den Begriffen des umliegenden Kontextes die vom Verfasser eines Textes beabsichtigte Bedeutung festgestellt werden. Neben dem Abstand werden noch zusätzliche Werte, wie die Gewichtung der Knoten innerhalb der DO und die Zugehörigkeit zu den bereits erfolgreich disambiguierten Worten, berücksichtigt. Das vorgestellte Konzept ist vor allem für den Einsatz in der Informationsextraktion gedacht, also um bestimmte Information eines Fachgebiets aus einem freien Text zu erkennen und diese Informationen untereinander in Beziehung zu setzen. Mit diesem extrahierten Wissen können beispielsweise Texte verschiedener Webseiten untereinander verknüpft werden. Bevor der Algorithmus detailliert beschrieben wird, wird zunächst auf die theoretischen Grundlagen zur WSD eingegangen und erläutert, wie die dazu erstellte DO entworfen wurde. Nach der Vorstellung des Konzepts folgt die Umsetzung in einem Javaprogramm, das der anschließendenn Evaluation dient. Über die Benutzeroberfläche des Programmes können alle relevanten Grenzwerte und sonstigen Einstellungen angepasst werden. Ferner werden alle teilschritte des Algorithmus grafisch aufbereitet präsentiert. Die Evaluation zeigt, dass der algorithmus durch Verwendung der semantischen Struktur der DO eine hohe Präzision erreicht, aber durch die begrenzte Kenntnis von Wörtern außerhalb der Wissensdomäne eine geringe Coverage aufweist. Zum Abschluss werden die Ergebnisse zusammengefasst und ein Ausblick auf mögliche Optimierungen gegeben.
