Suche

Bachelor: Multimedia Projekt


Die Vorlesung Multimedia Projekt ersetzt die Vorlesung Multimediapraktikum. Daher können wir nur Studenten zulassen, die noch kein Multimediapraktikum besucht haben. Die Vorlesung kann nur von Bachelor- und Diplomstudenten eingebracht werden. Die Anmeldung findet im Digicampus statt. Im Folgenden finden Sie die Beschreibungen der einzelnen Themen des Multimedia Projekts in diesem Semester.


The Always-On Clone

In diesem Projekt entwickeln wir einen sozialen Begleiter in Form eines Robopec Reeti Roboters. Dieser Agent soll sich am Always-On Projekt orientieren, einem gemeinsamen Forschungsprojekt von Charles Rich und Candace Sidner am WPI in Worcester und der Relational Agents Group an der Northeastern University in Boston.

Ziel des Always-On-Projekts ist die Entwicklung eines künstlich intelligenten Agenten, der als häuslicher Begleiter für ältere Menschen dienen soll und im besten Fall eine langfristige soziale Beziehung zu den Nutzern aufbauen soll. 

Themenvorstellung:

Die Aufgaben eines solchen sozialen Beleiters können die Erinnerung an Termine oder die Ermutigung zu Aktivitäten und der Pflege sozialer Kontake sein. Er kann helfen, technische Hürden zu überwinden, um dem Nutzer die elektronische Kontaktaufnahme zu seinen Bekannten zu erleichtern. Er sollte auch in der Lage sein, mit dem Nutzer über die Dinge des täglichen Lebens zu sprechen und zum Zeitvertreib und zur Stärkung der sozialen Beziehung Spiele mit dem Nutzer zu spielen.

Natürlich können wir uns im Multimedia Projekt nur auf eine ausgewählte Menge von einzelnen Anwendungsfällen konzentrieren und daher nur eine eingeschränkte Anzahl von grundlegenden Funktionalitäten implementieren. Wir unterteilen dafür das Thema in drei kleinere Teilbereiche. Jeder Teilbereich wird von einer eigenen Gruppe von Studenten zunächst weitgehend unabhängig bearbeitet. Zum Ende hin werden die drei Teilarbeiten gemeinsam zu einer einzigen Anwendung zusammengefügt. Sowohl der Fortschritt der Teilbereiche als auch der Endanwendung werden in Demonstratoren und Videos festgehalten.

Producing Engagement, Attention & Empathy:

Die erste Gruppe wird die Aufgabe haben, das nonverbale Verhalten des Nutzers, insbesondere das Blickverhalten und Emotionsausdrücke, sowie die Anwesendheit des Nutzers zu erfassen und zu verarbeiten. Außerdem soll der autonom gesteuerte Teil des nonverbalen Verhaltens des Agenten modelliert und kontrolliert werden.

Der Agent soll in der Lage sein, das Blickverhalten des Nutzers zu deuten und dem Blick des Nutzers folgen bzw. den Blick des Nutzers erwidern zu können, um Engagement und Aufmerksamkeit zu vermitteln. Wenn der Nutzer sich dem Agenten nähert oder der Nutzer die Interaktion beendet oder unterbricht, so soll dies schnell erkannt werden und angemessen behandelt werden. Dies beinhaltet Begrüßungen, Verabschiedungen und Nachfragen sowie die intelligente Wiederaufnahme eines zuvor unterbrochenen Gesprächsthemas oder einer Aktivität. Bei Abwesenheit des Nutzers oder bei der Ausführung einer Aktivität, bei der der Agent nicht unmittelbar beteiligt ist, soll der Agent verschiedenen Arten von Standardverhalten zeigen können. Bei Emotionsausdrücken des Nutzers soll der Agent diese spiegeln können und den Emotionszustand des Nutzers intern repräsentieren, damit das Dialogmanagement dementsprechend angepasst werden kann.

Interaction Control and Speech Understanding:

Die zweite Gruppe wird die Aufgabe haben, die grundlegende Interaktionsstruktur, d.h. den Ablauf der Interaktion sowie die Verarbeitung der Nutzereingaben aus den verschiedenene Modalitäten, zu modellieren. Es geht darum, anhand der Signale des Nutzers sowie der Informationen des Dialogmanagers zu entscheiden, ob der Agent einen Dialogbeitrag generieren soll oder dem Nutzer zuhören muss. Es soll außerdem entschieden werden, ob der Nutzer den Agenten unterbrechen darf und umgekehrt. Zuletzt sollen diese Entscheidungen schnell im Interaktionsablauf umgesetzt werden, indem z.B. das Rederecht sofort wechselt und der Agent seine Äußerung beendet, eine neue Aktivität oder ein neues Dialogthema gestartet wird oder ein zuvor unterbrochenes Thema wiederaufgenommen wird. 

Außerdem sollen universelle Verhaltensweisen in Sprecher- und Zuhörerrolle kontrolliert werden, so z.B. das Generieren von Feedback-Signalen als Zuhörer oder die Generierung von Signalen zur Regulierung des Rederechts als Sprecher.

Zuletzt sollen außerdem wesentliche Inhalte des Dialogs spezifiziert werden, d.h. sowohl die Äußerungen des Agenten als auch das kontextabhängige Sprachverstehen des Agenten. Zum Sprachverstehen sollen Grammatiken geschrieben werden, die dynamisch austauschbar sein sollen.

Utility-Based Dialogue and Priority Management:

Die dritte Gruppe hat die Aufgabe, den Dialogmanager zu erstellen, der die verschiedenen Aktivitäten und Gesprächsthemen untereinander koordiniert. Dieser muss verwalten, was der aktuelle Stand der jeweiligen Themen ist, wann das System das Thema wechseln muss oder wie es zur vorherigen Aktivität zurückkommt.

Zunächst wird dazu der Dialogablauf mit seinen Verzweigungen, parallelen Strängen und Querverbindungen modelliert. Dort wird festgelegt, was die erhaltenen Informationen für die einzelnen Themen bedeuten, neben welchen Aktivitäten z.B. Smalltalk möglich ist oder welche Teile des Gesprächs wiederholt werden müssen, wenn zwischendurch z.B. eine Terminerinnerung fällig wurde oder ein Telefonat stattfand.

Zusätzlich wird eine Prioritätenregelung benötigt, welche ausgehend von Kosten und Nutzen der Unterbrechung entscheidet, wann ein kompletter Themenwechsel notwendig wird, wann eine kurze Zwischenbemerkung besser ist, oder ob das aktuelle Thema zuerst abgeschlossen werden sollte. Diese Kosten können objektiv sein, wie z.B. der Zeitverlust oder -gewinn in Minuten, oder auch subjektiv, wie z.B. die Vorliebe des Nutzers für bestimmte Anwendungen oder Anrufer. Daraus soll dann berechnet werden, wann ein Themenwechsel wichtig oder willkommen ist, und wann er als Störung oder Ablenkung zählt.

Voraussetzungen:

Alle Gruppen werden mehr oder weniger intensiv mit den am Lehrstuhl entwickelten Software-Tools Visual Scene Maker (VSM) und Social Signal Interpretation (SSI) arbeiten. Dies erfordert zu Beginn des Projekts eine Einarbeitung in diese Software-Tools und die zugrundeliegenden technischen und konzeptuellen Grundlagen. Desweiteren werden in sehr geringem Umfang Kenntnisse in C/C++ und XML sowie grundlegende Kenntnisse und Erfahrung in GUI- und Network-Programmierung mit Java erwartet. Außerdem wird es erforderlich sein, sich in die grundlegenden Konzepte der logischen Programmiersprache Prolog einzuarbeiten. Der Umgang mit Entwicklungsumgebungen wie VisualC++ und Netbeans wird ebenfalls notwendig und zu erlernen sein. 

Teilnehmerzahl: ca. 6 - 9 Studenten
Themabetreuer: MSc. Gregor Ulrich Mehlmann, MSc. Kathrin Janowski, MSc. Tobias Baur, MSc. Florian Lingenfelser


Geovisualisierung - Urbanes Wetter Erlebnis

Das selbe Wetterereignis kann sich an verschiedenen Orten in einer Stadt unterschiedlich erlebt werden. Nach dem Motto "es gibt kein schlechtes Wetter, es gibt nur den falschen Ort", soll der Zusammenhang zwischen persönlichen Eigenschaften und Vorlieben sowie den dazu passenden Wettererlebnissen ermittelt werden. In diesem Rahmen soll eine einfache AndroidApp entstehen, die es ermöglicht Erlebnisse schnell zu Beschreiben bzw. zu Annotieren. Als Ausblick soll das Projekt so angelegt sein, dass es sich in eine bereits vorhandene App zur Tourplanung integrieren laesst. Das Praktikum findet in Zusammenarbeit mit der Geoinformatik zum Thema Geovisualisierung statt, die sich mit personalisierter Darstellung von Wetterdaten befasst. Grundlage fuer das Projekt bilden umfangreiche Daten der Geographie und die damit verbundenen Einblicke in deren Erhebung und Erforschung.


Mobile und eingebettete Verarbeitung sozialer Signale

Damit der Nutzer mehr Einblick in die Verabeitung seiner Signale, etwa im Rahmen einer FittnessApp hat, sind offene Werkzeuge unverzichtbar. In diesem Praktikum erarbeitet ihr einfache Beispiele die anderen OpenSSI auf Android oder dem Raspberry Pi zugänglich machen. Die Themen umfassen Aufzeichnen der Signale, etwa des Accelerometers im Smartphone, das Extrahieren interessanter Merkmale (Features) und die Erkennung des gesuchten Ereignisses (Klassifizierung). Da der Fokus auf guter Dokumentation liegt, ergibt sich so die Möglichkeit für einen praxisnahen Einstieg in maschinelles Lernen und Activity Recognition.


Smartphone-Gesten basierte(s) Touchtable App/Spiel

Sogenannte Multi-Surface Environments werden uns im täglichen Leben immer häufiger begegnen, da die Verbreitung von mobilen und auch stationären "Surfaces" sich in den letzten Jahren rasant entwickelt hat und dies auch zukünftig kaum abnehmen wird. 

In diesem Praktikum erarbeitet ihr ein einfaches Spiel oder eine einfache App, welche solche Multti-Surface Environments anvisiert und über mehrere "Surfaces" (also smartphones, tablets, tabletops) verteilt ist; und sich über Gesten bedienen lässt, welche mit den mobilen Geräten ausgeführt werden. Angedacht ist zunächst die Nutzung der Bewegungssensonren zusammen mit dem Touchscreen um beispielsweise Spielobjete auf einem großen Tischdisplay "direkt" steuern zu können. Für die Realisierung der Geräteumgebung dient das Multi-Surface Programmier-Framework Environs ( http://hcm-lab.de/environs ), welches einen wesentlichen zur Realisierung der Umgebung übernimmt.

Empfohlene Kenntnisse: C# | Java | Objective-C, OpenGL

Teilnehmerzahl: 2 Gruppen zu je 2 - 3 Studenten 
Themabetreuer: MSc. Chi-Tai Dang,






weitere Informationen zu der Lehrveranstaltung:

empfohlenes Studiensemester der Lehrveranstaltung: ab dem 5. Semester
Fachrichtung Lehrveranstaltung: Multimedia-Anwendungen
Dauer der Lehrveranstaltung: 6 SWS
Typ der Lehrveranstaltung: P - Praktikum
Leistungspunkte: 10
Lehrveranstaltungspflicht: Pflicht
Semester: WS 2015/16