2025 & 2026
Dissertation, RWTH Aachen University, 2025
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2026
Genehmigende Fakultät
Fak09
Hauptberichter/Gutachter
;
Tag der mündlichen Prüfung/Habilitation
2025-12-08
Online
DOI: 10.18154/RWTH-2026-01136
URL: https://publications.rwth-aachen.de/record/1027013/files/1027013.pdf
Inhaltliche Beschreibung (Schlagwörter)
coverbal gestures (frei) ; embodied conversational agents (frei) ; social presence (frei) ; virtual reality (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
Die Einbettung virtueller anthropomorpher Charaktere als Embodied Conversational Agents (ECAs) in Anwendungen der virtuellen Realität (VR) bietet Vorteile in Bereichen wie Trainingsumgebungen und therapeutischen Settings, in denen sie persönliche Interaktionspartner simulieren. Eine zentrale Herausforderung besteht darin, ECAs als authentisch und menschenähnlich wahrnehmbar zu machen, wofür die Integration mehrerer Modalitäten erforderlich ist. Diese Arbeit untersucht die wichtigsten Modalitäten, die zur Glaubwürdigkeit von ECAs beitragen. ECAs agieren multimodal und ihr Verhalten umfasst verbale sowie co-verbale Aspekte wie Blickrichtung und Gestik. Wir analysieren den Einfluss von Stimme und Prosodie und diskutieren, wie sich technischer Aufwand und wahrgenommene soziale Präsenz in Einklang bringen lassen. Zudem untersuchen wir die Auralisierung, indem wir bewerten, ob die Simulation natürlicher Klangausbreitung die Realitätsnähe von Gesprächen erhöht und welche technische Präzision erforderlich ist. Ein weiterer Schwerpunkt liegt auf kommunikativen Funktionen des co-verbalen Verhaltens, insbesondere Turn-Taking, das den Sprecherwechsel in Mehrparteien-Interaktionen regelt, und Back-Channeling, das Zustimmung oder Verständnis signalisiert. Ein zentrales Thema dieser Arbeit ist die wahrgenommene soziale Präsenz – das Ausmaß, in dem Nutzer das Gefühl haben, mit einer realen Person zu interagieren. Wir analysieren bestehende subjektive und objektive Metriken und identifizieren eine Lücke bei objektiven Bewertungsmethoden. Zu diesem Zweck untersuchen wir das in Zusammenarbeit mit Psychologieforschern entwickelten HTR-Paradigma (Hearing Text Recall). Durch die gezielte Variation der ECA-Leistungsqualität anhand co-verbaler Komponenten evaluieren wir HTR als potenziellen Proxy für die Messung kognitiver Belastung und sozialer Präsenz. Zur Unterstützung VR-basierter Nutzerstudien stellen wir das StudyFramework vor – ein Tool zur Vereinfachung experimenteller Designs, das zudem ein System zur Avatar-Darstellung zur Erhöhung der Immersion enthält. Des Weiteren untersuchen wir Methoden zur Generierung und Erfassung von Gesten mit handelsüblicher VR-Hardware und analysieren deren Einfluss auf die soziale Präsenz. Zusammenfassend trägt diese Forschung zum Verständnis des ECA-Verhaltens in der verbalen Kommunikation bei und liefert Einblicke in Schlüsselmodalitäten, die natürliche und immersive Interaktionen in VR verbessern.Embedding virtual anthropomorphic characters as embodied conversational agents (ECAs) in virtual reality (VR) applications offers benefits across various domains, including training environments and therapeutic settings, by simulating face-to-face interaction partners for human users. However, ensuring that ECAs are perceived as authentic and human-like remains a challenge, requiring the integration of multiple modalities to create convincing virtual humans. This thesis explores key modalities that contribute to the believability of ECAs, which act inherently multimodal when delivering speech acts encompassing verbal as well as co-verbal behavior---such as gaze direction and gestures. We investigate the impact of voice and prosody, making suggestions on how to balance technical effort with their effects on perceived social presence. Additionally, we examine auralization, evaluating whether simulating natural sound directionality enhances conversational realism and determining the necessary level of technical fidelity. Furthermore, we delve into some communicative functions conveyed by co-verbal behavior. Specifically, we examine turn-taking, which governs speaker transitions in multi-party interactions, and back-channeling, which conveys agreement or understanding. Throughout this work we put a particular focus on perceived social presence, the extent to which users feel they are interacting with a real person. To this end, we first review existing subjective and objective metrics for measuring social presence, identifying a gap in objective evaluation methods. Therefore, we assess objective metrics for social presence by leveraging the heard text recall (HTR) paradigm, developed in collaboration with psychology researchers. By systematically degrading ECA performance quality using a forementioned co-verbal components, we investigate HTR as a potential proxy for measuring cognitive load and social presence more rigorously. To facilitate VR-based user studies, we introduce and assess the StudyFramework, a newly developed tool that streamlines factorial-design experiments and includes a system for rendering participant avatars to enhance immersion. Additionally, we explore methods for generating and capturing gestures using off-the-shelf VR hardware and analyze their influence on perceived social presence. In summary, this research advances the understanding of ECA behavior in verbal communication, providing insights into key modalities that enhance natural and immersive interactions in VR.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT031404779
Interne Identnummern
RWTH-2026-01136
Datensatz-ID: 1027013
Beteiligte Länder
Germany
|
The record appears in these collections: |