Cognitive models for acoustic and audiovisual sound source localization

  • Many common applications like intelligent personal assistants and teleconferencing systems require an accurate localization of sound sources in their environment. In this thesis, three novel approaches to sound source localization will be presented. The first approach is proposed in the context of audiovisual localization of sound sources. Hereby, estimating the position of sound sources can be improved by incorporating additional visual information. Subsequently, the second part of this thesis introduces a closed-loop feedback control system for robotics applications. This system is based on psychoacoustic evidence that human listeners utilize head movements to refine the localization of sound sources. The last part of this work proposes an algorithm for determining the direct sound direction-of-arrival in reverberant environments. This yields an improved sound source localization performance in challenging acoustic environments with large reverberation time.
  • Viele alltägliche Anwendungen wie Sprachassistenten und Telefonkonferenzsysteme sind auf eine effiziente Lokalisation von Schallquellen angewiesen. In dieser Arbeit werden drei neuartige Ansätze zur Schallquellenlokalisation vorgestellt. Der erste Ansatz ist im Bereich der audiovisuellen Lokalisation von Schallquellen angesiedelt. Durch zusätzliche visuelle Informationen ist es möglich, die Ortung von Schallquellen speziell in akustisch stark gestörten Umgebungen zu verbessern. Ausgehend von der Erkenntnis, dass menschliche Hörer Kopfbewegungen nutzen um die Ortung von Schallquellen zu verbessern, wird im zweiten Teil dieser Arbeit ein System vorgestellt, das dieses Verhalten als Regelkreises für Anwendungen in der Robotik nachbildet. Im letzten Teil wird dann ein Verfahren zur Bestimmung der Einfallsrichtung des Direktschalls in Umgebungen mit Nachhall eingeführt. Hierdurch wird die nachfolgende Schallquellenlokalisation insbesondere in Umgebungen mit starkem Nachhall optimiert.

Download full text files

Export metadata

Statistics

Number of document requests

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Christopher SchymuraORCiDGND
URN:urn:nbn:de:hbz:294-69877
DOI:https://doi.org/10.13154/294-6987
Referee:Dorothea KolossaORCiDGND, Boaz RafaelyGND
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2020/02/13
Date of first Publication:2020/02/13
Publishing Institution:Ruhr-Universität Bochum, Universitätsbibliothek
Granting Institution:Ruhr-Universität Bochum, Fakultät für Elektrotechnik und Informationstechnik
Date of final exam:2019/11/12
Creating Corporation:Fakultät für Elektrotechnik und Informationstechnik
GND-Keyword:Graphisches Modell; Robotik; Kausalanalyse; Akustische Signalverarbeitung; Optische Signalverarbeitung
Dewey Decimal Classification:Technik, Medizin, angewandte Wissenschaften / Elektrotechnik, Elektronik
faculties:Fakultät für Elektrotechnik und Informationstechnik
Licence (German):License LogoKeine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht