Was genau ist eigentlich Spatial Audio?
Im Wesentlichen beschreibt es die Platzierung von Sound Objekten in einem 3D Raum. Wenn wir über VR sprechen, fällt fast immer der Begriff ‚Immersion‘. Es geht darum, das Publikum vollständig in die Experience eintauchen zu lassen – sie sollen die wirkliche Welt um sich herum vergessen. Allzu oft beschränkt sich dieser Begriff jedoch auf die visuelle Komponente, die sicher noch Verbesserungsbedarf hat. Screen Door Effekt, Pixeldichte, Auflösung… über diese Dinge wird diskutiert.
Audio, wenn es richtig gemacht wird, hat in einer immersiven virtuellen Welt einen entscheidenden Vorteil, da unser Gehör direkt mit dem limbischen System im Gehirn verbunden ist – der Part, der für unsere Emotionen verantwortlich ist. Gehörtes ist Realität.
Audio hilft, die vorgesetzte visuelle Welt zu glauben.
Ein Beispiel hierfür wäre ein hörbarer, aber nicht sichtbarer Helikopter. Man weiß, dass der Helikopter z.B. hinter einem Haus versteckt sein muss und deshalb nicht sichtbar ist. Man würde nie auf die Idee kommen, dass jemand über einen Lautsprecher die Menge mit Helikoptergeräuschen beschallt, was zugegebenermaßen absurd wäre. Aber es verdeutlicht, dass Gehörtes von uns als Realität akzeptiert wird. Evolutionär gesehen war unser Gehörsinn zudem für unser Überleben entscheidend, da dieser als passivier Sinn nicht gesteuert werden kann, und somit immer in Alarmbereitschaft ist. Man muss vom Säbelzahntiger schon aus dem Schlaf gerissen werden, um nicht gefressen zu werden.
Auch wenn der Begriff Spatial Audio nur die technischen Komponenten bezeichnet, verstehen wir von scopeaudio es als Kombination – Wahrheitsanspruch mit der korrekten räumlichen Platzierung.
Es muss dabei jedoch keineswegs realistisch klingen, bzw. muss nicht immer Realismus erzeugt werden. Wir Menschen sind sehr schnell darin, uns an ein neues akustisches ‚Mindset‘ anzupassen und dessen Regeln zu verstehen.
Alles eine Frage der (ersten, zweiten oder dritten) Ordnung
Spatial Audio basiert auf einem Audioformat namens Ambisonics, das bereits in den 1970er Jahren erfunden wurde, aber damals mangels Anwendungsbereich schnell wieder in Vergessenheit geraten ist. Für die Audiofreaks unter den Lesern: es ist im Wesentlichen eine erweiterte Doppel M/S Technik. Man spricht bei Ambisonics von Ordnungen. Je höher die Ordnung, desto höher die Spatial Resolution, bzw. desto mehr Spherical Harmonics befinden sich im Signal. Das hat zur Folge, das Schallquellen genauer geortet werden können und die Verzerrungen des sogenannten Soundfields reduziert werden. Mit höherer Auflösung steigt aber auch die Anzahl der benötigten Audiokanäle. Man hat bei 1st Order Ambisonics, dem gängigen Format für 360° Videos, 4 Audiokanäle (W,X,Y,Z). W beschreibt den Schalldruck, also die Lautstärke – X,Y,Z sind Koordinaten in einem dreidimensionalen Raum. Im Endeffekt weiß man also, wie laut ein Signal ist, und woher es kommt.
3rd Order Ambisonics
Wir haben Ende März an der ‚AES Conference on Immersive and Interactive Audio‘ teilgenommen, und nach derzeitigen wissenschaftlichen Untersuchungen ist mindestens eine Auflösung von 3. Ordnung, also 3rd Order Ambisonics, nötig, um unnatürliche Verzerrungen im Klangfeld weitgehend zu vermeiden. Alle Videoplayer mobiler HMDs wie Oculus Go, Quest, Samsung Gear VR, etc. können aber nur 1st Order Ambisonics wiedergeben, auch wenn manche 360° Video Produzenten behaupten, sie haben 3rd Order Ambisonics verwendet. Selbst Unity scheitert mit seinen 8 unterstützten Audiokanälen bereits an 2nd Order Ambisonics – Abhilfe schafft hier nur ein spezielles SDK – unserer Meinung nach unverzichtbar!
Stereo reicht nicht
Spatial Audio ist für eine VR Experience – oder 360° Video – ein absolutes Muss. Wir gehen sogar soweit zu sagen, dass wir Experiences ohne Spatial Audio gar nicht ernst nehmen. Kunden verstehen oft nicht, warum sie Spatial Audio brauchen, Stereo reicht doch. Hat man jedoch einmal den Unterschied gehört, will man nicht mehr zurück. Alles scheint außerhalb des Kopfhörers zu klingen. Die visuellen Grenzen und die eventuelle Isolierung durch HMD und Kopfhörer löst sich auf.
Eine Herausforderung ist jedoch, dass man als Tonmeister extrem genau arbeiten muss – v.a. beim Set-Ton. Hier trennt sich die Spreu vom Weizen.
Man kann Störgeräusche, z.B. im Dialog, nicht verstecken, wie dies nur allzu oft in einer Stereo Filmtonmischung gemacht wird, und auch vollkommen legitim ist. Ein „des-geht-si-scho-aus“ gibt es nicht. Hat man in einem Lavaliermikrofon des Schauspielers ein Störgeräusch, kommt das im Mix dann auch wirklich nur aus der Position des Schauspielers. Durch diese örtliche Direktheit fällt es unserem Ohr sehr leicht, das Geräusch zu isolieren, und im Zuge dessen als störend zu erkennen.
Diese Tatsache sollte unserer Meinung jedoch den Tonmeister nicht abschrecken, sondern motivieren, denn VR und 360° Videocontent ohne Spatial Audio geht gar nicht!
Spreu
und
WEIZEN