Exploring the Narrative Aspect of Video Game Soundscapes

by Melisa Sen

Once upon a time there was a curious reader who stumbled upon a blogpost about how sound conveys narrative in video games. Whenever a story is being told, there are many dimensions that go into its narration. Whether it is a fairy tale, a movie or a video game, the sonic dimension is one of the most important ones. Of course, the most obvious aspect that comes to mind is narrative storytelling. While it is possible in recorded media to have a narrator’s voice tell the story, a more unique form of narration is found when different layers of sound are involved. Most modern video games have a story world with its own narrative time and space that is shaped by the game’s sound dimension. Additionally, a game has rules and those rules have narrative meaning, which suggests that when a sound is attributed to said rules, the sound itself acquires narrative meaning.

Certainly, the goal to combine visual and aural information, while also adding the element of interactivity, is best possible within the video game format. This in turn creates different layers of sound, which – according to Sebastian Domsch – are able to further advance the narrative. First, there is the diegetic layer. This layer consists of all the sounds that are contained within the fictional world one might hear like heavy rainfall and footsteps. It is also important to make the distinction between what is a non-interactive sound native to the game world (heavy rain) and an interactive sound that is created by the player (footsteps). The main purpose of the diegetic sound is to convey the message: “something is happening or has happened in the game world”.

Related to that is the extradiegetic layer, which consists of sounds that are intended to be heard only by the player but serve as a background sound, for example a musical theme. Determining the non-interactivity is a bit trickier in this case as it varies from game to game. Some games may have a continuous soundtrack on loop, others may change it depending on the player’s actions. However, with the latter the player is usually not supposed to pick up on it. By creating multiple short themes that can be looped and transitioned into one another, a video game can create a sound system so complex that it is able to follow the activity of random player choices with ease. Music can be a very powerful expression of narrative storytelling. A highly energetic piece accompanying an intense battle does not only make for a better gaming experience; it also marks the significance that beating the enemy has on the overall story.

Unique to video games is the ludic sound layer. It contains interactive sounds that signify the player’s actions, for example entering a menu. These sounds are exclusive to the player and are important to indicate the impact they have on several game situations. Making the player’s actions audible gives them meaning. For the most part, ludic sounds are interactive. In some cases, however, they are meant to alert the player to important game information, for example the sound that plays when a character’s health gets dangerously low. The purpose of the ludic sound is to convey the message: “you have done something”.

Truly, sound in video games has come a long way. Due to technical limitations it was not always possible to convey diegetic sounds in a quasi-realistic way, which caused some of them to be perceived as ludic when they were not meant to be. Nowadays, this has shifted. There is an increase in ludic sounds being presented as diegetic that has caused a gray-area to appear within the layers of sound. Such sounds can be described as ‘ludic-diegetic’, with the purpose to convey the message: “you have made something happen in the game world”.

To make all these concepts easier to grasp there is a good example of a short video game clip, in which each of the above-mentioned sound layers can be distinguished. It is advised to first watch the video and listen for distinct sounds before replaying it while reading the analysis below. Said analysis attempts to identify every new sound that is introduced with its respective time stamp. The game in question is The Legend of Zelda: Breath of the Wild (Nintendo 2017), being played on the Nintendo Switch. The playable character’s name is Link and the enemy he is fighting is called a Guardian.

00:00 Ambient sound of heavy rainfall (diegetic/non-interactive)

00:00 Link’s footsteps transitioning from a wet wooden bridge to a wet and grassy terrain (diegetic/interactive)

00:02 Link is sheathing and unsheathing a weapon (diegetic/interactive)

00:04 Distinct sound of wind blowing (diegetic/non-interactive)

00:06 Link making noises while moving (diegetic/interactive)

00:07 A bird’s shrill screeching sound (diegetic/non-interactive)

00:08 Link’s footsteps being quieter as he is crouching (diegetic/interactive)

00:12 Link’s gear is rumbling while sprinting (diegetic/interactive)

00:21 Link’s footsteps while walking down a hill and then through puddles (the splashes are more distinct) (diegetic/interactive)

00:27 Player targeting the Guardian (as indicated by an orange arrow pointing at the enemy) (ludic/interactive)

00:31 The Guardian theme starts playing when Link is noticed (extradiegetic/interactive)

00:33 Sound of the Guardian preparing its attack (indicated by the red laser) (diegetic/non-interactive)

00:39 Sound of the Guardian attacking Link (diegetic/non-interactive)

00:39 Sound of an explosion as Link is hit (diegetic/non-interactive)

00:40 Sound to indicate that Link’s health bar (in the top left corner) is very low (ludic/non-interactive)

00:41 Player opens inventory (ludic/interactive)

00:45 Player is selecting which food item to eat (ludic/interactive)

00:49 Player selects item (ludic/interactive)

00:49 Player confirms their selection (ludic/interactive)

00:50 Link is heard making eating sounds (diegetic/interactive)

00:58 Link perfectly parries the Guardian’s attack (indicated by a slow-motion effect) (ludic-diegetic/interactive)

01:12 Sound of the Fairy (an item that is able to resurrect Link) being activated (ludic/non-interactive)

01:19 Link does not perform a perfect parry and the explosion is redirected to the ground (diegetic-interactive)

01:19 Sound to indicate that the shield broke (ludic/non-interactive)

01:22 Player enters the small gear specific menu (ludic/interactive)

01:23 Player confirms selection (ludic/interactive)

01:24 Sound to indicate that the shield is badly damaged (ludic/non-interactive)

01:24 Link draws his bow (diegetic/interactive)

01:26 Link fires his bow but misses (diegetic/interactive)

01:39 Link makes a noise while he jumps (diegetic/interactive)

01:43 Link hits the Guardian in the eye (critical spot) with an arrow (ludic-diegetic/interactive)

01:49 Link hits the Guardian with his weapon (diegetic/interactive)

01:51 Link hits the Guardian with an arrow (diegetic/interactive)

02:11 Link defeats the Guardian (ludic-diegetic/interactive)

02:12 The Guardian theme concludes with a prominent ending (extradiegetic/interactive; ludic-diegetic)

02:22 Link is picking up items (ludic/interactive)

The analysis shows a pattern, which basically substantiates Domsch’s typology. The diegetic and non-interactive sounds are always ambient noises that paint the soundscape of the story world. Link’s sounds are always diegetic and interactive, since the evolution of video game sound has made it possible to create realistic sounds and the player is actively controlling Link. Regarding the extradiegetic layer of the music, Breath of the Wild is also based on an interactive system, because the music started when the fight began, continued when the player was in the menu and ended when the player defeated the Guardian. All of the player sounds are ludic and interactive, seeing as how they are only heard by them and are designed to give aural feedback to their actions. Whenever sound was specifically mentioned, it was non-interactive as the player was not involved.

In the special case of ludic-diegetic, the sound was always interactive and only appeared whenever the player controlled Link and performed special interactions with the Guardian. When parrying the attack, the game went into slow-motion for a few seconds, which attributes a narrative meaning to the sound that occurs. Whenever the Guardian was hit in its eye, which is a critical spot that stuns it for a few seconds, a distinctive sound was played. Both of these actions are the game’s way of telling the player that this is how one is supposed to defeat this special enemy. Upon completion of this task, the destruction of the Guardian is accompanied by not only a huge explosion, but also the climatic ending of the soundtrack.

In conclusion, video games make it possible to create incredibly complex sound structures that are able to explore sound’s storytelling abilities. As technology continues to advance, game audio is also improving. The short clip from The Legend of Zelda alone demonstrates its many layers from diegetic, extradiegetic, ludic to ludic-diegetic. While further differentiating between interactive and non-interactive, the clip also illustrates the narrative function of each of these layers. The game in question has a carefully crafted audio system, which goes to great lengths to elevate storytelling. It is incredibly inspiring and exciting to experience when playing, but also when watching. Hopefully, there will be more games in the future that pay so much attention to detail when it comes to sound.

Sebastian Domsch, Hearing Storyworlds: How Video Games Use Sound to Convey Narrative, in: Audionarratology. Interfaces of Sound and Narrative, ed. by J. Mildorf and T. Kinzel, Berlin and Boston 2016, pp. 185-198.

Das Problem selektiver auditiver Aufmerksamkeit – oder warum Chion überholt ist

von Daniel Janz

Insbesondere in der Filmindustrie stellt das Tondesign eine große Herausforderung dar. Legen die den Klang gestaltenden Personen den Fokus auf das Gesprochene? Welche Bedeutung soll Hintergrundgeräuschen beigemessen werden? Und wie ist mit der Musik umzugehen, die noch über den Streifen gelegt wird?

Es gibt verschiedene theoretische Ansätze, sich dieser Problematik zu nähern. Ein bekannter Ansatz stammt von Michel Chion, der 1994 drei Hörkategorien postulierte, um die genannten Fragen beantworten zu können. Diese Kategorien, das Causal listening (Ursachenhören), das Semantic listening (Bedeutungshören) und das Reduced listening (reduziertes Hören nach Pierre Schaeffer), erscheinen wie eine Gebrauchsanweisung für Klanggestaltende. Chion unterteilt diese Kategorien nach unterschiedlichen Eigenschaften. So versteht er unter dem Causal listening das (An-)Hören eines Geräuschs, um etwas über dessen Ursprung zu erfahren und es ggf. mit visuellen Informationen in Verbindung zu bringen. Im Kontrast dazu stehen das Semantic listening, welches vornehmlich auf das Verständnis von Sprache gerichtet ist, und das Reduced listening mit seinem Fokus auf die Beschaffenheit eines Klanges losgelöst von dessen Quelle, was durch die ‚Fixierung‘ (also Aufzeichnung) des betreffenden Klangs begünstigt wird.

Dieser Versuch mag so ambitioniert wie notwendig sein, ist es doch im Bereich der Klanggestaltung eine große Herausforderung, welche Tonzusammenstellungen zu welchem Zeitpunkt in den Vordergrund zu rücken sind. Legt man besonders großen Wert auf die Sprachverständlichkeit? Spielt die Musik eine Rolle? Was ist mit dem kleinen Vogel, der im oberen Drittel des Filmbildes in einem Baum sitzt? Soll dessen Zwitschern überhaupt eingespielt werden, oder würde es den Modus des Causal listening überproportional bedienen? An diesem Beispiel wird das Problem von Chions Hörweisen deutlich: Es sind künstliche Kategorien für den Einsatz in einem Klanglabor, um ebenso künstliche Klangmischungen im filmischen Kontext herzustellen. Doch in Bezug auf die Realität finden sie ihre Grenzen. Denn Chion lässt ein entscheidendes Kriterium unberücksichtigt: die Fähigkeit des Menschen zur selektiven auditiven Aufmerksamkeit.

Das Cocktailparty-Phänomen zur Verdeutlichung selektiver auditiver Aufmerksamkeit

Die selektive auditive Aufmerksamkeit wurde als Begriff im Jahr 1958 durch u. a. Donald Eric Broadbent eingeführt und später von Anne M. Treisman 1960, Neville Moray 1970, und schließlich von Ulric Neisser 1974 verfeinert. Im Wesentlichen beschreiben diese Forschenden auf Basis empirischer Studien das Phänomen, dass Menschen in der Lage sind, in einer Geräuschkulisse nicht nur unterschiedliche akustische Quellen wahrzunehmen, sondern diese auch selektiv zu verstärken. Die menschliche Fähigkeit zur selektiven auditiven Aufmerksamkeit ist also dafür zuständig, dass wir spezifischen Geräuschquellen selbst bei großem Geräuschpegel folgen können. Am bekanntesten ist das so genannte Cocktailparty-Phänomen: Vielen dürfte das Problem bekannt sein, bei einem solchen Anlass mit dutzenden parallel verlaufenden Diskussionen den Faden bei der eigenen Unterhaltung nicht zu verlieren. Und trotzdem gelingt es uns Menschen, aktiv über lange Zeit einem Gespräch zu folgen und daran teilzunehmen – selbst wenn es von äußeren Störquellen konterkariert oder geräuschmäßig überlagert wird. Eine solche Unterscheidungsfähigkeit ist Maschinen bisweilen nicht gegeben.

Bei der weiteren Erforschung dieses Phänomens kam Vivien Tartter 1988 zu dem Ergebnis, dass bereits die Aufteilung von unterschiedlichen Reizen auf beide Ohren zu einer Verbesserung der Identifizierbarkeit einer Geräuschquelle sowie (bei Sprache) deren Inhalt hatte. Für Chions Ansatz bedeutet das: Die Art und Weise des Hörens ist nicht nur von der Art der Aufmerksamkeit bestimmt, sondern maßgeblich davon, welche Nebengeräusche aus welcher Richtung präsentiert werden. So lassen sich bereits erhebliche Verbesserungen der Verständlichkeit feststellen, wenn unterschiedliche Geräusche auf beide Ohren aufgeteilt werden. Ein Umstand, der das Causal listening zusammen mit dem Reduced listening nicht nur problematisch, sondern im letzten Fall sogar unmöglich gestalten würde. Tartters Forschungsergebnissen zufolge würde die Vernehmbarkeit eines Geräusches und das damit einhergehende Verständnis über dessen Ursprung verbessert werden, wenn es sich gegenüber anderen Geräuschquellen – entweder mechanisch oder durch selektive auditive Aufmerksamkeit verstärkt – durchsetzt.

In diesem Zusammenhang lässt Chion auch die zentralauditive Verarbeitung von Hörreizen außen vor. Letzteres Modell der Hörwahrnehmung stellt nicht nur da, dass ein Geräusch von außerhalb auf das Gehör eines Menschen (im Bottom-up-Prozess) wirkt, sondern dass auch Aufmerksamkeit, mentale Erwartung und Ergänzungen aus dem eigenen Erfahrungsschatz die Wahrnehmung jedes Geräuschs (im Top-down-Prozess) nachhaltig beeinflussen. Mit anderen Worten: Ein wie von Chion gefordertes reduziertes Hören ist nur Menschen möglich, die noch nie zuvor Geräusche gehört haben, sodass sie diese Sinnesreize nicht mit früheren Erfahrungen abgleichen können. Es ist zudem ein Widerspruch, den Chions Ansatz in sich selbst trägt, denn gerade seine Idee des Causal listening setzt einen bereits vorhandenen Erfahrungsreichtum voraus.

Darüber hinaus verkennt Chion das Phänomen der Immersion. Diese ist ein Feld für sich, das Johannes Scherzer 2010 in sechs Kategorien aufteilt, um die unterschiedlichen Dimensionen von Immersivität aufzuzeigen. So spricht er beispielsweise von narrativer, sensorischer, emotionaler und auch räumlicher Immersion – alles Phänomene, die ein Wechselspiel zwischen Sender und Empfänger voraussetzen, was Chion aber ausschließt. Darüber hinaus ist ein maßgeblicher Aspekt der sensorischen Immersion die Präsentation mit einem möglichst (im physikalischen Sinne) realen Raum. Insofern macht es also einen ganz erheblichen Unterschied, ob der im oberen Drittel des Filmbildes sitzende Vogel tatsächlich zu hören ist. Im Unterschied zu Chions Ansatz kann das Fehlen solch immersiver Momente sogar dazu führen, ein Filmerlebnis zu zerstören, anstatt es zu spezifizieren.

Es gäbe noch viele weitere Fragen zu Chions Hörmodell. Wie beispielsweise die Sprache selbst – sei es im Dialog filmisch zu sehender Personen, sei es durch einen Erzähler aus dem Off oder als Text – zu behandeln ist, bleibt (zumindest im hier diskutierten Text) ungeklärt. Dasselbe gilt auch für die Behandlung von Filmmusik. Es scheint, als wäre das Klangdesign in Chions Vorstellung eine sterile, abgeschottete Angelegenheit, die nichts anderes kennt als die Aneinanderreihung von Einzelgeräuschen. Dabei sollte – gerade auch im Hinblick auf die Immersion – gefragt werden, ob es nicht eher auf die gelungene Komposition der Klänge ankommt. Das Modell Chions ist damit als Anleitung zur Klanggestaltung im Film nur bedingt geeignet. Bei der Einführung von unterschiedlichen Ebenen der Hörwahrnehmung greift es zu kurz und schneidet sich an der Realität. Inwiefern so ein Konzept hilfreich oder überhaupt zutreffend ist, sei daher infrage gestellt. Über die nischenhafte Anwendung im Bereich des filmischen Tondesigns hinaus dürfte es jedenfalls wenige Anwendungsmöglichkeiten geben.

Verwendete Quellen:
– Michel Chion, Audio-vision: Sound on Screen, Kap. The Three Listening Modes, New York 1994.
– Shin-Lin Lin und Pi-Cheng Tung, A Modified Method for Blind Source Separation, in: Proceedings of the 6th WSEAS International Conference on Applied Computer Science, Tenerife, Canary Islands, Spain, December 16-18, 2006.
– Gernot-Andreas Nieder, Auditive Aufmerksamkeit, Seminararbeit Universität Wien 1999, S. 3-5.
– Johannes Scherzer, Der Tondramaturgische Raum als Gestaltungsmittel für die Immersive Ästhetik, Diplomarbeit Filmuniversität Babelsberg Konrad Wolf 2010.


von Janika Achenbach

Auf dem Weg nach Hause in der Straßenbahn. Gerade war Sound Studies-Kurs. 20 Minuten für mich, meine Kopfhörer und Spotify. Herrlich!

Später dann ist Filmeabend mit Mikrowellenpopcorn. Als ich die Steckdosenleiste anschalte, geht nicht nur die Mikrowelle an, sondern auch das Radio. Dort verspricht mir der Moderator den Sound der 80er, gefolgt von Sound of Silence und dem unverwechselbaren Sound eines Künstlers. Mit Popcorn bewaffnet also zurück Richtung Fernseher. „Oh, ProSieben“, bemerke ich die Senderauswahl meiner Mitbewohnerin, ohne das Bild gesehen zu haben. „Ja, da kommt ein guter Film.“ Gelangweilt von dem Film – es passiert aber auch wirklich nichts Spannendes, und alles dauert so lange! – widme ich mich meinem Handy und bemerke etwas später, dass Werbepause ist. Den Blick nicht vom Handy gewandt, weiß ich trotzdem, wo und was ich kaufen soll: ein Heimkino-Soundsystem oder einen Computer mit Intel-Prozessor. Brauche ich gerade nicht, danke. Im Abspann des Films tauchen Regisseur, Drehbuchautor und Sounddesigner auf. Im Vorspann zur folgenden Serie, die ich im Schlaf an ihrem Sound erkennen würde, höre ich die Handschrift des Sounddesigners ganz bewusst heraus.

Sound ist omnipräsent in unserem Alltag. Die Bedeutungen des Begriffes sind vielfältig. Je nach Kontext kann Sound verstanden werden als:

– Schall allgemein;
– Tonebene der elektronischen Medien;
– Geräusch- oder Klangeffekt;
– spezifisch gestalteter Klang einer Ware, eines Industrieprodukts, einer Marke oder eines Unternehmens;
– akustischer Indikator für technische Verfahrensweisen (z. B. Röhren-Sound);
– charakteristische Klangfarbe oder Klangqualität von Musik;
– qualitatives Bewertungskriterium akustischer Vorgänge überhaupt.

Es beschäftigen sich verschiedene Fachrichtungen mit Sounds, darunter Musikwissenschaft, Medienwissenschaft, Psychologie, Ökonomie oder die Ingenieurwissenschaften. In der Musikwissenschaft spielt die Diskussion des Sounds eine immer größere Rolle, seitdem elektronische Gestaltungsmöglichkeiten für Musik bestehen. Ursprünglich stammt der Begriff aus dem Bereich des Jazz und bezeichnet dort den ‚unnachahmlichen‘ Klang eines Künstlers. Auch im heutigen Sprechen über populäre Musik lässt sich diese Verwendungsweise genreübergreifend beobachten. Doch längst hat die Rede vom Sound das Feld der Musik verlassen. In der Medienwissenschaft findet eine Verschiebung von der rein visuellen zur audiovisuellen Betrachtungsebene statt. Bei der industriellen Fertigung verschiedenster Geräte sollen Sounds deren Benutzung vereinfachen und unterstützen. Das Akustikdesign ist darauf aus, die akustischen Eigenschaften eines Raumes zu verbessern und damit das Wohlbefinden beim Aufenthalt zu steigern, etwa in einem Geschäft zur Maximierung der Einkaufsbereitschaft. Ebenfalls psychologisch relevant sind die Auswirkungen gegenwärtiger Soundscapes – inklusive Lärm – auf den Menschen. Die Soundscape-Forschung bzw. akustische Ökologie ist ein transdisziplinäres Forschungsgebiet. Es befassen sich Geographen, Historiker, Soziologen, Psychologen, Pädagogen, Musikwissenschaftler, Akustiker, Kulturwissenschaftler, Ethnologen, Architekten, Stadtplaner und andere Fachleute mit Wandel, Gestaltung und Analyse der uns umgebenden akustischen Umwelten. Um die Lärmbelastung zu minimieren, gibt es Überlegungen, die vorhandenen Klänge gezielt zu gestaltet, keinen unnötigen Schall zu produzieren und die Lautstärke des vorhandenen Schalls einzudämmen.

Dem hörenden Menschen erscheint die auditive Wahrnehmung als grundlegend. Hören ist das Instrument räumlicher Ortung und Orientierung. Deswegen sind Warnvorrichtungen wie Sirenen und Martinshörner wichtige Mittel der akustischen Kommunikation. In diesem Zusammenhang ist es interessant, dass der Begriff des Hörens verschiedene Facetten aufweist. Allein der Unterschied zwischen Hören und Zuhören, obwohl lediglich durch zwei Buchstaben markiert, ist nicht marginal. Das konzentrierte, aktive Zuhören fällt vielen Menschen immer schwerer, was an den Sendeformen der Massenmedien liegen mag. Im Diskurs gibt es die Unterscheidung zwischen wertvollem Hören (gewolltem Zuhören) und nicht-wertvollem bzw. erzwungenem Hören. Musik ist immer und überall verfügbar und wird somit auch viel gehört. Doch geschieht dies häufig nicht aktiv, sondern eher nebenbei. Rundfunk, Fernsehen und andere Mediendispositive konstituieren einerseits unsere akustische Realität. Andererseits ermöglichen sie die Flucht aus ihr. So kann durch Kopfhörer ein privater akustischer Raum geschaffen werden, der die Außengeräusche weitgehend ausblendet.

Medienhistorisch betrachtet war das Radio soundmäßig lange Zeit weiter als das Fernsehen, zum Beispiel im Hinblick auf die Verwendung stereophoner Sendeformate. Seitdem Fernsehgeräte weitaus bessere Möglichkeiten der Klangwiedergabe besitzen, sind die Gestaltungsoptionen vielfältiger geworden. Heutzutage zeichnen Sounddesigner für die klangliche Einrichtung verschiedener Medien wie Hörspiel, Film oder Videospiel verantwortlich. Praktisch beschäftigen sie sich unter anderem mit der Frage, wie Sounds Emotionen beeinflussen, visuelle Reize verstärken oder auch abschwächen können.

Verwendete Quelle: Frank Schätzlein, Sound und Sounddesign in Medien und Forschung, in: H. Segeberg und F. Schätzlein (Hg.), Sound. Zur Technologie und Ästhetik des Akustischen in den Medien, Marburg 2005, S. 24-40.