Interview du designer sonore pour le cinéma Scott Gershin (Star Trek, Shrek, Room, Resident Evil)

Scott Gershin est l’un des designers sonores les plus en vue actuellement. Cela fait plus de 30 ans qu’il crée des sons et sa liste de crédits n’en finit pas, avec notamment des films comme Night Call, Pacific Rim, Hellboy 2, Star Trek, American Beauty, ou encore Shrek pour n’en citer que quelques uns. Pour ce qui est des jeux vidéo, il a travaillé sur Doom (2016), Resident Evil, Epic Mickey, Gears of War et Fable. À l’heure actuelle, Gershin est directeur creatif et éditorial chez Technicolor, tout en dirigeant son équipe au Sound Lab.

Interview de Scott Gershin (Hellboy 2, Star Trek, American Beauty, Shrek) : De Hollywood à la réalité virtuelle

Audiofanzine s’est récemment entretenu avec lui, abordant nombre de sujets en lien avec le design sonore tels que l’audio immersif, sa façon de créer des sons, ou encore ses outils logiciels et matériels.

Je me souviens qu’au dernier salon de l’AES, tout le monde mettait ses produits immersifs en avant. Avez-vous travaillé sur des projets immersifs, et en quoi différent-ils du design sonore pour le cinéma ou la télé ?

Ouais, j’ai fait plein de projets de ce genre: de la VR [Virtual Reality, réalité virtuelle], de la MR [Mixed Reality], de l’AR [Augmented Reality, réalité augmentée]… Je dirais au moins une vingtaine de projets de ce type. Pour moi, la réalité virtuelle combine ce que j’ai appris à faire au cinéma et pour les jeux vidéo. Parfois c’est interactif, et parfois pas. L’un des deux types de VR qui marchent bien est la VR360, qui se résume à un signal visuel linéaire couplé à un signal audio spatial diffusé à travers les lunettes ou via une appli. Ce qu’on peut voir sur Facebook, Youtube et autres. Et puis, il y a la VR interactive, qui utilise un moteur de jeu. Là, tout repose sur de l’audio relatif à l’objet. On prend un son, on le place dans un espace sphérique et on peut manipuler quand et comment il est audible, comme pour un jeu. Mais la plupart du temps, quand la réalité virtuelle ne relève pas du jeu vidéo, il s’agit d’une histoire interactive incorporant de la réalité virtuelle.

Scott Gershin

Parlez-nous de l’interactivité entre le spectateur et le média de réalité virtuelle, quel qu’il soit.

Avec la réalité virtuelle, il y a de nombreuses façons de devenir mobile. Parfois, on peut vraiment marcher physiquement dans une pièce, d’autres fois, on peut se téléporter, disons : « je veux aller là » et on s’y retrouve. Le tout par rapport à un objet virtuel partagé, par exemple s’il y a un phonographe et que vous vous téléportez à sa droite, vous l’entendrez comme venant de votre gauche, et si vous vous tournez vous l’entendrez derrière vous. Les objets sonores deviennent des sources d’émission sonore. Ensuite, on détermine comment et quand ces objets vont se faire entendre. Il y a beaucoup de paramètres qui sont contrôlables, comme avec une console de mixage, avec en plus diverses sortes de technologies spatiales (il y en a beaucoup) pour informer la personne sur le lieu où cet objet se situe dans l’espace sphérique : au-dessus de vous, en dessous de vous, autour de vous, ce genre de choses.

Désolé pour mon ignorance sur le sujet, mais quand vous faites un mix pour un projet de ce genre, combien de pistes utilisez-vous en moyenne ?

Ce n’est pas une question de pistes, c’est une question d’objets sonores. Vous pourriez très bien avoir mille objets. Projetez-vous dans une pièce et pensez au nombre d’objets dans cette pièce qui peuvent émettre du son : la fenêtre, le bruit de fond, trois personnes dans la pièce… Et non seulement tout ça, mais l’émission de ces sons peut aussi dépendre de leurs situations dans l’espace. Viennent-ils d’une autre pièce ? Est-ce que je mets un filtre passe-bas dans ma pièce simulée ? Il existe un très grand nombre de possibilités, mais on fait ça depuis trente ans dans le monde du jeu vidéo.

Mais le signal en sortie vers l’utilisateur est simplement un signal stéréo ?

Il y a plusieurs façons de faire, mais le plus souvent on utilise un casque. En binaural. Quelles technologies spécifiques sont disponibles avec un casque ? Eh bien, on peut faire un rendu ou un enregistrement de type vinyle, de l’ambisonie du premier, deuxième ou troisième ordres, ou autre. Il y a plein de façons de faire, mais au final, ça passe par ce qu’on appelle un rendu binaural, autrement dit deux haut-parleurs. Mais maintenant, il y a des secteurs d’application et des types de VR dans lesquels on transporte un ordinateur dans une espèce de sac à dos en se baladant librement dans un monde ouvert, parfois avec un casque audio et parfois sans.

Wow. C’est dingue.

Ce qui est super avec la réalité virtuelle, c’est que c’est le far west. Il y a très peu de standards, et elle ne cesse de se réinventer pour nous offrir de meilleures façons de travailler.

Quel est votre logiciel principal pour mixer dans ce type de contexte ?

Il y a deux logiciels principaux, ils ne font pas tout mais beaucoup de gens utilisent soit Unity, soit Unreal Engine. Ils sont vraiment très répandus. Et puis à l’intérieur de ces logiciels, on peut utiliser leurs outils audio ou des outils externes, et ensuite utiliser des choses telles que WWise (d’Audiokinetic).

D’accord.

Ou FMOD, ou un truc dans ce genre.

J’ai entendu parler de FMOD, qui est utilisé pour les jeux.

Oui, c’est vraiment le moteur audio pour jeu vidéo par excellence. Il est dans ce domaine ce que Pro Tools et Nuendo sont à la postproduction.

Et concernant la création de sons pour la VR, est-ce très différent d’autres types de design sonore ?

Non, je trouve que la création sonore est très semblable à ce qu’on fait pour les jeux.

Par exemple, comment vous y prenez-vous quand vous devez créer un son, comment travaillez-vous ?

Encore une fois, le travail est le même que pour les jeux.

OK.

Audiokinetic WWise screenshot — WWise d’Audiokinetic est l’un des outils les plus utilisés pour l’audio en réalité virtuelle.

En fait il faut prendre les choses à l’envers. D’abord, identifier les technologies que l’on va utiliser, les outils dont on dispose et les outils dans lesquels le client est prêt à investir. Des outils de diffusion aux outils spatiaux en passant par la façon dont tout ça va s’assembler. D’une certaine façon, il faut deviner et anticiper les conditions technologiques dans lesquelles le jeu va être utilisé. Une fois cet aspect intégré et pris en compte, on a tous les paramètres nécessaires pour savoir ce que l’on peut faire ou pas.

Logique.

On identifie alors les séquences qui seront linéaires et celles qui seront interactives, et on opère des choix créatifs pour adopter la meilleure des approches pour un titre de VR donné. Il n’est pas rare de voir cohabiter une part linéaire et une autre interactive. Alors, on peut choisir une approche comme on le ferait dans Ableton, où on appuie sur un bouton et ça déclenche quelque chose, ça peut être une boucle, ou un sampleur ou autre chose. Du fait qu’il y a un certain niveau d’interactivité, quand l’utilisateur appuie sur un bouton, ou se déplace, ou percute un objet ou interagit avec lui, ces sons vont être utilisés, comme avec un sampleur ou avec Ableton. Du coup, la plupart du temps, l’utilisateur joue en réalité d’un instrument de musique, mais sans même s’en rendre compte.

C’est vrai, mais là on parle plus du mode de diffusion. Qu’en est-il de l’essence même du son ?

Alors, en design sonore, il y a plein de façons de procéder. J’utilise encore Pro Tools, d’autres utilisent Nuendo, d’autres encore Reaper ou Logic. Dans la VR ou pour les jeux, certains font les sons à l’intérieur même du moteur du jeu.

C’est intéressant, ça…

Reaper et Nuendo sont vraiment pratiques pour la VR, mais la nouvelle mise à jour de Pro Tools tend maintenant aussi à bien marcher dans ces environnements. Je pense que tout le monde se rend compte du fait que la VR constitue un vrai marché, et ils essaient de s’y adapter. Certains logiciels interagissent avec WWise, comme Nuendo par exemple : on peut charger des sons de Nuendo directement dans WWise. Au final, je pense vraiment que ça revient à utiliser la STAN avec laquellle on est le plus à l’aise. Il n’y a pas de bonne ou de mauvaise façon de créer des sons. Certains utilisent Soundminer. L’important, au final, c’est ce avec quoi on est à l’aise en tant qu’instrument créatif.

Soundminer ? Qu’est-ce que c’est ?

Un outil utilisant des banques de données avec lequel on peut aussi utiliser des plug-ins.

Travaillez-vous avec de grosses banques de sons bruts que vous pouvez ensuite manipuler, ou faites-vous encore beaucoup de prises vous-même, ou encore est-ce que ça dépend du projet ?

C’est exactement comme pour la postproduction pour le cinéma ou la télé : ça dépend du temps et du budget impartis. Évidemment, on aime enregistrer autant que possible, mais parfois on n’a ni le temps, ni les moyens pour ça. Alors on va chercher dans nos banques de sons, et on utilise les sons qu’on a déjà à disposition.

Vous parlez de vos propres banques, pas de celles du commerce ?

Peu importe, tant que ça marche. Je pense que quand la source sonore est bonne, il est inutile de tout réinventer à chaque fois. Je pense que les vraies bonnes banques de sons ont un peu de tout. Il y a de super banques tierces qui sonnent très bien, et dont les auteurs ont dépensé du temps et de l’argent pour aller capter des sons dans des endroits où vous n’auriez jamais pu aller.

C’est vrai.

Alors, pourquoi ne pas les utiliser ? Franchement, je n’ai pas un ego tel que je ne puisse travailler qu’avec ce que j’ai moi-même enregistré. On utilise de tout, des sons qu’on a enregistrés soi-même, ceux enregistrés par un ami, ceux d’une banque qu’on a achetée. Il n’y a ni bonne, ni mauvaise façon de procéder, il s’agit juste d’avoir accès à de bons sons.

Zynaptiq Orange Vocoder — Le plug-in Orange Vocoder de Zynaptiq est l’un des nombreux outils de traitement que Scott Gershin utilise pour traiter les sons.

Et ensuite, en général, manipulez-vous beaucoup les sons bruts une fois que vous avez ce qu’il vous faut ?

Tout à fait. Je pense qu’au final, tout dépend du type de projet concerné. Si c’est un projet réaliste, comme un documentaire, et qu’on adoucit le son, il n’y a pas beaucoup de choses à faire. Une porte est une porte, un bruit d’ambiance est un bruit d’ambiance, mais si on fait quelque chose qui doit avoir un style particulier, ou une atmosphère futuriste, alors oui, tout à fait. Encore une fois, je trouve que ce qu’il y a de bien avec le design sonore, c’est que ça ne tourne pas toujours nécessairement autour de robots, de créatures ou de science-fiction. Créer une bonne ambiance sonore, même si elle est réaliste, c’est non seulement un travail valable, mais en plus c’est amusant.

C’est vrai. Mais supposons que vous travailliez sur un projet qui n’est pas de nature documentaire, y a-t-il des chances que vous accentuiez certains sons pour leur donner un effet théâtral ?

Oui, j’ai fait un morceau qui s’appelle My Brother’s Keeper. Ça parle de la Guerre de Sécession et de deux frères qui se retrouvent dans les camps opposés, l’un au nord, l’autre au sud. Ils se rencontrent au cours d’une bataille, et ils se reconnaissent…

C’est intense.

Souvent, vous entendez les fusils et les canons, des cris et des encouragements, bref, tous les sons que vous imagineriez pour illustrer la Guerre de Sécession. Mais quand on arrive au passage où ils se reconnaissent, tous les sons disparaissent. On entre dans ce que j’appelle « l’hyper-réalité », où rien d’autre n’importe que ces deux personnes, confrontées l’une à l’autre et à leur dynamique émotionnelle. Par exemple, « es-tu mon frère ou mon ennemi ? » Et en optant pour cet arc émotionnel plutôt que pour une approche réaliste, le son devient le vecteur de l’émotion. Et parfois, ce qui compte, ce n’est pas quels sons vous y incorporez, mais quels sont ceux que vous choisissez de ne pas y mettre.

J’ai remarqué qu’il y a un certain nombre de nouveaux logiciels dédiés au design sonore qui font du morphing sonore. Dehumaniser, par exemple…

Oui, vous connaissez ? Il existe des plug-ins et des outils sonores qui sont tout simplement géniaux, peu importe le domaine dans lequel vous travaillez. Orpheus, Dehumaniser, ce sont tous des logiciels géniaux. Et puis Morph, et l’Orange Vocoder qui fait son retour. Et je trouve ça génial d’avoir accès à de super outils. Depuis la nuit des temps, l’être humain a toujours trouvé le moyen de faire des sonorités intéressantes. Certaines choses nous facilitent la vie et nous permettent de faire des choses qu’on n’avait jamais pu faire jusqu’alors. C’est ce qui est enthousiasmant dans le design sonore : on a tous ces super outils à notre disposition qui nous permettent de repousser les limites de notre créativité.

L’Orange Vocoder ? Quésaco ?

C’était un vocodeur qui était sorti il y a quelques décennies et qui existe maintenant sous forme de plug-in. Zynaptiq a fini par le ressortir après l’avoir mis à jour, le rendant encore meilleur au passage. Ils ont même ajouté des fonctionnalités qui ne figuraient pas sur l’original.

Dans le monde du studio, ces dernières années, la qualité des plug-ins a tellement progressé qu’ils sont maintenant utilisés par des gens qui n’y auraient jamais touché auparavant. Existe-t-il un phénomène comparable autour des traitements numériques dans le design sonore ?

Oui. Que l’on parle de design sonore ou de production musicale, on utilise tous les mêmes outils, c’est juste qu’on les utilise différemment. Je trouve que Waves fait de très bons plug-ins, FabFilter aussi, et UA propose des choses extraordinaires.

C’est sûr.

Beaucoup de développeurs proposent des émulations de LA2A, de 1176 et de Pultec, ça permet de choisir quelle variante ou version de ces processeurs matériels classiques on préfère, mais des développeurs font aussi des plug-ins d’un genre différent. Par exemple, Zynaptiq a créé quelque chose qui s’appelle Adaptiverb, qui débarrasse la source sonore de toutes ses crêtes pour ne se focaliser que sur sa tenue dans le temps, et puis bien sûr il y a leur plug-in Wormhole. Il y a le Pro-R de FabFilter, qui en gros permet de contrôler la durée de réverbération en fonction de la fréquence. Le Falcon d’UVI, Altiverb et les plug-ins d’Exponential Audio sont toujours des bases. Encore une fois, il y a tellement de super outils sonores de nos jours. Je pense que le meilleur conseil que je puisse donner, quelle que soit la personne, c’est « téléchargez la démo, utilisez-là et voyez si ça vous est utile ».

Et concernant les prises sur le terrain ? Est-ce que dans ce domaine, les technologies ont beaucoup changé au cours de ces dernières années ?

Oui. Je crois que dans le monde de l’enregistrement en extérieur, pendant longtemps, le choix de l’équipement se limitait à du matériel qui revenait très cher, et il n’y avait pas d’autre choix que de cracher au bassinet. A présent, il existe de nombreux fabricants qui proposent du matériel adéquat dans un budget qui reste raisonnable pour beaucoup de designers sonores, et ça, c’est génial. Au début, tout tournait dans les $8 000, puis c’est descendu dans les $4 000 puis dans les $2 000 et ensuite Zoom est arrivé et a sorti un modèle en dessous des $1 000. Et là, tout le monde a commencé à pouvoir trouver chaussure à son pied.

Sound Devices 788t — Scott Gershin utilise différents enregistreurs de terrain, parmi lesquels le Sound Devices 788T

Ça dépend vraiment de vos besoins en termes de qualité du préampli, de taille, de prix… Tout un tas de facteurs rentrent en jeu.

C’est vrai qu’il y a énormément d’enregistreurs portatifs sur le marché.

Je pense que le marché des designers sonores est probablement trop restreint pour avoir beaucoup de matériels dédiés. Mais si les designers sonores arrivent à tirer un bon résultat d’autres enregistreurs portatifs conçus pour la musique, ou ceux conçus pour les documentaires, ou pour des interviews, alors peut-être est-ce qu’ils peuvent les utiliser. La marque Sound Devices fait du super matériel. Il y a tant de bons enregistreurs et de bons micros… Au final, maintenant le choix dépend surtout du nombre de canaux dont on a besoin, de quel type de préampli micro il nous faut, du genre de dynamique qu’il faut pour le préampli. Est-ce qu’on enregistre des coups de feu et des explosions, ou alors juste un fond sonore, auquel cas il faut un préampli véritablement cristallin. Ou alors, est-ce que l’on cherche juste à enregistrer quelque chose de véritablement accessible ?

Ça relève du bon sens.

J’ai de nombreux enregistreurs de tous types. Je crois que j’en utilise quatre ou cinq, et en fait ça dépend vraiment de ce que je compte enregistrer, de quand je compte le faire, et de la facilité d’accès ou non.

Quels modèles posssédez-vous ?

J’ai un Sound Devices 788, un 744, un Zoom F8, et puis un Fostex FR2. C’est gros, c’est encombrant et le modèle n’est plus produit, mais ses préamplis sont fabuleux. Et puis j’ai aussi tout un tas d’enregistreurs mobiles comme un Sony D50. Différents modèles pour différentes utilités. Parfois, par exemple, vous ne voulez pas qu’on vous voie enregistrer. Sound Devices propose de nouveaux enregistreurs miniatures qu’ils appellent MixPre et qui sont vraiment petits, et il y en a d’autres. Des enregistreurs discrets.

« Et ensuite, il a sorti la reine et elles ont toutes commencé à vrombir vraiment fort. J’ai enregistré ça. »

Dans quel genre de situation avez-vous eu besoin de dissimuler votre enregistreur ?

Il y a je ne sais plus combien d’années, huit ou dix, j’ai fait un film sur le poker. J’ai utilisé un micro binaural qui avait l’air d’une paire d’oreillettes ou d’un casque. Je crois que c’est Sennheiser qui vient aussi de sortir un modèle comme ça au dernier salon du NAMM…

Roland en fait aussi.

Je crois que les miens étaient de marque Countryman, mais je peux me tromper. Bref, donc j’arrive, je me les mets sur les oreilles, je mets l’enregistreur dans ma poche et j’ai traversé Las Vegas à pieds. J’avais l’autorisation d’enregistrer au Bellagio et au Binion’s. J’utilisais aussi un autre enregistreur avec de petits micros DPA sur mes poignets, comme Spiderman, vous voyez. Du coup, selon la manière dont j’orientais mes mains, je pouvais faire des prises ORTF, XY et tout ça.

Wow, c’est incroyable !

Oui, donc je me baladais là avec mes micros doublés, et personne ne savait que j’enregistrais, parce que je voulais enregistrer des parties de poker.

« Mais pourquoi ce type se balade-t-il avec les mains croisées comme ça ? » [Rires] Donc en gros vous essayiez de prendre le son ambiant d’une partie de poker ?

Les réalisateurs tenaient absolument à s’assurer du réalisme. Du coup, le Binion’s et le Bellagio on coupé la musique pour moi. Ils savaient où j’étais. Et je m’asseyais à des tables de poker, enregistrant vraiment tout ce qui s’y passait.

Et vous jouiez en même temps ?

Parfois oui, parfois non. Parfois, je m’asseyais juste là en tant qu’invité ou autre. Ils ont beaucoup utilisé ces prises-là pour les sons d’ambiance, et j’ai commencé à remarquer la différence d’une table à une autre. Et puis, je suis allé encore plus loin, j’ai fait des enregistrements de proximité de certaines personnes : l’argent, l’emplacement des jetons, les joueurs en train de les bouger… J’ai commencé à enregistrer des joueurs professionnels, et j’ai vu comment ils abattent leurs cartes d’une manière différente de celle avec laquelle n’importe quel bruiteur ou même un joueur non-professionnel le ferait. L’un des trucs que j’aime le plus dans le fait d’enregistrer des sons, et pas seulement pour des projets de science-fiction, c’est la possibilité de me mettre dans la peau de quelqu’un d’autre et d’avoir un aperçu de sa vie et de son monde depuis l’intérieur. Je l’ai fait avec un avion, avec l’armée, avec un apiculteur… Vous savez, quand j’ai travaillé sur Chérie, j’ai rétréci les gosses, J’ai passé deux jours à ramasser du miel avec un apiculteur.

Eh bien !

C’était génial ! Et à la fin, il a sorti la reine et elles ont toutes commencé à vrombir vraiment fort. J’ai enregistré ça, et ça a été l’un des éléments centraux de la scène du vol des abeilles dans Chérie, j’ai rétréci les gosses.

Cool !

Dans un avion, je suis allé du côté des instruments techniques et j’ai enregistré tous les servos et les mécanismes. Pour Pacific Rim, j’ai fait tomber des conteneurs de 24 mètres l’un sur l’autre. On aurait dit des tambours géants joués dans un canyon. Il faut utiliser son imagination pour établir ses besoins. J’adore faire des films d’époque pour comprendre comment ça se passait alors. Par exemple, des films historiques qui utilisent des mousquets : j’aime comprendre comment ils faisaient à l’époque, comment ils les chargeaient, quel son ça faisait parce qu’on veut toujours capter une part de réalisme. Non seulement le public peut voir ce à quoi ça pouvait ressembler, mais aussi entendre les sons que ça pouvait faire.

Sennheiser Ambeo VR mic — Gershin utilise le micro Sennheiser Ambeo VR afin de capter les sons d’ambiance pour la réalité virtuelle.

Pour en revenir à l’enregistrement de terrain, vous arrive-t-il d’utiliser un micro surround ?

Tout le temps. Oui, j’utilise deux micros, non, trois en fait. Trois maintenant. J’ai le DPA 5100. J’ai le Sanken à cinq canaux, je ne sais plus quel est le nom exact. Et puis, j’ai un Ambeo de chez Sennheiser…

Et en général, pour quels types d’utilisation y avez-vous recours ? Capter des sons d’ambiance ?

En fait, ça dépend. Quand je veux rester à distance… Oui, voilà, en général ça tend à être plutôt pour les prises d’ambiances. Dernièrement, je l’ai beaucoup utilisé pour enregistrer de la pluie. Il est super pour capturer des effets d’arrière-plan. Comme quand on enregistrait des hélicoptères et qu’un Osprey s’est pointé (c’est une longue histoire). Je venais de faire une super prise des hélicos, et il était à environ 30 ou 40 mètres de là où on était. À cause de la distance, il y avait une superbe accentuation du bas du spectre. Ça sonnait mieux que les hélicoptères, et on a fini par utiliser cette prise pour les hélicoptères. J’ai aussi utilisé ce type de micro pour enregistrer des bruits de foules, comme dans La légende de Manolo. Je suis allé au Mexique et j’ai enregistré les cris d’encouragement d’une centaine de personnes dans une arène, et en plus des micros mono et stéréo, j’ai utilisé un micro multicanal pour capter la réverbération naturelle du lieu et la façon dont il renvoyait le son.

C’est vraiment super.

Donc là encore, on a le son d’un avion qui décolle, puis qui nous passe au dessus, et on obtient ce super renvoi du son que le micro multicanal procure.

Merci Scott !

De rien !

Interview de Scott Gershin (Hellboy 2, Star Trek, American Beauty, Shrek) - De Hollywood à la réalité virtuelle