discussion Pourquoi l’idée d’enregistrer le son d’enceintes en binaural n’est pas terrible.
- 106 réponses
- 13 participants
- 2 697 vues
- 19 followers

Jan mk2

Nous pouvons croiser ici et là des vidéos d’audiophiles qui prétendent faire entendre le son de leurs enceintes dans une vidéo, notamment sur Youtube. Cette idée est (pour moi) complètement farfelue pour une bonne (et simple) raison, c’est que lorsque nous écoutons une musique reproduite sur des enceintes, ce que nous entendons c’est :
1 le son des enceintes
2 la réaction du local
3 éventuellement la sugnature sonores des éléments précédents dans la chaîne.
La proportion entre les trois est variable, mais souvent beaucoup plus importante qu’on peut l’imaginer en faveur du local.
Dans la vraie vie domestique, lorsque nous écoutons de la musique reproduite par des enceintes acoustiques placées dans notre salon, à moins d’avoir affaire à un local très pourri, ou d’être placé assez loin, nous avons l’impression d’entendre essentiellement l’empreinte du système, et notamment des enceintes. Mais ce n’est pas vrai.
Il faut introduire une première notion d’acoustique qui est celle de la distance critique. C’est la distance à la source pour laquelle le son direct et le son réverbéré par le local sont du même niveau. En bref, à cette distance, ce que vous entendez provient à 50% des enceintes, et à 50% du salon.
Dans un salon moderne avec des portes en bois ou en panneau alvéolaire, un ou deux canapés, une bibliothèque, une ou deux fenêtre ou baie vitrée avec rideaux, un tapis sur carrelage, plancher bois ou stratifié, voire une moquette, et le tout de forme plus ou moins rectangulaire et d’une surface de 15 à 30 mètres carrés, la distance critique a des chances de se trouver aux alentours de deux à cinq mètres, et souvent plus près de deux.
Alors, pourquoi n’avons-nous pas l’impression que l’acoustique du local envahit l’écoute ?
Si vous avez la possibilité de placer deux micros à l’endroit ou vous écoutez vos enceintes de salon, et si possible des omnidirectionnels, vous risquez d’être surpris par le résultat, et vous avez peu de chance de reconnaitre le son de vos enceintes tel que vous le percevez en direct.
La raison est simple : nous ne somme pas des micros. Nos oreilles se comportent à peu près comme des micros omni, mais notre cerveau joue au DSP (Digital Signal Processing), ou ici on devrait dire HSP (pour Human Signal Processing). Il utilise les lobes de nos oreilles pour déterminer la provenance des sons, et la temporalité de l’arrivée des sons pour aider à les isoler de leur contexte sonore. Ce qui produit un effet de zoom acoustique totalement réflexe et inconscient qui abaisse l’impact de l’acoustique du local dans la sensation sonore. En très bref, notre cerveau sait que lorsque nos oreilles perçoivent un son plus vite à gauche qu’à droite, c’est qu’il vient de la gauche. Et il sait aussi que s’il perçoit des répliques de ce son plus ou moins déformé, ce n’est pas la source mais une réplique acoustique. Et il sait l’atténuer, en fonction de la logueur du retard, et des proportions finies.
Une autre manifestation de cette capacité est l’effet cocktail party
On en vient donc à cette idée bizarre de faire entendre des enceintes acoustiques via un enregistrement effectué dans le salon de l’auditeur/youtubeur. L’audiophile est un amateur qui n’a souvent pas d’expérience en prise de son, peu de connaissance en acoustique, et qui trop souvent prends les connaissances en psychoacoustique pour des fake news. Du coup, le réflexe est de placer des micros au point d’écoute, ce qui risque de ne pas être très éloigné de la distance critique, pas de bol. Je vous laisse imaginer le résultat.
Un des systèmes de captation qui pourrait être le plus proche de l’oreille humaine de la vraie vie est le binaural, ceux qui ne connaissent pas pourront mettre ce mot dans un moteur de recherche. L’avantage de ce système est qu’il se fait avec des capsules omni, et une simulation de tête humaine.
Genre ça :
)
Ecouté au casque, cela permet de restituer une grande partie des informations de localisation, en trois dimensions, et de permettre au cerveau de l’auditeur de faire son travail d’escroc, au moins en partie.
Mais la prise de son binaurale d’une paire d’enceintes dans un salon comprends l’empreinte acoustique du dit salon ? me direz-vous. Et vous aurez raison, ô combien ! Encore plus car on parle ici de capsules omnidirectionnelles obligatoires en binaural. Donc, c’est pas une idée terrible terrible. Et je ne parle pas de l’impact des capsules elles-même, ni du préampli.
Voilà voilà…
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."

Jan mk2

Bref, mes réserves quant à ce projet ne sont pas théoriques en premier lieu, elles sont très pragmatiques.
Mais pareil ! Mais ça n'empêche pas de réfléchir (pour ceux qui en ont les capacités) et d'analyser.

Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."

Anonyme



Anonyme


iktomi

J'ai tendance à penser que "anechoïde" se réfère à la caractéristique des parois voire de la pièce, et "anechoïque" le phénomène qui en résulte.
[ Dernière édition du message le 23/04/2025 à 13:55:19 ]

Jean-Marc Boulier

Mais la correction est très variable en fonction des conditions, notamment temporelles. L'aspect de la réponse du local dans les premières 20ms est critique. 20ms, cela représente un peu moins de sept mètres, cette valeur est importante. Durant cette période de temps, notre cerveau a beaucoup de mal à discerner ce qui est le son direct provenant de la source, et ce qui est la réponse du local. Du coup, il mélange les deux et le résultat est une modification du timbre perçu.
Oui tu mets le doigt sur l'aspect le plus important je crois. En plus, dans une petite pièce les réflexions primaires mélangées au son direct sont plus nombreuses dans ces premières millisecondes donc la coloration est plus importante. Dommage pour tous ceux d'entre nous qui doivent travailler dans un home studio.
À ce sujet, j'ai toujours trouvé amusante l'appellation "moniteurs mid-field" que certains fabricants ou revendeurs utilisent, comme si la distance critique représentait une zone floue (alors que sa formule indique clairement qu’il s’agit d’une limite nette). Ces gens du marketing tentent de nous faire croire qu'en utilisant des moniteurs near field dans son local on sera à l'abri du champ diffus, alors que la distance critique est variable en fonction de la taille de la pièce.
ATC ne se donne meme pas la peine de presenter une courbe de reponse en frequence.
Ca ne me semble pas problématique. Déjà, la réponse en fréquence d'un moniteur haut de gamme n'est pas une mesure très intéressante en soi, et ATC fournit la gamme spectrale sur laquelle la réponse du moniteur est considérée linéaire (+/- 2 dB), qui est d'ailleurs quasiment la même sur toute leur gamme (environ 70 - 17 kHz). Je ne vois pas ce qu'une représentation graphique apporterait de plus. La majorité des pièces d'écoute a une réponse en fréquence moins bonne de toutes façons (c'est d'ailleur le cœur du sujet). Des critères comme la réponse de phase, la distorsion harmonique, la directivité ou même le max SPL me semblent des indicateurs au moins aussi importants.
je reviens sur le waterfall parce-qu'il me semble que vous avez été plusieurs à en parler et à regretter leur absence de la part des constructeurs.
Mais un truc doit m'échapper car je ne comprends pas bien ce que ça apporterai de plus qu'une courbe de réponse en fréquence.
Je pense que c'est simplement pour mesurer les caractéristiques du caisson lui-même, qui est une sorte de "mini pièce" à lui tout seul, avec ses propres modes, résonances etc.
Jean-Marc
[ Dernière édition du message le 23/04/2025 à 22:40:31 ]

Jean-Marc Boulier

Ils ont essayé de faire les choses un peu sérieusement au niveau de la répétabilité des tests (source, préamp et câble identique, positionnement au laser, chambre anéchoïque etc.) Quelques explications ici pour les curieux :
Jean-Marc

Jan mk2

En plus, dans une petite pièce les réflexions primaires mélangées au son direct sont plus nombreuses dans ces premières millisecondes donc la coloration est plus importante.
À ce sujet, j'ai toujours trouvé amusante l'appellation "moniteurs mid-field" que certains fabricants ou revendeurs utilisent, comme si la distance critique représentait une zone floue (alors que sa formule indique clairement qu’il s’agit d’une limite nette). Ces gens du marketing tentent de nous faire croire qu'en utilisant des moniteurs near field dans son local on sera à l'abri du champ diffus, alors que la distance critique est variable en fonction de la taille de la pièce.
Nous sommes absolument d'accord. Après, à niveau de pression sonore constant au point d'écoute, mieux vaut de "grosses" enceintes dans une grande pièce que des deux voies en 6 pouces. Plus on doit pousser des Hp dans leurs retranchements, plus ils produisent de la distorsion (sans compter les éventuels bruits d'écoulement de l'évent). Mais ce n'est pas directement lié à la distance d'écoute.
Déjà, la réponse en fréquence d'un moniteur haut de gamme n'est pas une mesure très intéressante en soi, et ATC fournit la gamme spectrale sur laquelle la réponse du moniteur est considérée linéaire (+/- 2 dB), qui est d'ailleurs quasiment la même sur toute leur gamme (environ 70 - 17 kHz). Je ne vois pas ce qu'une représentation graphique apporterait de plus. La majorité des pièces d'écoute a une réponse en fréquence moins bonne de toutes façons (c'est d'ailleur le cœur du sujet).
C'est clair, notamment dans le bas du spectre ou la pièce à une importance prépondérante, sauf a disposer d'un volume de plusieurs centaines de mètres cubes avec traitement acoustique idoine. Pour info, le studio dans lequel j'ai travaillé disposait de 440 mètre cubes avant traitement. Cela à permis de linéariser le temps de réverbe jusqu'à 50Hz (ce qui ne veut pas dire qu'il se passait n'importe quoi sous cette fréquence). Ça vous laisse imaginer ce qu'il se passe dans une cabine non traitée de 60 ou 80 mètres cubes.
Mais un truc doit m'échapper car je ne comprends pas bien ce que ça apporterai de plus qu'une courbe de réponse en fréquence.
Bien au contraire, le waterfall permet de montrer le temps d'amortissement en fonction de la fréquence. C'est une info très intéressante qui montre la coloration d'une enceinte et que la courbe de réponse ne montre pas. Sur ce point, les enceintes correctement asservies marquent des points importants car elles permettent de linéariser l'amortissement de manière dynamique, c'est justement ce qui me séduit dans l'estéthique de PSI (en plus de la régularisation de la phase). Il faut écouter des PSI A25 pour prendre conscience de l'apport de l'asservissement dans ce domaine. C'est ce qu'évoquait Noisey précédemment, la sensation de l'impact d'un gros système, dans de toute petites boîtes.
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."
[ Dernière édition du message le 23/04/2025 à 23:16:34 ]

DocK'S


J'étais pas du tout sur ces critères.

iktomi

[ Dernière édition du message le 24/04/2025 à 14:50:08 ]

Jean-Marc Boulier

Le principe est d'effectuer un alignement temporel avec un filtre FIR en appliquant un délai compensatoire aux fréquences qui se propagent plus rapidement. Cela permet que tout arrive en même temps aux oreilles et améliore la réponse transitoire, entre autres. En revanche cela introduit évidemment une certaine latence, ce qui n'est pas du tout un problème pour mon utilisation.
Jean-Marc
- < Liste des sujets
- Charte