discussion Pourquoi l’idée d’enregistrer le son d’enceintes en binaural n’est pas terrible.
- 106 réponses
- 13 participants
- 2 966 vues
- 18 followers
Jan mk2
Nous pouvons croiser ici et là des vidéos d’audiophiles qui prétendent faire entendre le son de leurs enceintes dans une vidéo, notamment sur Youtube. Cette idée est (pour moi) complètement farfelue pour une bonne (et simple) raison, c’est que lorsque nous écoutons une musique reproduite sur des enceintes, ce que nous entendons c’est :
1 le son des enceintes
2 la réaction du local
3 éventuellement la sugnature sonores des éléments précédents dans la chaîne.
La proportion entre les trois est variable, mais souvent beaucoup plus importante qu’on peut l’imaginer en faveur du local.
Dans la vraie vie domestique, lorsque nous écoutons de la musique reproduite par des enceintes acoustiques placées dans notre salon, à moins d’avoir affaire à un local très pourri, ou d’être placé assez loin, nous avons l’impression d’entendre essentiellement l’empreinte du système, et notamment des enceintes. Mais ce n’est pas vrai.
Il faut introduire une première notion d’acoustique qui est celle de la distance critique. C’est la distance à la source pour laquelle le son direct et le son réverbéré par le local sont du même niveau. En bref, à cette distance, ce que vous entendez provient à 50% des enceintes, et à 50% du salon.
Dans un salon moderne avec des portes en bois ou en panneau alvéolaire, un ou deux canapés, une bibliothèque, une ou deux fenêtre ou baie vitrée avec rideaux, un tapis sur carrelage, plancher bois ou stratifié, voire une moquette, et le tout de forme plus ou moins rectangulaire et d’une surface de 15 à 30 mètres carrés, la distance critique a des chances de se trouver aux alentours de deux à cinq mètres, et souvent plus près de deux.
Alors, pourquoi n’avons-nous pas l’impression que l’acoustique du local envahit l’écoute ?
Si vous avez la possibilité de placer deux micros à l’endroit ou vous écoutez vos enceintes de salon, et si possible des omnidirectionnels, vous risquez d’être surpris par le résultat, et vous avez peu de chance de reconnaitre le son de vos enceintes tel que vous le percevez en direct.
La raison est simple : nous ne somme pas des micros. Nos oreilles se comportent à peu près comme des micros omni, mais notre cerveau joue au DSP (Digital Signal Processing), ou ici on devrait dire HSP (pour Human Signal Processing). Il utilise les lobes de nos oreilles pour déterminer la provenance des sons, et la temporalité de l’arrivée des sons pour aider à les isoler de leur contexte sonore. Ce qui produit un effet de zoom acoustique totalement réflexe et inconscient qui abaisse l’impact de l’acoustique du local dans la sensation sonore. En très bref, notre cerveau sait que lorsque nos oreilles perçoivent un son plus vite à gauche qu’à droite, c’est qu’il vient de la gauche. Et il sait aussi que s’il perçoit des répliques de ce son plus ou moins déformé, ce n’est pas la source mais une réplique acoustique. Et il sait l’atténuer, en fonction de la logueur du retard, et des proportions finies.
Une autre manifestation de cette capacité est l’effet cocktail party
On en vient donc à cette idée bizarre de faire entendre des enceintes acoustiques via un enregistrement effectué dans le salon de l’auditeur/youtubeur. L’audiophile est un amateur qui n’a souvent pas d’expérience en prise de son, peu de connaissance en acoustique, et qui trop souvent prends les connaissances en psychoacoustique pour des fake news. Du coup, le réflexe est de placer des micros au point d’écoute, ce qui risque de ne pas être très éloigné de la distance critique, pas de bol. Je vous laisse imaginer le résultat.
Un des systèmes de captation qui pourrait être le plus proche de l’oreille humaine de la vraie vie est le binaural, ceux qui ne connaissent pas pourront mettre ce mot dans un moteur de recherche. L’avantage de ce système est qu’il se fait avec des capsules omni, et une simulation de tête humaine.
Genre ça :
)
Ecouté au casque, cela permet de restituer une grande partie des informations de localisation, en trois dimensions, et de permettre au cerveau de l’auditeur de faire son travail d’escroc, au moins en partie.
Mais la prise de son binaurale d’une paire d’enceintes dans un salon comprends l’empreinte acoustique du dit salon ? me direz-vous. Et vous aurez raison, ô combien ! Encore plus car on parle ici de capsules omnidirectionnelles obligatoires en binaural. Donc, c’est pas une idée terrible terrible. Et je ne parle pas de l’impact des capsules elles-même, ni du préampli.
Voilà voilà…
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."
iktomi
Si en plus les 3 voies tweeter mediums graves étaient séparés, c'était largement suffisant.
kYZmar
Je ne vois pas comment on peut fournir, dans un papier ou une vidéo, autre chose de carré que des caractéristiques mesurables, si possible bien mesurées. C'est pour moi la limite de l'exercice.
Dans une video, il y a generalement une piste sonore.
Chez les constructeurs pros sérieux, on a droit à une liste nettement plus conséquente, probablement plus fiable, et surtout avec des trucs qui ont un vrai intérêt.
ATC ne se donne meme pas la peine de presenter une courbe de reponse en frequence.
Pour les autres, je suis alle verifier et aucun n'indique ne serait-ce que le smoothing de la mesure.
Et c'est pour ca qu'elles ressemblent toutes a des traits. Ce n'est pas tres fiable.
Et evidemment, si on s'interesse au protocole de la mesure, ce qui serait la BASE d'un debut de demarche rigoureuse, on ne trouve RIEN. Chez personne.
Ne serait-ce que le labo qui a mesure (sauf PSI qui font chez eux et au vu des photos, ca fait pas tres 'state-of-the-art' en matiere anechoide)
Anonyme
La difference entre HP de guitare se justifie parce que ces HP sont volontairement coloré car focalisé dans le medium et sont destiné a etre repris par un/des micros pour la scene et le studio de manière coherente avec le style musical du musicien. Du coup, le enregistrer avec un/des micros communement utilisé as du sens car tu les enregistre "dans leurs usage".
Les HP de hifi sont intrinsequement conçu dans un but de restitution finale la plus neutre possible, et ce afin de restituer au plus proche l'enregistrement que l'on souhaite ecouter. Si il y a autant de difference entre deux enceinte hifi qu'entre un greenback et un vintage 30, il y a un probleme de conception.
L'exemple plus tot de la television est pertinente car tu ne peut pas ajouter a ton systeme de reproduction final des frequences qu'il ne peut pas faire, donc in fine une video youtube n'apportera pas grand chose comme tu reproduit un systeme voulu comme final sur ton propre systeme final.
Simplement, comme pour Gran Turismo 7, tu peut avoir la toute meilleur reproduction d'une GT3 et de Spa possible, avec le PSVR2, un casque avec son 3D et un volant a retour de force, ça ne sera jamais comme etre a Spa avec une GT3, sinon je serait pilote pro depuis longtemps.
[ Dernière édition du message le 23/04/2025 à 12:27:40 ]
Anonyme
Tout à fait d'accord.
En fait je me rends compte qu'un hiatus réside dans le public visé.
Les professionnels ont pour une bonne partie l'occasion d'entendre du matériel que ce soit en accueil, en tournée, en passant chez un collègue dans le cadre d'une étape font on a pas la charge et parce qu'on a des copains dans le métier.
De ce fait, comme tu le dis, la plupart des pros ont une culture des marques et outils, entre ça et le cahier des charges. Le choix se restreint déjà assez pour ne pas tergiverser des années.
Pour un public amateur il peut en être autrement. M Sauf que ce ne sont pas forcément les plus conscients des limites de telles écoutes comparatives...
Bref, mes réserves quant à ce projet ne sont pas théoriques en premier lieu, elles sont très pragmatiques.
DocK'S
et je ne crois pas que les mesures, courbes et waterfall soient inutiles pour ça
Tiens, je reviens sur le waterfall parce-qu'il me semble que vous avez été plusieurs à en parler et à regretter leur absence de la part des constructeurs.
Mais un truc doit m'échapper car je ne comprends pas bien ce que ça apporterai de plus qu'une courbe de réponse en fréquence.
La 3ème dimension donnant le Decay / Release, en chambre anéchoïque je ne vois pas ce que ça apporte, et en studio ça nous informe sur la pièce, pas sur les enceintes.
Pour moi le watterfall n'a d'intérêt que pour vérifier/ corriger sa propre acoustique, mais comme je l'ai dit, y'a sûrement un truc qui m'échappe.

Pour ATC ils donnent la bande de linéarité à +/- 2dB et la bande passante à -6dB, alors ok y'a pas la courbe mais l'info est là quand même.
Pour PSI, je ne sais pas pour les photos mais donnent tout leur protocole de mesures ICI
[ Dernière édition du message le 23/04/2025 à 12:45:47 ]
Jan mk2
Bref, mes réserves quant à ce projet ne sont pas théoriques en premier lieu, elles sont très pragmatiques.
Mais pareil ! Mais ça n'empêche pas de réfléchir (pour ceux qui en ont les capacités) et d'analyser.
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."
Anonyme
Anonyme
iktomi
J'ai tendance à penser que "anechoïde" se réfère à la caractéristique des parois voire de la pièce, et "anechoïque" le phénomène qui en résulte.
[ Dernière édition du message le 23/04/2025 à 13:55:19 ]
Jean-Marc Boulier
Mais la correction est très variable en fonction des conditions, notamment temporelles. L'aspect de la réponse du local dans les premières 20ms est critique. 20ms, cela représente un peu moins de sept mètres, cette valeur est importante. Durant cette période de temps, notre cerveau a beaucoup de mal à discerner ce qui est le son direct provenant de la source, et ce qui est la réponse du local. Du coup, il mélange les deux et le résultat est une modification du timbre perçu.
Oui tu mets le doigt sur l'aspect le plus important je crois. En plus, dans une petite pièce les réflexions primaires mélangées au son direct sont plus nombreuses dans ces premières millisecondes donc la coloration est plus importante. Dommage pour tous ceux d'entre nous qui doivent travailler dans un home studio.
À ce sujet, j'ai toujours trouvé amusante l'appellation "moniteurs mid-field" que certains fabricants ou revendeurs utilisent, comme si la distance critique représentait une zone floue (alors que sa formule indique clairement qu’il s’agit d’une limite nette). Ces gens du marketing tentent de nous faire croire qu'en utilisant des moniteurs near field dans son local on sera à l'abri du champ diffus, alors que la distance critique est variable en fonction de la taille de la pièce.
ATC ne se donne meme pas la peine de presenter une courbe de reponse en frequence.
Ca ne me semble pas problématique. Déjà, la réponse en fréquence d'un moniteur haut de gamme n'est pas une mesure très intéressante en soi, et ATC fournit la gamme spectrale sur laquelle la réponse du moniteur est considérée linéaire (+/- 2 dB), qui est d'ailleurs quasiment la même sur toute leur gamme (environ 70 - 17 kHz). Je ne vois pas ce qu'une représentation graphique apporterait de plus. La majorité des pièces d'écoute a une réponse en fréquence moins bonne de toutes façons (c'est d'ailleur le cœur du sujet). Des critères comme la réponse de phase, la distorsion harmonique, la directivité ou même le max SPL me semblent des indicateurs au moins aussi importants.
je reviens sur le waterfall parce-qu'il me semble que vous avez été plusieurs à en parler et à regretter leur absence de la part des constructeurs.
Mais un truc doit m'échapper car je ne comprends pas bien ce que ça apporterai de plus qu'une courbe de réponse en fréquence.
Je pense que c'est simplement pour mesurer les caractéristiques du caisson lui-même, qui est une sorte de "mini pièce" à lui tout seul, avec ses propres modes, résonances etc.
Jean-Marc
[ Dernière édition du message le 23/04/2025 à 22:40:31 ]
Jean-Marc Boulier
Ils ont essayé de faire les choses un peu sérieusement au niveau de la répétabilité des tests (source, préamp et câble identique, positionnement au laser, chambre anéchoïque etc.) Quelques explications ici pour les curieux :
Jean-Marc
Jan mk2
En plus, dans une petite pièce les réflexions primaires mélangées au son direct sont plus nombreuses dans ces premières millisecondes donc la coloration est plus importante.
À ce sujet, j'ai toujours trouvé amusante l'appellation "moniteurs mid-field" que certains fabricants ou revendeurs utilisent, comme si la distance critique représentait une zone floue (alors que sa formule indique clairement qu’il s’agit d’une limite nette). Ces gens du marketing tentent de nous faire croire qu'en utilisant des moniteurs near field dans son local on sera à l'abri du champ diffus, alors que la distance critique est variable en fonction de la taille de la pièce.
Nous sommes absolument d'accord. Après, à niveau de pression sonore constant au point d'écoute, mieux vaut de "grosses" enceintes dans une grande pièce que des deux voies en 6 pouces. Plus on doit pousser des Hp dans leurs retranchements, plus ils produisent de la distorsion (sans compter les éventuels bruits d'écoulement de l'évent). Mais ce n'est pas directement lié à la distance d'écoute.
Déjà, la réponse en fréquence d'un moniteur haut de gamme n'est pas une mesure très intéressante en soi, et ATC fournit la gamme spectrale sur laquelle la réponse du moniteur est considérée linéaire (+/- 2 dB), qui est d'ailleurs quasiment la même sur toute leur gamme (environ 70 - 17 kHz). Je ne vois pas ce qu'une représentation graphique apporterait de plus. La majorité des pièces d'écoute a une réponse en fréquence moins bonne de toutes façons (c'est d'ailleur le cœur du sujet).
C'est clair, notamment dans le bas du spectre ou la pièce à une importance prépondérante, sauf a disposer d'un volume de plusieurs centaines de mètres cubes avec traitement acoustique idoine. Pour info, le studio dans lequel j'ai travaillé disposait de 440 mètre cubes avant traitement. Cela à permis de linéariser le temps de réverbe jusqu'à 50Hz (ce qui ne veut pas dire qu'il se passait n'importe quoi sous cette fréquence). Ça vous laisse imaginer ce qu'il se passe dans une cabine non traitée de 60 ou 80 mètres cubes.
Mais un truc doit m'échapper car je ne comprends pas bien ce que ça apporterai de plus qu'une courbe de réponse en fréquence.
Bien au contraire, le waterfall permet de montrer le temps d'amortissement en fonction de la fréquence. C'est une info très intéressante qui montre la coloration d'une enceinte et que la courbe de réponse ne montre pas. Sur ce point, les enceintes correctement asservies marquent des points importants car elles permettent de linéariser l'amortissement de manière dynamique, c'est justement ce qui me séduit dans l'estéthique de PSI (en plus de la régularisation de la phase). Il faut écouter des PSI A25 pour prendre conscience de l'apport de l'asservissement dans ce domaine. C'est ce qu'évoquait Noisey précédemment, la sensation de l'impact d'un gros système, dans de toute petites boîtes.
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."
[ Dernière édition du message le 23/04/2025 à 23:16:34 ]
DocK'S
J'étais pas du tout sur ces critères.
iktomi
[ Dernière édition du message le 24/04/2025 à 14:50:08 ]
Jean-Marc Boulier
Le principe est d'effectuer un alignement temporel avec un filtre FIR en appliquant un délai compensatoire aux fréquences qui se propagent plus rapidement. Cela permet que tout arrive en même temps aux oreilles et améliore la réponse transitoire, entre autres. En revanche cela introduit évidemment une certaine latence, ce qui n'est pas du tout un problème pour mon utilisation.
Jean-Marc
kosmix
Citation de kosmix :(...) je pense que le résultat dépend pour une très grande partie de l'expérience et des compétences de la personne qui effectue le travail.
En tant qu'amateur peu éclairé et peu compétent je me repose surtout sur la connaissance de mon propre matériel, du son de ma pièce, et surtout j'effectue des écoutes ailleurs pour faire des corrections.
Je peux être d'accord, mais il faut pondérer. Cela dépends du type de produit qu'on réalise, et à quel niveau de la production on se situe. Après le risuqe d'erreur est plus acceptable quand on travaille sur un truc potentiellement vendu à quelques centaines d'exemplaires, ou à quelques dizaines de milliers d'exemplaires. C'est trivial, mais ça compte.
Entièrement d'accord, j'avais juste oublié de préciser que dans mon cas il n'y a strictement aucun enjeu et peu d'ambition si ce n'est de me faire plaisir. Je suis un simple amateur avec certes un peu d'expérience mais plus dans l'optique de me faire plaisir que de répondre à un cahier des charges technique pour une diffusion pro, vu que la diffusion de mes prods reste hyper confidentielle (anecdotique même). Même si évidemment je m'efforce toujours de livrer un produit "propre" et équilibré, avec plus ou moins de succès, avec mon matos (très) moyen, mon studio pourri qui n'a aucun traitement acoustique et mon système d'écoute complètement bancal
Putain Walter mais qu'est-ce que le Vietnam vient foutre là-dedans ?
[ Dernière édition du message le 24/04/2025 à 15:10:28 ]
iktomi
Je crois que c'est cette phrase de l'article qui m'a fait pensé à l'acoustique.
"La « linéarité », c’est une sorte d’utopie dans le son, un idéal dans lequel les matières et les espaces ne perturberaient ou n’amplifieraient pas les fréquences dans leur chemin jusqu’à nos tympans."
Merci Jean-Marc.
[ Dernière édition du message le 24/04/2025 à 15:19:26 ]
Anonyme
Le principe est d'effectuer un alignement temporel avec un filtre FIR en appliquant un délai compensatoire aux fréquences qui se propagent plus rapidement. Cela permet que tout arrive en même temps aux oreilles et améliore la réponse transitoire, entre autres. En revanche cela introduit évidemment une certaine latence, ce qui n'est pas du tout un problème pour mon utilisation.
En réalité le son se déplace quasiment à la même vitesse pour toutes les fréquences dans la plupart des fluides. En général, la distorsion de phase vient surtout du fait que le trajet acoustique est différent en sortie d'enceintes.
Un exemple typique c'est les sub Maestro de la marque Amadeus : il y a une sorte d'escargot acoustique dans l'enceinte qui fait qu'elle sont assez significativement en retard sur les têtes si on ne les aligne pas (même si les têtes sont collées dessus).
Une des qualités des PSI, comme l'expliquait Jan, c'est d'avoir fait un gros travail sur la correction de phase pour aligner les voies entre elles.
[ Dernière édition du message le 24/04/2025 à 15:25:29 ]
Jean-Marc Boulier
Comment fait PSI pour résoudre ce problème sans DSP ? Il y a quand même un paquet de paramètres mécaniques à prendre en compte... Masse et inertie des membranes, résonances mécaniques, caractéristiques acoustiques du boitier lui-même etc...
Jean-Marc
slave1802
J'ai bien entendu perçu une nette différence entre avant et après la modification...
Jusqu'à ce que je passe dans le bureau et m’aperçoive que les supports d'enceinte des mes moniteurs étaient à l'exact opposé, et pas pour une quelconque variation de vitesse mais juste pour être dans l'axe de mes oreilles.
J'ai enlevé les cales, elles étaient en bois, elles ont très bien brulées malgré un léger chuintement dans les aigües...
Anonyme
En tout cas c'est diablement efficace. La sensation d'impact dans le grave c'est ce qui m'a le plus soufflé lors de ma 1ere écoute des A14 en auditorium. Le 2nd point ça a été d'entendre plus précisément que jamais les modulations dans des effets modulés sur des voix.
Jan mk2
De ce que j'ai compris, chez PSI, ce sont des traitements électroniques (donc sans doute des lignes à retard). Mais je peux clairement me tromper, ça fait partie des trucs brevetés et protégés sur leur conception d'enceintes.
En tout cas c'est diablement efficace. La sensation d'impact dans le grave c'est ce qui m'a le plus soufflé lors de ma 1ere écoute des A14 en auditorium. Le 2nd point ça a été d'entendre plus précisément que jamais les modulations dans des effets modulés sur des voix.
Ouaip' et plus tu montes en gamme, plus c'est flagrant.
Concernant les retards, ils sont dûs dans l'ordre d'apparition : à l'amplification (souvent π/2 sur un ampli en classe B par exemple entre 20Hz et 20kHz), aux filtres répartiteurs, aux membranes, et enfin à la charge. Dans une enceinte amplifiée, le constructeur peut mesurer tout ça et se donner les moyens de corriger. Mais il y a des limites car le faire dès 20Hz entrainerait un retard beaucoup trop élevé. Et ça tombe bien, nous sommes peu sensibles à la relation phase/fréquence dans le grave. Par exemple, PSI rectifie la phase au dessus de 200Hz seulement.
Mais il ne faut jamais oublier que le dernier maillon de la chaîne, c'est la pièce. Et dans cette pièce il se produit de nombreux accidents sur la phase.
Alan Parson a peut-être dit : "Audiophiles don't use their equipment to listen to your music. Audiophiles use your music to listen to their equipment."
Jean-Marc Boulier
Le 2nd point ça a été d'entendre plus précisément que jamais les modulations dans des effets modulés sur des voix.
Pas compris cette phrase...
Jean-Marc
Anonyme
Ça peut sonner juste plus gros et fourni, où on peut entendre les modulations. Là j'entendais les cycles de modulation comme jamais auparavant (sur du Bjork, album Homogenic en l'occurrence)
Jean-Marc Boulier
Jean-Marc
- < Liste des sujets
- Charte

