fréquences d'échantillonnage, resampling et résolution démystifées ?
- 104 réponses
- 18 participants
- 13 844 vues
- 27 followers
Brubao
J'ai passé du temps à faire des tests et à réfléchir pour essayer de déterminer le format audio optimum pour l'enregistrement et le travail en studio.
Au final je me pose encore quelques questions, auxquelles peut-être des spécialistes pourront répondre de façon éclairée ? (je les ai mises en gras)
Voici d'abord quelques réflexions suite à mes observations.
Vu que c'est un chouilla long et un peu pointu (sans mauvais esprit ), j'ai essayé de structurer clairement les choses.
Fréquence d'échantillonnage :
1) première approche :
il paraît évident dans l'absolu qu'un signal échantilloné à une fréquence élevée sera plus proche du signal analogique original (continu).
Au-delà de la bande passante et du théorème de Shanon Nyquist (qui sert un peu vite d'argument à tous les partis), le rendu des aigus en particulier devrait être plus juste, moins distortionné (décrire une sinusoïde avec 2 points ça paraît pas top).
Evidement on pourrait répondre que les fréquences en question sont inaudibles pour nos vieilles oreilles et que la distorsion des aigues ne fera que créer des harmoniques encore plus aigus et inaudibles (et qui seront de toute façon filtrés dans les formats audio de consommation actuels, fort heureusement dirait Nyquist).
Au final, est-ce que ça fait réellement une différence (surtout pour de la musique consommée en 44.1 kHz) ?
2) traitements et sommation :
en cas de mixage numérique, je suppose que les plugins peuvent délivrer un résultat sonore plus proche de l'analogique s'ils traitent un son "plus continu". En tous cas la différence m'a semblée flagrante à l'audition sur des réverbs qui prenaient une toute autre dimension et consistance (comparaison projet test en 44.1 et en 192).
Au delà du point de vue spectral, je suppose qu'une F.d'E. plus élevée amène une meilleure fluidité temporelle et dynamique.
La sommation aussi est meilleure je suppose, vu la résolution temporelle accrue et la plus grande précision des valeurs à sommer (erreurs de crête moindres, représentation des niveaux plus fidèle à chaque échantillon).
3) rendu final (44.1 kHz) :
Pour me rendre compte si au final ça faisait une différence de travailler à des F.d'E. supérieures, j'ai fait ce test :
- j'avais un projet enregistré en 44.1 kHz.
- j'ai resamplé toutes les pistes en 192 kHz (crystal resampler, wavelab 7).
- j'ai mixé en 192 kHz.
- exporté en 192 kHz puis resamplé en 44.1 kHz.
- j'ai dupliqué le projet de mixage en 44.1 kHz et passé les fichier originaux dedans.
- j'ai créé un fichier delta (différence entre les deux exports finaux).
Conclusions :
- à l'écoute il me semble entendre une différence entre l'export 192 et l'export 44.1 (plus d'ampleur, d'ouverture).
- par contre entre l'export travaillé en 192 puis resamplé en 44 et l'export tout 44, c'est moins évident (difficile de jurer que la différence n'est pas suggérée).
- Evidement, je ne saurai jamais si j'aurais mixé de la même façon en 44 qu'en 192 (ça m'a quand même paru auditivement très confortable, impression d'entendre plus clairement ce qu'il y avait à faire et ce que je faisais).
- le fichier delta montre une différence objective tout à fait flagrante entre les 2 exports (travaillés en 192 puis resamplé en 44 contre tout 44). On a l'impression d'entendre la composante "définiton" du son. Mais je me demande si elle n'est pas liée au resampling à des fréquences non multiples (parce qu'en écoute comparative c'est loin d'être aussi flagrant).
Du coup, vu que j'étais lancé, j'ai resamplé mes fichiers en 174.6 kHz, je les ai repassés dans le mix version 174, puis j'ai exporté et resamplé en 44.1.
Effectivement, le fichier delta est beaucoup moins flagrant même s'il reste une différence du même genre que l'autre fichier delta.
A part ça, les conclusions sont du même ordre qu'avec le mix en 192.
Plein de motivation, j'ai reproduit les processus en 88.1 kHz. Comme on pouvait s'y attendre, les constats sont du même acabit mais moins prononcés.
Il y a quand même quelque chose qui me turlupine :
La comparaison entre le mix en 44 et en 192 (fréquences non multiples) sous forme de fichier delta fait ressortir un résidu très estéthique (sorte de composante de définition du son).
C'est manifestement lié au resampling à des fréquences non multiples : j'ai fait le test de resampler un fichier 44.1 en 192 puis de nouveau en 44.1 et de comparer avec l'original. La différence est du même type.
Les questions que je me pose (même si la différence semble moins flagrante en écoute comparative) :
- est-ce dû à un phénomène de "déphasage d'échantillonnage" qui ferait entendre une différence flagrante mais non pertinente (de la même façon qu'on pourrait obtenir un effet de filtre en peigne flagrant en comparant 2 fichiers très légèrement décalés) ?
- si ce n'était pas le cas, serait-il possible qu'un resampler de bonne qualité, "obligé" d'extrapoler la courbe continue d'une façon plus approfondie pour des fréquences non multiples, offre au final un meilleur résultat ?
4) questions en suspens :
- fréquences multiples ou pas ?
pour les multiples :
. ça paraît plausible que la reconversion soit plus simple en cas de fréquences multiples et amène moins d'artéfacts...
. pourquoi les constructeurs s'emmerderaient sinon à proposer 88.2 et 176.4 kHz ?
pour les non multiples :
. dans l'absolu, avec une fréquence d'échantillonnage plus élevée on se rapproche davantage de ce cher son continu.
. la différence absolue du nombre d'échantillons devient peut-être intéressante aux ordes supérieurs de fréquence d'échantillonnage ?
. avec de bons convertisseurs ou en cas de mastering analogique par exemple, l'histoire de fréquences multiples devient peut-être moins pertinente ?
- 44/48, 88/96 ou 174/192 ?
. par rapport au rendu sonore final, à quel point est-ce que ça vaut la peine de mutliplier la F.d'E. (vu que les ressources nécessaires doublent chaque fois) ? Concrètement, est-ce que ça vaut pas la peine ? x2 ? x4 ?
. le son qu'on entend est quand même toujours reconverti en analogique, passé dans des haut-parleurs avec une inertie non nulle, propagé dans un air élastique et capté par nos oreilles au fonctionnement continu.
Au mieux tous ces éléments sont de très bonne qualité. Dans ce cas les convertisseurs lisseront joliment le signal, les haut-parleurs rendront fidèlement ce signal joliment analogisé, l'air sera transparent (si j'ose dire ) et les oreilles averties et ravies percevront très finement les jolies subtilités du son si bien rendu (en supposant que le signal sonore vaille le coup/coût évidement...).
Ou alors les convertisseurs lissent mal le signal sonore, les caractéristiques des HPs se combinent justement très mal avec ces irrégularités (tweeter hyper agressif), l'air déforme le son en le propageant avec un mauvais goût total, les oreilles qui perçoivent le résultat sont abîmées et la personne à qui appartiennent ces oreilles ne cherche pas à apprécier les jolies subtilités (ça tombe bien).
Dans l'immense majorité des cas, la réalité se situe quelque part entre ces 2 extrêmes (toutes les combinaisons d'incidence étant possibles).
Mais honnêtement, dans quels cas le fait de travailler à des F.d'E. supérieures à 44.1 kHz aboutira à une différence pertinente pour l'auditeur ?
Résolution :
1) 16 bit :
Si je ne me trompe pas, il y a 1 bit de signe (pour la polarité), il reste donc 15 bits pour décrire l'amplitude du signal, soit 2^15 = 32768 valeurs pour décrire le niveau de l'échantillon.
Pour une plage dynamique de 90 dB, ça ferait donc 364 valeurs possibles par dB...
Si c'est bien juste, ça me paraît déjà franchement bien !
2) 24 bit :
Les 8 bits supplémentaire ne servent qu'à décrire les niveaux inférieurs à - 90dB. C'est d'ailleurs confirmé avec un bitmètre.
Franchement, est-ce que ça change quelque chose ?
Je veux bien croire que ce n'est pas purement marketing, mais j'ai du mal à comprendre où est la pluvalue, que ce soit à l'enregistrement, pour les traitements ou la sommation : même pour de la musique classique ou un instrument seul très léger et plein de transitoires et d'harmoniques, j'ai l'impression que c'est quand même rare d'avoir un passage musical qui module suffisament bas pour que ce qui se passe quelque part à -90dB ne soit pas masqué par d'autres composantes sonores ou simplement par le bruit de fond environnant à l'écoute (ampli et HP compris).
3) 32 bit flottant :
Grâce à la virgule flottante on peut décrire à travers toute la plage dynamique des niveaux intermédaires qui ne sont pas utilisés en virgule fixe. Dès lors la pluvalue semble plus claire (enregistrement, traitements, sommation).
Sauf que si mes calculs sont justes (quelqu'un peut-il confirmer ?), même en 16 bit on a 364 valeurs par dB cf. § 16 bit).
Si c'est bien le cas, est-ce vraiment utile d'en avoir plus (même pour la sommation de nombreuses pistes), vu qu'on travaille au mieux au 1/10 de dB ?
Si je calcule bien (mais je me trompe peut-être), on obtiendrait une différence d'1/10 de dB entre une résolution à virgule fixe ou flottante si on avait par exemple à sommer 73 signaux tous très mal approximés par la virgule fixe.
Calcul : en virgule fixe 364 valeurs par dB -> erreur d'approximation maximale = moitié de cet intervalle (donc 1/728ème de dB) -> il faudrait donc cumuler 72,8 erreurs pour atteindre 1/10 de dB...
Et en plus, en cas de travail en virgule flottante, au final les valeurs sont de toute façon arrondies. Donc même si les valeurs finales sont légèrement plus justes après traitements et sommation que si on était resté en virugle fixe, cette précision est quand même partiellement rabotée (et là, même débat que pour les fréquences d'échantillonnage supérieures).
4) en conclusion :
Je veux bien croire qu'il y ait une bonne raison pour que les constructeurs et développeurs proposent des produits qui travaillent en 24 bit, 32 bit flottant, 48 bit non flottant... mais quelle est-elle ?
Quelqu'un d'avisé peut-il expliquer clairement si ça vaut la peine d'enregistrer et/ou de travailler en plus que 16 bit et à quel point ça fera une différence ou pas ?
Si vous avez tout lu, waw !
Si vous avez parcouru et relevé certaines questions, super !
Si vous pouvez y répondre de façon éclairante et justifiée, MERCI !!
Brubao
Donc concernant la RESOLUTION :
Ca vaut la peine d'enregistrer en 24 bit pour pouvoir ensuite manipuler le signal à son aise (gros boostage) sans que le bruit de quantification risque de devenir audible (en cas de GROS boostage).
En résolution de travail, le flottant permet de maintenir le bruit de quantification aux confins de la dynamique utile du signal (ce qui est bien pour les calculs audio-numériques).
Eratom précise que d'un point de vue psycho-acoustique il vaut mieux un bruit de quantification constant (virgule fixe plutôt que flottante).
Est-il juste d'ajouter que, vu qu'en 32 bit flottant on a 23 bits pour décricre le niveau de l'échantillon (tout comme en 24 bit fixe vu qu'il y a un bit de signe/polarité), même si le bruit de quantification module (ce qui attire l'attention dans l'absolu), au pire il sera au même niveau qu'en 24 bit fixe, sinon inférieur, et qu'au final il restera donc de toute façon masqué par le dithering ?
Concernant la FREQUENCE D'ECHANTILLONNAGE :
Si la bande passante du signal est limitée (par ex. à 20 kHz), on peut reconstituer parfaitement la courbe originale (continue) en échantillonnant au double de la fréquence la plus élevée du signal. Et c'est ce que font les convertisseurs D/A.
Merci Nyquist pour tes recherches et merci à ceux qui relaient l'info (jusqu'à Docks )
Quand on lit un fichier audio, ça veut donc dire qu'il ne faut pas se fier à sa forme d'onde numérique (qui paraît plus proche de l'analogique à des FE plus élevées) :
au final, les valeurs des échantillons permettront aux convertisseurs D/A de reconstituer une courbe continue qui sera aussi valide à 44,1 kHz qu'à des fréquences supérieures (car le signal est toujours filtré à 20 kHz).
A l'enregistrement par contre (et en traitement audionumérique), les experts concèdent aux perfectionnistes qu'on peut parler d'une éventuelle pluvalue à échantillonner certains signaux audio à environ 60 kHz (bande passante 30 kHz).
Dès lors, ça peut être justifié d'enregistrer et travailler en 88,2 kHz (ou 96 kHz pour la vidéo).
Par contre, monter plus haut en fréquence d'échantillonnage n'amènera strictement rien en terme de fidélité sonore.
La seule chose qu'on pourrait théoriquement entendre serait une forme de distorsion du signal due justement à une fréquence d'échantillonnage trop élevée pour les convertisseurs (qui peuvent suivre à cette cadence mais en sacrifiant de la précision).
Certains diront qu'il y a des types de distorion agréables à l'oreille et que c'est donc ça la différence qu'ils entendaient bel et bien en 192 kHz.
Pour ceux qui se diraient que la technologie évolue et que peut-être aujourdhui ou demain les convertisseurs n'amèneraient plus de distorsion même en 192 kHz, si j'ai bien compris dans ce cas il n'y aurait alors plus aucune différence (ni théorique ni technique) entre un flux échantillonné en 88,2 kHz ou plus... du coup ça ne servirait clairement à rien de monter plus haut que 88,2 kHz.
On pourrait se dire "ok d'un point de vue spectral ça ne change rien, mais d'un point de vue temporel (réponse impulsionnelle), on est tout de même plus proche d'un son continu".
Eh ben si j'ai bien compris ce qui est expliqué dans le lien de Docks, ça revient au même : il y a une correspondance directe entre les domaines spectral et temporel.
En fait la clé de tout c'est la limitation de la bande passante. Il suffit alors d'échantillonner à une fréquence double pour qu'un convertisseur puisse reconstituer la courbe parfaitement dans la bande passante définie.
Moi qui pensais entendre mieux les choses en 192 kHz qu'en 44,1 kHz et qui trouvais les réverbs plus amples et denses...
Au mieux mon oreille hyper fine a été séduite par une douce distorsion esthétisante très subtile (en plus du gain indéniable d'échantillonner au moins à 60 kHz, que j'aurais eu aussi en 88.1 kHz d'ailleurs mais je n'ai pas essayé).
Au pire je me suis encore fait avoir par l'effet d'autosuggestion (bien que j'avais pris la peine de mentionner que dans ce cas-ci c'était vraiment d'un autre ordre, quel con).
Au moins ça remet les idées en place...
CONCLUSION :
Après moultes aventures, il semble s'avérer que le format d'enregistrement optimal en audio pro soit 24 bit / 88,2 kHz (ou 96 kHz si support final en 48 kHz ou 96 kHz bien sûr).
Niveau résolution, les DAWs et plugins pro actuels travaillent pratiquement tous en 32 bit flottant, ce qui est très bien.
Tout cela permet de conserver tout au long de la chaîne (de l'enregistrement au support final) un rendu spectral et temporel tout ce qu'il y a de plus fidèle au flux analogique équivalent (au niveau du format audio, on ne parle pas ici d'équivalence entre traitements audionumériques et analogiques).
Cela permet aussi une dynamique maximale et très largement suffisante.
D'autre part, la pluvalue ne sera pas forcément flagrante. D'ailleurs si c'était le cas, on n'aurait pas besoin d'en parler autant et on profiterait de la vie et du son plutôt que de se prendre la tête...
Au moins on apprend des choses
Merci pour vos participations !
[ Dernière édition du message le 21/01/2012 à 02:17:41 ]
Danguit
Anonyme
Citation :
Eratom précise que d'un point de vue psycho-acoustique il vaut mieux un bruit de quantification constant (virgule fixe plutôt que flottante).
de toute façon, le convertisseur lui ne gère que de l'entier, donc d'un point de vue "auditif" c'est toujours de l'entier que tu écoutes.
EraTom
Eratom précise que d'un point de vue psycho-acoustique il vaut mieux un bruit de quantification constant (virgule fixe plutôt que flottante).
Non désolé, mais je dis l'inverse
D'un point de vu psycho acoustique, il vaut mieux un SNR constant, donc un bruit de quantification qui change avec la dynamique du signal, et donc de la virgule flottante.
le convertisseur lui ne gère que de l'entier
C'est vrai, mais ça ne justifie pas que le reste de la chaîne de traitement soit entièrement en fixe ou en flottant.
En virgule fixe, si tu appliques un gain de -30dB suivi d'un second gain de +30dB le SNR du signal résultant sera dégradé.
En virgule flottante ça sera transparent.
Anonyme
Citation :
ça ne justifie pas que le reste de la chaîne de traitement soit entièrement en fixe ou en flottant.
non bien sûr, ce que je voulais dire c'est juste que de toute façon ce qu'on écoute aura été requantifié en entier (donc plutôt le cas du niveau de bruit constant), même si la qualité dépend grandement de comment ça a été traité en amont.
Anonyme
Citation de Eratom :
D'un point de vu psycho acoustique, il vaut mieux un SNR constant, donc un bruit de quantification qui change avec la dynamique du signal, et donc de la virgule flottante.
D'ailleurs, on retrouve ce concept dans les système de réduction de débit type mpeg. Si on a besoin d'un SNR de 100dB (admettons), c'est pour qu'il en reste 70 lorsqu'on à un pianissimo à -30. On a pas réellement besoin de 100dB tout le temps.
C'est aussi cette idée qui a prévalu lorsque on a inventé les systèmes de réduction de bruit sur les machines à bande analogiques (Dolby NR).
JM
philrud
Tiens ,j'ai une question qui me vient à l'esprit .
Il y a environ 4 ans j'ai fait des tests d'écoute en analogique (un peu comme Brubao,mais lui en numérique).J'ai écouté ce que faisait un déphasage entrée/sortie ;bilan :un tout petit déphasage entre le signal d'entrée et celui de sortie ;ça s'entend et c'est moins bon.Il faut un respect de phase absolu .Ca se joue à très peu ,mais ce très peu s'entend.
Ma question : est-ce que selon les différentes fréquences d'échantillonnage évoquées ici,on aurait ce tout petit déphasage (qui varierait selon fe) qui pourrait aussi nuire à la qualité d'écoute finale ?
(je ne l'ai jamais mesuré en numérique ;j'aurais bien aimé , peut-être qu'un jour je le ferais quand j'aurais le temps)
[Dans le lien donné par Docks,il y a une évocation temporelle à un moment donné ]
Merci de vos réponses !
Mon soundcloud Good times !
Anonyme
Citation de Docks :
je vais juste répondre pour le 32 bit flottant, de toute façon, c'est pas toi qui décide, ta DAW fait le choix pour toi et bosse à sa résolution de calcul, de plus en plus 64 bit flottant d'ailleurs, et chaque plug des éditeurs tierces en fait de même et bosse à sa résolution, pas toujours en flottant et pas toujours en 32 bit, on a pas la main sur tout ça, tout ce qu'on peu choisir c'est le format d'enregistrement et celui de l'export.
Dans le pool de Cubase, si on décide de travailler le projet en 32 bits flottant avec des fichiers enregistrés en 24 bits, il est possible de "conformer" les fichiers en 32 bits flottants, ou tout simplement de les adapter plus généralement à la config du projet (FE et Résolution).
Enregistrer en 32 bits float n'améliore rien au 24 bits, mais mixer en 32 bits float est tout autre chose niveau souplesse et précision des calculs.
Et pour répondre à la question initiale, je dirais que plus il y a de bits, + ça sonne, un peu comme les pixels en image.
Anonyme
Jjulien, on a déjà eu cette discussion des tas de fois, et il y a toujours un truc qui t'échappe, c'est que tu conformes ou non les fichiers en 32 bit flottant, ils seront de toute façon convertis à la volée en 32 bit float et traités en 32 bit float.
Dit autrement, peut importe la résolution initial des fichiers, tous les traitements inline sont réalisés en flottant sur des fichiers convertis à la volée en flottant.
Je peux même te donner un protocole de test qui permet de le vérifier en 5 min.
Là ou ça changera quelques chose de conformer les fichiers, c'est pour les traitements offline qui impliquent un rendu systématique à la résolution originale du fichier, quelque soit les résolutions de calcul.
dart
que tu conformes ou non les fichiers en 32 bit flottant, ils seront de toute façon convertis à la volée en 32 bit float et traités en 32 bit float.
En clair qu'on choisisse ou non le 32 bits float sur Cubase par exemple ne cgange rien à l'affaire? Je suis avec mes petits moyens, désolé...
- < Liste des sujets
- Charte