fréquences d'échantillonnage, resampling et résolution démystifées ?
- 104 réponses
- 18 participants
- 13 908 vues
- 27 followers
Brubao
J'ai passé du temps à faire des tests et à réfléchir pour essayer de déterminer le format audio optimum pour l'enregistrement et le travail en studio.
Au final je me pose encore quelques questions, auxquelles peut-être des spécialistes pourront répondre de façon éclairée ? (je les ai mises en gras)
Voici d'abord quelques réflexions suite à mes observations.
Vu que c'est un chouilla long et un peu pointu (sans mauvais esprit ), j'ai essayé de structurer clairement les choses.
Fréquence d'échantillonnage :
1) première approche :
il paraît évident dans l'absolu qu'un signal échantilloné à une fréquence élevée sera plus proche du signal analogique original (continu).
Au-delà de la bande passante et du théorème de Shanon Nyquist (qui sert un peu vite d'argument à tous les partis), le rendu des aigus en particulier devrait être plus juste, moins distortionné (décrire une sinusoïde avec 2 points ça paraît pas top).
Evidement on pourrait répondre que les fréquences en question sont inaudibles pour nos vieilles oreilles et que la distorsion des aigues ne fera que créer des harmoniques encore plus aigus et inaudibles (et qui seront de toute façon filtrés dans les formats audio de consommation actuels, fort heureusement dirait Nyquist).
Au final, est-ce que ça fait réellement une différence (surtout pour de la musique consommée en 44.1 kHz) ?
2) traitements et sommation :
en cas de mixage numérique, je suppose que les plugins peuvent délivrer un résultat sonore plus proche de l'analogique s'ils traitent un son "plus continu". En tous cas la différence m'a semblée flagrante à l'audition sur des réverbs qui prenaient une toute autre dimension et consistance (comparaison projet test en 44.1 et en 192).
Au delà du point de vue spectral, je suppose qu'une F.d'E. plus élevée amène une meilleure fluidité temporelle et dynamique.
La sommation aussi est meilleure je suppose, vu la résolution temporelle accrue et la plus grande précision des valeurs à sommer (erreurs de crête moindres, représentation des niveaux plus fidèle à chaque échantillon).
3) rendu final (44.1 kHz) :
Pour me rendre compte si au final ça faisait une différence de travailler à des F.d'E. supérieures, j'ai fait ce test :
- j'avais un projet enregistré en 44.1 kHz.
- j'ai resamplé toutes les pistes en 192 kHz (crystal resampler, wavelab 7).
- j'ai mixé en 192 kHz.
- exporté en 192 kHz puis resamplé en 44.1 kHz.
- j'ai dupliqué le projet de mixage en 44.1 kHz et passé les fichier originaux dedans.
- j'ai créé un fichier delta (différence entre les deux exports finaux).
Conclusions :
- à l'écoute il me semble entendre une différence entre l'export 192 et l'export 44.1 (plus d'ampleur, d'ouverture).
- par contre entre l'export travaillé en 192 puis resamplé en 44 et l'export tout 44, c'est moins évident (difficile de jurer que la différence n'est pas suggérée).
- Evidement, je ne saurai jamais si j'aurais mixé de la même façon en 44 qu'en 192 (ça m'a quand même paru auditivement très confortable, impression d'entendre plus clairement ce qu'il y avait à faire et ce que je faisais).
- le fichier delta montre une différence objective tout à fait flagrante entre les 2 exports (travaillés en 192 puis resamplé en 44 contre tout 44). On a l'impression d'entendre la composante "définiton" du son. Mais je me demande si elle n'est pas liée au resampling à des fréquences non multiples (parce qu'en écoute comparative c'est loin d'être aussi flagrant).
Du coup, vu que j'étais lancé, j'ai resamplé mes fichiers en 174.6 kHz, je les ai repassés dans le mix version 174, puis j'ai exporté et resamplé en 44.1.
Effectivement, le fichier delta est beaucoup moins flagrant même s'il reste une différence du même genre que l'autre fichier delta.
A part ça, les conclusions sont du même ordre qu'avec le mix en 192.
Plein de motivation, j'ai reproduit les processus en 88.1 kHz. Comme on pouvait s'y attendre, les constats sont du même acabit mais moins prononcés.
Il y a quand même quelque chose qui me turlupine :
La comparaison entre le mix en 44 et en 192 (fréquences non multiples) sous forme de fichier delta fait ressortir un résidu très estéthique (sorte de composante de définition du son).
C'est manifestement lié au resampling à des fréquences non multiples : j'ai fait le test de resampler un fichier 44.1 en 192 puis de nouveau en 44.1 et de comparer avec l'original. La différence est du même type.
Les questions que je me pose (même si la différence semble moins flagrante en écoute comparative) :
- est-ce dû à un phénomène de "déphasage d'échantillonnage" qui ferait entendre une différence flagrante mais non pertinente (de la même façon qu'on pourrait obtenir un effet de filtre en peigne flagrant en comparant 2 fichiers très légèrement décalés) ?
- si ce n'était pas le cas, serait-il possible qu'un resampler de bonne qualité, "obligé" d'extrapoler la courbe continue d'une façon plus approfondie pour des fréquences non multiples, offre au final un meilleur résultat ?
4) questions en suspens :
- fréquences multiples ou pas ?
pour les multiples :
. ça paraît plausible que la reconversion soit plus simple en cas de fréquences multiples et amène moins d'artéfacts...
. pourquoi les constructeurs s'emmerderaient sinon à proposer 88.2 et 176.4 kHz ?
pour les non multiples :
. dans l'absolu, avec une fréquence d'échantillonnage plus élevée on se rapproche davantage de ce cher son continu.
. la différence absolue du nombre d'échantillons devient peut-être intéressante aux ordes supérieurs de fréquence d'échantillonnage ?
. avec de bons convertisseurs ou en cas de mastering analogique par exemple, l'histoire de fréquences multiples devient peut-être moins pertinente ?
- 44/48, 88/96 ou 174/192 ?
. par rapport au rendu sonore final, à quel point est-ce que ça vaut la peine de mutliplier la F.d'E. (vu que les ressources nécessaires doublent chaque fois) ? Concrètement, est-ce que ça vaut pas la peine ? x2 ? x4 ?
. le son qu'on entend est quand même toujours reconverti en analogique, passé dans des haut-parleurs avec une inertie non nulle, propagé dans un air élastique et capté par nos oreilles au fonctionnement continu.
Au mieux tous ces éléments sont de très bonne qualité. Dans ce cas les convertisseurs lisseront joliment le signal, les haut-parleurs rendront fidèlement ce signal joliment analogisé, l'air sera transparent (si j'ose dire ) et les oreilles averties et ravies percevront très finement les jolies subtilités du son si bien rendu (en supposant que le signal sonore vaille le coup/coût évidement...).
Ou alors les convertisseurs lissent mal le signal sonore, les caractéristiques des HPs se combinent justement très mal avec ces irrégularités (tweeter hyper agressif), l'air déforme le son en le propageant avec un mauvais goût total, les oreilles qui perçoivent le résultat sont abîmées et la personne à qui appartiennent ces oreilles ne cherche pas à apprécier les jolies subtilités (ça tombe bien).
Dans l'immense majorité des cas, la réalité se situe quelque part entre ces 2 extrêmes (toutes les combinaisons d'incidence étant possibles).
Mais honnêtement, dans quels cas le fait de travailler à des F.d'E. supérieures à 44.1 kHz aboutira à une différence pertinente pour l'auditeur ?
Résolution :
1) 16 bit :
Si je ne me trompe pas, il y a 1 bit de signe (pour la polarité), il reste donc 15 bits pour décrire l'amplitude du signal, soit 2^15 = 32768 valeurs pour décrire le niveau de l'échantillon.
Pour une plage dynamique de 90 dB, ça ferait donc 364 valeurs possibles par dB...
Si c'est bien juste, ça me paraît déjà franchement bien !
2) 24 bit :
Les 8 bits supplémentaire ne servent qu'à décrire les niveaux inférieurs à - 90dB. C'est d'ailleurs confirmé avec un bitmètre.
Franchement, est-ce que ça change quelque chose ?
Je veux bien croire que ce n'est pas purement marketing, mais j'ai du mal à comprendre où est la pluvalue, que ce soit à l'enregistrement, pour les traitements ou la sommation : même pour de la musique classique ou un instrument seul très léger et plein de transitoires et d'harmoniques, j'ai l'impression que c'est quand même rare d'avoir un passage musical qui module suffisament bas pour que ce qui se passe quelque part à -90dB ne soit pas masqué par d'autres composantes sonores ou simplement par le bruit de fond environnant à l'écoute (ampli et HP compris).
3) 32 bit flottant :
Grâce à la virgule flottante on peut décrire à travers toute la plage dynamique des niveaux intermédaires qui ne sont pas utilisés en virgule fixe. Dès lors la pluvalue semble plus claire (enregistrement, traitements, sommation).
Sauf que si mes calculs sont justes (quelqu'un peut-il confirmer ?), même en 16 bit on a 364 valeurs par dB cf. § 16 bit).
Si c'est bien le cas, est-ce vraiment utile d'en avoir plus (même pour la sommation de nombreuses pistes), vu qu'on travaille au mieux au 1/10 de dB ?
Si je calcule bien (mais je me trompe peut-être), on obtiendrait une différence d'1/10 de dB entre une résolution à virgule fixe ou flottante si on avait par exemple à sommer 73 signaux tous très mal approximés par la virgule fixe.
Calcul : en virgule fixe 364 valeurs par dB -> erreur d'approximation maximale = moitié de cet intervalle (donc 1/728ème de dB) -> il faudrait donc cumuler 72,8 erreurs pour atteindre 1/10 de dB...
Et en plus, en cas de travail en virgule flottante, au final les valeurs sont de toute façon arrondies. Donc même si les valeurs finales sont légèrement plus justes après traitements et sommation que si on était resté en virugle fixe, cette précision est quand même partiellement rabotée (et là, même débat que pour les fréquences d'échantillonnage supérieures).
4) en conclusion :
Je veux bien croire qu'il y ait une bonne raison pour que les constructeurs et développeurs proposent des produits qui travaillent en 24 bit, 32 bit flottant, 48 bit non flottant... mais quelle est-elle ?
Quelqu'un d'avisé peut-il expliquer clairement si ça vaut la peine d'enregistrer et/ou de travailler en plus que 16 bit et à quel point ça fera une différence ou pas ?
Si vous avez tout lu, waw !
Si vous avez parcouru et relevé certaines questions, super !
Si vous pouvez y répondre de façon éclairante et justifiée, MERCI !!
dart
SI je devais vulgariser à mort, le 32 bits flottant est à privilégier et l'emploi des hautes fréquences est un luxe dont est pas sûr d'en percevoir la qualité?
Mais donc... Alors... Heuuu... Bon...
Anonyme
je vais juste répondre pour le 32 bit flottant, de toute façon, c'est pas toi qui décide, ta DAW fait le choix pour toi et bosse à sa résolution de calcul, de plus en plus 64 bit flottant d'ailleurs, et chaque plug des éditeurs tierces en fait de même et bosse à sa résolution, pas toujours en flottant et pas toujours en 32 bit, on a pas la main sur tout ça, tout ce qu'on peu choisir c'est le format d'enregistrement et celui de l'export.
En enregistrement, je ne vois aucun intérêt au 32 bit flottant, à moins de savoir qu'on va traiter tout le mix en offline, mais franchement, qui bosse comme ça en 2012?
A l'export, je vois pas trop l'intérêt non plus, on pourrait pinailler en disant que si y'a le mastering derrière on a conserver la plus haute résolution (ou en cas de surmodulation, ce que ne supporterait pas le 24 bit ou le 16)
dart
blackbollocks
Brubao
Donc POUR RESUMER :
fréquence d'échantillonnage :
1) multiplier la FE est toujours bon à prendre dans l'absolu. Si ça devient limitatif par rapport aux ressources disponibles, pas la peine de faire une crise non plus.
J'ajouterais :
j'ai fait le test de mixer en 192 et j'ai quand même eu une sensation de confort auditif accrue (impression de mieux entendre ce qu'il y a à faire et ce que je fais).
J'ai bien conscience de l'effet d'autosuggestion et sincèrement ce n'était vraiment pas de cet ordre-là.
Dans ce cas, un avantage éventuel de travailler à des FE supérieures serait peut-être un mix plus fin ? Et le plaisir de travail du mixeur (zut quoi).
Evidement faut voir si la limitation des ressources disponibles n'empiète pas sur le confort auditif.
2) au delà de l'intuition, c'est donc établi qu'il vaut mieux rester entre multiples si on n'est pas certain d'avoir un méga SRC de la mort.
Questions :
- dans le cas d'un SRC de feu (par ex si mastering pro avec super convertisseurs et périphs analog), est-ce que la différence entre 176 et 192 vaut la peine ?
- peut-on dire qu'il y ait une pluvalue en 176/192 qui devient négligeable en 88/96 ?
résolution:
1) résolution de travail :
Le 32 bit float c'est la class (en théorie). C'est d'ailleurs et de toute façon le format interne des DAWs pro.
Si j'ai bien compris, l'intérêt du flottant est principalement de reculer le bruit de quantification.
Par contre dans les faits, même si c'est toujours bon à prendre, ça ne va pas faire une méga différence non plus.
Parce que même en 16 bit, le bruit de quantification est quand même à -90dB. Donc faut déjà moduler vachement bas pour que ce soit gênant à l'écoute (même en sommant pas mal de pistes). Ou avoir enregistré en modulant inutilement bas. Me trompe-je ?
Pour la pluvalue en précision, d'après mes claculs (peut-être erronés, cf. fin du post 1, dans résolution/32 bit flottant), la pluvalue éventuelle serait d'1/10dB en sommant 70 pistes par rapport à du 24 bit. Est-ce juste ?
2) résolution à l'enregistrement :
Est-ce que le 24 bit vaut la peine par rapport au 16 bit à l'enregistrement (piste par piste), vu que la pluvalue concerne les niveaux inférieurs à -90dB ?
On pourrait répondre "te prends pas la tête, tous les pros font comme ça, le hardware suit et ça peut pas faire de mal".
Mais l'idée c'est de démystifier, de pouvoir dire une bonne fois pour toute et de façon justifiée "ça ne sert à rien" ou "dans telle situation, il y a un réel intérêt".
D'autre part, s'il s'avère que ça vaut la peine de travailler en 176kHz (fichiers 4 fois plus volumineux), c'est toujours bon à prendre si on peut réduire d'un tiers en passant de 24 à 16 bit.
3) résolution à l'export (en cas de manipulation numérique de l'export) :
Vu que les DAWs fonctionnent en 32 bit flottant, autant exporter dans ce format optimal.
Encore une fois la pluvalue est négligeable (sauf si l'export clippe mais bon, ceux qui s'amusent à lire tout ceci sont sans doute capables d'éviter ça).
Donc si la taille du fichier exporté n'est pas un souci, pourquoi pas.
Vous voyez quelque chose à ajouter ?
[ Dernière édition du message le 20/01/2012 à 12:15:22 ]
Anonyme
Pour la Fe, je te renvoie à cet article:
http://www.forum.audioaddict.fr/index.php?topic=919.0
En résumé, passé 88.2, ça n'a plus aucun intérêt.
Pour la quantif, entre 16 et 24 bit à l'enregsitrement, oui il y a une plue value:
Il ne faut pas voir la chose à l'instant T de la prise, ou on peut être tenter de se dire que 16 bit ça suffit, déjà parce qu'à moins de moduler à 0dBfs (assez risqué pour une prise) tu n'auras pas 16 bit de SNR, donc premier atout pour le 24, ensuite, comme le SNR est meilleur ça te permet de te prendre une marge de sécurité, ce qui point de vue conford n'est pas négligeable, et puis surtout, faut voir ce que tu vas faire subir au signal derrière au mix, si tu compresses telle piste comme un barbare et que le SNR de base n'est pas terrible, ça va pas aller en s'améliorant, donc autant partir d'une prise ou le bruit de quantif est le plus bas possible, même si on a jamais 24 bit de résolution "réelle" on peut tabler autour de 18/20 bit avec des convertos corrects, c'est toujours ça de gagner pour la suite.
Citation :
Si j'ai bien compris, l'intérêt du flottant est principalement de reculer le bruit de quantification
si on veut, en fait, en résolution fixe, le niveau de bruit est constant comme le disait Eratom, la quantification est uniforme et ton SNR dépend de ton niveau de modulation, en flottant, on passe en quantification non uniforme, on a le même nombre de bit (mantisse) quelque soit le niveau de modulation (grace aux bits d'exposant) là c'est ton SNR qui est constant.
je sait pas si je suis clair.
Citation :
Par contre dans les faits, même si c'est toujours bon à prendre, ça ne va pas faire une méga différence non plus.
Parce que même en 16 bit, le bruit de quantification est quand même à -90dB. Donc faut déjà moduler vachement bas pour que ce soit gênant à l'écoute (même en sommant pas mal de pistes). Ou avoir enregistré en modulant inutilement bas. Me trompe-je ?
Ca fera pas une méga différence sur un export (aucune audible en tout cas) mais au niveau des calculs, c'est quand même super intéressant, parce que ça minimise la remontée du bruit de quantif à chaque traitement, vu que le SNR reste constant.
Faut voir que le bruit de quantification, malgré son nom, est une distorsion, et pas du tout agréable pour l'oreille.
EraTom
si on veut, en fait, en résolution fixe, le niveau de bruit est constant comme le disait Eratom, la quantification est uniforme et ton SNR dépend de ton niveau de modulation, en flottant, on passe en quantification non uniforme, on a le même nombre de bit (mantisse) quelque soit le niveau de modulation (grace aux bits d'exposant) là c'est ton SNR qui est constant.
je sait pas si je suis clair.
Oui c'est bien ça.
La virgule fixe permet de garantir une erreur de quantification de puissance fixe (le bit de poids faible représente toujours la même valeur d'amplitude max de l'erreur). Le SNR résultant, log de la puissance du signal utile divisée par la puissance du bruit, varie donc en fonction de la puissance du signal.
Avec la virgule flottante, la puissance du bruit de quantification varie conjointement avec la puissance du signal utile et permet de garantir un SNR de quantif fixe.
D'un point de vu mathématique et traitement du signal, ça permet de limiter la propagation des bruits de quantif.
D'un point de vu psycho-acoustique, il est plus pertinent de garantir un SNR de quantif fixe.
Faut voir que le bruit de quantification, malgré son nom, est une distorsion, et pas du tout agréable pour l'oreille.
C'est vrai aussi.
Cependant, il y a un petit théorème en math qui montre que le bruit de quantification tend vers un bruit blanc quand le nombre de bits augmente (et si le signal quantifié bouge sur toute la dynamique disponible).
A partir de 6 bits de dynamique, l'erreur de quantif "sonne" comme un bruit blanc. En-dessous de 4 bits, il grince sérieusement.
Entre les deux, ça dépend de l’acuité auditive mais en général ça sonne bizarre.
Là on va attaquer la question du dithering ; vaste sujet.
philrud
Docks et EraTom :vous êtes trop forts !
Bon point à Brubao pour son très bon condensé .
Mon soundcloud Good times !
Anonyme
Tiens Eratom, une question en passant. Est-ce que la position de la virgule dans le système à virgule flottante est définie pour chaque échantillon, ou s'agit-il d'un calcul par paquet de x échantillons. C'est tellement loin pour moi que j'ai oublié ce détail (qui a son importance, pourtant).
JM
EraTom
Quand c'est un code qui tourne sur un processeur qui dispose d'une UAL (Unité Arithmétique et Logique) en virgule flottante, le calcul (et le formatage) des nombres représentés sur une mantisse et un exposant est fait automatiquement ; c'est transparent pour l'utilisateur (ici j'entends la personne qui code).
Quand tu lis "FPU" sur la doc d'un processeur il s'agit en fait d'une UAL en virgule flottante :
https://fr.wikipedia.org/wiki/Unit%C3%A9_de_calcul_en_virgule_flottante
Pour chaque valeur calculée et stockée (et donc pour chaque échantillon), sa virgule est placée par l'UAL.
Il y a une époque pas si lointaine, les FPU avaient besoin d'un nombre de cycles machines plus important que les UAL en virgule fixe (à fréquences égales, il était plus rapide de calculer en virgule fixe quand virgule flottante). Aujourd'hui sur nos ordinateurs actuels ce n'est plus le cas.
Si on trouve d'aussi nombreux processeurs "DSP" en virgule fixe, c'est parce que l'UAL est plus simple à concevoir (et donc moins chère) et qu'elle utilise beaucoup moins de portes logiques (et donc, plus petite. Elle consomme moins, elle chauffe moins et il est plus facile de la faire monter en fréquence).
[ Dernière édition du message le 20/01/2012 à 22:56:15 ]
- < Liste des sujets
- Charte