[FAQ] Toutes les réponses à vos questions existentielles sur le 24 bits et le 96 kHz
- 562 réponses
- 93 participants
- 190 251 vues
- 128 followers
Wolfen
La quantification
Le 24 bits est plutôt quelque chose d'intéressant, puisque la hausse de résolution dans ce cas augmente la dynamique sur les enregistrements, ce qui peut être très utile lorsqu'on enregistre avec des préamplis qui ont un niveau de sortie en dessous de 0 dB... C'est complètement inutile par contre sur des instruments virtuels ou du tout numérique, entre autres puisque les séquenceurs (et donc les plug-ins) fonctionnent en interne avec du 32 bits à vigule flottante...
Les fréquences d'échantillonnage
Pour la question de la fréquence d'échantillonnage, l'intérêt pratique d'aller à 88.2 ou 96 kHz, bien qu'il existe, est beaucoup plus faible que celui du 24 bits, ce qui explique que des professionnels recommandent peu souvent à des home-studistes de lâcher le 44.1 kHz, mais demandent toujours du 24 bits.
Ensuite sur un enregistrement seul, à moins d'avoir une oreille d'extra-terrestre, il est impossible d'entendre ou même de visualiser sur un spectrogramme une différence notable dans le domaine de l'audible entre quelque chose d'enregistré avec un microphone et un bon préampli/une bonne carte son en 44.1 kHz et en 96 kHz. Si différence il y a, c'est que la qualité des convertisseurs n'est pas la même.
Quel est donc l'intérêt de ces fréquences d'échantillonnage élevées alors ? Dans une chaine de traitements numériques, bien que les ingénieurs/développeurs mettent des filtres anti-aliasing dans leurs produits (repliement au dessus de la demi-fréquence d'échantillonnage, voir théorème de Shannon/Nyquist), il y a toujours un peu de repliement qui se fait, surtout si certains rigolos n'ont pas mis du tout de dispositifs anti-aliasing, comme sur certains synthétiseurs numériques (ce qui peut être parfois intéressant au niveau sonore, mais très grave sur une simulation d'amplificateur guitare). Augmenter la fréquence d'échantillonnage permet de repousser la limite en fréquence du repliement, et donc de rendre les traitements plus propres. Mais là encore, il est probable que vous ne puissiez pas entendre de différence flagrante...
Enfin, le 48 et le 96 kHz sont des fréquences utilisées plutôt en vidéo. La conversion de fréquence d'échantillonnage étant moins complexe du 88.2 au 44.1 que du 96 au 44.1, il est généralement conseillé de bosser en 88.2, sauf si vous avez vraiment confiance en votre logiciel de conversion. Travailler en 48 par contre est une grosse connerie, parce que ça apporte presque rien au niveau théorique, et que la conversion 48 vers 44.1 peut être source de bordel supplémentaire par rapport au 44.1 direct...
96 kHz et 24 bits dans un home-studio ???
Pour terminer ce monologue, une remarque très importante, discuter des fréquences d'échantillonnage et de la quantification optimales c'est bien, mais il faut déjà avoir du matos derrière, et réaliser des mixages à la hauteur, pour que l'intérêt des résolutions supérieures soit pertinent dans vos projets personnels ! Ne pas savoir mixer correctement ses morceaux et bosser avec du 24 bits/96 kHz me semble être une aberration...
Petite astuce aussi pour savoir si se prendre la tête dans votre cas vaut le coup : faites un enregistrement + mixage avec du 96 kHz/24 bits. Exportez le résultat en WAV, puis convertissez le en 44.1K/16 bits. Modifiez la fréquence d'échantillonage sur tous vos enregistrements et à l'intérieur du projet, puis faites à nouveau un export. Comparez les deux sur votre système d'écoute habituel. Si vous n'entendez pas de différences notables et intéressantes, arrêtez de vous prendre la tête Ou allez acheter du meilleur matos... Autre cas : si "les deux sonnent aussi mal", retournez bosser le mixage, en 44.1K/16 bits bien sûr
Développeur de Musical Entropy | Nouveau plug-in freeware, The Great Escape | Soundcloud
Number-6
J'entendais cela par "zik qui tape".
nonconforme
Citation : C'est une conséquence, pas la raison principale. La raison principale pour laquelle il est préférable (de lapin) de travailler en 24 est le recul du bruit de quantification (bien en dessous des performances des matériels analogiques) et qui permette d'effectuer des traitement en conservant ce bénéfice. Mais on en profite pour en grignoter une partie pour constituer une réserve avant écrètage, c'est de bonne guerre.
Ouh la vilaine tatillonne. Tu as peut être la réponse : historiquement, on a développé des composants 24 bits parce que les ingés étaient gênés par le bruit de quantification ? Je dois t'avouer que j'ai du mal à différencier à l'oreille un enregistrement 16 bits d'un 24,donc...
Citation : La qualité intrinsèque du 32 est la même que celle du 24, mais le 32 te garantide ne jamais écrèter tant que tu utilisera des traitements fonctionnant en 32.
Pour compléter cette réponse, je donne le cas général des traitements audio. On a un fichier 24 bits qu'on veut traiter avec des effets. Il faut savoir qu'en numérique la multiplication est très utilisée. Or, des multiplications sur 24bits, plusieurs fois réalisées, ça finit rapidement par dépasser la capacité des 24. En passant en 32 flottants, on se donne une très grande marge avant d'atteindre la plus grande valeur codable possible. Et à la fin de tous les calculs, on tronque pour revenir en 24 sur les convertos de sortie.
Le soucis du 32 flottants c'est sa représentation sous forme exponentielle, qui induit des erreurs de calcul. On trouve donc d'ardents défenseurs de formats 80 bits entiers (ou plus !), même si le 32 flottant, je trouve personnellement que ça marche pas mal...
Affiliation : Dirigeant Fondateur d'Orosys - Two notes Audio Engineering
Pov Gabou
Citation :
Le soucis du 32 flottants c'est sa représentation sous forme exponentielle, qui induit des erreurs de calcul.
Le fixe aussi Franchement, le flottant est utilise dans a peu pres 100 % des applications calcul numerique. J'ai du mal a voir pourquoi l'audio serait special a ce niveau la. Que la resolution puisse poser probleme, soit, quoique le plus souvent tu peux revoir ta topologie de filtre pour eviter les accumulations d'erreur trop importantes (ce que tu dois faire de toute facon avec du fixe. Le fixe au contraire rend plus necessaire ce type de pratiques;).
Apres, pour repondre a N6: ton signal audio est de toute facon converti en 32 bits en debut de la chaine de traitement et je pense vraiment pas que ca change quelque chose que ce soit en 24 bits ou en 16 bits au depart. Apres, le wav 32 bits, ca peut avoir son interet pour echanger entre softs, mais meme la, a savoir si en pratique, c'est super utile...
Et au contraire, pour faire du dre, vu que t'as tres peu de dynamique, ca sert pas grand chose d'avoir des resolutions te permettant des dynamiques de dingue.
Citation :
En passant en 32 flottants, on se donne une très grande marge avant d'atteindre la plus grande valeur codable possible
En soft au moins, ca n'arrive meme jamais, puisqu'en general le signal est normalise entre -1 et 1 (les valeurs au dela peuvent "driver" une disto si distortion il y a, mais si c'est arrive au dernier traitement, t'as de la distortion numerique...)
Number-6
Mais si par exemple, tu appliques à chaque fois des effets offline en 32bit dans un projet en 16bit, ton wav fait à chaque fois 32 => 16 => 32 => 16. Nan ?
Auquel cas vu qu'il n'y a pas de dithering lors de l'application de l'effet, si je fais 10 fois cette manip de suite je me retrouve avec plein d'approximation de calcul au final.
Correct ?
Dr Pouet
Citation : Ok, donc quand on fait de la zik "qui tape" il vaut mieux utiliser le 32 virgule flottante si on utilise des plugs dont la résolution interne est de 32bit.
Déjà je crois qu'on n'a pas trop le choix : la plupart des séquenceurs travaillent en interne en 32 bits virgule flottante. La "virgule flottante", comme l'a dit nonconforme est presque plus utile que le plus grand nombre de bits, car il garantit de d'avoir jamais de dépassement de capacité, et d'avoir un nombre de bits utiles constant et élevé (ça doit pas être 32, car pour un nombre de la forme m.10^p les 32 bits doivent contenir à la fois la mantisse m et la puissance de 10 p).
Bon apparemment ça a aussi quelques défauts, mais je pense qu'on arrive vraiment dans l'enculage de mouches.
Citation : Ben si on cherche à etre le plus souvent le plus proche possible de 0db ça a un interet.
J'entendais cela par "zik qui tape".
En fait, par "zik qui tape", et qui pose des problèmes, on entendrait plutôt une zik dont la dynamique est très grande, c'est à dire avec un écart très important entre les volumes les plus faibles et les volumes les plus forts. On va plutôt rencontrer ça dans des musiques acoustiques, enregistrées de la manière la plus fidèle possible (sans compression de dynamique). Par exemple du classique, du jazz, de la musique ethnique.
Typiquement le pire : un ensemble qui sort un volume monstrueux (grand orchestre classique, ensemble de percus tribales) suivi d'un instrument seul entrecoupé de vrais silences. Ca ça va demander une grosse dynamique et donc beaucoup de bits pour tout représenter correctement, et sans avoir de souffle sur les silences.
A l'inverse, des musiques électroniques actuelles, genre techno, hip-hop, électro-jazz, ont généralement des écarts de niveaux assez faibles voire incroyablement faibles (= compression de dynamique très forte). Dans ce cas, le 16 bits du CD sera très très largement suffisant.
Pov Gabou
Citation :
k donc en fait le 32bit flottant ça ne sert que pour avoir une plage de dynamique super maousse, ça ne concerne absolument pas le traitement.
Pour faire simple, le flottant garantit une precision et une dynamique independante du niveau. En fixe, pour caricaturer (pour garder des chiffres simples), si tu es en 8 bits, tu as des valeurs entre -128 et 127. Donc tu as 256 valeurs possibles pour un signal a la crete. Mais si ton signal est nettement plus faible, il va se trouver qu'entre disons -32 et 32, donc avec une resolution effective de 64 valeus (ie 6 bits).
En flottant, t'as pas ce probleme (enfin nettement moins): 32 bits, c'est 23 bits de precision, 1 bit de signe, et 8 bits pour l'exposant. Tu peux voir l'exposant comme une adaptation au niveau.
En normalise (0 dB entre -1 et 1), tu as tes 23 bits de precision (en fait 24, parce qu'un bit est implicite, mais c'est un peu complique). Si tu es a disons 50 dB au dessous, ca veut dire que les valeurs vont etre entre -0.003 et 0.003. Mais 0.003, c'est 3 * 0.001, et le 0.001 est code dans l'exposant. donc que tu sois au niveau -1..1, ou -0.003 .. 0.003, la precision va toujours etre code avec tes 23 bits + 1, et c'est les 8 bits de l'exposant qui fait l'ajustement.
Apres, si tu descends trop bas, ca marche plus, parce que l'exposant n'a que 256 valeurs possibles, et peut pas s'adapter a tous les niveaux... Dans ce cas, le codage numerique est different, le bit implicite ne l'est plus, et tu as ce qu'on appelle un nombre denormal... qui posait tant de problemes sur P4 ! Cependant, ces niveaux sont ultra faibles, et totalement inutilises en audio ( ca correspond a des niveau -200, -300 dB voire pire).
pour resumer, la virgule fixe a une precision qui depend du niveau, alors que le flottant non. Pourquoi utiliser du fixe, alors ? Parce que c'est nettement plus simple a implementer en hardware, et donc nettement plus rapide et moins gourmand en energie (ce qui n'est plus vraiment le cas pour les cpu recents, ou l'unite de calcul flottante a des performances proches du fixe dans certaines conditions que l'on peut considerer comme assez souvent valides pour l'audio). Typiquement, les DSP pas chers, c'est du fixe (synthes, effets: ils utilisent encore presque tous les fameux motorola); on fait maintenant des DSP flottants pas trop chers (c'est utilise dans le materiel haut de gamme aussi; typiquement, certaines SSL faisaient tout en flottant il y a quelques annees, j'imagine que c'est plus repandu maintenant).
Number-6
Merci pour ces explications.
donc dans mon cas le mieux c'est de faire du 88.2Khz/16bit.
Et pour ma question concernant le traitement offline à la chaine ?
Dr Pouet
Il s'agit de ce fichier que j'ai réalisé il y a quelques temps.
Je suis parti d'un morceau avec une grande dynamique : "Sarah was 99 years old" de Arvo Pärt, album "Miserere" chez ECM. Le morceau est normalisé, donc ses crêtes sont à zéro dB. Mais en dehors du moment où ça s'énèrve pas mal, il y a de longs passages très doux, dont j'ai pris un extrait : une percu dans une chapelle avec du silence.
Appelons A cet extrait (qui est donc sur 16 bits, 44,1 kHz).
J'ai ensuite fabriqué B en gardant les 9 bits de poids fort de A. puis C en gardant les 11 bits de poids fort de A, D les 12, E les 13, F les 14 puis G les 15.
Le morceau reconstitué est de la forme :
AABBAABB AACCAACC AADDAADD AAEEAAEE AAFFAAFF AAGGAAGG soit des comparaisons :
16/9 bits, puis 16/11 bits puis 16/12, puis 16/13, puis 16/14 et 16/15. Le but était d'entendre le plus facilement possible l'apport du nombre de bits.
J'ai bien conscience que mettre à 0 les bits de poids faibles est assez bourrin. Selon vous (les spécialistes de la théorie du signal), qu'aurait-il mieux valu faire ?
A tous : l'avez-vous écouté ? Qu'en pensez-vous ? (c'est évidemment un cas extrême, dans la plupart des styles de musique un instrument viendrait masquer ce souffle qui ne serait pas gênant).
Des suggestions sur d'autres manières de réaliser ce test ? Ou pour faire d'autres tests ?
Dr Pouet
Dr Pouet
- < Liste des sujets
- Charte