< Retour vers Techniques du Son

Agrandir

Articles 637 637

Médias 5 026 5k

Tutoriels Tutos 93 93

Forums 17 110 17,1k

aide demandée fréquences d'échantillonnage, resampling et résolution démystifées ?

104 réponses
18 participants
14 369 vues
27 followers

Brubao

Nouvel·le AFfilié·e

Membre depuis 22 ans

Sujet de la discussion Posté le 17/01/2012 à 01:50:32

Bonjour,

J'ai passé du temps à faire des tests et à réfléchir pour essayer de déterminer le format audio optimum pour l'enregistrement et le travail en studio.

Au final je me pose encore quelques questions, auxquelles peut-être des spécialistes pourront répondre de façon éclairée ? (je les ai mises en gras)

Voici d'abord quelques réflexions suite à mes observations.
Vu que c'est un chouilla long :oops:

et un peu pointu (sans mauvais esprit :mdr:

), j'ai essayé de structurer clairement les choses.

Fréquence d'échantillonnage :

1) première approche :

il paraît évident dans l'absolu qu'un signal échantilloné à une fréquence élevée sera plus proche du signal analogique original (continu).
Au-delà de la bande passante et du théorème de Shanon Nyquist (qui sert un peu vite d'argument à tous les partis), le rendu des aigus en particulier devrait être plus juste, moins distortionné (décrire une sinusoïde avec 2 points ça paraît pas top).
Evidement on pourrait répondre que les fréquences en question sont inaudibles pour nos vieilles oreilles et que la distorsion des aigues ne fera que créer des harmoniques encore plus aigus et inaudibles (et qui seront de toute façon filtrés dans les formats audio de consommation actuels, fort heureusement dirait Nyquist).
Au final, est-ce que ça fait réellement une différence (surtout pour de la musique consommée en 44.1 kHz) ?

2) traitements et sommation :

en cas de mixage numérique, je suppose que les plugins peuvent délivrer un résultat sonore plus proche de l'analogique s'ils traitent un son "plus continu". En tous cas la différence m'a semblée flagrante à l'audition sur des réverbs qui prenaient une toute autre dimension et consistance (comparaison projet test en 44.1 et en 192).
Au delà du point de vue spectral, je suppose qu'une F.d'E. plus élevée amène une meilleure fluidité temporelle et dynamique.
La sommation aussi est meilleure je suppose, vu la résolution temporelle accrue et la plus grande précision des valeurs à sommer (erreurs de crête moindres, représentation des niveaux plus fidèle à chaque échantillon).

3) rendu final (44.1 kHz) :

Pour me rendre compte si au final ça faisait une différence de travailler à des F.d'E. supérieures, j'ai fait ce test :
- j'avais un projet enregistré en 44.1 kHz.
- j'ai resamplé toutes les pistes en 192 kHz (crystal resampler, wavelab 7).
- j'ai mixé en 192 kHz.
- exporté en 192 kHz puis resamplé en 44.1 kHz.
- j'ai dupliqué le projet de mixage en 44.1 kHz et passé les fichier originaux dedans.
- j'ai créé un fichier delta (différence entre les deux exports finaux).

Conclusions :
- à l'écoute il me semble entendre une différence entre l'export 192 et l'export 44.1 (plus d'ampleur, d'ouverture).
- par contre entre l'export travaillé en 192 puis resamplé en 44 et l'export tout 44, c'est moins évident (difficile de jurer que la différence n'est pas suggérée).
- Evidement, je ne saurai jamais si j'aurais mixé de la même façon en 44 qu'en 192 (ça m'a quand même paru auditivement très confortable, impression d'entendre plus clairement ce qu'il y avait à faire et ce que je faisais).
- le fichier delta montre une différence objective tout à fait flagrante entre les 2 exports (travaillés en 192 puis resamplé en 44 contre tout 44). On a l'impression d'entendre la composante "définiton" du son. Mais je me demande si elle n'est pas liée au resampling à des fréquences non multiples (parce qu'en écoute comparative c'est loin d'être aussi flagrant).

Du coup, vu que j'étais lancé, j'ai resamplé mes fichiers en 174.6 kHz, je les ai repassés dans le mix version 174, puis j'ai exporté et resamplé en 44.1.
Effectivement, le fichier delta est beaucoup moins flagrant même s'il reste une différence du même genre que l'autre fichier delta.
A part ça, les conclusions sont du même ordre qu'avec le mix en 192.

Plein de motivation, j'ai reproduit les processus en 88.1 kHz. Comme on pouvait s'y attendre, les constats sont du même acabit mais moins prononcés.

Il y a quand même quelque chose qui me turlupine :

La comparaison entre le mix en 44 et en 192 (fréquences non multiples) sous forme de fichier delta fait ressortir un résidu très estéthique (sorte de composante de définition du son).
C'est manifestement lié au resampling à des fréquences non multiples : j'ai fait le test de resampler un fichier 44.1 en 192 puis de nouveau en 44.1 et de comparer avec l'original. La différence est du même type.

Les questions que je me pose (même si la différence semble moins flagrante en écoute comparative) :
- est-ce dû à un phénomène de "déphasage d'échantillonnage" qui ferait entendre une différence flagrante mais non pertinente (de la même façon qu'on pourrait obtenir un effet de filtre en peigne flagrant en comparant 2 fichiers très légèrement décalés) ?
- si ce n'était pas le cas, serait-il possible qu'un resampler de bonne qualité, "obligé" d'extrapoler la courbe continue d'une façon plus approfondie pour des fréquences non multiples, offre au final un meilleur résultat ?

4) questions en suspens :

- fréquences multiples ou pas ?

pour les multiples :

. ça paraît plausible que la reconversion soit plus simple en cas de fréquences multiples et amène moins d'artéfacts...

. pourquoi les constructeurs s'emmerderaient sinon à proposer 88.2 et 176.4 kHz ?

pour les non multiples :

. dans l'absolu, avec une fréquence d'échantillonnage plus élevée on se rapproche davantage de ce cher son continu.

. la différence absolue du nombre d'échantillons devient peut-être intéressante aux ordes supérieurs de fréquence d'échantillonnage ?

. avec de bons convertisseurs ou en cas de mastering analogique par exemple, l'histoire de fréquences multiples devient peut-être moins pertinente ?

- 44/48, 88/96 ou 174/192 ?

. par rapport au rendu sonore final, à quel point est-ce que ça vaut la peine de mutliplier la F.d'E. (vu que les ressources nécessaires doublent chaque fois) ? Concrètement, est-ce que ça vaut pas la peine ? x2 ? x4 ?

. le son qu'on entend est quand même toujours reconverti en analogique, passé dans des haut-parleurs avec une inertie non nulle, propagé dans un air élastique et capté par nos oreilles au fonctionnement continu.

Au mieux tous ces éléments sont de très bonne qualité. Dans ce cas les convertisseurs lisseront joliment le signal, les haut-parleurs rendront fidèlement ce signal joliment analogisé, l'air sera transparent (si j'ose dire

) et les oreilles averties et ravies percevront très finement les jolies subtilités du son si bien rendu (en supposant que le signal sonore vaille le coup/coût évidement...).

Ou alors les convertisseurs lissent mal le signal sonore, les caractéristiques des HPs se combinent justement très mal avec ces irrégularités (tweeter hyper agressif), l'air déforme le son en le propageant avec un mauvais goût total, les oreilles qui perçoivent le résultat sont abîmées et la personne à qui appartiennent ces oreilles ne cherche pas à apprécier les jolies subtilités (ça tombe bien).

Dans l'immense majorité des cas, la réalité se situe quelque part entre ces 2 extrêmes (toutes les combinaisons d'incidence étant possibles).

Mais honnêtement, dans quels cas le fait de travailler à des F.d'E. supérieures à 44.1 kHz aboutira à une différence pertinente pour l'auditeur ?

Résolution :

1) 16 bit :

Si je ne me trompe pas, il y a 1 bit de signe (pour la polarité), il reste donc 15 bits pour décrire l'amplitude du signal, soit 2^15 = 32768 valeurs pour décrire le niveau de l'échantillon.
Pour une plage dynamique de 90 dB, ça ferait donc 364 valeurs possibles par dB...
Si c'est bien juste, ça me paraît déjà franchement bien !

2) 24 bit :

Les 8 bits supplémentaire ne servent qu'à décrire les niveaux inférieurs à - 90dB. C'est d'ailleurs confirmé avec un bitmètre.
Franchement, est-ce que ça change quelque chose ?
Je veux bien croire que ce n'est pas purement marketing, mais j'ai du mal à comprendre où est la pluvalue, que ce soit à l'enregistrement, pour les traitements ou la sommation : même pour de la musique classique ou un instrument seul très léger et plein de transitoires et d'harmoniques, j'ai l'impression que c'est quand même rare d'avoir un passage musical qui module suffisament bas pour que ce qui se passe quelque part à -90dB ne soit pas masqué par d'autres composantes sonores ou simplement par le bruit de fond environnant à l'écoute (ampli et HP compris).

3) 32 bit flottant :

Grâce à la virgule flottante on peut décrire à travers toute la plage dynamique des niveaux intermédaires qui ne sont pas utilisés en virgule fixe. Dès lors la pluvalue semble plus claire (enregistrement, traitements, sommation).
Sauf que si mes calculs sont justes (quelqu'un peut-il confirmer ?), même en 16 bit on a 364 valeurs par dB cf. § 16 bit).
Si c'est bien le cas, est-ce vraiment utile d'en avoir plus (même pour la sommation de nombreuses pistes), vu qu'on travaille au mieux au 1/10 de dB ?
Si je calcule bien (mais je me trompe peut-être), on obtiendrait une différence d'1/10 de dB entre une résolution à virgule fixe ou flottante si on avait par exemple à sommer 73 signaux tous très mal approximés par la virgule fixe.
Calcul : en virgule fixe 364 valeurs par dB -> erreur d'approximation maximale = moitié de cet intervalle (donc 1/728ème de dB) -> il faudrait donc cumuler 72,8 erreurs pour atteindre 1/10 de dB...
Et en plus, en cas de travail en virgule flottante, au final les valeurs sont de toute façon arrondies. Donc même si les valeurs finales sont légèrement plus justes après traitements et sommation que si on était resté en virugle fixe, cette précision est quand même partiellement rabotée (et là, même débat que pour les fréquences d'échantillonnage supérieures).

4) en conclusion :

Je veux bien croire qu'il y ait une bonne raison pour que les constructeurs et développeurs proposent des produits qui travaillent en 24 bit, 32 bit flottant, 48 bit non flottant... mais quelle est-elle ?

Quelqu'un d'avisé peut-il expliquer clairement si ça vaut la peine d'enregistrer et/ou de travailler en plus que 16 bit et à quel point ça fera une différence ou pas ?

Si vous avez tout lu, waw !
Si vous avez parcouru et relevé certaines questions, super !
Si vous pouvez y répondre de façon éclairante et justifiée, MERCI !!

Afficher le sujet de la discussion

Anonyme

9677

11 Posté le 18/01/2012 à 10:40:28

Restera toujours le filtrage énergique à Fe/2 lors du sous-échantillonnage, et ça doit provoquer au moins autant de "dégâts" que l'interpolation. Cela dit, ce n'est pas une raison pour cumuler les deux quand on peut l'éviter.

Anonyme

10074

12 Posté le 18/01/2012 à 10:51:17

salut

Citation :

Il est toujours possible de fabriquer un exemple où le 24bits fixe est meilleur que le 24bits flottant, mais il ne serait pas du tout représentatif de l'ensemble des traitements effectivement réalisé dans les applications audios.
Un 24bits en virgule flottante donne, dans la plus grande majorité des cas, de meilleurs comportements (je parle des erreurs de calculs des traitements, caractérisé par un SNR).

24 bit flottant? c'est une faute de frappe ou ça existe vraiment?

Foxyflying

394

Posteur·euse AFfamé·e

Membre depuis 22 ans

13 Posté le 18/01/2012 à 11:21:41

Flag !
Sujet ô combien intéressant mais très, très pointu ! M'apprêtant à enregistrer le prochain album de mon groupe, je vous lis avec avidité !
Merci donc de rester vulgarisant.

fairway.fr, le site de mon groupe !

dart

9875

Je poste, donc je suis

Membre depuis 22 ans

14 Posté le 18/01/2012 à 17:37:23

SI je devais vulgariser à mort, le 32 bits flottant est à privilégier et l'emploi des hautes fréquences est un luxe dont est pas sûr d'en percevoir la qualité?

EraTom

2282

AFicionado·a

Membre depuis 14 ans

15 Posté le 18/01/2012 à 19:02:50

Citation :

24 bit flottant? c'est une faute de frappe ou ça existe vraiment?

Ici je parlais de façon "théorique".

Si tu devais comparer les SNR résultants d'arrondis de plusieurs traitements (avec différents opérateurs) entre une archi 24bits fixe et 24 bits flottant tu aurais de meilleurs résultats avec un codage en flottant dans la plupart des cas (et c'est vrai à partir de 16bits).

Le 24bits flottant n'est pas un standard IEEE et les composants (proc &co) que tu trouves sur le marché suivent les standards IEEE.

Cependant, techniquement, il n'y a rien qui empêche de fabriquer une architecture 24bits flottant viable. D'ailleurs il existe toute une famille de composants qui permet de le faire (les FPGA, les ASIC, etc.)
https://fr.wikipedia.org/wiki/Circuit_logique_programmable
https://fr.wikipedia.org/wiki/Application_Specific_Integrated_Circuit

Mais ici, on sort du monde informatique pour arriver à l'électronique numérique, plus bas niveau. Tu ne codes plus un traitement sur un DSP, tu construis un système numérique qui réalise ton traitement. Et là, tu peux faire "tout ce que tu veux".
Un traitement numérique hardware contient souvent ce genre de solution technique.

A titre d'exemple, je devais spécifier un tel système numérique (la cible techno était un FPGA) et l'équipe qui développait ne voulait pas entendre parler de la virgule flottante parce qu'il faut alors créer le système de mantisse, etc. qui est quand-même plus chiant à développer que du virgule fixe.
Moi j'avais remonté un objectif de SNR à tenir sur un calcul, critique pour la perfo globale.

Après étude, en virgule fixe il fallait une 40aine de bits, en virgule flottant une 20aine. Finalement, nous avons opté pour la virgule flottante parce que la taille de tous les bus de données et de la mémoire était divisée par 2 (ce qui résout pas mal de problème de place sur un FPGA et de routage, ça permet de monter plus haut en fréquence et/ou de réduire la consommation, etc.)

Pour expliquer rapidement le pourquoi si ça intéresse quelqu'un.

Pour un même SNR :
Quand A est grand, l'erreur d'arrondi (proportionnelle à l'écart-type du bruit de quantif, à la racine carrée de sa puissance) peut être "grand".
Quand A est petit, l'erreur d'arrondi doit-être petite.

Tenir un SNR revient à donner une erreur max relative d'arrondi. En notant A la valeur du signal, err_A l'erreur d'arrondi et obj l'objectif à tenir :
err_A / A < obj
err_A < obj*A

Si tu es en virgule fixe :
- Le nombre de bits de la partie entière avant la virgule est dimensionnée par la valeur max de A.
- Le nombre de bits de la partie décimale après la virgule est dimensionnée par le plus petit pas de quantification visé : err_A = obj*A_min.

Quand A est petit, tu vas utiliser tous les bits de poids faibles pour tenir le SNR mais les bits de poids forts seront alors inutiles (tous à 0).
Quand A est grand, tu va conserver des bits de poids faibles qui ne seront pas nécessaires à la tenue du SNR.

En virgule flottante, la "stratégie" est différente : tu déplaces la virgule.
Quand A est petit, les bits de poids fort inutiles de la partie entière sont cédés à la partie décimale.
Quand A est grand, tu perds les bits de poids faibles cédés à la partie entière mais tu peux tolérer une erreur d'arrondi plus grande toujours compatible avec l'objectif de SNR (puisque A est grand).

Si dans un traitement il n'y a que des additions et des soustractions, le calcul en virgule fixe permet de minimiser les erreurs (au bit de poids faibles).
Mais bon, j'ai du mal à imaginer un plugin ou le flot de calculs d'un mixage / mastering complet sans multiplication, division, racine-carrée, etc.

Quand je vois certains produits arborer un HDX 48bits (fixe) ça me laisse dubitatif. Un système 32bits flottant me semble bien plus "HD" au regard du SNR résultant de plusieurs traitements (et pas seulement en faisant la somme de quelques pistes...).

[ Dernière édition du message le 18/01/2012 à 19:12:05 ]

Anonyme

10074

16 Posté le 18/01/2012 à 19:14:37

toi au moins quand tu réponds, c'est pas à moitié!

EraTom

2282

AFicionado·a

Membre depuis 14 ans

17 Posté le 19/01/2012 à 00:06:42

Désolé si je me montre assommant. :-p

En fait je ne sais pas trop où placer la barre entre l'explication trop technique hermétique et la "vulgarisation" qui risque de laisser de la place aux imprécisions, voir des erreurs d'interprétation, avec des raccourcis maladroits.

Foxyflying

394

Posteur·euse AFfamé·e

Membre depuis 22 ans

18 Posté le 19/01/2012 à 07:01:08

Pas de souci: je m'éclate ! ;-)

fairway.fr, le site de mon groupe !

Anonyme

10074

19 Posté le 19/01/2012 à 08:42:07

l'explication technique ne me gêne absolument pas, bien au contraire, quite même à ce que je comprenne pas tout sur le coup, ça me force à me cultiver, je vais pas m'en plaindre.

Anonyme

9677

20 Posté le 19/01/2012 à 23:12:08

Tant qu'on oublie pas la convivialité, ça me convient tout à fait !

< Liste des sujets
Charte

Liste des modérateurs