Dossier sur l'encodage audio

Dossier sur l'encodage audio - Les bases de l’encodage audio

Publié le 06/01/2010 par Mark Kleback

Si les termes "fréquence d'échantillonnage, "profondeur de bit" ou encore "modulation 1-bit" sont du chinois pour vous, voici quelques notions qui devraient vous éclairer...

Appareils photos, baladeurs, caméscopes, télévision, radio, téléphones : nous vivons, depuis l’invasion de l’informatique et de l’électronique au sein de nos sociétés, dans un monde qui tend vers le tout numérique, au détriment évident des technologies précédentes : le DVD a remplacé la cassette VHS, la carte SD a mis au rencart la bonne vieille péloche argentique, et comme le CD a opéré la double mise en retraite des cassettes audio et des disques vinyles, les studios d’enregistrement ont troqué pour la plupart les magnétophones à bandes pour les ordinateurs et les séquenceurs.

Or, en audio comme ailleurs, chaque révolution génère son contre-courant de conservatisme rétrograde et en matière d’enregistrement, on trouve ici et là des gens pour dire que les équipements numériques ne parviennent pas à restituer aussi fidèlement les sons enregistrés qu’une bonne vieille chaîne audio analogique de bout en bout. Sans d’autres preuves à l’appui que leurs oreilles, certains audiophiles clament ainsi que le CD et ses descendants (Super Audio CD, DVD Audio) sont loin de valoir un bon vieux vinyle en terme de fidélité… Au cœur de ce débat se trouve le processus d’encodage utilisé par les appareils numériques pour convertir un son en une suite de 0 et de 1. Pour juger des éventuels avantages ou inconvénients de ce dernier, il s’agit dans un premier lieu de bien comprendre la différence entre analogique et numérique, et ce à quoi ces deux mots réfèrent.

De l’analogique dans le numérique ?

N’allez pas croire que ce qu’on appelle l’enregistrement numérique exclut tout recourt à un signal analogique dans la chaîne audio, bien au contraire. L’enregistrement d’un phénomène acoustique passe par sa conversion en signal analogique via un transducteur, puis par la numérisation de ce signal via un convertisseur A/N (Analogique/Numérique, soit A/D chez les anglais pour Analog/Digital). Et pour écouter cet enregistrement sur une paire d’enceinte ? C’est le trajet inverse, avec un passage obligé par un signal analogique : un convertisseur N/A (Numérique/Analogique, soit D/A chez les anglais) convertit les zéro et les uns en courant continu, lequel est ensuite transformé par les enceintes en ondes acoustiques qui feront vibrer les molécules d’air jusqu’à notre tympan. (Ce dernier, en bon transducteur, retransformera d’ailleurs la pression acoustique en signal électrique interprétable par notre cerveau…).

Pour enregistrer basiquement un phénomène acoustique (une voix, une guitare, un concert de rock ou n’importe quel son), on utilise un transducteur (en l’occurrence un micro) dont la tâche est de transformer l’énergie acoustique perçue par la capsule en courant électrique ininterrompu. Parce que la tension de ce courant électrique varie de manière analogue au phénomène acoustique, on parle de « signal analogique ».

En vis-à-vis de cela, le format numérique est une suite de chiffres ayant pour but de représenter ce signal analogique. Notez qu’il s’agit bien d’un concept, d’une représentation approximative. Mais pour peu que cette approximation soit suffisamment précise, et surtout plus précise que nos capacité auditive, on pourra croire que l’on est en présence de la chose représentée (le signal analogique donc).

Lorsqu’on parle de ‘signal numérique’, on évoque donc une réplique de signal audio analogique traduit sous forme de zéros et de uns, qu’il s’agisse de l’audio enregistré sur un CD, dans le fichier MP3 que vous écoutez sur votre iPod, ou encore de celui généré par tel ou tel instrument électronique (sampler, synthé, etc.) ou effet numérique (effets à modélisation, réverb, etc.).

Fourier et Nyquist sont dans un bateau…

Astucieuse, cette technologie est le fruit de plusieurs découvertes scientifiques capitales, dont certaines ne datent pas d’hier. Au XIXème siècle Joseph Fourier, Bernhard Riemann et d’autres ont d’abord démontré que tout signal périodique (c’est le cas des ondes de n’importe quelle forme : carré, triangle, violoncelle…) peut être reconstitué en additionnant des ondes sinusoïdales en rapport harmonique les unes avec les autres (une fréquence fondamentale F, l’octave 2F, la quinte+octave 3F, etc.).

De 1928 à 1949, ce sont ensuite Harry Nyquist, Claude Shannon et quelques autres qui parviennent à démontrer qu’il suffit de faire des mesures (soit de l’échantillonnage) à une fréquence de 2F pour déterminer sans faute les caractéristiques (amplitude et fréquence) de toute sinusoïde dont la fréquence est inférieure ou égale à F. Tout cela était déjà très intéressant, mais pas encore très utilisable, et ce n’est que dans les années 80, quand la micro-électronique s’est développée et démocratisée grâce aux banques et aux jeux vidéos entre autres, qu’on a pu commencer à traiter des nombres à une vitesse suffisante pour faire quelque chose de beau avec : du son. Les sons numériques peuvent alors être produits à l’aide d’une puce programmable plutôt qu’avec un circuit, puce qui est beaucoup plus fiable, rentable et facile à produire en masse.

Rendons toutefois à César ce qui est à César, la Modulation d’Impulsion Codée utilisée dans la plupart des applications audionumériques, et plus connue sous le nom PCM, n’a pas attendu tout ce temps pour être utilisée. C’est en effet en 1943 que les chercheurs de Bell Labs ont pu réaliser la première transmission vocale via le système SIGSALY pour les forces alliées. PCM ? L’acronyme est lâché…

Utilisée par les CD Audio, les DAT, mais aussi par les formats de fichier WAV, AIFF, OMF ou encore SDII, le système ‘PCM’ (Pulse Code Modulation) est donc un mode de conversion analogique/numérique consistant à échantillonner le signal à une fréquence déterminée pour affecter ensuite à chaque échantillon la valeur numérique la plus proche de l’amplitude du signal original. Pour simplifier, on découpe le signal en minuscules petits bouts et on indique pour chacun l’amplitude du signal à cet instant précis. La précision de ce découpage est définie par ce qu’on appelle ‘la fréquence d’échantillonnage’ (en kHz), tandis que le nombre de valeurs qu’on est susceptible de faire correspondre à chaque échantillon est défini par ce qu’on appelle la ‘résolution’ (en bits).

La fréquence d’échantillonnage

Mesurée en kiloHerz, la fréquence d’échantillonnage (en anglais « sampling rate ») est le nombre d’échantillons qui vont être prélevés par seconde. Sur un CD audio traditionnel, le son est échantillonné 44 100 fois par seconde, soit 44,1 kHz, une fréquence qui garantit une reproduction de l’intégralité du spectre sonore audible par l’oreille humaine.

Comme nous l’évoquions plus haut, chaque note sur un instrument est constituée d’un ensemble d’ondes sinusoïdales simples, de la fondamentale aux harmoniques, de sorte que de la note la plus grave à la plus aigus, un instrument couvre un spectre relativement large s’étendant sur plusieurs kiloHerz. Or, la limite supérieure de l’audition humaine se situe quant à elle autour de 15 kHz, cette dernière diminuant avec l’âge. Pourquoi donc ne pas avoir limité la fréquence d’échantillonnage des CD à cette valeur ? Et c’est Nyquist qui apporte la réponse à cette bonne question.

Selon son théorème, la fréquence d’échantillonnage doit être au moins deux fois supérieure à la bande passante du signal audio. Cela signifie que pour numériser une onde de 1 000 Hz, la fréquence d’échantillonnage doit être d’au moins 2 000 Hz. Et c’est pour cette raison que lorsqu’on procède à l’enregistrement d’un orchestre sur toutes les fréquences audibles (avec une marge confortable allant jusqu’à 20 000 Hz), la fréquence d’échantillonnage doit être d’au moins 40 000 Hz.

Quant à la décision de fixer la fréquence d’échantillonnage par défaut à 44 100 Hz, elle s’explique par le fonctionnement des premiers enregistreurs vidéo analogique sur bandes U-Matic entre la fin des années 70 et le début des années 80. La valeur de 44,1 kHz était la fréquence exacte permise par ces systèmes en PAL : ce système permettait « d’inscrire » six samples par ligne vidéo (trois samples par canal pour de la stéréo donc). Le PAL code la video sur 50 trames de 294 lignes par secondes (une image complète de 588 lignes étant composée de deux trames), il n’y a qu’à faire le calcul : 3 × 50 × 294 = 44 100 Hz. Le même système en NTSC fonctionne à 3 × 59,94 × 245 = 44 056 Hz. Les systèmes en question étaient majoritairement fabriqués par Sony, qui ont convaincu Philips lors de la mise en point du CD Audio d’utiliser leur standard au lieu des 44 000 Hz proposé par ces derniers. Le 16 bit était aussi la norme de Sony, les convertisseurs Philips travaillant en 14 bits (ils ont été ramené à la « qualité » 16 bit en utilisant un oversampling 4x). Précisons pour finir que ces systèmes étaient utilisés pour le transfert et le mastering, pas pour l’enregistrement (ils étaient limités à la stéréo, pas de multipiste) et qu’ils sont devenus obsolètes à l’apparition de la bande DAT.

Toujours en quête d’une meilleure définition audio, de nombreux convertisseurs travaillent toutefois aujourd’hui à des fréquences bien supérieures : 48, 88, 96 ou même 192 kHz… Mais ce seul paramètre ne garantit pas à lui seul la qualité de restitution. Dans ce contexte, il faut aussi considérer l’impact de la résolution audio, soit le nombre de bits grâce auxquels on pourra quantifier l’amplitude de chaque échantillon.

La résolution

La profondeur de bit, ou niveau de quantification, est le nombre de chiffres binaires utilisés pour représenter l’amplitude du signal. Le nombre de valeurs possible pour cette représentation croît en exponentielle de 2, ce qui signifie qu’un CD audio standard encodé en 16-bit a 2^16 (2 puissance 16) soit 65 536 niveaux de quantification pour une plage dynamique de 96 dB théorique. Evidemment, plus le nombre de bits augmente, plus l’on dispose de niveaux de quantification et c’est ainsi qu’en 24 bits, soit une résolution déjà standard en enregistrement audionumérique, on dispose de 16 777 216 niveaux de quantification pour une plage dynamique théorique de 144 dB. L’intérêt de la chose sera toutefois de disposer d’une bonne marge avant saturation lors des enregistrement…

24 bits, c’est bien certes, mais 1 bit c’est mieux vous diront certains. Inventé dans les années 60, l’encodage 1-bit Delta-Sigma fut d’abord commercialisé par DBX, toujours pour un système de transfert d’audio numérique sur bande vidéo, avec plusieurs avantages par rapport à l’encodage PCM (plus besoin de filtre anti-aliasing et 16 dB de dynamique supplémentaire). C’est toutefois dans les années 90, avec l’apparition du SACD, que cette technologie s’est réellement démocratisée.

Il y a plusieurs différences fondamentales entre l’échantillonnage 1-bit et la PCM. La principale tient à la méthode de quantification : si avec l’échantillonnage PCM, on mesure l’amplitude du signal à un instant donné, on ne mesure avec l’échantillonnage 1bit que la variation par rapport à l’instant d’avant, soit un système absolu d’un côté (PCM) et un relatif de l’autre (1bit).

En échantillonnage 1-bit, un seul niveau de quantification est donc nécessaire. Le signal est lu par méthode numérique direct stream (DSD). Cela signifie qu’au lieu de s’intéresser à toute l’amplitude d’un signal, seul chaque instant entrant est analysé consécutivement. Chaque échantillon n’a que deux points de référence, un pour augmenter l’amplitude, et un pour réduire l’amplitude. Du coup, en utilisant un bit, chaque instant peut être classifié en « on » ou « off ». On obtient alors un système d’échantillonnage « en escalier » dans lequel chaque bit lit le signal analogique comme montant ou descendant.

Bruit de quantification

Diagramme 5

Comme on n’utilise qu’un seul bit, le risque que du bruit de quantification perturbe le signal est beaucoup plus important, soit le bruit inhérent à tout processus d’échantillonnage. Pour diminuer ce dernier, l’échantillonnage 1-bit utilise une boucle de feedback, qui compare le signal sortant au signal entrant, afin de « mettre en forme » le bruit.

En utilisant la boucle de feedback, il est possible de comparer l’énergie du signal entrant et celle du signal sortant, et d’éliminer le bruit excédentaire généré au passage. Le bruit est retiré de la bande passante de signal désirée et se retrouve dans de très hautes fréquences inaudibles. Le diagramme 5 offre un exemple de mise en forme du bruit.

Diagramme 6

En utilisant plusieurs fois cette boucle de feedback et en comparant plusieurs échantillons différents à l’échantillon analogique original, il est possible de déterminer une valeur moyenne et d’obtenir un bien meilleur rapport signal sur bruit (SNR, pour « Signal to Noise Ratio »). Le nombre de boucles de feedback dans un encodeur 1-bit est appelé « l’ordre » de l’encodeur.

Le diagramme 6 indique le SNR correspondant en dB pour des modulateurs de divers ordres, à diverse fréquences d’échantillonnage.

Suréchantillonnage

Diagramme 7

Notez la fréquence de suréchantillonnage en abscisses sur le diagramme 6. Un modulateur 1-bit n’échantillonne pas à 44,1 kHz. Une fréquence d’échantillonnage bien plus élevée doit être utilisée pour prendre en compte le bruit de quantification. Cette fréquence est souvent 64 fois la fréquence souhaitée, soit 64 × 44,1 kHz, ou environ 2,8 MHz ! Avec autant d’échantillons, le bruit de quantification indésirable peut être mis en forme pour chaque échantillon, et le bruit moyen peut être bien plus faible. Pour un modulateur d’ordre N, chaque fois qu’une fréquence d’échantillonnage double, le bruit de quantification applicable diminue de 3 x (2M+1) dB [2]. Doubler la fréquence d’échantillonnage pour un modulateur d’ordre 1 réduit le bruit de quantification de 9 dB, mais doubler la fréquence d’échantillonnage pour un modulateur d’ordre 2 réduit le bruit de 15 dB, etc. Cela améliore énormément le SNR à 64 fois la fréquence d’échantillonnage. Le diagramme 7 montre la réponse de fréquence du signal et le bruit d’un modulateur d’ordre 1 et 2.

À basse fréquence, le bruit est éliminé plus efficacement avec chaque incrémentation d’ordre. Cependant, du fait de la mise en forme du bruit, les fréquences plus élevées sont souvent perturbées en modulation 1-bit. Cela reste parfois préférable à la PCM, qui a un niveau de bruit de quantification bas sur toutes les fréquences.

Décimation

Comme l’oreille humaine ne peut détecter que des fréquences inférieures à 20 kHz, une fréquence d’échantillonnage de 2,8 MHz produit des données largement redondantes. Pour que le signal retrouve un flux réaliste, un procédé, la décimation, permet de rétablir un signal sortant de 44,1 kHz. Ce procédé est réalisé en utilisant chaque 64e échantillon. Le diagramme 8 offre un exemple visuel de décimation.

Diagramme 8

Références :

[1] John Watkinson, The Art of Digital Audio, 2nd edition, p. 104[2] James C. Candy, Gabor C. Temes. « Oversampling Methods for A/D D/A Conversion, Oversampling Delta-Sigma Converters, » New Jersey, IEEE Press, 1992, pp. 3–7.

[2] Diagrammes 1,2, & 3 adaptés de « Why does it say 1-bit Dual D/A converter on my CD player? » 23 avril 2001 http://entertainment.howstuffworks.com/question620.htm (12 novembre 2007)

[3] Diagramme 4. Échantillonnage 1-bit d’onde standard. Adapté de « An Introduction to Delta-Sigma Converters, » Uwe Beis, août 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

[4] Diagramme 5. La mise en forme du bruit supprime le bruit de quantification d’un modulateur Delta-Sigma. Adapté de « Getting the Most Out of Delta-Sigma Converters, » Russell Anderson, Analog Zone. http://www.analogzone.com/acqt0310.pdf

[5] Diagramme 6. Bruit de conversion Delta Sigma – SNR vs. Fréquence de suréchantillonnage et ordre de modulateur (0 – 5). Adapté de « An Introduction to Delta Sigma Converters, » Uwe Beis, août 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

[6] Diagramme 7. Formage de bruit provoqué par réponses de fréquences. Adapté de « An Introduction to Delta Sigma Converters, » Uwe Beis, Août 2007. http://www.beis.de/Elektronik/DeltaSigma/DeltaSigma.html

[7] Diagramme 8. Decimation in the Time Domain. Adapté de « A Brief Introduction to Sigma Delta Conversion, » David Jarman, mai 1995. http://www.intersil.com/data/an/AN9504.pdf

Co-écrit par Los Teignos

1000 mercis au Dr Pouet pour sa relecture critique

Dossier sur l'encodage audio - Les bases de l’encodage audio

Fourier et Nyquist sont dans un bateau…

La fréquence d’échan­tillon­nage

La réso­lu­tion

Bruit de quan­ti­fi­ca­tion

Suréchan­tillon­nage

Déci­ma­tion

La fréquence d’échantillonnage

La résolution

Bruit de quantification

Suréchantillonnage

Décimation