Se connecter
Se connecter

ou
Créer un compte

ou
Pédago
146 réactions

Dossier sur l'encodage audio - Les bases de l’encodage audio

Si les termes "fréquence d'échantillonnage, "profondeur de bit" ou encore "modulation 1-bit" sont du chinois pour vous, voici quelques notions qui devraient vous éclairer...



Appa­reils photos, bala­deurs, camé­scopes, télé­vi­sion, radio, télé­phones : nous vivons, depuis l’in­va­sion de l’in­for­ma­tique et de l’élec­tro­nique au sein de nos socié­tés, dans un monde qui tend vers le tout numé­rique, au détri­ment évident des tech­no­lo­gies précé­dentes : le DVD a remplacé la cassette VHS, la carte SD a mis au rencart la bonne vieille péloche argen­tique, et comme le CD a opéré la double mise en retraite des cassettes audio et des disques vinyles, les studios d’en­re­gis­tre­ment ont troqué pour la plupart les magné­to­phones à bandes pour les ordi­na­teurs et les séquen­ceurs.

Or, en audio comme ailleurs, chaque révo­lu­tion génère son contre-courant de conser­va­tisme rétro­grade et en matière d’en­re­gis­tre­ment, on trouve ici et là des gens pour dire que les équi­pe­ments numé­riques ne parviennent pas à resti­tuer aussi fidè­le­ment les sons enre­gis­trés qu’une bonne vieille chaîne audio analo­gique de bout en bout. Sans d’autres preuves à l’ap­pui que leurs oreilles, certains audio­philes clament ainsi que le CD et ses descen­dants (Super Audio CD, DVD Audio) sont loin de valoir un bon vieux vinyle en terme de fidé­li­té… Au cœur de ce débat se trouve le proces­sus d’en­co­dage utilisé par les appa­reils numé­riques pour conver­tir un son en une suite de 0 et de 1. Pour juger des éven­tuels avan­tages ou incon­vé­nients de ce dernier, il s’agit dans un premier lieu de bien comprendre la diffé­rence entre analo­gique et numé­rique, et ce à quoi ces deux mots réfèrent.

De l’ana­lo­gique dans le numé­rique ?

N’al­lez pas croire que ce qu’on appelle l’en­re­gis­tre­ment numé­rique exclut tout recourt à un signal analo­gique dans la chaîne audio, bien au contraire. L’en­re­gis­tre­ment d’un phéno­mène acous­tique passe par sa conver­sion en signal analo­gique via un trans­duc­teur, puis par la numé­ri­sa­tion de ce signal via un conver­tis­seur A/N (Analo­gique/Numé­rique, soit A/D chez les anglais pour Analog/Digi­tal). Et pour écou­ter cet enre­gis­tre­ment sur une paire d’en­ceinte ? C’est le trajet inverse, avec un passage obligé par un signal analo­gique : un conver­tis­seur N/A (Numé­rique/Analo­gique, soit D/A chez les anglais) conver­tit les zéro et les uns en courant continu, lequel est ensuite trans­formé par les enceintes en ondes acous­tiques qui feront vibrer les molé­cules d’air jusqu’à notre tympan. (Ce dernier, en bon trans­duc­teur, retrans­for­mera d’ailleurs la pres­sion acous­tique en signal élec­trique inter­pré­table par notre cerveau…).
Pour enre­gis­trer basique­ment un phéno­mène acous­tique (une voix, une guitare, un concert de rock ou n’im­porte quel son), on utilise un trans­duc­teur (en l’oc­cur­rence un micro) dont la tâche est de trans­for­mer l’éner­gie acous­tique perçue par la capsule en courant élec­trique inin­ter­rompu. Parce que la tension de ce courant élec­trique varie de manière analogue au phéno­mène acous­tique, on parle de « signal analo­gique ».

En vis-à-vis de cela, le format numé­rique est une suite de chiffres ayant pour but de repré­sen­ter ce signal analo­gique. Notez qu’il s’agit bien d’un concept, d’une repré­sen­ta­tion approxi­ma­tive. Mais pour peu que cette approxi­ma­tion soit suffi­sam­ment précise, et surtout plus précise que nos capa­cité audi­tive, on pourra croire que l’on est en présence de la chose repré­sen­tée (le signal analo­gique donc).

Lorsqu’on parle de ‘signal numé­rique’, on évoque donc une réplique de signal audio analo­gique traduit sous forme de zéros et de uns, qu’il s’agisse de l’au­dio enre­gis­tré sur un CD, dans le fichier MP3 que vous écou­tez sur votre iPod, ou encore de celui généré par tel ou tel instru­ment élec­tro­nique (sampler, synthé, etc.) ou effet numé­rique (effets à modé­li­sa­tion, réverb, etc.).

 

Fourier et Nyquist sont dans un bateau…

Astu­cieuse, cette tech­no­lo­gie est le fruit de plusieurs décou­vertes scien­ti­fiques capi­tales, dont certaines ne datent pas d’hier. Au XIXème siècle Joseph Fourier, Bern­hard Riemann et d’autres ont d’abord démon­tré que tout signal pério­dique (c’est le cas des ondes de n’im­porte quelle forme : carré, triangle, violon­cel­le…) peut être recons­ti­tué en addi­tion­nant des ondes sinu­soï­dales en rapport harmo­nique les unes avec les autres (une fréquence fonda­men­tale F, l’oc­tave 2F, la quin­te+oc­tave 3F, etc.).

De 1928 à 1949, ce sont ensuite Harry Nyquist, Claude Shan­non et quelques autres qui parviennent à démon­trer qu’il suffit de faire des mesures (soit de l’échan­tillon­nage) à une fréquence de 2F pour déter­mi­ner sans faute les carac­té­ris­tiques (ampli­tude et fréquence) de toute sinu­soïde dont la fréquence est infé­rieure ou égale à F. Tout cela était déjà très inté­res­sant, mais pas encore très utili­sable, et ce n’est que dans les années 80, quand la micro-élec­tro­nique s’est déve­lop­pée et démo­cra­ti­sée grâce aux banques et aux jeux vidéos entre autres, qu’on a pu commen­cer à trai­ter des nombres à une vitesse suffi­sante pour faire quelque chose de beau avec : du son. Les sons numé­riques peuvent alors être produits à l’aide d’une puce program­mable plutôt qu’avec un circuit, puce qui est beau­coup plus fiable, rentable et facile à produire en masse.

Rendons toute­fois à César ce qui est à César, la Modu­la­tion d’Im­pul­sion Codée utili­sée dans la plupart des appli­ca­tions audio­nu­mé­riques, et plus connue sous le nom PCM, n’a pas attendu tout ce temps pour être utili­sée. C’est en effet en 1943 que les cher­cheurs de Bell Labs ont pu réali­ser la première trans­mis­sion vocale via le système SIGSALY pour les forces alliées. PCM ? L’acro­nyme est lâché…

Utili­sée par les CD Audio, les DAT, mais aussi par les formats de fichier WAV, AIFF, OMF ou encore SDII, le système ‘PCM’ (Pulse Code Modu­la­tion) est donc un mode de conver­sion analo­gique/numé­rique consis­tant à échan­tillon­ner le signal à une fréquence déter­mi­née pour affec­ter ensuite à chaque échan­tillon la valeur numé­rique la plus proche de l’am­pli­tude du signal origi­nal. Pour simpli­fier, on découpe le signal en minus­cules petits bouts et on indique pour chacun l’am­pli­tude du signal à cet instant précis. La préci­sion de ce décou­page est défi­nie par ce qu’on appelle ‘la fréquence d’échan­tillon­na­ge’ (en kHz), tandis que le nombre de valeurs qu’on est suscep­tible de faire corres­pondre à chaque échan­tillon est défini par ce qu’on appelle la ‘réso­lu­tion’ (en bits).

 

La fréquence d’échan­tillon­nage

Mesu­rée en kilo­Herz, la fréquence d’échan­tillon­nage (en anglais « sampling rate ») est le nombre d’échan­tillons qui vont être préle­vés par seconde. Sur un CD audio tradi­tion­nel, le son est échan­tillonné 44 100 fois par seconde, soit 44,1 kHz, une fréquence qui garan­tit une repro­duc­tion de l’in­té­gra­lité du spectre sonore audible par l’oreille humaine.

Comme nous l’évoquions plus haut, chaque note sur un instru­ment est consti­tuée d’un ensemble d’ondes sinu­soï­dales simples, de la fonda­men­tale aux harmo­niques, de sorte que de la note la plus grave à la plus aigus, un instru­ment couvre un spectre rela­ti­ve­ment large s’éten­dant sur plusieurs kilo­Herz. Or, la limite supé­rieure de l’au­di­tion humaine se situe quant à elle autour de 15 kHz, cette dernière dimi­nuant avec l’âge. Pourquoi donc ne pas avoir limité la fréquence d’échan­tillon­nage des CD à cette valeur ? Et c’est Nyquist qui apporte la réponse à cette bonne ques­tion.

Selon son théo­rème, la fréquence d’échan­tillon­nage doit être au moins deux fois supé­rieure à la bande passante du signal audio. Cela signi­fie que pour numé­ri­ser une onde de 1 000 Hz, la fréquence d’échan­tillon­nage doit être d’au moins 2 000 Hz. Et c’est pour cette raison que lorsqu’on procède à l’en­re­gis­tre­ment d’un orchestre sur toutes les fréquences audibles (avec une marge confor­table allant jusqu’à 20 000 Hz), la fréquence d’échan­tillon­nage doit être d’au moins 40 000 Hz.

Quant à la déci­sion de fixer la fréquence d’échan­tillon­nage par défaut à 44 100 Hz, elle s’ex­plique par le fonc­tion­ne­ment des premiers enre­gis­treurs vidéo analo­gique sur bandes U-Matic entre la fin des années 70 et le début des années 80. La valeur de 44,1 kHz était la fréquence exacte permise par ces systèmes en PAL : ce système permet­tait « d’ins­crire » six samples par ligne vidéo (trois samples par canal pour de la stéréo donc). Le PAL code la video sur 50 trames de 294 lignes par secondes (une image complète de 588 lignes étant compo­sée de deux trames), il n’y a qu’à faire le calcul : 3 × 50 × 294 = 44 100 Hz. Le même système en NTSC fonc­tionne à 3 × 59,94 × 245 = 44 056 Hz. Les systèmes en ques­tion étaient majo­ri­tai­re­ment fabriqués par Sony, qui ont convaincu Philips lors de la mise en point du CD Audio d’uti­li­ser leur stan­dard au lieu des 44 000 Hz proposé par ces derniers. Le 16 bit était aussi la norme de Sony, les conver­tis­seurs Philips travaillant en 14 bits (ils ont été ramené à la « qualité » 16 bit en utili­sant un over­sam­pling 4x). Préci­sons pour finir que ces systèmes étaient utili­sés pour le trans­fert et le maste­ring, pas pour l’en­re­gis­tre­ment (ils étaient limi­tés à la stéréo, pas de multi­piste) et qu’ils sont deve­nus obso­lètes à l’ap­pa­ri­tion de la bande DAT.

Toujours en quête d’une meilleure défi­ni­tion audio, de nombreux conver­tis­seurs travaillent toute­fois aujour­d’hui à des fréquences bien supé­rieures : 48, 88, 96 ou même 192 kHz… Mais ce seul para­mètre ne garan­tit pas à lui seul la qualité de resti­tu­tion. Dans ce contexte, il faut aussi consi­dé­rer l’im­pact de la réso­lu­tion audio, soit le nombre de bits grâce auxquels on pourra quan­ti­fier l’am­pli­tude de chaque échan­tillon.

 

La réso­lu­tion

La profon­deur de bit, ou niveau de quan­ti­fi­ca­tion, est le nombre de chiffres binaires utili­sés pour repré­sen­ter l’am­pli­tude du signal. Le nombre de valeurs possible pour cette repré­sen­ta­tion croît en expo­nen­tielle de 2, ce qui signi­fie qu’un CD audio stan­dard encodé en 16-bit a 2^16 (2 puis­sance 16) soit 65 536 niveaux de quan­ti­fi­ca­tion pour une plage dyna­mique de 96 dB théo­rique. Evidem­ment, plus le nombre de bits augmente, plus l’on dispose de niveaux de quan­ti­fi­ca­tion et c’est ainsi qu’en 24 bits, soit une réso­lu­tion déjà stan­dard en enre­gis­tre­ment audio­nu­mé­rique, on dispose de 16 777 216 niveaux de quan­ti­fi­ca­tion pour une plage dyna­mique théo­rique de 144 dB. L’in­té­rêt de la chose sera toute­fois de dispo­ser d’une bonne marge avant satu­ra­tion lors des enre­gis­tre­ment…

24 bits, c’est bien certes, mais 1 bit c’est mieux vous diront certains. Inventé dans les années 60, l’en­co­dage 1-bit Delta-Sigma fut d’abord commer­cia­lisé par DBX, toujours pour un système de trans­fert d’au­dio numé­rique sur bande vidéo, avec plusieurs avan­tages par rapport à l’en­co­dage PCM (plus besoin de filtre anti-alia­sing et 16 dB de dyna­mique supplé­men­taire). C’est toute­fois dans les années 90, avec l’ap­pa­ri­tion du SACD, que cette tech­no­lo­gie s’est réel­le­ment démo­cra­ti­sée.

Il y a plusieurs diffé­rences fonda­men­tales entre l’échan­tillon­nage 1-bit et la PCM. La prin­ci­pale tient à  la méthode de quan­ti­fi­ca­tion : si avec l’échan­tillon­nage PCM, on  mesure l’am­pli­tude du signal à un instant donné, on ne mesure avec l’échan­tillon­nage 1bit que la varia­tion par rapport à l’ins­tant d’avant, soit un système absolu d’un côté (PCM) et un rela­tif de l’autre (1bit).

En échan­tillon­nage 1-bit, un seul niveau de quan­ti­fi­ca­tion est donc néces­saire. Le signal est lu par méthode numé­rique direct stream (DSD). Cela signi­fie qu’au lieu de s’in­té­res­ser à toute l’am­pli­tude d’un signal, seul chaque instant entrant est analysé consé­cu­ti­ve­ment. Chaque échan­tillon n’a que deux points de réfé­rence, un pour augmen­ter l’am­pli­tude, et un pour réduire l’am­pli­tude. Du coup, en utili­sant un bit, chaque instant peut être clas­si­fié en « on » ou « off ». On obtient alors un système d’échan­tillon­nage « en esca­lier » dans lequel chaque bit lit le signal analo­gique comme montant ou descen­dant.

 

Bruit de quan­ti­fi­ca­tion

 

Diagramme 5

 

Comme on n’uti­lise qu’un seul bit, le risque que du bruit  de quan­ti­fi­ca­tion perturbe le signal est beau­coup plus impor­tant, soit le bruit inhé­rent à tout proces­sus d’échan­tillon­nage. Pour dimi­nuer ce dernier, l’échan­tillon­nage 1-bit utilise une boucle de feed­back, qui compare le signal sortant au signal entrant, afin de « mettre en forme » le bruit.

 

En utili­sant la boucle de feed­back, il est possible de compa­rer l’éner­gie du signal entrant et celle du signal sortant, et d’éli­mi­ner le bruit excé­den­taire généré au passage. Le bruit est retiré de la bande passante de signal dési­rée et se retrouve dans de très hautes fréquences inau­dibles. Le diagramme 5 offre un exemple de mise en forme du bruit.

 

 

Diagramme 6

 

En utili­sant plusieurs fois cette boucle de feed­back et en compa­rant plusieurs échan­tillons diffé­rents à l’échan­tillon analo­gique origi­nal, il est possible de déter­mi­ner une valeur moyenne et d’ob­te­nir un bien meilleur rapport signal sur bruit (SNR, pour « Signal to Noise Ratio »). Le nombre de boucles de feed­back dans un enco­deur 1-bit est appelé « l’ordre » de l’en­co­deur.

Le diagramme 6 indique le SNR corres­pon­dant en dB pour des modu­la­teurs de divers ordres, à diverse fréquences d’échan­tillon­nage.

 

 

 

 

 

Suréchan­tillon­nage

Diagramme 7

Notez la fréquence de suréchan­tillon­nage en abscisses sur le diagramme 6. Un modu­la­teur 1-bit n’échan­tillonne pas à 44,1 kHz. Une fréquence d’échan­tillon­nage bien plus élevée doit être utili­sée pour prendre en compte le bruit de quan­ti­fi­ca­tion. Cette fréquence est souvent 64 fois la fréquence souhai­tée, soit 64 × 44,1 kHz, ou envi­ron 2,8 MHz ! Avec autant d’échan­tillons, le bruit de quan­ti­fi­ca­tion indé­si­rable peut être mis en forme pour chaque échan­tillon, et le bruit moyen peut être bien plus faible. Pour un modu­la­teur d’ordre N, chaque fois qu’une fréquence d’échan­tillon­nage double, le bruit de quan­ti­fi­ca­tion appli­cable dimi­nue de 3 x (2M+1) dB [2]. Doubler la fréquence d’échan­tillon­nage pour un modu­la­teur d’ordre 1 réduit le bruit de quan­ti­fi­ca­tion de 9 dB, mais doubler la fréquence d’échan­tillon­nage pour un modu­la­teur d’ordre 2 réduit le bruit de 15 dB, etc. Cela améliore énor­mé­ment le SNR à 64 fois la fréquence d’échan­tillon­nage. Le diagramme 7 montre la réponse de fréquence du signal et le bruit d’un modu­la­teur d’ordre 1 et 2.

À basse fréquence, le bruit est éliminé plus effi­ca­ce­ment avec chaque incré­men­ta­tion d’ordre. Cepen­dant, du fait de la mise en forme du bruit, les fréquences plus élevées sont souvent pertur­bées en modu­la­tion 1-bit. Cela reste parfois préfé­rable à la PCM, qui a un niveau de bruit de quan­ti­fi­ca­tion bas sur toutes les fréquences.

Déci­ma­tion

Comme l’oreille humaine ne peut détec­ter que des fréquences infé­rieures à 20 kHz, une fréquence d’échan­tillon­nage de 2,8 MHz produit des données large­ment redon­dantes. Pour que le signal retrouve un flux réaliste, un procédé, la déci­ma­tion, permet de réta­blir un signal sortant de 44,1 kHz. Ce procédé est réalisé en utili­sant chaque 64e échan­tillon. Le diagramme 8 offre un exemple visuel de déci­ma­tion.

Diagramme 8

 

Réfé­rences :

[1] John Watkin­son, The Art of Digi­tal Audio, 2nd edition, p. 104[2] James C. Candy, Gabor C. Temes. « Over­sam­pling Methods for A/D D/A Conver­sion, Over­sam­pling Delta-Sigma Conver­ters, » New Jersey, IEEE Press, 1992, pp. 3–7.

[2] Diagrammes 1,2, & 3 adap­tés de « Why does it say 1-bit Dual D/A conver­ter on my CD player? » 23 avril 2001 http://enter­tain­ment.hows­tuff­works.com/ques­tion620.htm (12 novembre 2007)

[3] Diagramme 4. Échan­tillon­nage 1-bit d’onde stan­dard. Adapté de « An Intro­duc­tion to Delta-Sigma Conver­ters, » Uwe Beis, août 2007. http://www.beis.de/Elek­tro­nik/Delta­Sigma/Delta­Sigma.html

[4] Diagramme 5. La mise en forme du bruit supprime le bruit de quan­ti­fi­ca­tion d’un modu­la­teur Delta-Sigma. Adapté de « Getting the Most Out of Delta-Sigma Conver­ters, » Russell Ander­son, Analog Zone. http://www.analog­zone.com/acqt0310.pdf

[5] Diagramme 6. Bruit de conver­sion Delta Sigma – SNR vs. Fréquence de suréchan­tillon­nage et ordre de modu­la­teur (0 – 5). Adapté de « An Intro­duc­tion to Delta Sigma Conver­ters, » Uwe Beis, août 2007. http://www.beis.de/Elek­tro­nik/Delta­Sigma/Delta­Sigma.html

[6] Diagramme 7. Formage de bruit provoqué par réponses de fréquences. Adapté de « An Intro­duc­tion to Delta Sigma Conver­ters, » Uwe Beis, Août 2007. http://www.beis.de/Elek­tro­nik/Delta­Sigma/Delta­Sigma.html

[7] Diagramme 8. Deci­ma­tion in the Time Domain. Adapté de « A Brief Intro­duc­tion to Sigma Delta Conver­sion, » David Jarman, mai 1995. http://www.inter­sil.com/data/an/AN9504.pdf

 

Co-écrit par Los Teignos

1000 mercis au Dr Pouet pour sa relec­ture critique

 


Vous souhaitez réagir à cet article ?

Se connecter
Devenir membre