Pour continuer sur le thème des bases de l’acoustique et après avoir fait le tour du timbre dans les précédents dossiers, penchons-nous sur la notion de hauteur.
D’emblée, la notion de perception de la hauteur paraît être une évidence… quoique ! Rien que l’évaluation de l’intervalle du demi-ton n’est statistiquement pas acquise par toute la population !
Il convient de dire que l’oreille humaine peut percevoir les fréquences comprises entre 20 et 20 000 Hertz. Cela pour des sujets jeunes, bien entendu (si je puis dire) car très tôt, dès 25 ans environ, notre aptitude à capter les aigus donc les hautes fréquences, décroît rapidement. Au quotidien, notre audition ne semble pas être altérée, mais nous risquons de moins bien comprendre, principalement en milieu bruyant.
Quel paramètre intervient donc dans la perception de la hauteur, c’est-à-dire pour le musicien : la note ? C’est la fréquence, exprimée en Hertz. Elle traduit le nombre de vibrations que subit en une seconde le milieu conducteur. En effet, pour que le son existe, il faut qu’il y ait de la matière pour le transmettre (air, métal, bois… gaz, solide). Dans le vide, le son ne peut pas se propager.
Pour conclure, un son de 20 Hz, notre limite dans le grave, vibre 20 fois en une seconde, et un son de 20 000 Hz, limite dans l’aigu, vibre 20 000 fois par seconde !
La notion d’intervalle
Comment le musicien retrouve-t-il au milieu de tout cela, ses repères de vocabulaire qui pour lui s’expriment par les mots suivants : ton, demi-ton, octave ?
L’octave supérieure d’une note (vers l’aigu) est le double de sa fréquence. Exemple LA= 440 Hz donne à l’octave du dessus LA= 880 Hz. L’octave inférieure s’obtient à l’inverse en divisant la fréquence par 2.
Le calcul du demi-ton est plus complexe, car dans l’histoire, sa valeur n’a pas toujours été constante. Les valeurs d’une gamme du Moyen-Age, issues du principe de la gamme de Pythagore, ne sont pas celles de la gamme de notre piano d’aujourd’hui.
Au XVIIe siècle apparaît la gamme dite ‘tempérée’. C’est-à-dire, une gamme divisée en douze demi-tons perçus comme égaux par notre oreille. Intervient alors la notion de perception logarithmique et non linéaire de notre oreille et c’est pour cette raison que le demi-ton tempéré sera exprimé par la valeur racine douzième de 2.
= 1,059 Valeur du demi-ton tempéré
Pour calculer le demi-ton supérieur N2, d’une fréquence N1, il faudra appliquer la petite formule suivante :
N1 x = N2
Tableau des fréquences de la gamme tempérée pour La3 = 440 Hz
Les valeurs ont été arrondies au dixième
Lorsque l’on se déplace en colonne dans le tableau, l’intervalle franchi est l’octave donc pour aller vers l’aigu, on a multiplié la fréquence par 2. Lorsque l’on se déplace en ligne, l’intervalle est le demi-ton tempéré donc pour aller vers l’aigu, on a multiplié la fréquence par racine douzième de 2 soit environ 1,059.
Nous avons dit précédemment qu’identifier ce demi-ton n’était pas nécessairement une évidence pour tout le monde ! Eh bien à l’inverse, il faut savoir qu’une oreille particulièrement fine peut entendre le 50e de ton. Ce ‘plus petit intervalle’, correspond au pouvoir dissociateur de l’oreille. Son unité de mesure est le SAVART. Notre oreille a comme nous l’avons dit, une courbe de réponse logarithmique. Donc pour calculer la mesure de l’intervalle entre deux fréquences N1 et N2, il faudra faire l’opération suivante :
= valeur de l’intervalle en Savart.
-
Un demi-ton = 25 Savarts
-
Un ton = 50 Savarts
On rencontre un autre ‘micro-intervalle’ : le Cent, qui correspond à la division du ton par 200.
-
Un ton = 200 Cents
-
Un demi-ton = 100 Cents
-
4 Cents = Un savart
Le Cent est souvent utilisé comme unité sur les accordeurs électroniques des instruments et pour évaluer le ‘pitch-shifting’ dont nous parlerons plus loin.
Rôle du timbre dans la perception de la hauteur
Dans le cas d’un son complexe (c’est à dire tous, sauf les sons sinusoïdaux purs) la valeur de la hauteur est donnée par la fréquence de la plus grave des composantes.
Pour les sons harmoniques où les composantes sont toutes des multiples entiers du fondamental, la règle évidemment demeure, mais s’ajoute l’effet redondant de la multiplication par n entier de ce fondamental. Par exemple pour un LA= 440, on entendra 2×440 et 3×440 ainsi de suite dans la série des harmoniques. Ce ‘martelage’ dans notre cerveau de la valeur du fondamental multiplié n fois, ‘imprime’ la notion de justesse à travers la perception de l’écart constant entre deux harmoniques, qui n’est autre que la valeur du fondamental et donc la hauteur du son entendu.
Les timbres harmoniques ou presque sont donc musicalement, facilement identifiables en termes de hauteur par rapport aux spectres non harmoniques.
Pour faire varier les hauteurs…
Lorsque l’on enregistrait, il n’y a pas encore si longtemps sur de la bande magnétique, celle-ci défilait à une vitesse constante (19 cm/s, 38 cm/s, 72 cm/s, pour ne citer que les vitesses les plus courantes) devant la tête d’enregistrement. La lecture ensuite devait nécessairement se faire à la même vitesse faute de quoi on constatait une modification de hauteur et évidemment de durée des événements sonores. Il n’y avait donc guère de possibilité de faire varier la durée d’un titre, sauf à en couper un bout, au contraire, en ajouter ou… tout réenregistrer en privilégiant la durée globale et non le tempo ! À l’opposé, il était difficile d’utiliser le changement de hauteur induit par la variation de vitesse pour un ‘rattrapage’ de justesse musicale de quelques cents, car c’était au détriment de la durée globale du morceau… Le ‘vari-speed’ des magnétophones était donc une fonction à manipuler avec précautions !
Jouer avec le temps
Pourtant, le dispositif mécanique permettant de changer la vitesse d’une restitution musicale sans changer la hauteur existe bel et bien, et depuis fort longtemps, avec la… boîte à musique et l’orgue de Barbarie : plus on ‘tourne’ la manivelle rapidement, plus le morceau sera joué vite, mais il restera à la même tonalité ! Les technologies numériques ont amené une solution et c’est suite aux travaux de l’Ircam entre autres, sur le programme ‘Chant’ à la fin des années 80, et grâce à l’augmentation de puissance des ordinateurs qu’ont été mise en œuvre deux techniques fort pratiques, le ‘pitch shifting’ et le ‘time stretching’, dont le principe est de dissocier les deux variables liées, hauteur/temps. En échantillonnant et codant numériquement un signal, cette dissociation est effective puisque l’on arrive à considérer qu’il peut être vu comme une variation d’énergie en fonction du temps.
Codage par échantillonnage d’un signal analogique : on obtient des ‘échantillons d’énergie sonore’ que l’on peut ensuite, coder sous forme de tables de données et altérer par une variable… |
Si l’on simplifie considérablement l’analyse du procédé, rien n’empêche donc sur le principe, de relire ces données d’énergie à l’identique, mais à une vitesse différente, ce qui aura comme effet de modifier la vitesse de restitution du signal. On conserve ainsi les données fréquentielles identiques, mais restituées plus lentement : le tempo musical a été modifié, mais pas la fréquence des notes, c’est le time stretching. À l’inverse, on peut conserver le tempo de restitution en modifiant la hauteur des données numérisées ; il s’agira alors de pitch shifting.
Les précautions à prendre
Pitch d’une platine vinyle
Les opérations de traitement durée/fréquence doivent être manipulées avec précautions, ne serait-ce que parce que la quantité de données éditées peut être importante et que cela influe sur les aptitudes de stockage de nos équipements. On devra donc parfaitement mesurer les tenants et aboutissants avant de se lancer. Et il y a des ‘loupés’. Exemple d’un pitch shifting non souhaité : le ré-échantillonnage. Sans précautions particulières, passer un enregistrement audio de 44 kHz à 48 kHz va induire une distorsion de hauteur de plus d’un demi-ton !
Dans tous les cas où on agit sur le rapport temps/fréquence, on crée une distorsion des paramètres audio du signal d’origine. On sait que le contenu harmonique et que la présence de partiels d’un son sont spécifiques de la note jouée, ne serait-ce que parce que le dosage entre le signal entretenu et le transitoire d’attaque sont caractéristiques de chaque note : si l’on analyse en détail la structure d’une note aiguë et d’une note grave de piano, on constatera que la proportion dans le son final entre choc du marteau et résonance de la corde est bien différente. Si l’on ‘dé-pitche’ un signal en pitch shifting, on aura un ‘clone’ aigu de la note grave, par exemple, mais pas une ‘vraie’ note aiguë… D’où la nécessité du multi-sampling dans une banque d’échantillons : on ne peut se satisfaire d’un seul exemplaire, aussi bon soit-il, en le désaccordant pour produire toutes les notes… De même, modifier la vitesse de restitution d’un fragment sonore numérisé n’est pas sans risques : on va évidemment compresser les transitoires et modifier le développement des harmoniques, au point d’en modifier significativement l’identité ; en ‘compressant’ temporellement, ça peut parfois rester acceptable. Dans l’autre sens, il faut systématiquement oublier… Tout cela pour conclure sur le fait que si le pitch shifting et le time stretching sont deux fonctionnalités remarquables du traitement numérique du signal, il faudra les limiter, pour rester crédible, à des utilisations de ‘rattrapage’ minimes : au-dessus de 10 à 15 % de correction, on détériore trop le signal…
On en fait quoi ?
The Beatles, adeptes du dé-pitching
Si l’on reste dans ces proportions, une utilisation bien contrôlée du time stretching peut permettre soit, de résoudre un problème de durée brute d’un fragment sonore (pour une publicité par exemple, où l’on raisonne à la seconde…), et pour tous les cas de recalage d’une musique à l’image (passage d’un standard vidéo à un autre, par exemple NTSC vers PAL). En ce qui concerne le pitch shifting, une application très spectaculaire est le fort astucieux logiciel Melodyne qui permet de ‘rattraper’ la justesse d’une note soliste ou depuis sa dernière mise à jour, une des notes d’un accord ; plus besoin de chanter juste pour faire le tube du siècle…
Si l’utilisation corrective de ces deux fonctionnalités doit être faite avec parcimonie, la production phonographique recèle de nombreux exemples d’exploitations artistiques : Jimi Hendrix, les Beatles, Emerson Lake & Palmer, Pink Floyd ont, du temps de l’analogique, abusé du procédé de dé-pitching, non plus à finalité corrective, mais créatrice. Par ailleurs, la lecture ‘pitch shiftée’ d’un son instrumental peut créer, compte tenu des distorsions timbre/durée que nous avons citées plus haut, des ‘climats’ sonores uniques : une cymbale frottée à l’archet sur la tranche et dont la lecture est ralentie par 1,5 à 2 donne une ambiance stellaire dont ont usé et abusé les compositeurs de musique de films de science-fiction des années 70 et 80…