Le jitter, ses causes et ses effets, sont des sujets qui font polémique chez les professionnels et amateurs de la prise de son comme chez les audiophiles.
Le jitter, ses causes et ses effets, sont des sujets qui font polémique chez les professionnels et amateurs de la prise de son comme chez les audiophiles. Dans la recherche d’une chaîne d’acquisition ou de restitution audionumérique « parfaite », il semble inévitable de se poser la question de la qualité du métronome qui bat la mesure de nos convertisseurs et des communications numériques entre appareils. Si la théorie du signal suppose que la prise d’échantillon (numérisation) ou la lecture de ces échantillons doit se faire à intervalles réguliers, comment ne pas s’inquiéter des possibles conséquences des variations de ces intervalles ?
Du jitter dans les horloges ?
Dans le domaine de l’audionumérique, nous devons considérer l’audio comme une transmission de flux binaires. Prenons deux exemples :
1– La musique stockée sur Compact Disc est lue en tant que succession de bits (0 ou 1) par le lecteur. Ces bits sont transférés à un Convertisseur Numérique-Analogique (CNA) qui retranscrit, au rythme d’une horloge locale, la musique dans le domaine analogique.
2– Les signaux audionumériques AES/EBU ou S/PDIF sont des trames de données binaires transmises avec leur propre signal d’horloge, ils peuvent aussi être référencés à un signal d’horloge dédié (vidéo ou Word Clock par exemple).
Un signal d’horloge numérique est un signal en créneau (on admet généralement qu’il est souhaitable qu’au moins 50% des cycles répondent à ces exigences de fréquence et d’amplitude fixe). Ce sont les transitions (lorsque le signal est en créneaux : le passage d’un bas niveau à un haut niveau ou inversement) qui véhiculent l’information d’horloge.
Le jitter (en français le gîte ou gigue) est une erreur d’ordre temporel. Le jitter est la variation dans le temps d’un événement périodique – tel que les transitions d’un signal – par rapport à une référence idéale que l’événement suivrait s’il était parfaitement régulier.
Contrairement à une horloge idéale, le point de retour à zéro des impulsions dans un flux de données varie dans le temps. Le jitter peut donc être vu comme une modulation de phase du signal audionumérique.
L’amplitude du jitter est égale à la valeur du plus grand retard moins la valeur de la plus grande avance des transitions (toujours en référence à un signal parfait), cette grandeur se mesure en unités de temps (de l’ordre de la nano ou picoseconde).
Pour l’analyse, le jitter est considéré comme un signal propre qui est extrait, par exemple, d’une transmission numérique, afin d’en caractériser le spectre en fréquence ou certaines composantes spécifiques.
Quelles sont les origines du jitter ?
Le jitter a pour origine les signaux d’horloge. Les horloges battent la mesure de nos convertisseurs et des communications numériques ou encore déterminent quand un tampon de données est transmis de la mémoire du système à une interface de communication.
Nous devons distinguer deux types de jitter, le jitter aléatoire et le jitter périodique.
Le jitter aléatoire est généralement causé par du bruit (thermique principalement) ou de la diaphonie entre des lignes numériques. Une erreur de sampling aléatoire peut être assimilée à l’ajout d’une tension parasite aléatoire au signal analogique d’origine. L’effet est donc un bruit ajouté à l’audio, son impact est difficile à anticiper.
Le jitter périodique ou déterministe est quant à lui totalement prévisible et reproductible. Il peut être causé, par exemple, par des variations régulières de la tension d’alimentation de l’horloge. Ce jitter provoque des harmoniques à certaines fréquences qui sont liées au signal audio enregistré. On peut parler de modulation de fréquence dans la mesure où le jitter interagit avec l’audio et que le bruit résultant dépend de cette interaction, nous l’étudierons plus loin.
Dans le cas de transmissions numériques, une mauvaise adaptation d’impédance et de mauvais câbles peuvent provoquer des phénomènes de réflexions en bout de ligne, une atténuation ou plus fréquemment un filtrage des signaux rapides, menant à des pertes de synchronisation ou des pertes de données, nous verrons ce cas dans le jitter des interconnexions.
En pratique, le jitter observé à un point d’un circuit audionumérique est un cumul de plusieurs sources de jitters aléatoires et périodiques.
Les oscillateurs
Les horloges présentes dans nos machines sont constituées principalement d’un composant délivrant un signal de fréquence la plus constante possible : l’oscillateur.
Nous présentons les deux types les plus utilisés, l’oscillateur à quartz (souvent appelé simplement « quartz ») et l’oscillateur contrôlé en tension (qu’on retrouvera sous l’acronyme VCO pour Voltage Controled Oscillator).
Le quartz possède une excellente stabilité à une fréquence donnée unique. Cette fréquence est le point de résonance du cristal de quartz soumis à un champ électrique, elle dépend essentiellement de la forme et de la dimension du cristal. Cette très grande stabilité rend ce composant parfaitement adapté pour la génération d’horloges d’échantillonnage au plus près des convertisseurs. Les meilleurs oscillateurs à quartz possèdent une compensation en température afin d’éviter la dérive en fréquence (capsule isolante ou « four »).
Le VCO est un oscillateur dont la fréquence est déterminée par une tension de commande. Ainsi, il est possible, par l’ajustement de cette tension, d’obtenir une grande variété de fréquences ; contrairement au quartz dont la fréquence est fixe. Si la précision de ces horloges, même très consciencieusement conçues, reste inférieure à celle d’un quartz, elles peuvent toutefois posséder de bonnes qualités de stabilité.
Les boucles à verrouillage de phase (PLL)
La boucle à verrouillage de phase ou PLL (Phase-Locked Loop) est une invention française des années 30, mise en pratique de manière généralisée avec l’arrivée des circuits intégrés, dans les années 60.
Le principe d’une PLL est de comparer la phase d’un signal arrivant sur son entrée avec le signal qu’elle délivre. Si les deux signaux sont parfaitement en phase, aucune correction n’est apportée. Si une différence est détectée, la PLL ajuste son VCO de manière à accélérer ou ralentir sa fréquence pour se synchroniser au signal entrant.
La conception des PLL, et en particulier celle du filtre passe-bas, a fait l’objet de très nombreuses études. Retenons que ce filtre détermine la vitesse à laquelle l’horloge de sortie sera alignée avec le signal d’entrée, mais aussi la qualité de filtrage des oscillations du signal d’entrée, autrement dit, du jitter du signal d’entrée. Plus la stabilisation sur le signal d’entrée sera rapide et moins le jitter entrant sera filtré, et réciproquement. Ce compromis à trouver entre filtrage du jitter et respect de l’horloge entrante fait la qualité de la PLL.
On retrouve ce type de circuit dans trois situations : récupération d’horloge, génération d’horloge et atténuation de jitter.
Les PLL de récupération d’horloge sont utilisées en réception d’un signal numérique afin de détecter l’horloge de ce signal, de se synchroniser et d’alimenter la machine réceptrice avec cette horloge reconstruite pour assurer une bonne récupération des données. En dehors de cette fonction principale, cette PLL filtrera le jitter de transmission.
La PLL de génération d’horloge sert à créer une horloge de sortie dont la fréquence est un multiple de celle du signal d’entrée. Cela se fait simplement en ajoutant un diviseur dans la boucle de contre-réaction reliant le VCO au comparateur de phase. Cela est très courant, par exemple, pour générer une horloge 256 fois plus grande qu’un signal de Word Clock, afin de synchroniser un convertisseur requérant une horloge rapide.
Enfin, la PLL d’atténuation de jitter va modifier la réponse spectrale du jitter entrant pour le décaler hors de la bande audible.
Il est à noter que les PLL fournissent des horloges dont le jitter est plusieurs ordres de grandeur au-dessus du jitter d’un quartz ou d’un VCO.
Le jitter d’échantillonnage ou sampling jitter
« Sampling jitter » est le nom donné aux erreurs d’horloge survenues au cours du processus de conversion analogique-numérique, numérique-analogique ou lors de la conversion de fréquence d’échantillonnage (afin, par exemple, de transformer un signal échantillonné à 44,1 kHz en signal à 96 kHz).
Les deux premiers cas (CAN et CNA) peuvent être associés avec un signal d’horloge concret alors que dans le cas du convertisseur de fréquence d’échantillonnage (ou SRC pour Sample Rate Converter), il peut s’agir d’un processus totalement numérique dans la mesure où les échantillons d’un signal sont décimés ou générés, afin de correspondre avec la nouvelle fréquence d’échantillonnage. Dans ce cas, il convient de parler d’horloge virtuelle.
Le CAN est probablement l’élément le plus critique de la chaîne, en matière de sensibilité au jitter ; et plus encore, les convertisseurs générant des mots binaires de grande taille (>20bits). L’horloge qui synchronise un CAN doit donc être particulièrement stable. Une mauvaise horloge qui pilote un CAN peut engendrer une distorsion et/ou un bruit qui ne pourront plus être éliminés en aval dans la chaîne audionumérique.
Le jitter n’affectera le signal audionumérique que lors de l’échantillonnage ou du ré-échantillonnage. Les effets du sampling jitter sont de moduler le signal échantillonné. Ce phénomène peut produire un changement indésirable – particulièrement s’il peut être perçu et produire une différence audible. Dans certains cas, le signal avec le jitter est préféré mais, comme l’effet est souvent incontrôlable, il est communément récusé pour cette même raison. L’audibilité du phénomène est relative à la nature du jitter ainsi qu’au signal audio affecté.
Sampling jitter et horloge externe
Il existe un grand nombre de circonstances où une horloge doit être extraite d’une source externe. Typiquement, il peut s’agir d’un enregistreur audionumérique ou d’un processeur surround numérique qui doit se synchroniser (certains diront « clocker ») sur une horloge véhiculée par le flux de données entrant ou un signal d’horloge externe spécifique. Cette synchronisation se fait dans la machine « esclave » à l’aide d’un circuit constitué généralement d’une PLL. Cette PLL va générer, à partir du signal externe, un signal d’horloge indispensable au fonctionnement de la machine esclave. Dans la mesure où il s’agit d’un signal « neuf », le jitter de l’horloge externe n’est pas directement lié au jitter intrinsèque à la PLL, mais il peut y contribuer dans une certaine mesure. Il n’est donc pas possible de parler de sampling jitter dans le cas de l’utilisation d’une horloge externe. Toutefois, l’utilisation du circuit PLL n’est pas neutre quant à la qualité de l’horloge de conversion, puisque les grandeurs typiques de jitter de ce type de circuit sont généralement bien plus importantes que celles d’un simple oscillateur à cristal. En d’autres termes, si la PLL a lissé les défauts de l’horloge externe, c’est au prix de l’ajout de ses défauts propres.
C’est pourquoi – pour des performances optimales en termes de jitter – il est préférable, dans la mesure du possible, de faire tourner un convertisseur sur son horloge interne (on peut d’ailleurs signaler que la majeure partie des convertisseurs fiables du marché ont une architecture telle, que leur horloge est remarquablement stable). Ceci est valable à moins que l’on ne synchronise le convertisseur sur une référence vidéo voire sur un autre convertisseur (dans le cadre d’une configuration « multipistes », par exemple). Bien évidemment, si l’on doit tout de même avoir recours à une horloge externe, celle-ci doit être aussi stable que possible (de préférence vidéo ou Word Clock) et, dans ce cas, il conviendrait de vérifier que le constructeur du convertisseur a utilisé une PLL ultra-stable. Ceci se révèlera en pratique extrêmement difficile à déterminer, puisque les documentations techniques des constructeurs donnent rarement ce type d’informations, ou une information très difficile à interpréter puisque non normalisée.
Représentation du sampling jitter dans le domaine temporel
Tout signal qui n’est pas un courant continu va (par définition) varier dans le temps et un mauvais point d’échantillonnage va affecter à l’échantillon une valeur d’amplitude erronée.
Comme on peut le voir sur la Fig.3, l’erreur d’amplitude est proportionnelle à la pente du signal analogique, qui croît avec la fréquence et avec le niveau de celle-ci (très important à haut niveau dans les hautes fréquences).
La Fig.4 représente la simulation de l’effet d’un jitter de type aléatoire sur un sinus pur, de fréquence égale à 1 kHz et d’une amplitude de 2VRMS. Le système de simulation a considéré un jitter aléatoire (de type gaussien) ayant une amplitude de 10 ns RMS et a effectué les calculs sur chaque échantillon pour une fréquence d’échantillonnage de 176,4 kHz (soit l’équivalent d’un CNA ayant un facteur d’oversampling de 4, tel que ceux utilisés dans les lecteurs de CD).
On peut noter comment le sinus et le « signal d’erreur » intermodulent. L’erreur est le produit de la pente du sinus et du jitter ; on le vérifie lorsque la résultante entre le jitter et la pente de la tonalité est minime c’est-à-dire au maximum de tension où la pente est nulle. La simulation a permis de révéler un niveau de 124μV RMS soit –84 dB par rapport au niveau du sinus. Considérant que cette erreur s’étend sur toute la bande passante de 88,2 kHz représentée par une fréquence d’échantillonnage de 176,4 kHz, on peut considérer que, mesuré sur une bande passante de 20 kHz, le niveau du bruit serait de 60μV RMS. Ce qui représente un niveau relatif de –90,5 dB par rapport au niveau du sinus.
La représentation du jitter dans le domaine temporel permet une analyse de n’importe quel type de jitter et de réaliser une estimation de ce que doit être un niveau acceptable de jitter. Par exemple il pourrait être décidé que le niveau maximum acceptable de jitter provoquerait une erreur de niveau de quantification sur le bit de poids faible dans le pire des cas (signal pleine échelle à 20 kHz). Toutefois, même si cela permet de poser une limite (244ps peak pour une conversion 16bits), cela n’apporte aucune information quant au caractère d’audibilité d’un tel jitter.
Représentation du sampling jitter dans le domaine fréquentiel
Le jitter peut également être appréhendé sous son aspect de phénomène de modulation, et être analysé en termes de composantes fréquentielles. Il peut être mathématiquement démontré qu’il existe une relation entre une composante spectrale du jitter, une composante spectrale du signal audio et la modulation de jitter résultante.
Si un signal est échantillonné avec des erreurs de points d’échantillonnage, l’effet produit est une modulation du signal dans le temps.
En injectant un jitter de forme sinusoïdale à un signal donné, nous observons que le signal résultant présente, en plus de la raie du signal d’origine, deux bandes latérales. Les deux composantes ont une amplitude relative à l’amplitude du jitter et à la fréquence du signal entrant, et sont décalées de la fréquence d’origine, de moins (pour la bande de gauche) ou plus (pour la bande de droite) la fréquence du jitter. Ces résultats peuvent être utilisés pour estimer le potentiel d’audibilité de la modulation audio induite par le jitter.
La Fig.5 illustre cet effet sur un signal réel. Le signal entrant a une fréquence de 10 kHz et la modulation du jitter est de 3 kHz. Les deux composantes obtenues par majoration et minoration de la fréquence du signal audio par la fréquence du jitter sont représentées par les deux pics latéraux en dessous et au-dessus du pic à 10 kHz.
Notons que le cas particulier d’un jitter sinusoïdal peut être étendu à des jitters de formes complexes, l’étude reste faisable en décomposant ces signaux complexes en séries de Fourrier.
La nature non harmonique des artefacts engendrés par le jitter signifie qu’ils sont potentiellement plus audibles qu’une simple distorsion harmonique. Il est par conséquent primordial d’être capable de détecter et de mesurer ces artefacts dans les bas niveaux, si la qualité sonore doit être optimisée. Ceci est, de plus, en rapport avec l’amélioration de la plage dynamique des convertisseurs modernes.
Influence de l’architecture des CAN et CNA
L’effet du jitter sur les convertisseurs peut être beaucoup plus complexe qu’une simple variation d’horloge du signal audionumérique. D’autres signaux peuvent être échantillonnés avec le signal audio désiré (par exemple, le bruit ultrasonique créé au sein du module de noise-shaping des convertisseurs 1-bit).
Convertisseurs et suréchantillonnage
Un convertisseur qui utilise le suréchantillonnage (ou oversampling) est un convertisseur qui traite un nombre d’échantillons très supérieur, au nombre minimum requis par la théorie de l’échantillonnage, pour une bande passante donnée. C’est le cas typique du très répandu convertisseur Sigma-Delta. Typiquement, les taux d’oversampling sont compris entre 2x et 256x. Les performances des convertisseurs oversamplés sont hautement dépendantes de filtres numériques très précis. Ces filtres numériques « fournissent » au circuit des filtres de type brick wall qui stoppent les HF non désirées du signal audio. Dans le cas d’une conversion à une fréquence de 44,1 kHz, ce filtre brick wall est construit de telle sorte qu’il coupe toutes les fréquences supérieures à 22,05 kHz (1⁄ 2.Fe). Ainsi, toutes les fréquences supérieures à 22,05 kHz présentes dans le signal audio analogique échantillonné ne seront pas représentées dans le cadre d’un système audionumérique travaillant à 44,1 kHz. Toutefois, si ces fréquences n’étaient pas éliminées, il se produirait un phénomène d’aliasing (qui consiste en un repliement des hautes fréquences dans le spectre audio échantillonné).
Lors de la conception d’un filtre numérique, le jitter est considéré comme nul. Un filtre numérique consiste en une succession d’éléments de délai, de multiplicateurs (résistances additionnelles en série) et de points de sommation. Les éléments de délai sont censés être parfaitement identiques en matière de durée de retard engendrée. Le jitter affecte l’intervalle de temps entre les échantillons audio successifs. Ainsi, les éléments de délai numériques ne représentent plus des points équidistants d’un point de vue temporel. Le jitter module l’intervalle de temps entre les différents échantillons ; ce qui peut radicalement altérer la réponse des filtres.
Dans la mesure où la bande passante du jitter peut s’étendre jusqu’à la moitié de la fréquence d’échantillonnage du convertisseur, dans un convertisseur oversamplé, la bande passante du jitter peut s’étendre sur un spectre beaucoup plus large que pour un convertisseur non oversamplé. L’erreur causée par la modulation du jitter est relative au spectre du jitter. Dès lors, l’erreur affectant le signal audio, numérisé par un convertisseur « oversamplé », affecte également un spectre élargi, proportionnellement au taux d’oversampling.
Pour illustrer ce phénomène, considérons un signal de fréquence F=1kHz, échantillonné en présence d’un bruit (assimilable au jitter), pleine bande et plat en fréquence. Après calculs, on conclut que le jitter va produire une erreur dont le niveau relatif sera de –104 dB par rapport au niveau du signal à échantillonner. Cette estimation du niveau de l’erreur reste la même, quelle que soit la fréquence d’échantillonnage du convertisseur.
La Fig.6 montre que l’erreur induite par le jitter dans un CNA, « oversamplé » avec un taux de 4x, va s’étendre jusqu’à une fréquence quatre fois supérieure à celle d’un convertisseur 1x. Dans le cadre de l’audio pur, nous limitons nos considérations à une bande passante comprise entre 20 Hz et 20 kHz. Une analyse sur cet intervalle de fréquence montre la présence de seulement 1⁄4 de la puissance totale sur l’ensemble du spectre de l’erreur (qui se présente sous forme de bruit) induite par le jitter. Or, un quart de la puissance totale implique la moitié de la tension totale ; il en résulte une erreur dont le niveau est inférieur de 6 dB à celle induite par le convertisseur « non oversamplé ».
Les sources de jitter, quoi qu’il en soit, ne sont pas plates sur l’ensemble du spectre. Le jitter est majoritairement formé de composantes basses fréquences ; phénomène dû à la fois aux variations de phase typiques des oscillateurs et au filtrage de type passe-bas, commun dans les circuits de régénération d’horloge. Le système d’oversampling ne réduira en aucun cas l’impact de ces composantes BF.
Jitter, noise-shaping et convertisseurs 1-bit
Pour des taux d’oversampling élevés, il est possible de réduire le nombre de bits, tout en modelant le bruit de quantification résultant hors de la bande de fréquence de l’audio. Cette technique présente de nombreux avantages mais a pour inconvénients de générer du bruit ultrasonique (hors de la bande audio 20Hz-20kHz). Le niveau de ce bruit ultrasonique est relatif à l’intervalle de quantification. Pour un convertisseur 1-bit, le bruit total est en rapport étroit avec le niveau pleine échelle du convertisseur.
L’action du sampling jitter sur ce bruit ultrasonique induit une modulation, identique à celle causée sur de l’audio « classique ». Cette modulation peut se retrouver (par repliement) dans le spectre audible et, dans la mesure où le bruit ultrasonique est présent même quand le signal audio est à un faible niveau, elle ne pourra être masquée. Son effet direct est de remonter le niveau du bruit de fond et par conséquent de réduire la plage dynamique du convertisseur.
Sampling jitter et convertisseurs de fréquence d’échantillonnage (SRC)
Les convertisseurs de fréquence d’échantillonnage sont utilisés pour convertir un signal audionumérique de fréquence donnée en un signal de fréquence différente. La conversion induit, de facto, une interpolation ou une décimation entre les points d’échantillonnage du signal audionumérique entrant et la génération de valeurs pour les nouveaux points d’échantillonnage. Il existe deux types de SRC.
Dans le cas où le facteur de conversion entre les deux fréquences d’échantillonnage est un nombre entier (par exemple passage de Fe=48 kHz à Fe=96 kHz, facteur de conversion égal à 2), on peut déterminer les points d’échantillonnage avec précision et sans erreur. Dans ce cas, il est possible d’effectuer la conversion sans sampling jitter, les flux entrant et sortant doivent cependant être synchronisés. À l’inverse, une conversion de 44,1 kHz vers 96 kHz, par exemple, peut être effectuée en utilisant un rapport mathématique de 320/147 ; ce qui signifie que pour 147 échantillons en entrée de SRC on obtient 320 échantillons en sortie. Les coefficients des filtres d’interpolation peuvent être basés sur cette relation mathématique. Ce type de SRC est appelé convertisseur de fréquence d’échantillonnage synchrone (Synchronous Sample Rate Converter – SSRC).
Parfois, la fréquence d’échantillonnage en sortie de SRC ne peut pas être verrouillée sur celle entrante (à cause des rapports mathématiques entre les deux Fe). De plus, bon nombre d’équipements sont conçus pour avoir une grande flexibilité d’utilisation ; autrement dit pour faire face à des rapports de conversion arbitraires entre les fréquences entrantes et sortantes, ou gérer alternativement des flux audio à des fréquences différentes. Dans ce cas, la conversion doit se faire par un rapport mathématique plus complexe et qui peut varier dans le temps. Le SRC doit inclure un algorithme qui tente d’aligner les échantillons entrants et sortants en se basant sur leurs instants d’arrivée respectifs. Les filtres sont calculés régulièrement par l’algorithme et, si besoin, ajustés.
Ce type de SRC est appelé convertisseur de fréquence d’échantillonnage asynchrone (Asynchronous Sample Rate Converter – ASRC). Il peut être vu comme une généralisation du concept du SSRC étendu à tout type de fréquences entrantes et sortantes, fixes ou variables. Ce type de composant est aujourd’hui très utilisé et son coût baisse significativement, ce qui lui vaut d’être très répandu dans bon nombre de produits audio, professionnels ou non.
Résolution temporelle virtuelle
Les algorithmes utilisés, dans un ASRC, pour l’estimation des relations temporelles entre les deux flux binaires (entrant et sortant) considèrent le signal d’horloge de l’un des signaux comme référence et déterminent cette relation grâce à une horloge de mesure de fréquence élevée, synchrone avec l’autre train binaire.
Par exemple, pour convertir d’une fréquence de 48 kHz à Fe=96kHz, l’horloge de mesure peut être cadencée à 256×96kHz. On en déduit donc que le temps de quantification susceptible de provoquer l’apparition de jitter dans les algorithmes d’estimation temporelle est égale à 40 ns (=1/(256×96000)).
Caractéristiques d’atténuation du « jitter virtuel »
Les algorithmes d’estimation temporelle des ASRC possèdent une caractéristique d’atténuation du jitter, que l’on peut modéliser comme un filtre coupe haut, avec une fréquence de coupure. Dans la mesure où le processus est entièrement numérique, si la résolution mathématique de l’appareil est suffisante, la fréquence de coupure du filtre pourra être fixée relativement bas. Cela signifie qu’un ASRC peut avoir un haut niveau d’atténuation du jitter.
L’intégration d’un ASRC à un système est peu onéreuse ; ce qui fait que cette alternative est souvent considérée comme une solution de faible coût pour une élimination efficace du jitter dans les CNA. La fréquence d’échantillonnage en sortie peut être fixée par un oscillateur présentant peu de jitter et le flux de données sera converti à cette fréquence par l’ASRC. Une mesure de l’horloge du CNA peut révéler le faible jitter au niveau de cet oscillateur.
Toutefois, le processus de ré-échantillonnage au sein de l’ASRC doit également être considéré. Le jitter d’un ASRC n’étant qu’un décalage des valeurs numériques générées par l’algorithme d’estimation temporelle, il ne peut pas être mesuré directement. Quoi qu’il en soit, il est possible de mesurer ce jitter par l’étude de son impact sur un signal injecté, de haut niveau et de haute fréquence.
Jitter dans les interconnexions numériques
Deux appareils distincts, d’une même chaîne audionumérique, peuvent communiquer par l’intermédiaire d’une connexion. Cette connexion transportera les données audio, une information de synchronisation et parfois aussi l’horloge de synchronisation. Les communications AES/EBU et S/PDIF remplissent les trois fonctions. Il peut arriver que dans le cas d’un nombre conséquent d’appareils devant être synchronisés, une horloge maîtresse soit distribuée aux machines (par exemple Word Clock).
Le standard de synchronisation AES11 recommande d’utiliser un signal dédié pour le maintien d’une synchronisation commune : c’est ce que l’on appelle signal audionumérique de référence (Digital Audio Reference Signal – DARS). Les appareils permettant l’utilisation d’un DARS possèdent une entrée dédiée (« Sync in » ou « External sync/clock ») qui peut être sélectionnée comme référence de Word Clock. Un avantage est que, dans la mesure où le signal de synchronisation est indépendant du programme audionumérique, la source de signal sonore peut être modifiée sans interrompre le « timing » de l’appareil (qui continue de recevoir une Word Clock stable).
Les problèmes causés par le jitter dans ces interconnexions sont des problèmes de perte de synchronisation ou éventuellement d’erreur dans la lecture d’une donnée. L’amplitude de jitter provoquant ce type de problèmes est de plusieurs ordres de grandeur au-dessus du sampling jitter. La bonne démarche est d’essayer de maintenir le niveau en dessous de ce qui est toléré par l’appareil recevant le signal.
Jitter intrinsèque
Si une unité audionumérique est synchronisée à une horloge (qu’elle soit interne ou externe) relativement peut sujette au jitter ; alors, tout jitter mesuré sur l’interface émettrice est dû à l’appareil lui-même : il s’agit de son jitter intrinsèque.
Le niveau de jitter intrinsèque est déterminé par deux caractéristiques : les variations de phase des oscillateurs du circuit d’horloge et, dans le cas où l’horloge est externe, des caractéristiques du circuit PLL de régénération d’horloge.
Par exemple, un circuit PLL intégrant un VCXO (Voltage Control crystal Oscillator) aura un jitter intrinsèque inférieur à celui d’un circuit à base de résistances et de condensateurs.
Jitter induit par le câblage
L’autre source de jitter dans les interconnexions numériques peut venir d’une mauvaise adaptation du câble de liaison. L’effet résistif du câble ou bien une impédance inadéquate peuvent causer sur le signal des pertes dans les hautes fréquences qui ont pour effet de modifier la forme des pulsations binaires (voir Fig.7).
Ce fait ne constituerait pas un problème si les effets étaient les mêmes pour chaque transition. Il en résulterait alors un infime délai qui pourrait être ignoré. Ce serait le cas uniquement si l’on avait affaire à une alternance régulière de 0 puis de 1… Mais un « vrai » flux binaire consiste en des combinaisons de bits qui peuvent changer à tout moment et, combinées avec les pertes au sein du câble, ces différentes séquences binaires provoquent un décalage aléatoire (mais corrélé aux données) et par conséquent une augmentation des interférences.
De plus, l’interface AES3 utilise le même signal pour véhiculer à la fois le signal d’horloge et les données audio, la conjonction des phénomènes précédents peut donc induire du jitter sur le signal d’horloge par l’intermédiaire de la modulation des données.
Une séquence composée uniquement de « 0 » induit plus de délai au niveau des transitions qu’une séquence composée uniquement de « 1 » et, dans la mesure où les données elles-mêmes varient, l’information d’horloge varie.
Il convient donc de prêter une attention toute particulière aux mécanismes d’interférence (on parle d’interférence intersymboles) entre les données et le signal d’horloge.
La Fig.8 montre un train de données en sortie d’interface AES3. Tandis que la Fig.9 montre un train de données après passage au travers de 100 m de câble standard.
Jitter de données
Le jitter de données est le terme utilisé pour décrire le jitter affectant les transitions de la « forme d’onde » modulée par les données. Le flux binaire AES idéal se voit modifié par le codage même des données. Cette forme de jitter est la plupart du temps révélatrice d’interférences intersymboles.
Le jitter de données peut également être produit au sein même des circuits asymétriques où un délai peut varier entre les transitions de montée et de descente.
Jitter induit par des bruits parasites
Si les transitions des bits n’avaient pas été « ralenties » par les pertes dues aux propriétés électriques du câble, leurs temps de montée/descente seraient si brefs que leurs points de passage à zéro seraient peu sensibles à l’ajout d’un quelconque bruit. Or, l’augmentation des temps de transitions, due aux pertes dans le câble, rend le signal sensible au bruit et à toute sorte de parasites extérieurs. Il en résulte un décalage du point de passage à zéro.
Par exemple, un bruit parasite affectant le signal peut faire varier le moment auquel la transition sera identifiée, par l’interface réceptrice, en tant que telle. La sensibilité à ce type de bruit dépend de la vitesse des transitions, qui dépend elle-même des pertes survenues dans le câble.
Le niveau de jitter induit par le bruit parasite est en corrélation directe avec la pente de la transition au point de passage à zéro, tout comme la tension de ce bruit est relative au temps (par l’intermédiaire de la pente). Sur des transitions rapides, un bruit d’interférence ne produira que peu de jitter : la variation de tension causera cependant une légère déviation temporelle.
Il est important de noter que la « direction » de la déviation temporelle est directement en rapport avec le type de transition. Ainsi, pour une transition « accélérée » par le bruit parasite, les transitions de montée interviendront plus tôt (par rapport à une référence idéale) et les transitions de descente seront retardées. Pour une transition « ralentie » par le bruit, le contraire est vrai.
Tolérance au jitter
Un récepteur audionumérique de type AES3 doit être capable de décoder des signaux provenant d’une interface émettrice. Si le niveau de jitter augmente, l’interface réceptrice commencera à décoder le signal incorrectement, générant ainsi des « mute » et/ou la perte du verrouillage sur le signal d’horloge entrant. Le niveau maximum de jitter avant lequel l’interface réceptrice commence à produire des erreurs lors de l’interprétation des données est appelé le niveau de tolérance au jitter de l’appareil.
La tolérance au jitter est indépendante de la fréquence pour un jitter supérieur à la fréquence de coupure du circuit PLL. Mais, au fur et à mesure que le taux de variation de l’horloge (la fréquence du jitter) diminue, le récepteur est de plus en plus susceptible de suivre ces changements. Ceci signifie que, pour des jitter de fréquence basse, le récepteur sera davantage sujet à subir l’importante augmentation de jitter et ainsi la tolérance au jitter augmente. En effet, plus la fréquence du jitter est basse, plus le signal est envoyé dans la boucle et donc plus les variations temporelles sont atténuées.
Pour des jitter de fréquence proche de la fréquence de coupure, il est possible qu’en raison d’une mauvaise conception, la tolérance au jitter soit significativement réduite. Ce phénomène se produit car la résonance du circuit cause une opposition entre la déviation (dans la boucle) des transitions de données temporelles entrantes et l’estimation faite par le circuit des données temporelles (qui considère que celles-ci sont pires que s’il était soumis à l’influence du jitter).
Accumulation du jitter
Si nous considérons une chaîne d’appareils numériques, dans laquelle l’horloge de chaque appareil est verrouillée sur celle de son prédécesseur dans la chaîne, on constate que plusieurs éléments ont contribué à l’apparition du jitter à la fin de la chaîne. Chaque appareil va ajouter son propre jitter intrinsèque et chaque interconnexion (câblage) contribuera au jitter. De plus, à chaque étage de la chaîne va s’ajouter soit un gain soit une atténuation du jitter. Les effets de ce phénomène varient avec les caractéristiques de jitter individuelles de chaque élément de la chaîne et des séquences de données ; il est possible, avec des calculs relativement simples de se faire une idée de l’importance du problème.
Les conséquences normales de cette accumulation de jitter peuvent être (au fur et à mesure de l’avancement du signal dans la chaîne) des pertes occasionnelles de données voire même une perte du verrouillage sur le signal entrant.
Les spécifications AES3, depuis 1997, comportent deux clauses visant à limiter les problèmes d’accumulation du jitter. L’une d’elles spécifie que tout appareil doit avoir, pour un jitter de type sinusoïdal, un gain inférieur à 2 dB quelle que soit la fréquence du jitter.
À ceci s’ajoutent des spécifications de standard d’atténuation du jitter qui doivent être remplies par les appareils prétendant atténuer le jitter d’interconnexion. Cette atténuation préconisée est d’au moins 6 dB pour des fréquences supérieures à 1 kHz. Cette fréquence est très inférieure à la fréquence de coupure de 8 kHz préconisée par les normes de l’interface AES3 ; ces appareils nécessitent donc la transmission d’un signal d’horloge, séparé des données obtenues par régénération d’horloge, qui détermine la tolérance au jitter.
Le jitter, ami ou ennemi ?
Le jitter est partout et vouloir s’en débarrasser, même s’il s’agit d’un noble objectif, semble peine perdue. Si les fabricants communiquent souvent sur la stabilité de leurs horloges internes, il est plus rare de trouver les performances des circuits de régénération en cas de synchronisation externe, généralement parce que leurs performances sont relativement mauvaises.
Une règle voudrait qu’il faille au maximum éviter les synchronisations externes (forcément bien plus mauvaises que le plus mauvais oscillateur à quartz moderne). Mais ce n’est pas toujours possible, en particulier dans le cas de systèmes d’acquisition audio à sources numériques multiples ; idem pour la diffusion.
Nous avons vu qu’il est extrêmement difficile d’anticiper l’audibilité d’un phénomène de jitter, et c’est la base de toute la complexité de conception d’un système audionumérique complet, à machines interconnectées.
Si de nombreux articles ont étudié tel ou tel aspect audible de tel ou tel type de jitter, il reste que l’humble installateur, ingénieur du son ou auditeur audiophile n’a non seulement pas accès à ces mesures sur son système, mais surtout rien, et c’est le plus troublant, ne garantit qu’un niveau de jitter bas « sonnera » mieux qu’un certain type de jitter dont l’effet s’entend à une fréquence donnée !
Ainsi, il est évident et reconnu que plusieurs types de jitters aux effets conséquents et audibles apparaissent dans le cadre de l’utilisation d’une horloge externe, là ou une horloge interne même médiocre fera bien mieux. Mais l’utilisateur, vous, moi, pourra parfaitement préférer le son avec cette horloge « techniquement mauvaise ».
Nous touchons là à la psychoacoustique et il est plus difficile dans ce cas d’apprécier, selon des critères techniques, ce qui fait réellement la qualité d’écoute ou d’enregistrement d’un système. L’alchimie, née de l’interconnexion d’appareils, résiste encore à une simple mesure de jitter…
Pour aller plus loin
Publications AES
- « Theoretical and audible effects of jitter on digital audio quality » Eric Benjamin et Benjamin Gannon Preprint 4826
- « A new method for analysing the effects of end-to-end jitter in digital audio systems » James A.S. Angus Preprint 4716
- « Jitter analysis of asynchronous sample-rate conversion » Robert Adams Preprint 3712
- « Evaluation of the audible distortion and noise produced by digital audio converters » Louis D. Fielder Journal of Audio Engineering Society, vol.35, n°7/8, 1987
- « Measuring AES-EBU digital audio interfaces » Richard C. Cabot Journal of Audio Engineering Society, vol.38, n°6, 1990
- « Specifying the Jitter Performance of Audio Components », Chris Travis et Paul Lesso, Audio Engineering Society convention paper, 117th convention, 2004 October 28–31.
Documents divers
- « Measuring the effects of sampling jitter » Richard C. Cabot – Audio Precision
- « Digital Sound Signal : subjective effect of timing jitter", W.I. Manson, BBC Research Department, BBC RD 1974/11, March 1974
- « Jitter Theory », Julian Dunn, Application and technical support for Audio Precision APWIN users, Technote 23, Audio Precision
Abréviations
- ASRC Asynchronous Sample Rate Converter (Convertisseur de Fréquence d’Echantillonnage Asynchrone)
- BF Basse(s) Fréquence(s)
- CAN Convertisseur Analogique-Numérique
- CNA Convertisseur Numérique-Analogique
- DARS Digital Audio Reference Signal (signal audionumérique de référence)
- DIR Digital Interface Receiver (interface numérique réceptrice)
- Fe Fréquence d’échantillonnage
- HF Haute(s) Fréquence(s)
- PLL Phase-Locked Loop (boucle à verrouillage de phase)
- ppm Parties Par Million
- SRC Sample Rate Converter (convertisseur de fréquence d’échantillonnage)
- SSRC Synchronous Sample Rate Converter (Convertisseur de Fréquence d’Echantillonnage Synchrone)
- THD+N Total Harmonic Distortion + Noise (distorsion harmonique totale + bruit)
- VCO Voltage Controlled Oscillator (Oscillateur Contrôlé en Tension)
- WC Word Clock (signal d’horloge)
Cet article écrit par Guillaume Pille et Christophe Bouillot est tiré du premier numéro du magazine Hors Phase.