Gabou de l aide!;)
- 91 réponses
- 12 participants
- 7 265 vues
- 1 follower
Coccinelle prod'
Et il se trouve que je suis en premiere S et avec un pote(Renzi en l occureence) on doit faire un TPE physique math
bon on se dirige vers la compression sonore(par ex le format mp3)
est ce que vite fai tu peux me dire deux mots sur son principe de fonctionnement? Des algos? T as des formules?
je sais je n demande ptetre trop mais bon si tu est calé autant nous apprendre des choses hein
Merci d avance
Pov Gabou
Citation :
utre chose qu'apelle tu un signal discret fini ? une signal assez régulier avec un nombre fini de discontinuités et un nombre fini d'extremums ?
j'ai rien compris ?
Signal discret: pas continu, échantillonné. Fini, c'est juste que la plupart des outils mathématiques théoriques envisagent des signaux de -oo à +oo, donc après, il faut envisager en pratique les effets "début et fin" d'un signal réel, concret.
TFD, c'est la transformée de fourier avec le an et les bn, sauf que ça concerne des signaux discrets, et pas des signaux continus. (des suites à la place de fonction, la TFD, c'est la TF pour les suites, dit un peu naivement).
Pour la MDCT, on attendra la fois prochaine
Anonyme
si tu veux tu peux nous expliker ce qu'est la MDCT
renzi
ps : ce serait sympa de repondre maitenant vu qu'on est en cours...
Choc
en ce qui concerne le traitement du signal c'est plus ds trucs d'ecoles d'ingé...
Pour la psychoacoustique aussi vois plus des etudes specialisé dans le son
Pour huffman et le principe de compression du signal c'est du niveau bac +5 ou du genre....
Mais bon si ca vous interesse, mieux vaut commencer tot
Des futures geek en force
Site personnel: https://www.enib.fr/~choqueuse/
Pov Gabou
Citation :
ps : ce serait sympa de repondre maitenant vu qu'on est en cours...
C'est ça la téléducation
Bon, tu veux traiter un signal de 3 minutes, ça fait beaucoup de samples, genre plusieurs millions. Tu fais jamais la TF là dessus; à la place, tu découpes le signal en fenêtres de plusieurs échantillons (typiquement de 256 à 2048 échantillon par fenêtre), et tu fais une TF sur chaque fenetre
Pb ? Aux bords des fenêtres, il y a des problèmes car on a besoin des échantillons de la fenêtre d'avant ou d'après... Donc en fait, au lieu de prendre des fenêtre les unes à côité des autres, on prend des fenêtres recouvrante: avec un taille de fenere de 1024, on prend la fenêtre de 1 à 1024, puis de 513 à 1537, puis de 1025 à 2048, etc... Elles se recouvrent à 50%. Làn avec certaines fenêtres, on peut montrer qu'on a une TF inversible, c'est à dire qu'après ces opérations, on peut retrouver exactement le signal de départ.
Nouveau pb: si on part d'un signal avec 1000000 d'échantillons, en faisant des fenetre recouvrantes, on a 2000000 échantillons dans le domaine spéctrale. Et le MP3, c'est pour faire de la compression ! Donc commencer par multiplier par deux le nombre d'inforation à coder, c'est plutôt mauvais signe.
La solution: la MDC, qui utilise des fenêtre recouvrantes, mais la MDCT d'un morceau de 1024 échantillons n'en donne que 512. Avec des fenetres recouvrantes, en faisant la MDCT, on a toujours une réprésentation par fenetre inversible. Et là, ça marche.
En fait, on peut montrer que la MDCT et l'approche on divise le signal en bandes de f'réquences est équivalente: tu peux voir la MDCT comme un filtre qui décompose un signal en N bandes de fréquences.
Anonyme
Coccinelle prod'
moi j aprecierai bcp que tu m élcaires sur un point...
Je cadre deja la question :
C est dans l explication du processus du codage en MP3.
La ou je bloc c est ou il est expliqué comment la quantization et le codage fonctionne (le systeme a deux boucles similaires, l une controle le bit rate et l autre le bruit qui doit pas dépassé le seuil de masquage établi par le PERCEPTUAL MODEL.)
et j ai cette phrase la que j ai du mal a comprendre :
"Quantization is done by a power-law quantizer. In this way, larger values are automatically coded with less accuracy and some noise shapping is already built into the quantization process."
je comprends pas pourqoi on code les valeurs les plus grandes avec le moins de précisions premierement. Et deuxiement, tu pourrais m expliquer pour que ca me donne idée, comment on ajoute du bruit lors du processus de quantization.
Merci d avance...
Anonyme

Anonyme
je dis "môssieur Gabou"
Anonyme
merci d'avance
Anonyme
vandyck
Yop, énorme ce thread.
Sinon pour votre dernière question, je vais chercher de quoi vous répondre, pcq moi même j'ai un horrible doute à ce niveau. En attendant p-être que Gab ou Choc seront repassés par là
Inusable™
Bon ok je suis passé de la page 3 a la page 7 instantanément mais bon c comme ca moi j'en suis déja arrivé niveau téléportation et ubiquité en maths. Je touche et je me touche oyeah

vandyck
Citation : "Quantization is done by a power-law quantizer. In this way, larger values are automatically coded with less accuracy and some noise shapping is already built into the quantization process."
Autant que je me souvienne, la quantification est effectuée sur les coefficients obtenus suite à la décomposition de Fourier. Bref, à ce niveau tu travailles plus directement sur les valeurs des échantillons mais sur la représentation fréquentielle.Or pour permettre la compression, il va te falloir réduire le nombre d'information : c'est la quantification.
Là, on fait intervenir les caractéristiques de l'oreille humaine : cette oreille est plus sensible, globalement, aux basses fréquences (et surtout aux moyennes fréquences). Enfin pour voir ça, chope des courbes de références de sonograme, on comprend tout de suite.
L'autre point, qui est correlé à ce que je viens de dire en fait, c'est que les ondes basse fréquence sont plus énergétiques que celles à haute fréquence (ce qui fait qu'un son de basse portera plus loin qu'un son suraïgu de pipo à coulisse ... hum
Tout ça fait qu'on ne va pas appliquer une échelle de quantification linéaire aux coefficients sus-cités, et en particulier, on va donner plus de poids (plus de bits) aux coefficients des basses fréquences. Ce qui implique également que :
Citation : larger values are automatically coded with less accuracy
--> pcq l'oreille est y moins sensible. Donc la perte d'information sera peu audible ("peu" est à relativiser, suivant le taux de compression, et l'acuité auditive de l'auditeur auditionnant). En tout cas, on cherche par ce moyen à faire disparaitre prioritairement les informations ayant humainement peu de poids.Hors sujet : Voilà, je sais pas si c'était très clair, et je sais encore mois si c'était exact. Donc, encore une fois, on attend confirmation (surtout que je me suis inspiré pour retrouver tout ça de la méthode de compression JPEG, donc pour les images...).
Ce post est donc auto-destructible (en cas de trop nombreuses conneries et approximations à la ligne).
Inusable™
Trop faciiiiile la téléportation !

vandyck
Citation : Et...HOP ! J'ai sauté un post !
Ouais, ça c'est une autre méthode super efficace de compression avec perteQuel tââââlent
Inusable™
wijzz :8)
Anonyme
concrètement, je sais tres bien que c'est pas un sample comme on en parle d'habitude en ziq, c la plus petite unité d'un son ? non ? ou plutot une unité sonore
Inusable™
Choc
Soit l'information comprise a chaque periode d'echantillonnage...
Concretement en 44.1KHz 16 bits, c'est les 16 bits obtenus tous les 1/Fe seconde
Site personnel: https://www.enib.fr/~choqueuse/
Pov Gabou
L'idée fondamentale du MP3, c'est d'adapter le niveau de bruit de quantification au signal. Des fois, tu peux échantillonner sur 5 bits, des fois tu dois garder les 16.
Un autre truc important dont on a n'a pas parlé: les artefacts du MP3. Le principal est lié à la décomposition en fenetres. En général, on a des fenêtre de 256 à 2048 samples à 44.1 khz sur lesquelles on fait de la MDCT (donc grosso modo de la transformée de fourier). C'est inversible à 100%. Le problème, c'est qu'avec le MP3, on modifie dans le domaine fréquentiel pour revenir ensuite dans le domaine temporel. Où est le problème ? Quand tu adaptes le bruit de quantification, tu le fais globalement sur une fenêtre... Tu "étends" le bruit de quantif sur toute la fenêtre: c'est le phénomène de pré echo, ie les transitoires sont "aplatis". Ecoute n'importe quel mp3 à 64 kbits, c'est flagrant. La solution, c'est de prendre des fenêtre plus petites. Le pb est que lorsque l'on a des fenêtre plus petites, on perd en résolution fréquentielle, et on risque alors d'avoir des erreurs de hauteur importantes... Le MP3 a un algoritthme simple qui détecte les transitoires selon un critère énergétique, et adapte la taille de la fenêtre selon qu'il y a des transitoires dedans ou pas.
Une des qualités de la MDCT, c'est de permettre la modification de la taille des fenêtres
http://www.mathdogs.com/vorbis-illuminated/x62.html
Coccinelle prod'
sinon en fait deja dans toutes nos sources bien sur en anglais on parle de quantization et toi la tu parles de quantification c pas pareil non?
On a étudiée un organigramme sur les étapes de l encodage mp3 et en fait on nous parle de quantization du bruit et aussi en fait de quantization globale déterminée par un facteur d échelle qui selon sa valeur doit donner une quantization plus ou moins grande qui donne un codage pus ou oins petit. Je me trompe?
sinon d autre part pour la MDCT quand tu parles de inversibilité en général ou ionversibiilité de la TF ca signifie quoi? Parce quon a du mal a comprendre poruqoi une bande de 1024 échantillions en donnent 512 avec la MDCT.
Mrerci d avance..
Pov Gabou
Citation :
sinon en fait deja dans toutes nos sources bien sur en anglais on parle de quantization et toi la tu parles de quantification c pas pareil non?
Si
Citation :
sinon d autre part pour la MDCT quand tu parles de inversibilité en général ou ionversibiilité de la TF ca signifie quoi?
Ca veut dire que tu perds pas d'information, et que tu peux retrouver le signal de départ. Par exemple, si tu fais la fft d'un signal fini quelconque sur N points, tu retrouves le signal de départ avec une fft inverse de N points.
La fft en fenêtres prends N samples pour en faire un spectre de N samples. Pour la reconstruction parfaite, il faut un recouvrement de 50 %, ce qui fait que l'on a deux fois plus d'échantillons à l'arrivée qu'au départ. C'est con, vu que le but c'est de compresser !
La MDCT , à partir de N échantillons, en trouve N/2. En soit, elle est pas inversible. Par contre, le processus global avec recouvrement, lui, est inversible. Entre deux fenetres consécutives, la partie recouvrante est faite de telle manière à ce que les erreurs (dite d'aliasing) se compensent, on parle d'aliasing cancelation.
Anonyme
Coccinelle prod'
- < Liste des sujets
- Charte


