Se connecter
Se connecter

ou
Créer un compte

ou
FR
EN

Gabou de l aide!;)

  • 91 réponses
  • 12 participants
  • 7 265 vues
  • 1 follower
Sujet de la discussion Gabou de l aide!;)
Bon Gabou on m a dit que tt hyper calé en informatique.
Et il se trouve que je suis en premiere S et avec un pote(Renzi en l occureence) on doit faire un TPE physique math


bon on se dirige vers la compression sonore(par ex le format mp3)

est ce que vite fai tu peux me dire deux mots sur son principe de fonctionnement? Des algos? T as des formules?

je sais je n demande ptetre trop mais bon si tu est calé autant nous apprendre des choses hein :mdr: :clin:

Merci d avance
Afficher le sujet de la discussion
51

Citation :
utre chose qu'apelle tu un signal discret fini ? une signal assez régulier avec un nombre fini de discontinuités et un nombre fini d'extremums ?
j'ai rien compris ?



Signal discret: pas continu, échantillonné. Fini, c'est juste que la plupart des outils mathématiques théoriques envisagent des signaux de -oo à +oo, donc après, il faut envisager en pratique les effets "début et fin" d'un signal réel, concret.

TFD, c'est la transformée de fourier avec le an et les bn, sauf que ça concerne des signaux discrets, et pas des signaux continus. (des suites à la place de fonction, la TFD, c'est la TF pour les suites, dit un peu naivement).

Pour la MDCT, on attendra la fois prochaine
52
Oui donc c'est la decomposition en série de fourer qui nous interersse
si tu veux tu peux nous expliker ce qu'est la MDCT

renzi

ps : ce serait sympa de repondre maitenant vu qu'on est en cours...
53
Vas y t'es motivé Gabou, et les jeunes vous l'etes aussi...
en ce qui concerne le traitement du signal c'est plus ds trucs d'ecoles d'ingé...
Pour la psychoacoustique aussi vois plus des etudes specialisé dans le son
Pour huffman et le principe de compression du signal c'est du niveau bac +5 ou du genre....

Mais bon si ca vous interesse, mieux vaut commencer tot

Des futures geek en force :8)
54

Citation :
ps : ce serait sympa de repondre maitenant vu qu'on est en cours...



C'est ça la téléducation :ptdr:

Bon, tu veux traiter un signal de 3 minutes, ça fait beaucoup de samples, genre plusieurs millions. Tu fais jamais la TF là dessus; à la place, tu découpes le signal en fenêtres de plusieurs échantillons (typiquement de 256 à 2048 échantillon par fenêtre), et tu fais une TF sur chaque fenetre

Pb ? Aux bords des fenêtres, il y a des problèmes car on a besoin des échantillons de la fenêtre d'avant ou d'après... Donc en fait, au lieu de prendre des fenêtre les unes à côité des autres, on prend des fenêtres recouvrante: avec un taille de fenere de 1024, on prend la fenêtre de 1 à 1024, puis de 513 à 1537, puis de 1025 à 2048, etc... Elles se recouvrent à 50%. Làn avec certaines fenêtres, on peut montrer qu'on a une TF inversible, c'est à dire qu'après ces opérations, on peut retrouver exactement le signal de départ.

Nouveau pb: si on part d'un signal avec 1000000 d'échantillons, en faisant des fenetre recouvrantes, on a 2000000 échantillons dans le domaine spéctrale. Et le MP3, c'est pour faire de la compression ! Donc commencer par multiplier par deux le nombre d'inforation à coder, c'est plutôt mauvais signe.

La solution: la MDC, qui utilise des fenêtre recouvrantes, mais la MDCT d'un morceau de 1024 échantillons n'en donne que 512. Avec des fenetres recouvrantes, en faisant la MDCT, on a toujours une réprésentation par fenetre inversible. Et là, ça marche.

En fait, on peut montrer que la MDCT et l'approche on divise le signal en bandes de f'réquences est équivalente: tu peux voir la MDCT comme un filtre qui décompose un signal en N bandes de fréquences.
55
Ok merci beaucoup ;-)
56
Yop Salut Gabou,

moi j aprecierai bcp que tu m élcaires sur un point...

Je cadre deja la question :

C est dans l explication du processus du codage en MP3.

La ou je bloc c est ou il est expliqué comment la quantization et le codage fonctionne (le systeme a deux boucles similaires, l une controle le bit rate et l autre le bruit qui doit pas dépassé le seuil de masquage établi par le PERCEPTUAL MODEL.)

et j ai cette phrase la que j ai du mal a comprendre :

"Quantization is done by a power-law quantizer. In this way, larger values are automatically coded with less accuracy and some noise shapping is already built into the quantization process."

je comprends pas pourqoi on code les valeurs les plus grandes avec le moins de précisions premierement. Et deuxiement, tu pourrais m expliquer pour que ca me donne idée, comment on ajoute du bruit lors du processus de quantization.


Merci d avance...
57
Incroyable ce thread,et bravo gabou, vraiment interessant de comprendre un peu plus comment ça fonctionne même si je suis un peu largué des fois
58
Pareil...

je dis "môssieur Gabou" :bravo: !
59
Et je te fais un petit up, pour que tu penses à répondre a notre question....

merci d'avance
60
Re up...
61

Yop, énorme ce thread.
Sinon pour votre dernière question, je vais chercher de quoi vous répondre, pcq moi même j'ai un horrible doute à ce niveau. En attendant p-être que Gab ou Choc seront repassés par là :)
62
Wey c'etait biende !!! :8O: :bravo:

Bon ok je suis passé de la page 3 a la page 7 instantanément mais bon c comme ca moi j'en suis déja arrivé niveau téléportation et ubiquité en maths. Je touche et je me touche oyeah :8)

63
Bon ok les gars, il me semble me souvenir. Ce que je vais écrire là reste à confirmer, pcq autant c'est un tissu de conneries :oops:

Citation : "Quantization is done by a power-law quantizer. In this way, larger values are automatically coded with less accuracy and some noise shapping is already built into the quantization process."

Autant que je me souvienne, la quantification est effectuée sur les coefficients obtenus suite à la décomposition de Fourier. Bref, à ce niveau tu travailles plus directement sur les valeurs des échantillons mais sur la représentation fréquentielle.

Or pour permettre la compression, il va te falloir réduire le nombre d'information : c'est la quantification.
Là, on fait intervenir les caractéristiques de l'oreille humaine : cette oreille est plus sensible, globalement, aux basses fréquences (et surtout aux moyennes fréquences). Enfin pour voir ça, chope des courbes de références de sonograme, on comprend tout de suite.

L'autre point, qui est correlé à ce que je viens de dire en fait, c'est que les ondes basse fréquence sont plus énergétiques que celles à haute fréquence (ce qui fait qu'un son de basse portera plus loin qu'un son suraïgu de pipo à coulisse ... hum :lol: ).

Tout ça fait qu'on ne va pas appliquer une échelle de quantification linéaire aux coefficients sus-cités, et en particulier, on va donner plus de poids (plus de bits) aux coefficients des basses fréquences. Ce qui implique également que :

Citation : larger values are automatically coded with less accuracy

--> pcq l'oreille est y moins sensible. Donc la perte d'information sera peu audible ("peu" est à relativiser, suivant le taux de compression, et l'acuité auditive de l'auditeur auditionnant). En tout cas, on cherche par ce moyen à faire disparaitre prioritairement les informations ayant humainement peu de poids.

Hors sujet : Voilà, je sais pas si c'était très clair, et je sais encore mois si c'était exact. Donc, encore une fois, on attend confirmation (surtout que je me suis inspiré pour retrouver tout ça de la méthode de compression JPEG, donc pour les images...).
Ce post est donc auto-destructible (en cas de trop nombreuses conneries et approximations à la ligne).

64
Et...HOP ! J'ai sauté un post !

Trop faciiiiile la téléportation !
65

Citation : Et...HOP ! J'ai sauté un post !

Ouais, ça c'est une autre méthode super efficace de compression avec perte :lol: .

Quel tââââlent :mrg:
66
67
Gabou Gabou Gabou Gabou Ga-bou, l'ami l'ami l'ami l'ami des tous petits, tourne le bouton, le bouton tout rond et je chanterai des chansons!
:oops:
68
Un autre truc, quand gabou parle de sample qu'est -ce que ca veut dire ?

concrètement, je sais tres bien que c'est pas un sample comme on en parle d'habitude en ziq, c la plus petite unité d'un son ? non ? ou plutot une unité sonore
69
70
Un sample c'est la meme chose qu'un echantillon...

Soit l'information comprise a chaque periode d'echantillonnage...

Concretement en 44.1KHz 16 bits, c'est les 16 bits obtenus tous les 1/Fe seconde
71
Ce qu'a dit vandick est bon dans l'idée, sauf qu'on y applique l'idée du masquage à la place du grave/aigu, qui me paraît un peu foireux ?

L'idée fondamentale du MP3, c'est d'adapter le niveau de bruit de quantification au signal. Des fois, tu peux échantillonner sur 5 bits, des fois tu dois garder les 16.

Un autre truc important dont on a n'a pas parlé: les artefacts du MP3. Le principal est lié à la décomposition en fenetres. En général, on a des fenêtre de 256 à 2048 samples à 44.1 khz sur lesquelles on fait de la MDCT (donc grosso modo de la transformée de fourier). C'est inversible à 100%. Le problème, c'est qu'avec le MP3, on modifie dans le domaine fréquentiel pour revenir ensuite dans le domaine temporel. Où est le problème ? Quand tu adaptes le bruit de quantification, tu le fais globalement sur une fenêtre... Tu "étends" le bruit de quantif sur toute la fenêtre: c'est le phénomène de pré echo, ie les transitoires sont "aplatis". Ecoute n'importe quel mp3 à 64 kbits, c'est flagrant. La solution, c'est de prendre des fenêtre plus petites. Le pb est que lorsque l'on a des fenêtre plus petites, on perd en résolution fréquentielle, et on risque alors d'avoir des erreurs de hauteur importantes... Le MP3 a un algoritthme simple qui détecte les transitoires selon un critère énergétique, et adapte la taille de la fenêtre selon qu'il y a des transitoires dedans ou pas.

Une des qualités de la MDCT, c'est de permettre la modification de la taille des fenêtres

http://www.mathdogs.com/vorbis-illuminated/x62.html
72
Yop merci de répondre gabou

sinon en fait deja dans toutes nos sources bien sur en anglais on parle de quantization et toi la tu parles de quantification c pas pareil non?
On a étudiée un organigramme sur les étapes de l encodage mp3 et en fait on nous parle de quantization du bruit et aussi en fait de quantization globale déterminée par un facteur d échelle qui selon sa valeur doit donner une quantization plus ou moins grande qui donne un codage pus ou oins petit. Je me trompe?



sinon d autre part pour la MDCT quand tu parles de inversibilité en général ou ionversibiilité de la TF ca signifie quoi? Parce quon a du mal a comprendre poruqoi une bande de 1024 échantillions en donnent 512 avec la MDCT.

Mrerci d avance..
73

Citation :
sinon en fait deja dans toutes nos sources bien sur en anglais on parle de quantization et toi la tu parles de quantification c pas pareil non?



Si

Citation :
sinon d autre part pour la MDCT quand tu parles de inversibilité en général ou ionversibiilité de la TF ca signifie quoi?



Ca veut dire que tu perds pas d'information, et que tu peux retrouver le signal de départ. Par exemple, si tu fais la fft d'un signal fini quelconque sur N points, tu retrouves le signal de départ avec une fft inverse de N points.

La fft en fenêtres prends N samples pour en faire un spectre de N samples. Pour la reconstruction parfaite, il faut un recouvrement de 50 %, ce qui fait que l'on a deux fois plus d'échantillons à l'arrivée qu'au départ. C'est con, vu que le but c'est de compresser !

La MDCT , à partir de N échantillons, en trouve N/2. En soit, elle est pas inversible. Par contre, le processus global avec recouvrement, lui, est inversible. Entre deux fenetres consécutives, la partie recouvrante est faite de telle manière à ce que les erreurs (dite d'aliasing) se compensent, on parle d'aliasing cancelation.
74
Oui mais comment on arrive à faire de la compresison avec un algorithme qui multiplie par deux le nombre de sample nécessaires ??
75
En fait je comprnds pas trop quand on dit que l on quantize dans la rate loop lors de l encodage en mp3, on quantize quoi? ET quantize le bruit ca veut dire quoi?