< Retour vers Techniques du Son

Agrandir

Actu 600 600

Articles 624 624

Médias 4 891 4,9k

Tutoriels Tutos 93 93

Forums 16 995 17k

Sujet Calculer la moyenne des fréquences d'un extrait audio

50 réponses
11 participants
6 880 vues
11 followers

Yoann13

Nouvel·le AFfilié·e

Premier post

1 Posté le 23/01/2014 à 18:58:57

Bonjour à tous,

Je m'adresse à vous car, en tant que débutant, je bute sur un problème qui n'a peut-être pas de solution. Je travaille actuellement sur un projet personnel qui consiste à scinder en six morceaux un extrait audio d'un cri de bébé qui dure 1 seconde. Après ce découpage, je souhaiterais obtenir une moyenne de la totalité des fréquences de chacun des 6 morceaux. Je ne sais pas si cela est possible et mes recherches sur internet n'aboutissent pas. Je sollicite alors votre aide pour m'aider à avancer dans mon projet. J'espère que j'ai été suffisamment clair. N'hésitez pas à me demander davantage d'infos si besoin.

Merci d'avance.

PS : j'utilise, comme beaucoup de débutants, le logiciel Audacity.

Gros Corps Maladroit

2471

AFicionado·a

2 Posté le 23/01/2014 à 20:01:06

bonsoir
qu'entends tu par

Citation :

obtenir une moyenne de la totalité des fréquences

...parce que je vois pas ...
cela me fait a priori penser à une interpretation style analyse de fourrier (pas sur du terme ??) ou il est considéré qu'un son a un instant t1 peut etre considéré comme la somme (mais infinie il me semble) de sinusoide de frequence et d'amplitude différénte.......confus peut etre je suis....un exemple de ce que j'ai compris : 100hz/70db; 200hz/12db ...........1600hz/40db...etc
pas forcement multiple entier je crois d'ailleus...
bon bref , du coup tu voudrais une moyenne de quoi?? en plus au temps t2 ca change, t3 aussi....etc..... en fait je ne vois pas ce que tu voudrais calculer
tu connais les représentations d'un son sur 3 axes?? frequence/temps/amplitude ?? style soundforge etc...?

Anonyme

9677

3 Posté le 23/01/2014 à 20:21:31

Nuendo sait faire ça, mais je me suis toujours demandé à quoi ça pouvait bien servir. La réponse est évidente : à rien ! Du coup, si tu y trouves un intérêt quelconque, ça m'intéresse de le savoir.

laurend

3173

Squatteur·euse d’AF

4 Posté le 23/01/2014 à 20:58:38

La moyenne des fréquences ??
Connaitre la fréquence fondamentale permet de déterminer une note. Mais une moyenne ? En log, en linéaire ? Une moyenne géométrique, algébrique, harmonique ? Pourquoi faire ???

MaximalSound.com
Le mastering algorithmique en ligne depuis 2010
Démo SoundCloud
Sound On Sound Shootout
Crédits YouTube

EraTom

2282

AFicionado·a

5 Posté le 23/01/2014 à 21:11:27

Mouais...

Est-ce que tu peux donner une définition de ce que tu entends par moyenne ?
Est-ce que tu peux aussi nous expliquer le but de ton application ?

En théorie du signal, le "spectre d'un son" ou "densité spectrale de puissance" est déjà l'espérance mathématique de sa transformée de Fourier.
Elle représente "la moyenne d'ensemble" des réalisation du son...

... Et comme il n'est pas souvent possible (euphémisme) d'obtenir un ensemble de réalisations d'un signal, on croise les doigts pour ce que celui-ci soit "ergodique stationnaire au sens large", ce qui permet d'estimer la moyenne d'ensemble à partir d'une moyenne temporelle.

On entend clairement (des fois un peu trop) que le cri d'un bébé change en permanence (fréquences, amplitude...) : Il n'est pas ergodique stationnaire au sens large (zut !) mais il y a moyen de s'en sortir tout de même (ouf !) en découpant celui-ci en petites trames successives (ou recouvrantes) de quelques dizaines de millisecondes.
On considère que le son n'évolue ou ne change pas trop à l'intérieur de chaque trame, et donc qu'il est "localement ergodique stationnaire au sens large" ("localement ergodique" ferait bondir un puriste, pourtant c'est l'approximation qui permet les bricolages... et les estimations sur des signaux réels).

Mais vient alors le problème du fenêtrage et de la limite de résolution de la transformée de Fourier :
https://fr.wikipedia.org/wiki/Fen%C3%AAtrage

Il faut donc trouver un compromis :
- Des trames assez courtes dans lesquelles le signal ne varie pas trop, sinon l'estimation du spectre ne rime à rien.
- Des trames assez longues pour que l'étalement ne nous donne pas une estimation où toutes les fréquences sont... confondues.

Tu obtiens ainsi une succession de spectres estimés sur chaque trame. Tu peux les représenter ensuite pour tracer un spectrogramme.
https://fr.wikipedia.org/wiki/Spectrogramme
Je sais qu'Audacity permet de calculer et de tracer un spectrogramme... mais je ne connais ce logiciel sur le bout des doigts ; il va falloir que tu regardes dans son manuel.
Ici tu as les paramètres accessibles : https://manual.audacityteam.org/man/Spectrograms_Preferences/fr
"Window Size" et la longueur des trames dont je te parlais est donnée en nombre d'échantillons.

Faire la moyenne temporelle du spectrogramme fait perdre une partie de l'information disponible... Je n'en vois pas trop l'intérêt (mais je ne connais pas le but de ta manip).

Si le signal varie beaucoup trop rapidement et rend impossible le bon compromis il faut utiliser d'autres techniques que l'estimation du périodogramme (en clair, la FFT) ; les méthodes dites à "hautes résolutions", ou HR.
Je ne crois pas qu'Audacity permet de telles analyses (mais encore une fois, je ne connais pas vraiment ce logiciel).

Ces techniques consistent généralement à utiliser un modèle paramétrique dont les paramètres optimaux sont recherchés pour coller au mieux à la trame enregistrée. Le fait d'utiliser un modèle paramétrique est un moyen d'introduire une connaissance a priori sur le signal et sa forme ; et cette connaissance permet d'estimer des fréquences sur des trames très courtes, là où une FFT ne donnerait rien de probant.

Le truc c'est qu'il ne faut pas utiliser les méthodes HR n'importe comment : Il faut que le modèle colle au signal réel. S'il s'en écarte trop le modèle converge vers... n'importe quoi, et ce qu'il retourne ne rime à rien.
C'est pour ça que l'on peut trouver des avis très mitigés sur les techniques HR du genre "-Les méthodes HR on n'y voit rien, c'est nul". Ben ouais, il ne faut pas la choisir au hasard et s'assurer qu'elle colle bien au type de signal que l'on veut analyser.

Pour la voix et la parole, le modèle qui a fait ses preuves et le modèle "autorégressif"
https://fr.wikipedia.org/wiki/Processus_autor%C3%A9gressif

C'est lui qui est au fondement du codage linéaire prédictif (son acronyme anglais : LPC)
https://en.wikipedia.org/wiki/Linear_predictive_coding

Ici c'est expliqué en détails : http://julien.pinquier.free.fr/These/these/node120.html

Mais je ne connais pas d'outil clef en main pour le faire (je suis un geek / nerd qui travaille sous MatLab). Peut-être quelqu'un d'autre ?

Yoann13

Nouvel·le AFfilié·e

6 Posté le 23/01/2014 à 22:03:37

Waouh, énormément d'informations que vous me donnez là et je vous en remercie infiniment.
En fait, je suis un jeune artiste plasticien. J'étudie en ce moment les figures de Chladni et je compte créer une oeuvre avec ces "motifs" générés par le son. Mon ambition est d'extraire une sorte de moyenne des fréquences d'un très court extrait du cris en question. Ainsi, je pourrai obtenir une fréquence précise qui serait en quelques sorte une réduction symbolique d'un morceau du cri. Je pourrais finalement utiliser ce son pur afin de générer une figure de Chladni. En effet pour générer de tels motifs j'ai besoin de sons purs, voila pourquoi je tente d'obtenir un son pur qui serait un condensé de toutes les fréquences présentes dans les infimes parties du cri. Ainsi, grâce aux figures de Chladni, j'obtiendrai un visuel d'un fragment du cri. L'oeuvre finale refléterai divers fragments de l'évolution de ce cri. Sachez, en tout cas, qu'en aucun cas il ne s'agira d'utiliser les sons que j'obtiendrai pour qu'ils soient écoutés, mais simplement observés.
J'espère avoir été assez clair dans mes explications et que je parviendrai à réaliser ce que j'attend. Quoiqu'il en soit vous m'avez déjà fourni une multitude d'infos que je dois digérer, eh oui je suis vraiment novice en la matière, mais tout ça est passionnant.
Il me semble que je peux déja trouver quelques éléments de réponse dans vos indications. Mais avec les nouveaux éléments que je viens de vous fournir pourriez vous, s'il vous plait, me dire si cela est réalisable, et m'indiquer la procédure à suivre.

Merci encore

Gros Corps Maladroit

2471

AFicionado·a

7 Posté le 23/01/2014 à 22:10:45

il s'agit de ça ??

les figures dependent-elle de l'emplacement des fils?? je présume que oui ?
les figures sont elles constantes, experience repeté sur une meme fréquence?
Que se passe t il si on envoi autre chose qu'une sunusoide?? triangle, square...

laurend

3173

Squatteur·euse d’AF

8 Posté le 23/01/2014 à 22:11:27

Si le son n'est jamais entendu, un synthé est l'outil le plus simple contrôller cette figure de Chladni.

MaximalSound.com
Le mastering algorithmique en ligne depuis 2010
Démo SoundCloud
Sound On Sound Shootout
Crédits YouTube

Gros Corps Maladroit

2471

AFicionado·a

9 Posté le 23/01/2014 à 22:12:39

ou un sampler avec direct le cri du bébé ??

Yoann13

Nouvel·le AFfilié·e

10 Posté le 23/01/2014 à 22:36:03

Les figures dépendent bien évidemment de la fréquence diffusé par un haut parleur sous la plaque mais également de la forme de la plaque, de son épaisseur et du type de métal utilisé. Par exemple, une plaque carré en aluminium de 30cm et d'1 mn d'épaisseur soumise à une fréquence de 440 Hz fournira toujours le même motif car il dépend de l'onde stationnaire qui fait vibrer la plaque. Je commence, après plusieurs expérimentation, à maîtriser ces figures. Le problème à présent et d'obtenir un son pur, soit une fréquence unique et une amplitude avec la "moyenne" (désolé je ne sais pas trop comment formuler autrement) des fréquences qui constitue un morceau du cri.

< Liste des sujets
Charte

Liste des modérateurs