Sujet Traitement du signal pour la parole - Geek inside (Choc and Gabou required)
- 10 réponses
- 5 participants
- 1 156 vues
- 1 follower
vandyck
2223
AFicionado·a
Membre depuis 21 ans
Sujet de la discussion Posté le 08/12/2003 à 09:57:03Traitement du signal pour la parole - Geek inside (Choc and Gabou required)
Salut les stars
Alors voilà : j'ai un tp à rendre pour jeudi prochain (11/12) sur ça :
Je n'aurais qu'un commentaire :
Du coup, toute aide serait la bienvenue, vous qui connaissez plein de choses. En particulier, Gabou, j'aimerais savoir si tu aurais pas des liens intéressants là-dessus, voire (Choc ?) des fichiers contenant complètement ou partiellement ce genre de code.
Suis à votre disposition pour toute question . Merciiiiii.
Alors voilà : j'ai un tp à rendre pour jeudi prochain (11/12) sur ça :
Citation : Il existe plusieurs représentations possible d'un signal de parole (temps-fréquence, ...). Vous devrez chercher différentes représentations possibles dans la littérature, en programmer 3 (sous matlab) et les comparer. Vous devez rendre un fichier matlab et un rapport sur les techniques utilisées et montrer leurs différences.
Je n'aurais qu'un commentaire :
Du coup, toute aide serait la bienvenue, vous qui connaissez plein de choses. En particulier, Gabou, j'aimerais savoir si tu aurais pas des liens intéressants là-dessus, voire (Choc ?) des fichiers contenant complètement ou partiellement ce genre de code.
Suis à votre disposition pour toute question . Merciiiiii.
- 1
- 2
Pov Gabou
19553
Drogué·e à l’AFéine
Membre depuis 22 ans
2 Posté le 08/12/2003 à 11:36:02
3 ? Ca fait beaucoup.
Bon, il y en a une simple, c'est temps fréquence "déterministe" à l'aide de la transformée de Fourier à court terme (fonction specgram dans matlab, attention, il y a des astuces, style fenêtrage, je sais pas si tu gères un peu ce genre de problématiques).
Il y a ensuite la représentation classique en modèle AR par fenêtre, liée plus ou moins au fameux codage LPC (linear predicting coding) utilisé depuis des lustres dans moults codages de la parole. L'idée principale est d'estimer le signal AR le plus proche au sens des moindres carrés du signal original avec quelque coefficients AR. En fait, sa pertinence est liée au modèle source+filtre de la voix; c'est vieux comme le monde, ça date des années 70, mais je me souviens plus de la référence bibliographique (je peux retrouver si tu veux). Un peu plus pénible à programer, mais quand même jouable, il y a les fonctions type aryule si mes souvenirs bons, pour résoudre les équations de Yule Walker qui font tout le bordel de la résolution. (le principe est simple, et il y a un astuce pour résoudre le système linéaire correspondant, car la matrice est de Toeplitz, et tu peux résoudre en O(N2) au lieu de O(N3), grâce justement à la structure circulaire de la matrice de toeplitz).
Après, tu dois avoir des trucs autour des ondelettes, mais ça me paraît tendu de faire ça en qqs jours. En fait, faut voir ce que l'on entend par 3 différents. Est ce que LPC est une représentation (codage = représentation, pour moi) ? Est ce que c'est différent que le modèle source filtre ou non ?
Bon, il y en a une simple, c'est temps fréquence "déterministe" à l'aide de la transformée de Fourier à court terme (fonction specgram dans matlab, attention, il y a des astuces, style fenêtrage, je sais pas si tu gères un peu ce genre de problématiques).
Il y a ensuite la représentation classique en modèle AR par fenêtre, liée plus ou moins au fameux codage LPC (linear predicting coding) utilisé depuis des lustres dans moults codages de la parole. L'idée principale est d'estimer le signal AR le plus proche au sens des moindres carrés du signal original avec quelque coefficients AR. En fait, sa pertinence est liée au modèle source+filtre de la voix; c'est vieux comme le monde, ça date des années 70, mais je me souviens plus de la référence bibliographique (je peux retrouver si tu veux). Un peu plus pénible à programer, mais quand même jouable, il y a les fonctions type aryule si mes souvenirs bons, pour résoudre les équations de Yule Walker qui font tout le bordel de la résolution. (le principe est simple, et il y a un astuce pour résoudre le système linéaire correspondant, car la matrice est de Toeplitz, et tu peux résoudre en O(N2) au lieu de O(N3), grâce justement à la structure circulaire de la matrice de toeplitz).
Après, tu dois avoir des trucs autour des ondelettes, mais ça me paraît tendu de faire ça en qqs jours. En fait, faut voir ce que l'on entend par 3 différents. Est ce que LPC est une représentation (codage = représentation, pour moi) ? Est ce que c'est différent que le modèle source filtre ou non ?
vandyck
2223
AFicionado·a
Membre depuis 21 ans
3 Posté le 08/12/2003 à 12:02:20
Aaaah, merci pour cette réponse, rapide qui plus outre
Et sinon, oui, 3 ça fait beaucoup effectivement, mais bon, on n'est pas non plus sensé tout redémontrer hein, et mieux même, on peut utiliser les bibliothèques qui existent déjà sous matlab. Donc pas de trop gros soucis non plus.
Concernant ta réponse :
- la représentation déterministe, specgram & co, ça on fait. C'est ce qu'on connait le mieux, alors ça va. Pour le fenêtrage, on verra si on s'attarde dessus.
- LPC, codage et représentation : je viens de demander à mon prof et il accepte aussi qu'on parle de codage, donc si on trouve des infos là-dessus ça pourrait nous faire un 2ème point effectivement (et au passage moi aussi j'aurais tendance à considérer que codage = représentation). Reste plus qu'à trouver les fonctions matlab qui vont bien (je vais voir pour aryule).
- Voilà sinon est-ce que tu as entendu parlé de Wigner-Ville ? ça a l'air une piste intéressante mais bon...
En tout cas merci pour ta participation . Et avis aux autres amateurs hein
Et sinon, oui, 3 ça fait beaucoup effectivement, mais bon, on n'est pas non plus sensé tout redémontrer hein, et mieux même, on peut utiliser les bibliothèques qui existent déjà sous matlab. Donc pas de trop gros soucis non plus.
Concernant ta réponse :
- la représentation déterministe, specgram & co, ça on fait. C'est ce qu'on connait le mieux, alors ça va. Pour le fenêtrage, on verra si on s'attarde dessus.
- LPC, codage et représentation : je viens de demander à mon prof et il accepte aussi qu'on parle de codage, donc si on trouve des infos là-dessus ça pourrait nous faire un 2ème point effectivement (et au passage moi aussi j'aurais tendance à considérer que codage = représentation). Reste plus qu'à trouver les fonctions matlab qui vont bien (je vais voir pour aryule).
- Voilà sinon est-ce que tu as entendu parlé de Wigner-Ville ? ça a l'air une piste intéressante mais bon...
En tout cas merci pour ta participation . Et avis aux autres amateurs hein
Choc
6968
Membre d’honneur
Membre depuis 21 ans
4 Posté le 08/12/2003 à 12:03:53
Je peux pas t'en dire plus...
T'as un ennoncé plus explicite
T'as un ennoncé plus explicite
Site personnel: https://www.enib.fr/~choqueuse/
vandyck
2223
AFicionado·a
Membre depuis 21 ans
5 Posté le 08/12/2003 à 12:16:01
Raaalala, nan rien de plus explicite. Et pour être honnête, c'est obscur pour nous aussi . Bref, on va tâcher de continuer nos recherches, m'enfin je demandais à tout hasard, des fois que vous eûssiez déjà travaillé sur ce genre de sujet.
Toujours pareil : avis aux amateurs.
PS : le prof vient bien de repréciser à toute la classe qu'il veut différentes représentations et pas transformations... hmmmm la quête continue
Toujours pareil : avis aux amateurs.
PS : le prof vient bien de repréciser à toute la classe qu'il veut différentes représentations et pas transformations... hmmmm la quête continue
Human Koala
1166
AFicionado·a
Membre depuis 21 ans
6 Posté le 08/12/2003 à 12:21:42
A mon avis ca doit etre plus simple style
representation temps-frequence, amplitude-frequence
"Computer games don't affect kids, I mean if Pac Man affected us as kids, we'd all run around in a darkened room munching pills and listening to repetitive music." - Kristian Wilson, Nintendo, Inc, 1989.
representation temps-frequence, amplitude-frequence
"Computer games don't affect kids, I mean if Pac Man affected us as kids, we'd all run around in a darkened room munching pills and listening to repetitive music." - Kristian Wilson, Nintendo, Inc, 1989.
"Life is like a shit sandwhich....the more bread you have, the less shit you have to eat...."
Pov Gabou
19553
Drogué·e à l’AFéine
Membre depuis 22 ans
7 Posté le 08/12/2003 à 12:56:26
Mmmm. Le pb, c'est que pas mal de représentations passent par une transformation.
Bon, wigner Ville, c'est une représentation Temps fréquence, qui date de la physique quantique des années 40.
L'idée des représnetations temps fréquence, c'est de trouver une distribution temps fréquence de l'énergie, de telle sorte qu'en intégrante cette distribution sur tout le temps et les fréquences, tu obtiens l'énergie temporelle. Bref, avoir un truc qui te donne l'énergie autour d'une fréquence donnée et d'un instant donné. C'est compliqué, tellement compliqué que c'est d'ailleurs impossible d'avoir une telle distribution avec toutes les "bonnes" propriétés.
Wigner Ville est une généralisation de toutes les distributions quadratiques temps fréquence: la tranformée de Fourier à court terme est un exemple d'une telle distribution. La transformée en ondelette continue en est un autre. En fait, toutes ces transformations sont définies comme produit scalaire avec une famille d'atomes temps fréquences (exp complexes fenetrées pour la transformation de fourier à court terme, et ondelettes pour les... ondelettes), et sont extrêmement redondantes (logique, tu pars d'un signal 1D pour obtenir un signal 2D). Donc tu altères la précision en temps et en fréquence par celle des atomes utilisés (puisque le produit scalaire, ici, c'est l'integrale sur les fonctions de carré intégrable, en général, mais passons les difficultés mathématiques entre L1, L2 et cie; tu sais sûrement que lorsque tu fais une intergrale d'une fonction par un ensemble de fonctions, tu obtiens une régularisation de la fonction).
L'idée de Wigner Ville, c'est d'utiliser des translatées de la fonction elle même au lieu d'atomes pré définis. TU ne perds aucune résolution originale. Génial ? Non, car la transofrmation introduit des termes d'interférence, ce qui fait qu'en général, ce n'est pas franchement utilisable, je crois. Ainsi, si Pf1 et Pf2 sont les transformées de Wigner Ville de F& et F&, P(f1+f2), ça donne Pf1 + Pf2 + des termes à la con. Pour réduire ces interférences, tu régularises avec des noyaux, ce qui donne finalement FOurier ou ondelettes.
Je te conseille l'excellent bouquin de Mallat (un des chercheurs, français, qui a plus ou moins inventé les ondelettes il y a une vingtaine d'années) a walvelet tour of digital processing, un des meilleurs bouquins scientifiques appliqué qu'il m'ait été donné de lire.
Bon, wigner Ville, c'est une représentation Temps fréquence, qui date de la physique quantique des années 40.
L'idée des représnetations temps fréquence, c'est de trouver une distribution temps fréquence de l'énergie, de telle sorte qu'en intégrante cette distribution sur tout le temps et les fréquences, tu obtiens l'énergie temporelle. Bref, avoir un truc qui te donne l'énergie autour d'une fréquence donnée et d'un instant donné. C'est compliqué, tellement compliqué que c'est d'ailleurs impossible d'avoir une telle distribution avec toutes les "bonnes" propriétés.
Wigner Ville est une généralisation de toutes les distributions quadratiques temps fréquence: la tranformée de Fourier à court terme est un exemple d'une telle distribution. La transformée en ondelette continue en est un autre. En fait, toutes ces transformations sont définies comme produit scalaire avec une famille d'atomes temps fréquences (exp complexes fenetrées pour la transformation de fourier à court terme, et ondelettes pour les... ondelettes), et sont extrêmement redondantes (logique, tu pars d'un signal 1D pour obtenir un signal 2D). Donc tu altères la précision en temps et en fréquence par celle des atomes utilisés (puisque le produit scalaire, ici, c'est l'integrale sur les fonctions de carré intégrable, en général, mais passons les difficultés mathématiques entre L1, L2 et cie; tu sais sûrement que lorsque tu fais une intergrale d'une fonction par un ensemble de fonctions, tu obtiens une régularisation de la fonction).
L'idée de Wigner Ville, c'est d'utiliser des translatées de la fonction elle même au lieu d'atomes pré définis. TU ne perds aucune résolution originale. Génial ? Non, car la transofrmation introduit des termes d'interférence, ce qui fait qu'en général, ce n'est pas franchement utilisable, je crois. Ainsi, si Pf1 et Pf2 sont les transformées de Wigner Ville de F& et F&, P(f1+f2), ça donne Pf1 + Pf2 + des termes à la con. Pour réduire ces interférences, tu régularises avec des noyaux, ce qui donne finalement FOurier ou ondelettes.
Je te conseille l'excellent bouquin de Mallat (un des chercheurs, français, qui a plus ou moins inventé les ondelettes il y a une vingtaine d'années) a walvelet tour of digital processing, un des meilleurs bouquins scientifiques appliqué qu'il m'ait été donné de lire.
LePoulpe
77
Posteur·euse AFfranchi·e
Membre depuis 21 ans
8 Posté le 08/12/2003 à 13:13:39
Truc con ? La représentation de la parole peut se faire avec ... des phonèmes !!!!
Peut-etre que ce que veux ton prof c'est montrer qu'on peut associer différentes représentation comme spectre acoustique d'une part et phonèmes (je n'ai pas dit mot !!!) de l'autre. Par contre, pour le programmer sous matlab, je ne vois pas sauf s'il y a une fonction "soundlike" ...
Autres possibilités : le signal "direct", non transformé, est en une (et ca c'est facile ), le temps-fréquence (fourier, wavelets et autres) en est une (ou plusieures) autre(s) mais on pourrait aussi parler de tout ce qui est resynthèse : modéliser avec de la synthèse soustractive (signal+filtre) de la parole serait une représentation très différente du spectre habituel (plutot synthèse additive). Et pour la FM, je ne t'en parle pas.
Peut-etre aussi que ton prof veux montrer que certaines méthodes permettent d'isoler plus particulièrements les sifflantes, d'autres les chuitantes, et d'autres les voyelles. Le problème est alors plutot que de représenter la parole d'en discriminer les composants.
Enfin, plein de choses possibles ... Bon courage
Peut-etre que ce que veux ton prof c'est montrer qu'on peut associer différentes représentation comme spectre acoustique d'une part et phonèmes (je n'ai pas dit mot !!!) de l'autre. Par contre, pour le programmer sous matlab, je ne vois pas sauf s'il y a une fonction "soundlike" ...
Autres possibilités : le signal "direct", non transformé, est en une (et ca c'est facile ), le temps-fréquence (fourier, wavelets et autres) en est une (ou plusieures) autre(s) mais on pourrait aussi parler de tout ce qui est resynthèse : modéliser avec de la synthèse soustractive (signal+filtre) de la parole serait une représentation très différente du spectre habituel (plutot synthèse additive). Et pour la FM, je ne t'en parle pas.
Peut-etre aussi que ton prof veux montrer que certaines méthodes permettent d'isoler plus particulièrements les sifflantes, d'autres les chuitantes, et d'autres les voyelles. Le problème est alors plutot que de représenter la parole d'en discriminer les composants.
Enfin, plein de choses possibles ... Bon courage
Pov Gabou
19553
Drogué·e à l’AFéine
Membre depuis 22 ans
9 Posté le 08/12/2003 à 13:20:18
Ben le pb, c'est est ce que la question est un pretexte pour faire de la représentation, ou est ce que ça parle spécifiquement de la parole ? Je connais pas grand chose en parole. Il y a peut être des trucs à voir sur ce qui est utilisé en synthèse de la parole ( système SINOLA de l'ircam, dérivé du framewark SMS de Serra), ou en reconaissance ?(là, je connais rien de rien).
Pov Gabou
19553
Drogué·e à l’AFéine
Membre depuis 22 ans
10 Posté le 08/12/2003 à 20:26:22
Tiens, voilà la page d'un gars de l'IRCAM qui avait bossé sur SINOLA:
https://www.ircam.fr/equipes/analyse-synthese/peeters/index.html
https://www.ircam.fr/equipes/analyse-synthese/peeters/index.html
- < Liste des sujets
- Charte
- 1
- 2