2 réponses
2 participants
595 vues
2 followers

Breton

Posteur·euse AFfranchi·e

Membre depuis 21 ans

24 Juillet 2008 à 10:50

Hello,

J'aurai besoin de mettre en place un système de reconnaissance d'extraits sonores, diffusés par une source de résolution réduite (type portable), et acquis via une carte son, dans des conditions acoustiques variables.
A priori, la base d'extraits à reconnaitre sera assez réduite (~50 échantillons bien distincts : parole, musique). Le système devra donc être robuste, mais pas forcément le plus fin au niveau du pouvoir séparateur.

Ca fait un p'tit moment que je traine sur google sans trouver d'algo, ou autre, qui me donne de sérieuses bases pour attaquer tout ça :??:

... Quelqu'un aurait une piste ? Aucun soucis avec les maths ou la prog.

Ne serait-ce qu'un algo de détection de tempo, qui devrait pouvoir de discriminer les extraits de paroles des extraits musicaux ...

Merci :bravo:

Funk About It

Choc

6968

Membre d’honneur

Membre depuis 23 ans

25 Juillet 2008 à 12:10

Salut

Probléme loin d'etre simple

Premierement algo en deux temps:

Phase 1: Caracetrisation du signal
Pahse 2: Classification

Pour la phase 1, tu peux essayer de regarder pour de salgos de reconnaissance de tempo, pourquoi pas modeliser grossierment, l'enveloppe du signal aussi, tu peux caracetriser le spectre, utiliser des correlations, des statsitiques d'ordre superieur...bueaocup de paramètre sont utilisable (cumulants par exemple)

Pahse 2: classification: TU vas obtenir en sortie de characterisation plusieurs paramètre qu'il va valloir classer pour reconnaitre automatiquement l'extrait.
Tu peux utiliser des classifieur tres simple basée sur la distance euclidienne jusqu'au plus compliqué comme les réseaux de neurones ou les support vector machine. Enfin il ne faut pas faire n'importe quoi avec ces classifieurs, ce sont des systèmes GIGO (garbage In garbage Out, tu met n'importe quoi en entrée, tu auras n'importe quoi en sortie)

Site personnel: https://www.enib.fr/~choqueuse/

Breton

Posteur·euse AFfranchi·e

Membre depuis 21 ans

25 Juillet 2008 à 18:08

Merci Choc !

Bah oui, je commence à voir que ça va pas être simple, mais tout ce que je trouve me fait tripper (je raccroche au traitement du signal ... et j'aime ça :mdr:

)

Jusqu'ici, j'ai trouvé la thèse d'un certain Sebastien Rossignol sur le net, où il est notamment question au début de la technique de suivi de la fondamentale ... Cela dit, il faut apparemment prendre en compte auparavant toutes les problèmatiques de stabilité des intervalles étudiés. Je continue à lire, donc ...

A propos, on peut télécharger le logiciel f0 de l'IRCAM quelque part (On peut toujours rêver) ? il me semble que tu es passé par là, si je me trompe pas ...

Sinon, je pense commencer par un système qui commencerait par discriminer les extraits de paroles des extraits musicaux. Il n'y aurait pas une méthode en particulier qui te viendrait à l'esprit ?
Si je sais que la parole s'étend sur un spectre limité, ça ne donne par pour autant une CNS pour classer un signal de spectre restreint aux bonnes valeurs dans la catégorie des signaux de parole. Qui plus est, il faut aussi prendre en compte la source, qui dans mon cas est assez pauvre (type HP de téléphone portable), et donc restreint de fait le spectre du signal à reconnaitre. Bref, faut cumuler, mais avec quoi ... :mdr:

Merci en tout cas, je continue à creuser sur le net !

Funk About It

< Liste des sujets
Charte

Liste des modérateurs

Doc sur les techniques d'indexation