De plus en plus de plug-ins intégrant l’IA fleurissent sur le marché, et WAVDSP ne déroge pas à la règle. Primary Vx est un plug-in de traitement vocal en temps réel, qui repose sur un moteur à trois étages traitant le bleed vocal comme un problème de séparation de source, plutôt que de recourir à une réduction de bruit à large spectre. Le premier étage, Vx Source Detection, analyse et suit la source vocale en temps réel. Le deuxième étage, Source Separation, retire de la chaîne vocale les instruments, l’ambiance de la pièce et le bruit de scène. Ces deux étages traitent le signal de façon ciblée, sans toucher à l’ensemble du spectre. Enfin, le troisième étage, Feedback Protection, permet aux de pousser le gain davantage avant l’apparition du feedback, sans dégrader la qualité du signal vocal.
Comment Primary VX a-t-il été créé ?
Pour parvenir à ces résultats, l’équipe Neural Labs de WAVDSP a constitué un corpus d’entraînement de 2,5 To de matériau audio, composé de stems de studio sous licence, de répétitions multipistes et de captations terrain. Après nettoyage (suppression des silences, rejet des signaux écrêtés et révision manuelle), le corpus actif s’est réduit à 1,9 To. L’entraînement principal du réseau de séparation vocale a mobilisé environ 1 680 heures de calcul GPU sur une flotte distribuée incluant des GPU NVIDIA H200, H100 et A100, sur une fenêtre de douze jours. Les passes d’affinage des modules de détection d’activité vocale et de protection contre le larsen ont nécessité environ 420 heures supplémentaires, suivies de trois semaines de raffinement ciblé.
Compatibilité et tarif
Primary Vx est disponible sur macOS (version Windows à venir) au prix de 699 $.
