Reproduire l&rsquo;effet cocktail party

Reproduire l’effet cocktail party

Sean Wood dans son bureau du Groupe de recherche NECOTIS (Groupe de recherche en Neurosciences Computationnelles et Traitement Intelligent des Signaux)
Photo : UdeS - Michel Caron

Vous êtes dans un événement où il y a vraiment beaucoup de personnes. Le bruit de la foule environnante rend les discussions un à un beaucoup plus difficiles : on doit tendre l’oreille vers l’autre et parler plus fort. Lorsque, avec l’âge, on commence à perdre l’audition, le principal défi consiste justement à être capable d’isoler une voix dans une foule. Quand l’ouïe diminue, on perd cette capacité-là. En psychoacoustique, l'effet cocktail party désigne de façon imagée la possibilité de focaliser son attention auditive sur une conversation dans une ambiance bruyante, par exemple lors d'un cocktail.

Pour les personnes atteintes, ce nouveau défi auditif peut même parfois mener à l’isolement, à la dépression. Le problème peut d’ailleurs être étudié sous différents angles : psychologique, biologique ou acoustique.

Il s’appelle Sean Wood. Après un baccalauréat à Toronto et une maîtrise à Montréal, Sean a choisi de poursuivre au doctorat avec le groupe de recherche NECOTIS, à la Faculté de génie de l’UdeS, sous la direction du Pr Jean Rouat. Son objectif : reproduire l'effet cocktail party de façon informatique.

Une voix parmi les voix

GCC-NMF - Séparation et rehaussement de la parole en temps réel à faible latence. C’est le titre de sa thèse de doctorat défendue devant jury en décembre dernier. « Ce projet visait à concevoir et à mettre en œuvre des algorithmes de traitement de la parole qui peuvent extraire une source sonore parmi les bruits, parmi les interférences, résume Sean. L’idée est de pouvoir éventuellement utiliser ces algorithmes pour améliorer les appareils auditifs fonctionnels. »

Il existe plusieurs pistes d’applications possibles, tels les smartphones, les smartspeakers, les implants cochléaires, les aides auditives. Il a décidé de s’attarder à cette dernière application, celle qui peut faire une différence plus que significative dans la vie des gens qui en ont besoin. Défi intéressant avec ce type d’appareil binaural : un peu comme avec des lunettes, on a deux côtés, gauche et droit.

« Quand on met un appareil auditif en marche dans un café par exemple, tout le son ambiant est amplifié. On n’est pas capable de séparer les différents sons, d’isoler la voix qui nous intéresse du bruit autour qu’on aimerait ignorer. Il y a aussi un aspect de délai temporel normal : si le son arrive de la gauche, l’oreille gauche entend en premier. Les circuits neuronaux permettent de cerner tout ça. La forme de l’oreille aide d’ailleurs les circuits à séparer les sons en fonction d’où ils arrivent et à mettre notre focus sur la personne directement devant nous. »

De 64 à 2 millisecondes

L’innovation liée à la recherche vise donc à développer un algorithme de traitement qui permet de conserver les caractéristiques qui proviennent de la direction d'intérêt et masquer les caractéristiques qui proviennent d'autres directions. Bref, être capable d’extraire une source sonore – voix – d’autres sources sonores.

« Sans entrer dans les détails, disons que ce qui nous permet de faire ça, poursuit Sean, c’est la combinaison de deux algorithmes ayant deux fonctions différentes, un lié à la localisation spatiale et l’autre lié à l’intelligence artificielle. Ce que ça veut dire, c’est que, dans l’ordre 1) on apprend les caractéristiques de base du son puis, 2) on va laisser entrer les éléments qui viennent spécifiquement du son désiré et on va supprimer - ou atténuer - tous les autres. »

« Au cours de mon doctorat, j’ai développé une démonstration interactive de l'algorithme qui reproduit l’effet cocktail party de façon informatique qu’on appelle GCC-NMF et qui fonctionne en temps réel sur une variété de plates-formes matérielles. Ce qu’on a réussi à faire en fait, c’est d’intégrer ce qu’on appelle des fenêtres asymétriques qui nous ont permis de passer d’un temps de traitement du son de 64 ms à 2 ms. Si on attend 64 ms entre le début du traitement et la fin, c’est trop long pour ceux qui ont des aides auditives. En fait, si ce délai est plus grand que 10-15 ms, c’est encore trop long. Ils s’entendent deux fois, comme un écho. Il fallait trouver une façon de réduire ce délai. En regardant par fenêtre, la voix est plus stationnaire, elle ne change pas, facilitant ainsi les extractions de données. »

Départ pour l’Autriche

À la mi-mars, Sean s’envolera vers l’Autriche pour poursuivre son cheminement comme chercheur postdoctoral à Graz University of Technology, dans le laboratoire PhaseLab - Signal Processing and Speech Communication Laboratory.

Pourquoi l’Autriche ? « Parce que je pourrai poursuivre mes travaux vers des applications tangibles. Quand j’ai vu que ça pouvait se faire en temps réel, j’ai vu tout le potentiel pour un transfert technologique vers des applications réelles de la vie courante et ça m’a parlé. On ne peut qu’être attiré vers ce qui permet de faire une différence auprès des gens. Le défi qui m’attendra : réduire la grosseur des systèmes. »

Tout ce que Sean a fait durant son doctorat est libre d’accès (Open Source). « C’est vraiment un gros mouvement dans le développement de logiciel de ne pas vouloir breveter mais plutôt de contribuer, de vouloir participer au progrès. En lien avec les aides auditives, il y a deux projets libres d’accès qui ont démarré récemment : Tympan, qui provient des Étais-Unis, et Open MHA, qui est basé en Allemagne. De mon côté, je commence à utiliser ces deux projets pour faciliter le développement des futurs algorithmes. Je continuerai également à publier mes contributions de façon Open Source. »

Le financement en lien avec les recherches de Sean proviennent de plusieurs sources : ACELP/Département de génie électrique et de génie informatique, CRSNG, FRQNT (CHIST-ERA, IGLU), Calcul Québec et Compute Canada.

Reproduire l’effet cocktail party

Informations complémentaires