Publicité
Motherboard

Lorsque les machines écoutent de la musique, qu’entendent-elles ?

Comme vous et moi, les réseaux de neurones ont tendance à "décomposer" une musique et à s'attarder sur chaque instrument l'un après l'autre.

par Jordan Pearson
19 Juillet 2016, 9:20am

La nouvelle tendance en termes d'algorithmes d'apprentissage automatique… est de tenter de comprendre leur fonctionnement.

Le problème, c'est que les algorithmes conçus comme des réseaux de neurones sont de véritables boites noires. Nous avons développé des concepts très raffinés pour les concevoir et décrire leur comportement, mais saisir pourquoi et comment ils prennent des décisions est dans les faits très difficile dans la mesure où ils possèdent une grande complexité interne. Aussi impressionnants et efficaces que soient ces systèmes, ils ne sont pas parfaits. Or, nous avons besoin de mieux les comprendre si nous voulons éviter les conséquences de leurs erreurs.

Cette semaine, des chercheurs de la Queen Mary University de Londres ont publié sur ArXiv un article dans lequel ils décrivent leur tentative de disséquer cette fameuse boite noire. En l'occurrence, ils ont choisi d'attaquer ce problème épineux à partir d'un angle mélodique, et se sont demandé comment un réseau de neurone « comprenait » un morceau. Leurs résultats sont extrêmement intéressants, même si on ne peut pas encore en tirer de conclusions générales. Par exemple, on sait maintenant que les machines prêtent attention aux percussions avant d'écouter un piano ou une voix.

Cette expérience aidera les chercheurs à comprendre « comment mieux concevoir un système en vue d'une certaine tâche, » explique Keunwoo Choi, doctorant et principal auteur de l'étude. « D'une manière générale, accroitre nos connaissances sur le fonctionnement des réseaux de neurones ne peut pas faire de mal, que nos résultats s'avèrent ou non utiles par la suite. »

L'idée de casser « l'effet boite noire » des réseaux de neurones a été lancée autour de 2009, quand une équipe de chercheurs a proposé une méthode de génération d'images spécialement conçus pour activer les neurones de manière individuelle et ciblée. L'idée était d'inverser le processus et de travailler avec des images que les réseaux de neurones trouvaient attrayantes, au lieu de les entrainer sur des images sélectionnées à l'avance. Ainsi, les chercheurs espéraient mieux comprendre leur processus de décision. En 2014, ils ont trouvé un moyen de visualiser les couches du réseau elles-mêmes afin d'observer leur activité : il était possible de voir ce que telle ou telle couche détectait dans telle ou telle image.

Ici, l'équipe a effectué la même opération en remplaçant les images par de la musique.

Les auteurs expliquent que la couche de base du réseau s'était chargée d'extraire l'élément le plus distinctif de la musique : les percussions. La deuxième couche a quant à elle prêté attention aux composantes harmoniques de base de la musique, en particulier les notes de basse. La troisième couche a opéré des distinctions entre les différents instruments, et a été tout particulièrement stimulée par la voix et le piano, mais pas par hi-hats.

Cette description n'a l'air de rien a première vue, et pourtant, elle nous dit quelque chose de tout à fait fascinant : nous savons désormais que lorsqu'une machine écoute de la musique, elle « entend » les diverses composantes de la musique dans un ordre spécifique, et examine chaque instrument indépendamment.

Il reste beaucoup de travail cependant.

« Plus les couches sont profondes, plus il est difficile de comprendre ce qu'il se passe, » explique Choi. « Pour faire une analogie organique, il est beaucoup plus facile d'analyser ce qui se passe dans nos tympans et dans le canal auditif que ce qu'il se passe au niveau de la cochlée, ou même du cerveau. »

Ce n'est pas demain que nous comprendrons comment une machine écoute une symphonie de Mozart, mais nous savons désormais qu'elle est loin d'y être indifférente.