Si j’étais un professionnel du divertissement, j’aurais envie que mon audience ait des émotions intenses le plus souvent possible. Qu’elle se trouve remuée, secouée par les réactions de son corps comme un marin dans la tempête – par vagues successives. J’aurais envie de susciter le rire, l’effroi et les pleurs à l’envi selon un rythme défini à l’avance, de stimuler l’humain sur commande, juste pour voir si je peux le faire. Heureusement, je ne suis que productrice de contenu sur Internet. Je n’ai aucun pouvoir, et personne ne laissera jamais ma perversité s’épanouir en m’autorisant à organiser des expériences sociales à grande échelle.

Les ingénieurs du département de recherche de Disney, eux, ont le droit de tester et provoquer les réactions de milliers et milliers d’humains au nom de la science, et disposent de fonds importants pour cela. Je ne suis pas jalouse de leur condition : leur travail est en partie le fruit des exigences commerciales de l’industrie cinématographique et du triste climat qui pèse sur les réalisateurs et les créateurs dans l’univers de la superproduction. Comme le rappelait The Verge il y a quelques jours, les réalisateurs de films Disney ont une marge de manoeuvre créative de plus en plus réduite, et sont tenus de se comporter comme des petits showrunners obéissants.

Disney ne tolère plus le flop. Disney veut des émotions à l’unisson, et à grande échelle. Disney ne souhaite pas prendre le moindre risque d’échec commercial avec ses futurs films, comme l’ont montré récemment les conflits autour de la production du film Han Solo.

Or, mieux on connaît le spectateur, mieux on peut formater le film, et l’analyse de grandes quantités de données nous permet aujourd’hui de déceler des patterns de comportement subtils au sein d’une population. Peut-être qu’un jour, les producteurs utiliseront des IA leur permettant de s’assurer que chaque scène tournée provoque la réaction attendue chez le spectateur, plutôt que de s’embarrasser de parti-pris artistiques, d’idées originales ou d’une vision globale de l’oeuvre.

Les projets de Disney Research reflètent-ils cette volonté de réaliser le film le plus attrayant possible en s’inspirant de la dynamique des émotions humaines ? Ce qui est certain, c’est que ses laboratoires disposent aujourd’hui de technologies permettant d’observer, modéliser et prédire les réactions des spectateurs à un film de manière extrêmement fiable. La semaine dernière, des chercheurs de Disney Research, en collaboration avec avec Yisong Yue de Caltech et leurs collègues de l’Université Simon Fraser, ont présenté les résultats de leurs recherches à la Conference on Computer Vision and Pattern Recognition (CVPR) d’IEEE, un événement de référence dans le domaine. Leur article, en attente de publication, est disponible ici.

“Les FVAE ont réussi à apprendre par eux-mêmes des concepts comme le sourire et le rire.”

Les chercheurs ont mis au point une technique basée sur le deep learning faisant intervenir de nouvelles méthodes au nom particulièrement barbare – les auto-encodeurs variationnels par décomposition (factorized variational autoencoders) – que nous l’appellerons FVAE, par commodité. Ces méthodes se sont montrées extrêmement efficaces pour prédire les expressions faciales d’un spectateur pendant un film, après l’avoir observé pendant quelques minutes seulement grâce à une technologie de vision par ordinateur. En utilisant une salle de cinéma de 400 places équipée de caméras infrarouges permettant d’observer le visage des personnes installées devant une séance de film Disney, ils ont étudié les spectateurs des films Ant-Man, Big Hero 6, Le Pont des espions, Vice-versa, Stars Wars : Le Réveil de la Force, The Finest Hours, Le Voyage d’Arlo, Le Livre de la jungle et Zootopia pendant deux ans pour un total de 3 179 spectateurs et 16 millions de captures d’expressions faciales distinctes.

Le but de cette expérience était de mieux comprendre le lien entre une scène de film, son potentiel amusant et l’appréciation du spectateur (matérialisée par son expression faciale) – et plus précisément, sa propension à sourire ou à rire franchement. Les chercheurs expliquent que cette méthode d’analyse des sentiments basée sur la vision par ordinateur est beaucoup plus efficace que l’approche par questionnaire où l’on invite le sujet à expliquer par écrit s’il a aimé le film. “Cela exige de la personne qu’elle réfléchisse consciemment à ce qu’elle est en train de regarder”, explique les chercheurs, ce qui favorise une description peu authentique et peu spontanée de ses émotions réelles. Quant aux techniques biométriques, comme l’utilisation de capteurs mesurant le rythme cardiaque et l’activité électrodermale, elles sont trop grossières pour donner des résultats convaincants.

Les FVAE ont donc observé les personnes qui, dans la salle, exhibaient des expressions faciales similaires tout au long du film. Cela leur a permis d’apprendre un ensemble de réactions stéréotypées à l’échelle du collectif, c’est-à-dire comment la salle réagissait à tel ou tel type de scène. Ainsi, nos petites machines intelligentes ont appris toute une gamme d’expressions faciales liées à l’hilarité, et ont compris comment les spectateurs étaient sensés réagir devant tel ou tel type de scène à partir des corrélations entre les réactions des individus.

“Les FVAE ont réussi à apprendre par eux-mêmes des concepts comme le sourire et le rire” explique Zhiwei Deng, doctorant à l’Université Simon Fraser et associé au laboratoire de Disney Research. “Mieux encore, on a pu montrer que certaines expressions du visage étaient corrélées à certains types de scènes” ajoute-t-il, ce qui permet de fait de faire des prédictions sur la réception d’un film à partir d’un échantillon de spectateurs représentatif des fans Disney.

Peut-être qu’à terme, ce genre d’analyse d’échantillon permettra d’évaluer le succès du film au box office, et de calculer de futures recettes.

Illustration un peu terrifiante représentant le modèle en deux dimensions appris par les FVAE après entrainement sur le film Vice-Versa. Source : Deng et al.

La prochaine étape sera d’entrainer les FVAE à identifier des émotions plus complexes, comme la tristesse et la peur, et des émotions plus neutres comme l’attente ou l’ennui. Si les chercheurs reproduisent les progrès réalisés avec cette étude, on peut s’attendre à un futur où toutes nos émotions seront soigneusement échantillonnées et cataloguées, dans le but de rendre les produits culturels les plus stimulants possible. “Être stimulé, c’est jouir. Jouir, c’est consommer”, diront les panneaux publicitaires du futur. Nos émotions les plus intimes nous appartiennent encore, mais mieux vaut ne pas trop les montrer.

