Pourquoi la vision et l’audition sont désynchronisées ?

Une des obsessions des ingénieurs en audiovisuel est de parfaitement synchroniser le son et l’image. Or des chercheurs ont découvert que la compréhension peut quelquefois réellement s’améliorer de plus de 10 pour cent quand le son est retardé par rapport à l’image. On parlera alors d’asynchronisme de perception.

Dans notre cerveau, la vision et l’audition sont curieusement désynchronisés à différentes valeurs selon les individus et les tâches, c’est ce qui ressort d’une étude de City, Université de Londres (Sight and sound persistently out of synch: Stable individual differences in audiovisual synchronisation revealed by implicit measures of lip-voice integration – DOI: 10.1038/srep46413).

L’asynchronisme de perception

En étudiant cet effet, les chercheurs ont trouvé que la compréhension orale peut quelquefois réellement s’améliorer de plus de 10 pour cent quand le son est retardé par rapport à la vision, et que différents individus ont des optimums de retards constants pour différentes tâches.

En conséquence, les auteurs suggèrent qu’en ajustant ces retards du son à travers une aide auditive ou un implant cochléaire –  ou un réglage sur un lecteur vidéo – cela pourrait apporter des bénéfices potentiels dans la compréhension de la parole ou de support multimédia. L’étude est publiée dans le « Journal of Experimental Psychology : Human Perception and Performance ».

Des chemins différents pour l’audition et la vision

Quand les chercheurs de la City ont étudié de plus près ce phénomène, ils ont constamment trouvé un motif très curieux : des tâches différentes étaient facilitées par des décalages temporels de signes opposés, même chez une seule personne. Par exemple, plus la vision précédait l’audition dans une tâche (ex. : identifier de la parole) plus l’audition précédait la vision dans une autre tâche (ex. : décider si la voix d’un locuteur précédait ou suivait le mouvement de ses lèvres) [NDT moins facile dans la vie réelle]. Cette découverte apporte un nouvel éclairage sur notre perception de l’ordre des événements dans notre monde et la nature des synchronisations sensorielles dans le cerveau.

Quand nous voyons et entendons une personne parler, les signaux sensoriels empruntent différents chemins depuis nos oreilles et nos yeux jusqu’au cerveau. Les asynchronismes audiovisuels mesurés dans cette étude peuvent se produire car ces signaux sensoriels arrivent à leurs destinations propres dans le cerveau à un moment différent.

Mais alors, comment faisons-nous pour toujours connaître le moment précis où la génération physique du signal de parole s’est produite dans le monde réel ? Le cerveau doit avoir un moyen de résoudre ce problème, étant donné que nous pouvons toujours juger si le son est synchronisé ou non avec une précision raisonnable. Par exemple, nous sommes souvent capables d’identifier facilement quand un film a une mauvaise synchronisation audio.

Le cerveau « renormalise » les asynchronismes

L’auteur principal, Dr Elliot Freeman, Senior Lecturer in the Department of Psychology at City, University of London, propose une solution basée sur le problème analogue des « horloges multiples » :

« Imaginez-vous dans un magasin d’antiquités plein d’horloges, et vous voulez savoir quelle est l’heure exacte. Votre meilleure estimation est donnée par une moyenne des valeurs observées. Cependant, si une des horloges est particulièrement lente, les autres sembleront rapides comparées à elle.

Dans notre nouvelle théorie, que nous appelons « renormalisation temporelle » les « horloges » sont comparables aux différents mécanismes qui chacun, dans le cerveau, reçoivent le son et l’image désynchronisés. Mais si un de ces mécanismes est soumis à un retard audio, ceci va biaiser la moyenne, relativement aux autres mécanismes qui semblent avoir un retard visuel. Cette théorie explique la découverte surprenante que différentes tâches présentent des retards de signes opposés ; cela peut aussi expliquer comment nous comprenons dans la réalité à quel moment des événements se produisent, bien que notre cerveau génère plusieurs estimations contradictoires de ces moments ».

Dans ces expériences, les chercheurs présentaient aux participants des enregistrements vidéo d’une personne prononçant des syllabes, des mots ou des phrases, en faisant varier l’asynchronisme de la voix et du mouvement des lèvres. Pour chaque échantillon ils mesuraient la précision de l’identification des mots prononcés ou comment la contribution du mouvement des lèvres influençait ce qui était perçu.

L’illusion de McGurk

Dans le dernier cas les chercheurs ont exploité l’illusion de McGurk, où, par exemple, le phonème « ba » est entendu « da » quand il est joué en même temps que des lèvres qui prononce « ga ». Ils ont pu alors estimer l’asynchronisme qui amenait à une précision maximale ou à une illusion de McGurk maximale. Dans une autre tâche, ils ont aussi demandé aux participants d’estimer si la voix était en avance ou en retard sur le mouvement des lèvres ce qui leur a permis d’estimer l’asynchronisme subjectif.

Détection et pistes

Au sujet de cette étude, le Dr Freeman a déclaré :

« On croit souvent que le meilleur moyen de comprendre la parole est de faire correspondre ce que nous entendons avec le mouvement des lèvres, et que la meilleure réponse est obtenue quand le son et l’image sont parfaitement synchronisés. Cependant notre nouvelle étude confirme que le son et l’image sont réellement désynchronisés avec des retards différents selon les individus. Nous avons aussi découvert que, pour certains, retarder manuellement la voix par rapport au mouvement des lèvres améliore de 10% ou plus la compréhension de la parole et la précision de l’identification des mots.

Cette étude introduit aussi une nouvelle méthode automatisée pour évaluer les asynchronismes audiovisuels individuels, qui peut être administrée par Internet ou à travers une application mobile. Une fois que l’asynchronisme de perception d’un individu est mesuré, il peut être corrigé artificiellement avec un délai adapté. Ceci pourrait être implémenté à travers une aide auditive ou un implant cochléaire ou un réglage sur un lecteur vidéo, avec des bénéfices potentiels dans la compréhension de la parole ou de support multimédia.

L’asynchronisme de perception peut avoir un impact sur la performance cognitive, et les études futures pourraient étudier son association avec les traits de personnalité schizotypique, les traits du spectre autistique et la dyslexie. »

 

 

Philippe Ecrement
Innovation

Cet article est la traduction libre de l’article de CITY – University of London « Why are sight and sound out of sync? » publié le 11 Juin 2018 par George Wigmore (Senior Communication Officer).
Designed by Various Artists on Freepik