Illustration : TotalCinema360

Il y a plusieurs façons de capturer le réel à des fins d'immersion. La vidéo, bien sûr, le média poursuivant ses bonnes œuvres, améliorant sans cesse la finesse de son rendu. Pourtant, lorsqu'il s'agit de transformer le spectateur en acteur de cette réalité, on doit en passer par une simulation informatique complète, longue et coûteuse en développement.

Au travers des nouvelles interfaces qui nous affranchissent des écrans – ou plutôt nous y plongent –, la vidéo, bien que bluffante dans ces nouveaux atours immersifs, devient paradoxallement frustrante, en terme d'interaction.

Si les technologies sont au rendez-vous, il serait logique que l'on s'oriente vers une capture de nature space and motion – espace et mouvement – ; intégrant la profondeur de champ – pour s'y déplacer – et les contours physiques des objets – pour agir dessus –.

La vidéo à 360° a toutefois de beaux jours devant elle, à dire vrai peut-être les meilleurs qu'elle n'ait jamais connus. Grâce à ce nouveau mode de consommation immersif ; affranchi du navigateur, de l'effet fisheye et des flèches de déplacement, même avec peu ou pas de post-prod, l'effet est garanti.

Mais coupons court aux fantasmes qui nous voit courir dans tous les sens, la vidéo 360° délivre un contenu filmé depuis un point de vue fixe ou nous fait progresser dans un contenu dont on ne contrôle pas le cheminement.

La liberté dont on dispose, c'est de pouvoir orienter le champ de vision des lunettes d'immersion – qui est, par exemple, de 100 degrés sur le prototype Oculus Rift DK2 – sur toute la surface de la captation.

Ici, une immersion au Japon réalisée par le studio canadien Polygon Window.

Je parle de 360° par convenance car le format 180° est également privilégié pour les casques. Notamment, par souci d'économie sur les ressources matériels et logiciels.

En effet, le fait que le premier outil d'immersion grand public, en l'occurence le Samsung Gear VR, soit mobile implique certaines contraintes. Notamment, en terme de batterie et de surchauffe de l'appareil.

Mais de nouveaux standards de compression, comme ceux développés par la startup NextVR, pourront permettre le streaming d'évènements captés en très haute résolution sur 360°, même sur des casques mobiles. 

Dans le même temps, nous allons sans doute assister à une démocratisation des outils de capture vidéos 360°, faciles à exporter dans un navigateur ou sur une plateforme de partage VR. Facebook – propriétaire d'Oculus VR oblige – étudie déjà ces nouvelles manières de partager ses évènements en passant par la vidéo immersive.

Samsung ne s'y est pas trompé et a proposé récemment le teaser d'un outil de capture pour partager sa "réalité" à distance, et en streaming qui plus est. Une sorte de téléporteur. L'appareil – qui n'est encore qu'un projet – entend délivrer une experience 360°, doublée d'une 3D stéréoscopique – que l'on retrouve dans les films 3D.

Cinematic Reality, Cinemersia et Super Cinema

La vidéo 360° immersive est aussi l'apanage d'un story-telling nouvelle génération, un nouveau cinéma, clament les plus enthousiastes.

En effet, le point fort de la VR, c'est la présence, cette sensation d'y être qui prendrait le pas sur la fameuse suspension consentie de l'incrédulité – Suspension of Disbelief –.

L’expression suspension consentie de l'incrédulité décrit l’opération mentale qu'effectue le lecteur ou le spectateur d'une œuvre de fiction qui accepte de mettre de côté son scepticisme.

Si la VR est bonne, comme dirait Palmer Luckey – le concepteur de l'Oculus Rift – et selon le principe que réalité = perception, le cerveau traiterait les images diffusées par le casque comme s'il s'agissait d'un environnement réel.

Ce qui fait dire au réalisateur Kris Milk : « Au lieu de masquer votre incrédulité, vous devrez désormais vous rappeler de ne pas croire ».

La vidéo 360° compte beaucoup sur une débauche de haute résolution pour créer les conditions de la présence. Pourtant, selon John Carmack, le directeur technique d'Oculus VR, cette sensation n'a pas besoin d'une réalité photo-réaliste pour être ressentie.

Dans tous les cas, présence ou pas, cela ne fait pas une histoire. Comment, en effet, faire en sorte que le spectateur porte son attention sur une action particulière et, comment donner une dynamique à l'œuvre filmique sans le langage classique du cinéma ?  C'est le challenge que tente de relever la startup Jaunt et des sociétés de production telles que Condition One ou New Deal Studios

Par opposition au cinéma immersif – Cinemersia –, regarder une œuvre filmique sur un écran est appelé proscenium. Voici ce que disait à ce propos Georges Lucas à Steven Spielberg en 2013 : « On doit se débarrasser du proscenium. On ne sera jamais totalement immergé tant que nous regarderons un carré, que se soit sur un écran d'ordinateur ou un écran de cinéma. On doit mettre l'audience au cœur de l'expérience, c'est ça le futur. »

Les détracteurs disent qu'en dépouillant le cinéma de toutes ses techniques de story-telling, la VR – Virtual Reality – ne peut être vu comme le futur du cinéma et d'ajouter ce sera le cas quand il y aura des gens à l'intérieur. Ainsi, si on reprend le plaidoyer de Georges Lucas, on constate une différence d'interprétation sur ce qui définit "à l'intérieur".

Car à l'heure actuelle, le spectateur VR n'a que ses yeux pour pleurer – si j'ose dire – assis ou debout, il est fixé au centre de la scène et ne peut pas interagir avec son environnement. Il est donc moins "à l'intérieur" que pourrait l'être le visiteur d'un monde virtuel.

Transporter les fondamentaux du cinéma en immersion n'est peut-être la solution, ses vertus hypnotiques sont d'ailleurs grandement favorisés par la passivité du spectateur et l'oubli de son corps. Or, lorsque vous être immergé, le conflit entre le déplacement de la caméra et votre propre immobilité peut être un facteur de démobilisation.

C'est précisément l'objet de cet article, la traduction/captation du réel devra sans doute aller plus loin qu'une simple 2D multi-directionnelle, même stéréoscopique. Elle devra, à mon sens, capter les champs lumineux, les coordonnées de la scène afin de pouvoir s'y déplacer et même pouvoir y agir, le cas échéant.

Il faut donc se tourner vers d'autres solutions de capture que je résumerais sous l'intitulé space and motion – espace et mouvement –.

 Magic Leap

Magic Leap

On pense bien sûr au rachat récent de la startup Magic Leap par Google. Ce que les fondateurs de Magic Leap appelle Cinematic reality est une analyse omni-directionnelle des rayons que constituent le champ lumineux, le Light Field, sur lequel, on peut faire courir des éléments computer-generated très réalistes. Ils adaptent leurs tailles en fonction de la distance.

Mais ici, l'environnement visualisé par le spectateur n'est pas scanné, c'est la réalité elle-même qui s'affiche en arrière plan, comme à travers les Google Glass. L'analyse du light field offre en tâche de fond la possibilité d'y insérer des objets fictifs qui sont projetés dans la rétine. On en est pas encore là.

Qui plus est, à ceux qui souhaitent confondre les notions de réalité virtuelle et de réalité augmentée, il convient d'opposer que si la réalité augmentée intègre des éléments exogènes dans le réel, elle ne transporte pas. Intrinsèquement, elle ne peut vous plonger dans une réalité partagée par autrui.

Sortir de l'image pour entrer dans la réalité

Pour évoquer une captation qui serait plus fidèle aux caractéristiques volumétriques du réel, il faut plutôt aller voir, toujours chez Google, du côté de Project Tango, qui, à grand renfort de capteurs, analyse et affiche une structure de la réalité en temps réel. On voit ici le mapping 3D d'une pièce, réalisé avec le prototype de Google, à l'aide d'une application développée par la société Matterport.

On retrouve sur project Tango le couple émetteur infrarouge / caméra, comme sur la kinect ou encore Leap Motion ; plus largement, cette technique est appelée Structured-light 3D scanning. Pour faire simple, la scène est éclairée par un motif invisible à l'œil nu et la caméra interprète les déformations du motif.

Mais, au-delà de la technique, c'est surtout la fusion de l'outil de capture et de rendu dans un même appareillage portable, la démocratisation du process qui devrait suivre, la connection à l'internet des objets, à la sphère DIY, qui permettront d'interfacer la réalité avec l'utilisateur.

Ainsi, on peut par exemple imaginer se trouver dans le rendu virtuel d'une pièce et si l'on associe objets virtuels et objets réels, on pourra, par exemple, allumer une lampe réelle en cliquant sur la lampe virtuelle.

Ce qui en question, s'agissant d'être compétitif, à terme, avec la vidéo, c'est le taux de rafraichissement du scan quand on y ajoute une reconstruction sous forme de polygones, le plaquage de textures et pourquoi pas une reconnaissance de patterns, qui pourrait permettre d'y insérer des éléments d'interaction à la volée.

Bref, actuellement même s'il on peut envisager le déplacement dans une architecture de points captée en temps réel, la reconstruction 3D doit passer par un traitement asynchrone et s'affiche à l'aide d'une configuration graphique sérieuse.

Affichage en temps réel vs rendu préalable

Le studio hollywoodien Dreamworks revendique l'appellation Super Cinema pour designer ses futures animations dédiées à des casques d'immersion. Le problème principal est posé par le head-tracking – le suivi des mouvements de la tête – qui est une spécificité essentielle de la VR –.

Le rendu en temps réel est généralement requis pour des contenus interactifs comme les jeux vidéo ; puisque le joueur a l'option de se déplacer et de regarder dans toutes les directions, le jeu doit afficher une image à la fois.

Même si on peut combler le frame rate avec des algorithmes un peu à la manière de l'hyperlapse ou Google Street View, la fluidité réside entre 30 et 60 images secondes en ce qui concerne la VR. Seuls les ordinateurs peuvent faire cela rapidement ; certainement pas un casque motorisé par un smartphone.

La solution envisagée par Dreamworks serait donc de pré-fabriquer des cadres 3D et de les projeter dans une sphère. InnerspaceVR, une startup française, créée par Balthazar Auxietre, utilise CryEngine pour produire un pré-rendu destiné à des appareils peu puissants comme le Gear VR.

Mais en nous projetant vers une infinité de ressources matériel, la tendance est que, quitte à être immergé dans une réalité, il convient de devenir acteur de la dynamique de cette réalité. L'action dynamique étant un puissant vecteur de présence.

Je lisais un article intéressant sur une expérience d'écholocation chez l'homme. L'écholocation est la capacité pour l'homme et certains animaux – dauphin, chauve-souris, chouettes, etc – de se repérer dans l'espace en émettant un son et en analysant l'écho de ce même son. –  

 Université Louis-et-Maximilien de Munich

Université Louis-et-Maximilien de Munich

L'expérience mettait en scène des individus qui devaient se repérer au moyen de clics sonores dans un corridor virtuel où l'on pouvait débrayer les mouvements de la tête et du corps indépendamment : la conclusion de l'expérience tend à prouver que l'écholocation ne concerne pas seulement les oreilles, elle fonctionne lorsque le corps est en mouvement.

Ce qui est intéressant ici, c'est l'idée que lorsqu'il est incorporé dans un espace – on ne parle plus d'image –, le sujet ne doit pas être considéré seulement comme un receptacle passif de données.

Le son spatialisé, par exemple, s'oriente peu à peu vers la technique du Wave field synthesis qui n'est plus basée sur un canal mais attachée à des objets émetteurs. Ainsi, si on associe cette capture de l'environnement acoustique à une réalité navigable, le sujet en devient acteur en orientant sa tête ou en se rapprochant de la source.

Selon le théoricien Sean CarrollEverything is made of fields – tout est fait de champs –

L'avenir est donc à la capture de champs et pour revenir au cinéma, la cartographie de la profondeur de champ permet, par exemple, de créer des caméras virtuelles pour réaliser des effets qui demandaient auparavant de nombreuses caméras physiques – On pense au bullet time –.

Les caméras ne filment plus seulement, elles calculent. Elles construisent les parties invisibles, un peu à l'image du cerveau qui complète la réalité que nous percevons pour en faire une expérience fluide.

 Tangible Media Group

Tangible Media Group

Ce passage de la 2D à la 3D invite à confondre les espaces physiques et virtuels dans un même corpus. Un département d'étude du MIT décrit la frontière poreuse entre l'espace numérique et le monde physique en utilisant la métaphore de l'iceberg.

Les chercheurs ont donné le nom de tangible bits – bits tangibles – aux éléments d'entre-deux. Cette nomenclature permet de mieux couvrir le champ d'action des interfaces.

Dans cette démonstration de réalité mixte, l'iPad sert à la fois de révélateur et de cadre. Cela évoque bien les nouveaux paradigmes du story-telling immersif. Ce qu'expliquait déjà en 2009, l'artiste stéréographe Bernard Mendiburu dans son livre 3D Movie Making :

« Tout ce qui était dans l'axe de la caméra cheminait vers l'image 2D, désormais, c'est l'axe de la caméra qui se transporte elle-même dans le théâtre 3D, avec tous ses composants et ses éléments, répartis autour de l'axe camera.

L'écran n'est plus l'univers où l'histoire se déroule, c'est une fenêtre. Cette fenêtre est une surface de pivot d'un espace où la scène se déroule et évolue. Ce n'est pas une surface physique, mais une surface virtuelle que vous pouvez, et devrez, déplacer de manière dynamique, pour créer et animer les volumes dont vous avez besoin pour créer votre histoire. »

En conclusion, puisque la VR partage les mêmes espaces que le réel, la logique voudrait que l'on combine tout ce que compte le réel comme outils de traduction de la réalité ; le seul obstacle est de réduire les temps de traitement pour se rapprocher de l'instantané. Le temps réel étant l'une des caractéristiques les plus éminentes de la réalité.

Comment