Knowledge Tree

thesis

Audio and visual rendering with perceptual foundations

Defense date:

Jan. 1, 2009

Edit

Institution:

Nice

Disciplines:

Computer sciences

Authors:

Nicolas Bonneel

Directors:

George Drettakis

Abstract EN:

Realistic visual and audio rendering still remains a technical challenge. Indeed, typical computers do not cope with the increasing complexity of today’s virtual environments, both for audio and visuals, and the graphic design of such scenes require talented artists. In the first part of this thesis, we focus on audiovisual rendering algorithms for complex virtual environments which we improve using human perception of combined audio and visual cues. In particular, we developed a full perceptual audiovisual rendering engine integrating an efficient impact sounds rendering improved by using our perception of audiovisual simultaneity, a way to cluster sound sources using human’s spatial tolerance between a sound and its visual representation, and a combined level of detail mechanism for both audio and visuals varying the impact sounds quality and the visually rendered material quality of the objects. All our crossmodal effects were supported by the prior work in neuroscience and demonstrated using our own experiments in virtual environments. In a second part, we use information present in photographs in order to guide a visual rendering. We thus provide two different tools to assist “casual artists” such as gamers, or engineers. The first extracts the visual hair appearance from a photograph thus allowing the rapid customization of avatars in virtual environments. The second allows for a fast previewing of 3D scenes reproducing the appearance of an input photograph following a user’s 3D sketch. We thus propose a first step toward crossmodal audiovisual rendering algorithms and develop practical tools for non expert users to create virtual worlds using photograph’s appearance.

Abstract FR:

Le rendu audio-visuel réaliste demeure un challenge technique. En effet, les ordinateurs courants ne supportent pas la complexité croissante des environnements virtuels rencontrés de nos jours, à la fois pour l'audio et le visuel, et la création de ces environnements virtuels requiert de talentueux artistes. Dans la première partie de cette thèse, nous nous concentrerons sur les algorithmes de rendu audio-visuels pour les environnements virtuels complexes, que nous avons améliorés en utilisant les limitations de la perception humaine des indices visuels et sonores combinés. En particulier, nous avons développé un moteur de rendu audiovisuel entièrement perceptif, intégrant une synthèse efficace des bruits d'impact améliorée grâce à notre perception de la simultanéité audiovisuelle; une manière de regrouper les sources sonores basée sur notre tolérance spatiale entre un son et sa représentation visuelle; et un mécanisme de sélection de niveaux de détails de matériaux pour le rendu audio et visuel lorsqu'on varie la qualité des sons d'impact et la qualité visuelle du matériau. Tous nos effets crossmodaux sont supportés par l'état de l'art en neuroscience, et démontrés par nos propres expériences dans des environnements virtuels. Dans une seconde partie, nous utilisons les informations présentes dans des photographies afin de guider le rendu visuel. Nous fournissons deux outils pour assister les "artistes occasionnels" tels que les joueurs ou les ingénieurs. Le premier extrait l'apparence visuelle des cheveux à partir d'une photographie, permettant ainsi la personnalisation d'avatars dans les environnements virtuels. Le second permet une prévisualisation rapide de scènes tridimensionnelles en reproduisant l'apparence d'une photographie donnée, tout en suivant un croquis 3D de l'utilisateur. Nous proposons ainsi un premier pas vers des algorithmes de rendu audiovisuel crossmodal, et avons développé des outils pratiques pour des utilisateurs non experts afin de créer des mondes virtuels basés sur l'apparence de photographies.