Learning 3D Generation and Matching

Thibault Groueix

Résumé

The goal of this thesis is to develop deep learning approaches to model and analyse 3D shapes. Progress in this field could democratize artistic creation of 3D assets which currently requires time and expert skills with technical software. We focus on the design of deep learning solutions for two particular tasks, key to many 3D modeling applications: single-view reconstruction and shape matching. A single-view reconstruction (SVR) method takes as input a single image and predicts a 3D model of the physical world which produced that image. SVR dates back to the early days of computer vision. In particular, in the 1960s, Lawrence G. Roberts proposed to align simple 3D primitives to an input image making the assumption that the physical world is made of simple geometric shapes like cuboids. Another approach proposed by Berthold Horn in the 1970s is to decompose the input image in intrinsic images and use those to predict the depth of every input pixel. Since several configurations of shapes, texture and illumination can explain the same image, both approaches need to make assumptions on the distribution of textures and 3D shapes to resolve the ambiguity. In this thesis, we learn these assumptions from large-scale datasets instead of manually designing them. Learning SVR also allows to reconstruct complete 3D models, including parts which are not visible in the input image. Shape matching aims at finding correspondences between 3D objects. Solving this task requires both a local and global understanding of 3D shapes which is hard to achieve. We propose to train neural networks on large-scale datasets to solve this task and capture knowledge implicitly through their internal parameters. Shape matching supports many 3D modeling applications such as attribute transfer, automatic rigging for animation, or mesh editing. The first technical contribution of this thesis is a new parametric representation of 3D surfaces which we model using neural networks. The choice of data representation is a critical aspect of any 3D reconstruction algorithm. Until recently, most of the approaches in deep 3D model generation were predicting volumetric voxel grids or point clouds, which are discrete representations. Instead, we present an alternative approach that predicts a parametric surface deformation i.e. a mapping from a template to a target geometry. To demonstrate the benefits of such a representation, we train a deep encoder-decoder for single-view reconstruction using our new representation. Our approach, dubbed AtlasNet, is the first deep single-view reconstruction approach able to reconstruct meshes from images without relying on an independent postprocessing. And it can perform such a reconstruction at arbitrary resolution without memory issues. A more detailed analysis of AtlasNet reveals it also generalizes better to categories it has not been trained on than other deep 3D generation approaches. Our second main contribution is a novel shape matching approach based purely on reconstruction via deformations. We show that the quality of the shape reconstructions is critical to obtain good correspondences, and therefore introduce a test-time optimization scheme to refine the learned deformations. For humans and other deformable shape categories deviating by a near-isometry, our approach can leverage a shape template and isometric regularization of the surface deformations. As category exhibiting non-isometric variations, such as chairs, do not have a clear template, we also learn how to deform any shape into any other and leverage cycleconsistency constraints to learn meaningful correspondences. Our matching-by-reconstruction strategy operates directly on point clouds, is robust to many types of perturbations, and outperformed the state of the art by 15% on dense matching of real human scans.

L’objectif de cette thèse est de développer des approches d’apprentissage profond pour modéliser et analyser les formes 3D. Les progrès dans ce domaine pourraient démocratiser la création artistique de modèles 3D, actuellement réservée à quelques experts du domaine et couteuse en temps. En particulier, nous nous concentrons sur deux tâches clefs pour la modélisation 3D : reconstruire un modèle 3D à partir d’une seule image et mettre des modèles 3D en correspondance. Une méthode de reconstruction 3D à partir d’une seule image (SVR) est un algorithme qui prend comme entrée une seule image et prédit un modèle 3D du monde physique qui a produit cette image. Ce problème remonte aux premiers jours de la vision par ordinateur. Étant donné que plusieurs configurations de formes, de textures et d’éclairage peuvent expliquer la même image il faut formuler des hypothèses sur la distribution des textures et des formes 3D pour résoudre cette ambiguïté. Dans cette thèse, nous apprenons ces hypothèses directement à partir de grandes bases de données, au lieu de les concevoir manuellement ad hoc. Les méthodes d’apprentissage pour la SVR nous permettent aussi d’effectuer une reconstruction complète et réaliste de l’objet, y compris des parties qui ne sont pas visibles dans l’image d’entrée. La mise en correspondance de formes vise à établir des correspondances entre des objets 3D. Résoudre cette tâche nécessite à la fois une compréhension locale et globale des formes 3D qui est difficile à obtenir. Pour cela, nous proposons d’entrainer des réseaux neuronaux sur de grands jeux de données pour apprendre ces connaissances implicitement. La mise en correspondance de formes a de nombreuses applications en modélisation 3D telles que le transfert d’attribut, le gréement automatique pour l’animation ou l’édition de maillage. La première contribution technique de cette thèse est une nouvelle représentation paramétrique des surfaces 3D, que nous modélisons avec des réseaux neuronaux. Le choix de la représentation des données est un aspect critique de tout algorithme de reconstruction 3D. Jusqu’à récemment, la plupart des approches profondes en génération 3D prédisaient des grilles volumétriques de voxel ou des nuages de points, qui sont des représentations discrètes. Au lieu de cela, nous présentons une approche qui prédit une déformation paramétrique de surface, c’est-à-dire une déformation d’un modèle source vers une forme objectif. Pour démontrer les avantages de cette nouvelle représentation, nous l’utilisons pour la reconstruction 3D à partir d’une seule image. Notre approche, baptisée AtlasNet, est la première approche profonde de SVR capable de reconstruire des maillages à partir d’images sans s’appuyer sur un posttraitement, et peut le faire à une résolution arbitraire sans problèmes de mémoire. Une analyse plus détaillée d’AtlasNet révèle qu’il généralise également mieux que les autres approches par apprentissage aux catégories sur lesquelles il n’a pas été entrainé. Notre deuxième contribution est une nouvelle approche de correspondance de formes entièrement basée sur des reconstructions par déformation de surface. Nous montrons que la qualité des reconstructions 3D est essentielle pour obtenir de bonnes correspondances. Nous introduisons donc une optimisation au moment de l’inférence pour affiner les déformations apprises. Pour les humains et d’autres catégories de formes déformables qui différent d’une quasi-isométrie, notre approche peut tirer parti d’un modèle de catégorie et d’une régularisation des déformations vers l’isométrie. Comme les catégories présentant des variations non isométriques, telles que les chaises, n’ont pas de modèle clair, nous apprenons à déformer n’importe quelle forme en n’importe quelle autre et tirons parti des contraintes de cohérence du cycle pour apprendre des correspondances qui respectent la sémantique des objets. Notre approche de correspondance de formes fonctionne directement sur les nuages de points, elle est robuste à de nombreux types de perturbations et a surpassé l’état de l’art de 15% sur des scans d’humains réels.

Learning 3D Generation and Matching

Reconstruction et correspondance de formes par apprentissage

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager