Arrêt de service programmé du vendredi 10 juin 16h jusqu’au lundi 13 juin 9h. Pour en savoir plus
Accéder directement au contenu Accéder directement à la navigation
Thèse

Object viewpoint estimation in the wild

Résumé : Le but de cette thèse est de développer des approches d’apprentissage profond pour estimer la pose 3D (point de vue) d’un objet représenté dans une image dans différentes situations: (i) la localisation de l’objet dans l’image et le modèle 3D exact de l’objet correspondant sont connus, (ii) la localisation et la classe d’objet sont prédits et un exemplaire de modèle 3D est fourni pour chaque classe d’objets, et (iii) les modèles 3D ne sont pas pris en compte et seul la localisation de l’objet est prédite sans que l’objet soit classé dans une catégorie spécifique. Les principales contributions de cette thèse sont les suivantes. Tout d’abord, nous proposons une approche d’apprentissage profond pour l’estimation du point de vue sans catégorie. Cette approche permet d’estimer la pose de tout objets conditionné uniquement sur son modèle 3D, qu’il soit similaire ou non aux objets vus au moment de l’apprentissage. Le réseau proposé contient des modules distincts pour l’extraction de caractéristiques d’image, l’extraction de caractéristiques de forme et la prédiction de pose. Ces modules peuvent avoir différentes variantes pour différentes représentations de modèles 3D, mais s’intègrent dans une architecture entraînable de bout en bout. Deuxièmement, pour permettre l’inférence sans modèle d’objet 3D exact, nous développons une approche d’estimation du point de vue basée sur des exemples de classe qui apprend à conditionner la prédiction du point de vue à des caractéristiques de la classe correspondante extraite de quelques modèles 3D pendant l’entraînement. Cette approche diffère de l’approche précédente en ce sens que nous extrayons des caractéristiques générales pour chaque classe au lieu de les traiter indépendamment pour chaque objet. Nous montrons que l’approche proposée est robuste par rapport à la précision des modèles 3D fournis et qu’elle peut être adaptée rapidement à de nouvelles classes avec seulement quelques exemples étiquetés. Troisièmement, nous définissons un cadre simple mais efficace qui traîte à la fois la détection d’objets et l’estimation du point de vue à partir de seulement un petit nombre d’images d’apprentissage. Nous exploitons, dans un contexte de méta-apprentissage, des informations de classe spécifiques aux tâches et présentes dans des bases de données existants, telles que des images avec des boîtes 2D pour la détection d’objets et des exemplaires de modèle 3D de différentes classes pour l’estimation du point de vue. De plus, nous proposons une évaluation conjointe de la détection d’objets et de l’estimation du point de vue pour le cas d’un très petit jeu de données d’apprentissage. Enfin, nous développons une approche d’estimation du point de vue d’objet indépendante de la classe qui estime le point de vue directement à partir d’une représentation de l’image, où l’espace de représentations est optimisé pour l’estimation de la pose d’objet grâce à un apprentissage contrastif sensible à la géométrie. Plutôt que de rassembler aveuglément les représentations d’un même objet dans différentes vues augmentées et d’écarter les représentations d’objets différents tout en ignorant la différence de pose entre eux, nous proposons une fonction de perte contrastive sensible à la pose qui éloignent entre elles les représentations d’objets ayant des poses différentes, ignorant la classe de ces objets. En partageant les poids du réseau entre toutes les catégories pendant l’entraînement, nous obtenons un réseau d’estimation de point de vue indépendant de la classe qui peut fonctionner sur des objets de n’importe quelle catégorie. Notre méthode obtient des résultats à l’état de l’art pour l’estimation de pose 3D dans les benchmarks Pascal3D+, ObjectNet3D et Pix3D, à la fois pour chaque jeu de données indépendamment et entre jeux de données (en entraînant sur l’un et en testant sur l’autre).
Liste complète des métadonnées

https://pastel.archives-ouvertes.fr/tel-03541699
Contributeur : Abes Star :  Contact
Soumis le : lundi 24 janvier 2022 - 18:38:14
Dernière modification le : dimanche 13 février 2022 - 09:15:17
Archivage à long terme le : : mardi 26 avril 2022 - 08:33:06

Fichier

TH2021ENPC0021.pdf
Version validée par le jury (STAR)

Identifiants

  • HAL Id : tel-03541699, version 1

Collections

Citation

Yang Xiao. Object viewpoint estimation in the wild. Computer Vision and Pattern Recognition [cs.CV]. École des Ponts ParisTech, 2021. English. ⟨NNT : 2021ENPC0021⟩. ⟨tel-03541699⟩

Partager

Métriques

Consultations de la notice

88

Téléchargements de fichiers

2