Latent representations for facial images and video editing - Equipe Image, Modélisation, Analyse, GEométrie, Synthèse Accéder directement au contenu
Thèse Année : 2022

Latent representations for facial images and video editing

Représentations latentes pour l'édition d'images et de vidéos de visages

Xu Yao
  • Fonction : Auteur
  • PersonId : 1167544
  • IdRef : 264331877

Résumé

Learning to edit facial images and videos is one of the most popular tasks in both academia and industrial research. This thesis addresses the problem of face editing for the special case of high-resolution images and videos.In this thesis, we develop deep learning-based methods to perform facial image editing. Specifically, we explore the task using the latent representations obtained from two types of deep neural networks: autoencoder-based models and generative adversarial networks. For each type of method, we consider a specific image editing problem and propose an effective solution that outperforms the state-of-the-art.The thesis contains two parts. In part I, we explore image editing tasks via the latent space of autoencoders. We first consider the style transfer task between photos and propose an effective algorithm that is built on a pair of autoencoder-based networks. Second, we study the face age editing task for high-resolution images, using an encoder-decoder architecture. The proposed network encodes a face image to age-invariant feature representations and learns a modulation vector corresponding to a target age. Our approach allows for fine-grained age editing on high-resolution images in a single unified model.In part II, we explore the editing task via the latent space of generative adversarial models (GANs). First, we consider the problem of facial attribute disentangled editing on synthetic and real images, by proposing a latent transformation network that acts in the latent space of a pre-trained GAN model. We also proposed a video manipulation pipeline, to generalize the editing result to videos. Second, we investigate the problem of GAN inversion -- the projection of a real image to the latent space of a pretrained GAN. In particular, we propose a feed-forward encoder, which encodes a given image to a feature code and a latent code in one pass. The proposed encoder is shown to be more accurate and stable for image and video inversion, meanwhile, maintaining good editing capacities.
Apprendre à éditer des images et des vidéos de visages est un domaine particulièrement actif dans la recherche académique et industrielle. Cette thèse aborde le problème de l'édition de visages dans le cas particulier des images et des vidéos à haute résolution. Dans cette thèse, nous développons des méthodes basées sur l'apprentissage profond pour effectuer l'édition d'images faciales. Plus précisément, nous explorons la tâche en utilisant les représentations latentes obtenues à partir de deux types de réseaux neuronaux profonds : les modèles basés sur l'auto-encodage et les réseaux antagonistes génératifs (GAN). Pour chaque type de méthode, nous considérons un problème spécifique d'édition d'image et proposons une solution efficace qui surpasse l'état de l'art. La thèse comprend deux parties. Dans la partie I, nous explorons les tâches d'édition d'images via l'espace latent des autoencodeurs. Nous considérons d'abord la tâche de transfert de style entre les photos, et proposons un algorithme efficace qui est construit sur une paire de réseaux basés sur des autoencodeurs. Ensuite, nous étudions la tâche d'édition de l'âge du visage pour les images à haute résolution, en utilisant une architecture d'encodeur-décodeur. Le réseau proposé encode une image de visage en représentations de caractéristiques invariantes selon l'âge, et apprend un vecteur de modulation correspondant à un âge cible. Notre approche permet une édition fine de l'âge sur des images à haute résolution dans un seul modèle unifié.Dans la deuxième partie, nous explorons la tâche d'édition via l'espace latent des modèles antagonistes génératifs (GAN). Tout d'abord, nous considérons le problème de l'édition "démêlée" (disentangled) des attributs faciaux sur des images synthétiques et réelles, en proposant un réseau de transformation latent qui agit dans l'espace latent d'un modèle GAN pré-entraîné. Nous avons également proposé un pipeline de manipulation vidéo, afin de généraliser le résultat de l'édition aux vidéos. Deuxièmement, nous étudions le problème de l'inversion du GAN - la projection d'une image réelle dans l'espace latent d'un GAN pré-entraîné. En particulier, nous proposons un encodeur feed-forward, qui encode une image donnée en un code caractéristique et un code latent en une seule passe. L'encodeur proposé s'avère plus précis et plus stable pour l'inversion d'images et de vidéos, tout en conservant de bonnes capacités d'édition.
Fichier principal
Vignette du fichier
106432_YAO_2022_archivage.pdf (42 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03788218 , version 1 (26-09-2022)

Identifiants

  • HAL Id : tel-03788218 , version 1

Citer

Xu Yao. Latent representations for facial images and video editing. Computer Vision and Pattern Recognition [cs.CV]. Institut Polytechnique de Paris, 2022. English. ⟨NNT : 2022IPPAT019⟩. ⟨tel-03788218⟩
173 Consultations
7 Téléchargements

Partager

Gmail Facebook X LinkedIn More