Les avancées récentes dans l'Essai Virtuel (VITON) ont considérablement amélioré le réalisme des images et la préservation des détails des vêtements, grâce à des modèles de diffusion puissants de texte à image (T2I). Cependant, les méthodes existantes reposent souvent sur des masques fournis par l'utilisateur, introduisant complexité et dégradation des performances en raison d'entrées imparfaites, comme le montre la Fig.1(a). Pour remédier à cela, nous proposons un cadre VITON sans masque (MF-VITON) qui atteint un VITON réaliste en utilisant uniquement une image d'une seule personne et un vêtement cible, éliminant ainsi la nécessité de masques auxiliaires. Notre approche introduit un nouveau pipeline en deux étapes : (1) Nous exploitons les modèles VITON basés sur des masques existants pour synthétiser un ensemble de données de haute qualité. Cet ensemble de données contient des paires d'images de personnes diversifiées et réalistes et des vêtements correspondants, augmentées de fonds variés pour imiter des scénarios du monde réel. (2) Le modèle basé sur des masques pré-entraîné est affiné sur l'ensemble de données généré, permettant le transfert de vêtements sans dépendance aux masques. Cette étape simplifie les exigences d'entrée tout en préservant la texture et la fidélité de la forme des vêtements. Notre cadre atteint des performances de pointe (SOTA) en matière de précision de transfert de vêtements et de réalisme visuel. Il convient de noter que le modèle proposé sans masque surpasse significativement les approches basées sur des masques existants, établissant une nouvelle référence et démontrant un avantage substantiel par rapport aux approches précédentes. Pour plus de détails, visitez notre page projet : https://zhenchenwan.github.io/MF-VITON/.
Wan et al. (Mar,) ont étudié cette question.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: