Key points are not available for this paper at this time.
A edição de cenas 3D orientada por texto ganhou atenção significativa devido à sua conveniência e facilidade de uso. No entanto, os métodos existentes ainda carecem de controle preciso da aparência e localização especificadas do resultado da edição devido às limitações inerentes da descrição textual. Para isso, propomos uma estrutura de edição de cena 3D, o TIP-Editor, que aceita tanto prompts de texto quanto de imagem e uma caixa delimitadora 3D para especificar a região de edição. Com o prompt de imagem, os usuários podem especificar convenientemente a aparência/style detalhada do conteúdo alvo em complemento à descrição textual, permitindo um controle preciso da aparência. Especificamente, o TIP-Editor emprega uma estratégia de personalização 2D passo a passo para aprender melhor a representação da cena existente e da imagem de referência, na qual é proposta uma perda de localização para incentivar o posicionamento correto dos objetos conforme especificado pela caixa delimitadora. Além disso, o TIP-Editor utiliza um splatting Gaussiano 3D explícito e flexível como representação 3D para facilitar a edição local enquanto mantém o fundo inalterado. Experimentos extensivos demonstraram que o TIP-Editor realiza edições precisas seguindo os prompts de texto e imagem na região da caixa delimitadora especificada, superando consistentemente as linhas de base em qualidade de edição e em alinhamento com os prompts, qualitativa e quantitativamente.
Zhuang et al. (Sex,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: