A reconstrução de cena de ponta a ponta baseada em DUSt3R mostrou resultados promissores em SLAM visual denso. No entanto, a maioria dos métodos existentes utiliza apenas pares de imagens para estimar mapas de pontos, negligenciando a memória espacial e a consistência global. Para tal, introduzimos o GRS-SLAM3R, um framework de SLAM de ponta a ponta para reconstrução densa de cena e estimativa de pose a partir de imagens RGB, sem qualquer conhecimento prévio da cena ou dos parâmetros da câmera. Diferentemente dos frameworks existentes baseados em DUSt3R, que operam em todos os pares de imagens e preveem mapas de pontos por par em quadros de coordenadas locais, nosso método suporta entrada sequencial e estima incrementalmente nuvens de pontos em escala métrica na coordenada global. Para melhorar a correlação espacial consistente, usamos um estado latente para memória espacial e projetamos um módulo de atualização gated baseado em transformador para redefinir e atualizar a memória espacial que agrega e rastreia continuamente informações 3D relevantes entre os quadros. Além disso, dividimos a cena em submapas, aplicamos alinhamento local dentro de cada submapa e registramos todos os submapas em um quadro comum do mundo usando restrições relativas, produzindo um mapa globalmente consistente. Experimentos em vários conjuntos de dados mostram que nosso framework consegue uma precisão de reconstrução superior, mantendo desempenho em tempo real.
Shen et al. (Sun,) estudaram essa questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: