Mamba ganhou recentemente atenção generalizada como um modelo de backbone para modelagem de nuvens de pontos, aproveitando uma arquitetura de espaço de estado que possibilita modelagem eficiente de sequências globais com complexidade linear. No entanto, sua falta de viés indutivo local limita sua capacidade de capturar estruturas geométricas detalhadas em dados 3D. Para abordar essa limitação, propomos o PointLAMA, uma estrutura de pré-treinamento de nuvens de pontos que combina serialização de nuvens de pontos ciente da tarefa, um codificador híbrido com blocos de Atenção Latente integrada e Mamba, e um mecanismo de difusão condicional baseado no backbone Mamba. Especificamente, a serialização de nuvens de pontos ciente da tarefa utiliza curvas de preenchimento espacial Hilbert/Trans-Hilbert e ordenação por eixos para alinhar estruturalmente os tokens de pontos para tarefas de classificação e segmentação, respectivamente. Nosso bloco de Atenção Latente leve apresenta um módulo de Atenção Latente Multi-head Pontual (PMLA), que é especificamente projetado para se alinhar com a arquitetura Mamba, aproveitando as características do espaço latente compartilhado do PMLA e da Mamba. Isso permite uma modelagem de contexto local aprimorada enquanto preserva a eficiência geral. Para melhorar ainda mais o aprendizado de representação, incorporamos um mecanismo de difusão condicional durante o pré-treinamento, que remove ruídos de sequências de características perturbadas sem depender de reconstrução pontual explícita. Resultados experimentais demonstram que o PointLAMA alcança desempenho competitivo em vários conjuntos de dados de referência com contagem mínima de parâmetros e FLOPs, validando sua eficácia para pré-treinamento eficiente de nuvens de pontos.
Lin et al. (Quarta-feira,) estudaram essa questão.