Key points are not available for this paper at this time.
Gerar agarramentos humanos naturais requer a consideração não apenas da geometria do objeto, mas também de informações semânticas. Dependendo unicamente da forma do objeto para a geração de agarre limita as aplicações de métodos anteriores em tarefas subsequentes. Este artigo apresenta um novo método de geração de agarre baseado em semântica, denominado SemGrasp, que gera uma pose de agarre humano estática ao incorporar informações semânticas na representação do agarre. Introduzimos uma representação discreta que alinha o espaço de agarramento com o espaço semântico, permitindo a geração de posturas de agarre de acordo com instruções linguísticas. Um Modelo de Linguagem Multimodal Grande (MLLM) é posteriormente ajustado, integrando objeto, agarramento e linguagem dentro de um espaço semântico unificado. Para facilitar o treinamento do SemGrasp, compilamos um conjunto de dados em grande escala, alinhado com texto de agarramento, chamado CapGrasp, que apresenta cerca de 260 mil legendas detalhadas e 50 mil agarros diversos. Os resultados experimentais demonstram que o SemGrasp gera eficientemente agarramentos humanos naturais em alinhamento com intenções linguísticas. Nosso código, modelos e conjunto de dados estão disponíveis publicamente em: https://kailinli.github.io/SemGrasp.
Li et al. (Qui,) estudaram esta questão.