What question did this study set out to answer?

O objetivo é melhorar a análise baseada em dados abordando a esparsidade de dados em conjuntos de dados multidimensionais por meio de aumento direcionado.

April 10, 2026Open Access

Aumento Sob Demanda para Dados de Longa Cauda Através de um Framework de Identificação de Esparsidade Driven por Subconjuntos e Tópicos

Key Points

O objetivo é melhorar a análise baseada em dados abordando a esparsidade de dados em conjuntos de dados multidimensionais por meio de aumento direcionado.
Proposto um framework sistemático de aumento de amostras sob demanda.
Desenvolvidos dois modos de aumento para dados textuais: por escopo de subconjunto e por tópico.
Criado um índice de distribuição global para identificação eficiente de intervalos escassos em dados numéricos.
Utilizados grandes modelos de linguagem e geração aumentada por recuperação durante a geração de amostras.
Superou abordagens de referência em velocidade de resposta a consultas.
Melhorou a eficiência na descoberta de regiões escassas.
Manteve alta coerência de tópico e precisão nas amostras geradas.

Abstract

Resumo Conjuntos de dados mistos em larga escala e multidimensionais são caracterizados pela onipresente "distribuição de longa cauda." Este fenômeno resulta em esparsidade de dados em subespaços definidos por combinações de atributos multidimensionais. Essa esparsidade compromete severamente a análise e os insights baseados em dados. Métodos existentes de aumento de dados focam principalmente em dimensões únicas, ignorando as complexas correlações multidimensionais intrínsecas do mundo real, o que leva a amostras geradas que carecem de lógica e realismo. Para abordar esse desafio, propomos um framework sistemático, sob demanda e de aumento de amostras de forma detalhada. Nossa ideia central é localizar e aumentar precisamente as regiões de esparsidade de dados a partir de uma perspectiva combinatória multidimensional. Para dados textuais, desenhamos dois modos flexíveis de aumento. O primeiro, "aumento por escopo de subconjunto", adota uma estratégia de fusão de modelos e atualizações incrementais. O segundo, "aumento por tópico", propõe um algoritmo de busca heurística baseado no paradigma "Explorar-Explorar." Para dados numéricos, pré-construímos um índice de distribuição global para atingir uma identificação eficiente de intervalos escassos. Na fase de geração de amostras, combinamos Modelos de Linguagem Grande, Geração Aumentada por Recuperação e técnicas de Cadeia de Pensamento para garantir que as amostras geradas atendam a padrões de alta fidelidade em lógica semântica e estilo contextual. Experimentos extensivos em conjuntos de dados do mundo real demonstram que nosso método supera abordagens de referência em velocidade de resposta a consultas e eficiência na descoberta de regiões escassas, enquanto mantém coerência de tópico e precisão.

Bookmark

View Full Paper

Bookmark

View Full Paper

Aumento Sob Demanda para Dados de Longa Cauda Através de um Framework de Identificação de Esparsidade Driven por Subconjuntos e Tópicos

Key Points

Abstract

Cite This Study