Resumo Conjuntos de dados mistos em larga escala e multidimensionais são caracterizados pela onipresente "distribuição de longa cauda." Este fenômeno resulta em esparsidade de dados em subespaços definidos por combinações de atributos multidimensionais. Essa esparsidade compromete severamente a análise e os insights baseados em dados. Métodos existentes de aumento de dados focam principalmente em dimensões únicas, ignorando as complexas correlações multidimensionais intrínsecas do mundo real, o que leva a amostras geradas que carecem de lógica e realismo. Para abordar esse desafio, propomos um framework sistemático, sob demanda e de aumento de amostras de forma detalhada. Nossa ideia central é localizar e aumentar precisamente as regiões de esparsidade de dados a partir de uma perspectiva combinatória multidimensional. Para dados textuais, desenhamos dois modos flexíveis de aumento. O primeiro, "aumento por escopo de subconjunto", adota uma estratégia de fusão de modelos e atualizações incrementais. O segundo, "aumento por tópico", propõe um algoritmo de busca heurística baseado no paradigma "Explorar-Explorar." Para dados numéricos, pré-construímos um índice de distribuição global para atingir uma identificação eficiente de intervalos escassos. Na fase de geração de amostras, combinamos Modelos de Linguagem Grande, Geração Aumentada por Recuperação e técnicas de Cadeia de Pensamento para garantir que as amostras geradas atendam a padrões de alta fidelidade em lógica semântica e estilo contextual. Experimentos extensivos em conjuntos de dados do mundo real demonstram que nosso método supera abordagens de referência em velocidade de resposta a consultas e eficiência na descoberta de regiões escassas, enquanto mantém coerência de tópico e precisão.
Wu et al. (Qui,) estudaram esta questão.