What type of study is this?

This is a Quantitative Study study.

October 12, 2025Open Access

Entendendo a Influência de Dados Sintéticos para Embedders de Texto

Key Points

Dados sintéticos aprimoram o desempenho do embedder de texto, mas seus efeitos são localizados em conjuntos de dados específicos.
As melhorias dos dados sintéticos são inconsistentes e podem até prejudicar o desempenho em tarefas alternativas.
A crítica destaca as limitações de depender exclusivamente de dados sintéticos para uma generalização robusta do modelo.
A liberação pública do conjunto de dados sintéticos permite novos estudos sobre seu papel nas estratégias de treinamento de modelos.

Abstract

O progresso recente no desenvolvimento de embedders de texto de propósito geral tem sido impulsionado pelo treinamento em corpora em constante crescimento de dados sintéticos gerados por LLM. No entanto, não existe um conjunto de dados sintético disponível publicamente, o que representa uma barreira para estudar seu papel na generalização. Para abordar essa questão, reproduzimos e liberamos publicamente os dados sintéticos propostos por Wang et al. (Mistral-E5). Nossos dados sintéticos são de alta qualidade e levam a melhorias consistentes no desempenho. Em seguida, examinamos criticamente onde exatamente os dados sintéticos melhoram a generalização do modelo. Nossa análise revela que os benefícios dos dados sintéticos são escassos e altamente localizados a conjuntos de dados individuais. Além disso, observamos compensações entre o desempenho em diferentes categorias e dados que beneficiam uma tarefa e prejudicam o desempenho em outra. Nossas descobertas destacam as limitações das abordagens atuais de dados sintéticos para a construção de embedders de propósito geral e desafiam a noção de que o treinamento em dados sintéticos leva a modelos de embedding mais robustos em diferentes tarefas.

Entendendo a Influência de Dados Sintéticos para Embedders de Texto

Key Points

Abstract

Cite This Study

Also Consider

Also Consider