O progresso recente no desenvolvimento de embedders de texto de propósito geral tem sido impulsionado pelo treinamento em corpora em constante crescimento de dados sintéticos gerados por LLM. No entanto, não existe um conjunto de dados sintético disponível publicamente, o que representa uma barreira para estudar seu papel na generalização. Para abordar essa questão, reproduzimos e liberamos publicamente os dados sintéticos propostos por Wang et al. (Mistral-E5). Nossos dados sintéticos são de alta qualidade e levam a melhorias consistentes no desempenho. Em seguida, examinamos criticamente onde exatamente os dados sintéticos melhoram a generalização do modelo. Nossa análise revela que os benefícios dos dados sintéticos são escassos e altamente localizados a conjuntos de dados individuais. Além disso, observamos compensações entre o desempenho em diferentes categorias e dados que beneficiam uma tarefa e prejudicam o desempenho em outra. Nossas descobertas destacam as limitações das abordagens atuais de dados sintéticos para a construção de embedders de propósito geral e desafiam a noção de que o treinamento em dados sintéticos leva a modelos de embedding mais robustos em diferentes tarefas.
Springer et al. (Sun,) estudaram esta questão.
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: