Key points are not available for this paper at this time.
Um dos principais catalisadores que impulsionam os avanços em inteligência artificial (IA) e aprendizado de máquina (AM) é a disponibilidade de conjuntos de dados massivos e curados. Uma técnica comumente usada para curar esses conjuntos de dados massivos é o crowdsourcing, onde os dados são enviados a múltiplos anotadores. Os rótulos produzidos pelos anotadores são então fundidos para servir a tarefas de aprendizado e inferência em downstream. Esse processo de anotação frequentemente cria rótulos barulhentos devido a várias razões, como a expertise limitada ou a falta de confiabilidade dos anotadores, entre outros. Portanto, um dos objetivos centrais do crowdsourcing é desenvolver métodos que mitiguem efetivamente o impacto negativo desse ruído de rótulo nas tarefas de aprendizado. Este artigo apresenta avanços no aprendizado a partir de rótulos barulhentos de crowdsourcing. O foco está em modelos-chave de crowdsourcing e seus tratamentos metodológicos, desde modelos estatísticos clássicos até abordagens mais recentes baseadas em aprendizado profundo, enfatizando insights analíticos e desenvolvimentos algorítmicos. Em particular, este artigo revisa as conexões entre a teoria e métodos de processamento de sinais (SP), como identificabilidade de fatoração de tensor e matriz não negativa, e soluções novas e fundamentadas para desafios de longa data no crowdsourcing -- mostrando como as perspectivas de SP impulsionam os avanços dessa área. Além disso, este artigo aborda tópicos emergentes que são críticos para o desenvolvimento de sistemas de IA/AM de ponta, como crowdsourcing em aprendizado por reforço com feedback humano (RLHF) e otimização de preferência direta (DPO), que são técnicas-chave para o ajuste fino de modelos de linguagem grandes (LLMs).
Ibrahim et al. (Ter,) estudaram esta questão.