Key points are not available for this paper at this time.
Resumo A Geração Aumentada por Recuperação (RAG) é um avanço recente em Respostas a Perguntas em Domínio Aberto (ODQA). O RAG foi treinado e explorado apenas com uma base de conhecimento externa baseada na Wikipedia e não está otimizado para uso em outros domínios especializados, como saúde e notícias. Neste artigo, avaliamos o impacto do treinamento conjunto dos componentes recuperador e gerador do RAG para a tarefa de adaptação de domínio em ODQA. Propomos o RAG-end2end, uma extensão do RAG que pode se adaptar a uma base de conhecimento específica do domínio, atualizando todos os componentes da base de conhecimento externa durante o treinamento. Além disso, introduzimos um sinal de treinamento auxiliar para injetar mais conhecimento específico do domínio. Este sinal auxiliar força o RAG-end2end a reconstruir uma frase dada acessando as informações relevantes da base de conhecimento externa. Nossa contribuição inovadora é que, ao contrário do RAG, o RAG-end2end realiza o treinamento conjunto do recuperador e do gerador para a tarefa final de QA e adaptação de domínio. Avaliamos nossa abordagem com conjuntos de dados de três domínios: COVID-19, Notícias e Conversas, e alcançamos melhorias significativas de desempenho em comparação com o modelo original do RAG. Nosso trabalho foi disponibilizado como código aberto através da biblioteca HuggingFace Transformers, atestando a credibilidade e consistência técnica de nosso trabalho.
Siriwardhana et al. (Sun,) estudaram esta questão.